关注生信的小伙伴应该常见到通过构建蛋白质相互作用(PPI网络)来筛选hub基因。蛋白质互作网络(Protein-Protein Interaction Networks,PPI)是由蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节
目前一般都采用STRING数据库来研究蛋白互作网络,那么下面来介绍一下这个数据库的基本使用方法。
STRING数据库简介
STRING数据库(https://cn.string-db.org/)是一个专注于蛋白质相互作用(PPI)分析的综合性平台,支持多物种的蛋白互作网络构建与可视化,是研究蛋白质功能和互作的重要工具。
该数据库整合了多种数据来源,包括实验室实验、文献报道和计算预测,以提供全面的相互作用网络。STRING数据库还提供了许多工具和功能,例如基因和蛋白质注释、功能分析和网络可视化等,以帮助研究人员更好地理解基因和蛋白质之间的相互作用。
目前数据库已收录12535个物种,5930万个蛋白,超过2000万种蛋白质之间的相互作用连接。
互作关系来源
STRING数据库的蛋白互作关系来源有7种:
(1)文本挖掘(Textmining)
从海量文献中提取基因名称共提及的情况,当两个基因频繁在一篇文献中出现时,则有可能暗示它们编码的蛋白存在相互作用。
(2)实验(Experiments)
来源于各种实验检测到的蛋白质相互作用。例如酵母双杂交、免疫共沉淀、DAP和ChIP等高通量检测蛋白互作。常见的数据库有BIND, DIP, GRID, HPRD, IntAct, MINT, PID。
(3)数据库(Databases)
整合了多个已有的权威数据库中的蛋白互作信息,如Biocarta, BioCyc, GO, KEGG, Reactome。
(4)共表达(Co-expression)
利用RNA-seq、scRNA-seq、ST等技术,检测不同条件下基因的表达水平。如果两个基因的表达模式相似,那它们编码的蛋白可能存在互作关系。
(5)邻域(Neighborhood)
通过对基因组的分析,观察不同物种中基因在染色体上的位置关系。如果两个基因在多个物种的基因组中始终相邻,或者处于保守的基因组区域,那么它们编码的蛋白质可能存在功能上的联系,从而推断存在相互作用。
(6)基因融合(Gene Fusion)
研究不同物种的基因组时,发现某些基因在进化过程中发生融合现象,原本独立的两个或多个基因融合成一个新基因。这暗示这些基因在功能上紧密相关,即使在其他物种中它们没有发生融合,其编码的蛋白质也可能存在相互作用。
(7)共现(Co-occurrence)
对多个物种的基因组进行比较,统计不同基因在各个物种中的出现情况。如果两个基因在多个物种中经常同时出现或同时缺失,说明它们可能受到共同的进化选择压力,其编码的蛋白质可能存在功能上的关联,从而推断存在相互作用。
如何使用STRING数据库
STRING数据库的检索方式有8种,在空间转录组数据分析中,使用最频繁的可能有3种方式:检索单一蛋白(Protein by name)、检索多个蛋白(Multiple proteins)、检索带有附加值(如差异倍数、显著性p值、表达丰度等)的蛋白列表(Proteins with Values/Ranks)。
1. 数据库访问
用户可以通过STRING数据库的官方网站(https://string-db.org/)访问该数据库,点击'SEARCH'即可跳转搜索界面。
2.页面介绍
STRING数据库的网页十分简洁,可以看到主要会使用的功能有Protein by name、Multiple protein、Proteins by sequences;其中以最为常用的Multiple protein举例;在右侧分别输入基因/蛋白质名称(也可以file形式提供),以及选定物种后便可进行Search运行。(注:物种名为拉丁文名)。
3. 数据库检索
左侧有不同的搜索选项,可以按单个蛋白名称、多个蛋白名称、单个蛋白序列、蛋白的FC/logp/丰度值进行富集分析、蛋白的直系同源、GO/KEGG/疾病等关键词、某一物种的蛋白组生成互作网络并预测蛋白功能、物种进行检索。
根据界面提示输入相应关键词检索,若对输入内容有疑问可点击搜索框右上角的“examples: #1 #2 #3”查看示例。
例如:
● 选择单个蛋白搜索,结果会显示与该蛋白相互作用的所有蛋白构成的网络,适用于针对某个特定蛋白的相互作用的研究。
● 选择多个蛋白搜索,结果会显示输入的蛋白之间的相互作用网络,适用于研究输入的蛋白之间的相互作用。
4. 场景示例
此处以“ human TP53”为例说明网站使用方法。
首先在搜索界面中选择Protein by name,输入名称TP53,物种选择Homo sapiens(人),点击“SEARCH”,出现45个符合搜索条件的选项,可根据蛋白的详细信息选择目的蛋白。
我选第一个目的蛋白,选中后点击页面中的“CONTINUE”,跳转详情界面,结果页面包含八个模块的内容,默认显示Legend模块结果。
页面最上方的网络图中,每个圆(node)形代表一个蛋白(不同颜色的node有不同的含义),可选中某个蛋白进行拖拽,点击可查看蛋白详细信息。不同颜色的连线(edge)的意义也不同(分为三大类已知、预测和其它)。
我们也可以调整图形参数得到更符合需求的图例,点击Settings可以调整如网络图类型等参数。
也可以通过Analysis进行一些简单的网络分析,得到蛋白参与的功能描述。
5.结果输出
在调整完需求之后,我们就需要进行网络图的输出,点击Exports,可以看到非常多的输出模式,包括位图、矢量图、互作关系表、互作关系描述等等,可以满足文章发表的基本要求。
STRING模块介绍
其他几个模块的功能如下:
Viewers模块:提供不同的结果展现方式。包含互作网络图、融合基因、实验结果、基因共现、关联数据库、基因共表达、文献数据和相邻基因。
Settings模块:选择不同的内容设置互作网络图的展示方式。包含网络图类型、网络图中的连线、蛋白互作数据来源、蛋白互作置信度选择、互作关系的最大数量设定、网络图展示形式和网络图展示选项。
Analysis模块:对蛋白质互作网络(PPI)的结果进行整体的总结和分析,包括GO分析、KEGG通路、关联疾病、亚细胞定位和参考文献等信息。
每栏均信息包括以下四项内容:
● Count in network:以x of y的形式呈现。第一个数字表示目前展示的互作网络中有多少蛋白质用某个特定的术语注释。第二个数字表示整个互作网络图中共有多少蛋白质用该术语注释。可以通过点击这些数字来查看详细的互作网络图。
● Strength:Log10(observed/expected),表示富集效应的大小。observed:页面展示的互作网络中被某个术语注释的蛋白质的数量;expected:在相同大小的随机互作网络中预期被该术语注释的蛋白质的数量。
● Signal:是观察值/预期值 与 -log(FDR) 的加权调和平均数。其设计目的是平衡以下两个指标的权重:FDR(错误发现率):倾向于突显大规模术语(因其更容易获得低p值);观察值/预期值:倾向于突显小规模术语(其前景/背景比例高,但因样本量小难以获得显著FDR)。通过调和两者的矛盾,信号值能更直观地对富集术语进行排序。
● False discovery rate:错误发现率,描述富集显著性的一个指标,是Benjamini-Hochberg程序在每个类别中进行多次测试后校正的p值。
Exports模块:系统提供不同的下载格式,例如高分辨率的PNG格式、可线下编辑的SVG格式,还提供了适用于Cytoscape软件的TSV格式等其他类型的格式。点击download即可。
Clusters模块:可选择不同的聚类算法和参数,对蛋白互作网络进行聚类分析。
More模块:查看更多的蛋白互作信息。
Less模块:展示更少的蛋白互作信息。
STRING数据库是研究蛋白质功能与调控网络的强效工具,尤其适用于疾病标志物筛选、多组学数据整合等场景。通过灵活的参数设置和下游工具联动,用户可高效完成从原始数据到可视化网络的完整分析流程。具体操作可参考官方教程或结合视频资源学习。
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。