我们研究基因,最终都是要归结到它表达的蛋白上,蛋白包含的信息更是纷繁复杂,它的序列、结构、功能及相关研究又如何去获得,今天我们就来认识一下强大的#蛋白数据库 -Uniprot。
UniProt简介
Universal Protein Resource (UniProt) 是蛋白质序列和注释数据的综合资源数据库,整合了包括EBI(欧洲生物信息研究所),SIB(瑞士生物信息研究所),PIR(蛋白信息资源)等资源。整理出来的国际权威蛋白质数据库,包括以下三个:
- UniProtKB(知识库):分为 Swiss-Prot(人工审核注释) 和 TrEMBL(机器自动注释)。
- UniRef(参考聚类):去除冗余序列的蛋白质聚类。
- UniParc(归档库):存储所有公开蛋白质序列的存档。
官网地址:https://www.uniprot.org/
它的数据主要来自于基因组测序项目完成后续获得的蛋白质序列。数据库包含了大量来自文献的蛋白质的生物功能的信息。其中UniProtKB(UniProt Knowledgebase)是UniProt数据库的核心部分之一,旨在为生物研究提供全面、高质量且免费的蛋白质序列和功能信息。除蛋白质序列数据外,还包括大量注释信息。UniProtKB知识库分Swiss-Prot和TrEMBL两个子库。
UniParc归档库将存放于不同数据库中的同一个蛋白质归并到一个记录中以避免冗余,并赋予序列唯一性特定标识符。UniRef参考序列集按相似性程度将UniProtKB和UniParc中的序列分为UniRef100、UniRef90和UniRef50三个数据集。Proteomes蛋白组是2011年新增加的数据库,主要是收集已经完成全基因组测序物种的核酸序列翻译所得的蛋白质序列。UniProt数据库数据库能够给出靶点更加详细的信息。
此外,UniProt数据库还包括文献引用(Literature Citations)、物种分类学来源(Taxonomy)、亚细胞定位(Subcellular Locations)、数据库交叉链接(Cross-reference Databases)、相关疾病(Diseases)和关键词(Keywords)等辅助数据。 这几部分内容在网站主页都有具体模块体现。
数据检索
基本搜索
首先进入官网的搜索框中可以直接输入检索内容:如蛋白质名称(如 Insulin)、基因名(如 TP53)、物种(如 Human)、UniProt ID(如 P04637)等。
示例:搜索人类胰岛素 → 输入 insulin human
点击搜索结果如下:共检索到7143条与人类胰岛素相关的蛋白(其中人工校对的有1789条)
点击‘P01308’即可查看该蛋白的详细信息。
高级搜索
通过使用字段限定符缩小范围,使检索的结果更准确,如:检索经过人工校对的人类TP53基因相关的蛋白
首先点击‘Advanced’,然后选择精确的检索条目,最后点击‘search’即可
结果如下:
如果结果条目很多的话,还可以通过左侧的‘筛选器’(按物种、注释质量、功能等)过滤。
相关条目解读
以 P04637(人类p53蛋白)为例,关键字段包括:
Entry Name & Accession:唯一标识符(如 P53_HUMAN)。
Protein & Gene Names:蛋白质和基因标准名称。
Function:功能描述(如转录调控、抗癌作用)。
Subcellular Location:亚细胞定位(如细胞核)。
PTM/Modifications:翻译后修饰(如磷酸化位点)。
Interactions:与其他分子的相互作用(如ABL1)。
Pathology & Variants:疾病关联(如癌症突变位点)。
Family & Domains:氨基酸序列及特征(如结构域、修饰位点)。
实用工具与资源
序列比对
BLAST:通过“BLAST”菜单比对用户序列与UniProt数据库。可以通过输入uniprot访问号直接获取蛋白序列或者手动输入蛋白序列。
输入序列后可以选择比对的数据库。点击‘Run BLAST’后,等待分析结果。
Align:Clustal Omega多序列比对工具,分析进化关系。输入序列和BLAST比对类似,唯一不同是需要两条以上的序列才可以。
此处我用两条序列进行比对,比对结果如下:
ID映射
ID Mapping:将不同数据库ID(如GenBank、PDB、UniProt ID)进行转换。比如将uniprot ID 转换成PDB的id。
结果如下:
肽段搜索
Peptide Search:快速通过肽段序列匹配目标蛋白质。
序列长度:每条肽段至少7个氨基酸(更短的肽段需使用本地工具)。
数量限制:单次最多提交100条序列(超过需使用本地工具)。
结果如下:
结果导出:支持FASTA、TXT、XML、RDF等。推荐TSV格式便于数据分析。
自定义列:在结果页选择需要导出的字段(如序列、功能注释)。
SPARQL
UniProt的SPARQL工具主要用于通过结构化查询语言(SPARQL)访问其庞大的蛋白质数据网络,支持用户从语义网角度灵活检索和分析蛋白质的复杂关系。
本文篇幅有限,介绍的内容可能仅仅是Uniprot的冰山一角,它的强大可见一斑,想要完全掌握这个数据库,是需要好好下工夫的。这个数据库是科研过程中必不可少的数据库资源之一,希望此文能够帮助更多的科研人。
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。