摩熵化学
数据库官网
小程序
打开微信扫一扫
首页 分子通 化学资讯 化学百科 反应查询 关于我们
请输入关键词

重磅揭秘!xTrimoPGLM 如何破译生命密码,颠覆蛋白质研究

  • 蛋白质
  • xTrimoPGLM
  • 蛋白质语言模型
唯思派 17小时前

蛋白质是生命活动的基础,在生物体的支撑、生长和防御机制中发挥着至关重要的作用。它参与到几乎所有的生命过程中,包括代谢、免疫、传导、细胞分化和信号传递等,为许多基本生物过程提供结构支持,如合成酶、促进物质运输、调节基因表达以及增强免疫功能。因此,理解#蛋白质 序列中编码的生物信息对揭示生命运作的复杂机制以及推动医学和生物技术领域的发展至关重要。

蛋白质语言模型(Protein Language Models, PLMs)通过分析海量序列数据,已成为揭开这一生物学密码的核心工具。北京大学研究团队在2025年4月发表在《Nature Methods》上的论文《xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins》提出了首个统一的蛋白质语言模型xTrimoPGLM。

xTrimoPGLM提出首个千亿参数规模的统一蛋白质语言模型,通过创新性的双目标训练框架,实现理解与生成任务的协同优化。模型在18项蛋白质任务中刷新性能纪录,并衍生出高效结构预测工具xT-Fold,为蛋白质科学提供了全新的“基础设施”。

xTrimoPGLM:解析+生成蛋白

xTrimoPGLM 是一个统一的预训练框架和基础模型,旨在解决与蛋白质相关的任务,包括理解和生成。该模型由#百图生科 打造,7个不同参数量的模型均已发布在huggingface和github,供全球用户自由获取和使用。xTrimoPGLM作为全球首个千亿参数的蛋白质语言模型,性能超越了ESM-2、ProGen2等此前业界领先的蛋白质模型,并在药物分子设计和优化、抗体工程与疫苗开发、酶工程和生物催化剂设计等领域展现出广泛应用前景。

xTrimoPGLM 与之前的仅编码器(例如 ESM)或仅因果解码器(例如 ProGen)蛋白质语言模型不同,它利用通用语言模型(GLM)作为其双向注意力和自回归目标的骨干。开发者使用 96 * 8 个 Nvidia A100 GPU 以 1000 亿参数和 1 万亿标记的规模训练了 xTrimoPGLM。

通过融合自编码和自回归预训练目标,xTrimoPGLM实现了蛋白质理解与生成任务的双重突破。该模型以1000亿参数和1万亿训练标记的规模进行训练,展现出卓越性能:

(1)在18个蛋白质理解基准测试中全面超越现有基线,并支持原子分辨率结构预测,性能优于同类语言模型工具;

(2)既能生成符合自然规律的全新蛋白质序列,也可通过微调实现可编程生成。这一成果为蛋白质基础模型的发展提供了新的范式,显著提升了序列理解与生成的多功能性。

蛋白质理解

在蛋白质理解任务中,xTrimoPGLM-100B 在包括蛋白质结构、功能、相互作用和可开发性等领域的 15 项任务中表现出色。

需要强调的是,下表对比主要从任务的角度进行,而不是一个完全公平的对比,因为 xTrimoPGLM-100B 在取得这些结果时,采用了这个领域大模型之前都不太关注微调技术。这些结果的大部分来自对论文直接引用,并使用相同的数据划分策略,有一些没有 benchmark 的任务,研究团队使用了 ESM-15B + finetuning 的策略作为 benchmark, 实际上,在所有任务中,研究团队也使用过这种策略,发现 ESM2-15B/3B + finetuning 在不少任务可以直接达到 SOTA,但是,目前大部分的蛋白质大语言模型很少关注微调技术,更多的是把 PLMs 作为特征提取器使用。

蛋白质生成

在探索 xTrimoPGLM 生成自然功能序列的能力时,开发者生成了数千个序列并预测了其对应的三维折叠结构。发现模型能够生成重要的二级结构,包括 α 螺旋和 β 折叠,这些是更复杂的三级结构的基础。此外,模型生成的序列与天然序列的相似度非常低,为未来的药物合成提供了更多选择。

对于单链结构预测任务,研究团队对比了 Alphafold2 以及四个基于 PLM 的模型:OmegaFold、ESMFold、IgFold 和 xTrimoAbFold。

结果如表所示,xTrimoPGLM-AbFold 在所有抗体结构预测相关的指标上都显著优于其他模型,进一步说明,在预训练模型对数据分布拟合的足够好时,只需微调一个额外的 Evoformer 模块以及不依赖 MSA 和模板的情况下,就能成为领先的抗体结构预测模型。

对于 VH-VL 复杂结构的预测,研究团队比较了 ZDock、ClusPro、EquiDock、HDOCK 以及 AlphaFold-Multimer。

上表也展示了不同模型在 VH-VL 复合物性能上的表现。AlphaFold-Multimer 使用了 MSA 和模板信息,效果优于大多数结构预测算法。而 xTrimoPGLM-AbFold 不使用任何 MSA 或模板信息,与 AlphaFold-Multimer 的表现相当,这说明 xTrimoPGLM-Ab-1B 已经学习了足够丰富的抗体信息。更重要的是,其推理速度比 AlphaFold-Multimer 快了 6300 倍,而且比使用了 MSA 加速搜索策略的 AlphaFold-Multimer 快了 103 倍。

训练数据集

为了尽可能全面地描述整个蛋白质世界的图景,xTrimoPGLM 的预训练模型的训练数据集整合了两个广泛的数据源:Uniref90 和 ColabFoldDB。Uniref90 提供了大约 1.53 亿个序列,源自 UniProt 的聚类,被广泛认为是高质量的蛋白质数据集,被 ESM 和 ProtTrans 等模型使用。它涵盖了四个生物域(古菌、细菌、真核生物和病毒)的条目,涵盖了 17 个界和 273 个门,展示了 Uniref90 数据集中丰富的生物多样性。

与现有的预训练模型相比,xTrimoPGLM-100B 引入了大量的宏基因组数据。例如,ColabFoldDB 是通过合并包括 BFD、MGnify、SMAG(真核生物)、MetaEuk(真核生物)、TOPAZ(真核生物)、MGV(DNA 病毒)、GPD(噬菌体)和 MetaClust 数据集更新版本在内的各种宏基因组数据库建立的。该数据库包含来自不同环境生态位的大量蛋白质序列,从人类肠道到海洋生态系统。

通过结合这两个数据源,预训练模型数据集有效地利用了两者的优势——广泛的生物分类覆盖范围和多样的环境生态位蛋白质序列——全面绘制了生物界的蛋白质资源。

硬件需求

目前全参数版本(100B)只开源int4版本,100B的部署推理需要差不多60GB的显存,其他量化版本基本一台3090就够了

搭建应用

1. 蛋白质理解解析:

  • 结构分析:Contact Map(接触图谱)、Fold Classification(折叠分类)、Secondary Structure(二级结构);
  • 功能预测:Antibiotic Resistance(抗生素抗性)、Fluorescence Fitness(荧光适应性)、Localization(亚细胞定位)、Enzyme catalytic efficiency(酶催化效率)、Metal ion Binding(金属离子结合能力)、TCR-pMHC Affinity(T细胞受体与抗原结合亲和力);
  • 开发性评估:Solubility(溶解度)、Stability(稳定性)、Temperature/PH适应性——决定蛋白质是否适合实际应用(如药物开发)、Clone CLF(克隆成功率)、Material Production(量产能力);

基本覆盖了蛋白质三维结构分析、预测在生物体内的具体功能、与其他分子互作及物化性质等蛋白质解析功能,较为全面,并且可以做微调,官方平台也能提供该功能,能根据具体蛋白进行优化。

2. 蛋白质生成预测:

普通蛋白生成、抗体药物设计等都能做,结果细节还是具有局限性,但比起Alphafold那些模型需要的硬件条件要低很多、推理速度也快很多。

通过探索具有极大规模PLM的统一理解和生成预训练,xTrimoPGLM开创了蛋白质大模型的新时代。经过持续的技术迭代与优化,xTrimoPGLM在模型规模与性能指标上均已达到国际领先水平,确立了其在生物计算领域的标杆地位。

毫无疑问,xTrimoPGLM为学术界和产业界提供了强大动力,我们有理由相信,xTrimoPGLM必将推动AI在生命科学的广泛应用,加速全球研究进程。

【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。

<END>