摩熵化学
数据库官网
小程序
打开微信扫一扫
首页 分子通 化学资讯 化学百科 反应查询 关于我们
请输入关键词

一文解锁,世界上首个AI驱动的植物基因组数据库——DeepPGDB!

  • DeepPGDB
  • 植物基因组数据库
  • 华南农业大学
  • 王少奎教授
唯思派 10/27

一、DeepPGDB介绍

在过去十余年间,组学技术呈爆发式增长态势。在植物科学领域,已有逾1000个物种完成染色体级别高质量基因组解析,水稻、拟南芥等模式植物更是率先迈入群体基因组时代。然而,海量数据背后,众多具有生物学背景的研究者却面临分析困境。

传统研究方法要求研究者精通生物信息学工具、命令行操作以及复杂的数据处理流程,这成为跨领域研究的重大障碍。随着生成式大语言模型取得突破性进展,科研范式正在发生根本性变革。ChatGPT、DeepSeek等生成式大型语言模型的快速发展为数据处理提供了强大支持。

在此基础上,人工智能驱动型智能代理的出现进一步激发了将这些模型应用于实际场景的兴趣。目前,AI方法已成功应用于大规模癌症功能蛋白质组学分析以及设计具有特定生物功能的基因组序列。正是这些进展启发了将大型语言模型作为基因组数据库核心引擎的构想:用户通过直观的自然语言查询即可访问数据库中的知识。

2025年9月8日,华南农业大学农学院王少奎教授与广东省农业科学院水稻研究所胡海飞副研究员联合在Plant Communications期刊上发表研究论文《DeepPGDB: A Novel Paradigm for AI-Guided Interactive Plant Genomic Database》。该论文介绍了全球首个由人工智能驱动的植物基因组数据库——DeepPGDB的成功构建。

数据库DeepPGDB网址:https://www.deeppgdb.chat/

数据库首页如下图,该设计使系统能够根据文件记录选择适当工具直接检索数据,更贴近研究人员的实际工作流程。用户无需掌握复杂生物信息学工具或命令行操作,仅需用日常语言提问,系统即可自动识别意图、调度工具、执行分析,并以结构化对话形式返回结果。

二、DeepPGDB数据库功能介绍

2.1 技术架构

DeepPGDB通过整合模型微调、提示工程和检索增强生成(RAG)技术,将生物信息学工具紧密集成至系统中,赋能其AI调度器精准解析用户意图并将其转化为标准化的工具调用指令。 AI模型首先根据任务类型及数据类型(如组学数据或文本知识查询),将用户输入区分为工具调用任务或文本知识检索任务。

对于工具调用任务,系统使用一个经过微调的专用推理模型处理用户意图(如查询基因功能、表达谱或基因组序列)以识别所需的数据类型。随后,该模型会遵循预设的思维链(chain-of-thought)和提示,生成标准化的后端工具调用指令。 这些指令被发送至后端服务器后,将调用相应的生物信息学工具(如 BLAST、PLINK)或数据库查询语言(SQL)来检索并分析数据。最终,分析结果返回至前端(图2 上半部分流程),并以表格、图表等多种形式呈现给用户。

对于文本知识查询任务(如查询基因组版本、参考文献等),系统采用基于基础模型的检索增强生成(Retrieval-Augmented Generation, RAG)技术,其能够从相关背景文档中检索准确信息(图2 下半部分流程)并生成流畅的自然语言回答,此融合多技术的组合方法作为专为基因组学数据设计的简化模型上下文协议服务器运行,从而实现了复杂生物信息学分析的低门槛交互。

2.2 序列分析

平台完整集成了经典的BLAST工具。用户只需在对话框中输入核酸或蛋白质序列,并指定目标物种,AI模型即可自动识别序列类型,生成并执行后端BLAST指令,最终以对话形式返回比对结果。

2.3 基因组数据检索

请注意,只能下载全基因组或一定时间间隔,可直接在对话框输入检索指令,结果以文件或者对话框的形式返回,可直接下载到本地查看。

基因组位置查询与基于功能类别的基因列表检索对推进基因组及其功能研究至关重要。DeepPGDB整合了植物基因组的结构和功能注释,允许用户通过AI调度器处理自然语言查询以检索相关信息:调度器解析用户意图并生成标准化命令,在后端执行后,将结果以结构化表格形式于前端展示。

检索示例:

检索结果:

2.4 基因信息搜索

注:严格搜索会使结果更加保守

检索示例:

检索结果:

2.5 表达分析

DeepPGDB不仅提供基本查询与表格输出,还集成了由ECharts驱动的交互式统计可视化工具,使用户能够借助动态图表直观探索数据。 例如,整合的基因表达谱数据允许用户通过自然语言指令,可视化特定数据集中不同组间的差异表达模式。类似的工作流程也可应用于基于物种特异性基因列表的富集分析。 此外,DeepPGDB通过整合多物种群体基因组变异数据支持群体遗传学研究:用户请求发出后,AI解析查询、调用PLINK工具从预加载的群体数据集中检索结果,并最终在前端以结构化表格形式呈现输出。

检索示例:

检索结果:

富集分析:

2.6 变异分析

平台还整合了多种植物的群体基因组变异数据。用户可以请求AI调用PLINK等工具,对预加载的群体数据集进行分析,并将结果以结构化表格的形式呈现。

检索示例:

检索结果:

2.7 单倍型分析

检索示例:

检索结果:

2.8 基因序列提取

检索示例:

检索结果:

2.9 基因启动子序列提取

检索示例:

检索结果:

2.10 每个物种的命名约定和数据范围

目前已整合20+高质量植物基因组,覆盖水稻、拟南芥等主流模式物种。

2.11 文件命名约定

所有基因组文件都遵循基于拉丁二项式名称的严格命名模式:

基因组文件:(例如,拟南芥.thaliana.genome)Latin_binomial.genome

注释文件:Latin_binomial.genome.ann

表达式文件:Latin_binomial.exp.csv

基因文件:Latin_binomial.genome.gene

GTF 文件:Latin_binomial.genome.gtf

2.12 模型配置

研究团队为在性能和效率间取得最佳平衡,对多个候选AI模型进行了基准测试。结果表明,140亿参数的推理模型(Deepseek-r1:14b)在处理长文本提示(Long Pre-prompt)时,能在各种任务中达到约90%的准确率,且其响应速度优于参数更大的模型。为进一步提升交互体验,团队对该模型进行了微调,使其在短文本提示(Short Pre-prompt)下也能保持高准确率,同时显著减少了计算资源消耗并提高了响应速度,这使其更加适合部署在DeepPGDB中。

三、结语

DeepPGDB的核心技术亮点包括:

  • 智能任务调度引擎能自动解析用户自然语言请求,精准匹配基因组检索、BLAST比对、基因定位、家族分析等任务,并在后台生成标准化指令完成运算;
  • 多注释体系兼容功能可智能识别不同基因命名体系(如ID、Symbol等),有效解决跨数据库标识混乱难题;
  • 动态可视化支持通过集成ECharts图表引擎,实现基因表达谱、富集分析等交互式图形的一键生成;
  • 其群体遗传学模块利用内置PLINK工具,支持对群体变异数据的直接分析;知识推理功能经升级新增“summarize”模块,能进行多步生物学推演(如解析水稻亚种单倍型分化、预测蛋白理化性质等),推动从“查数据”到“挖知识”的跃迁;
  • 此外,系统高效轻量部署经多轮优化,选用14B参数模型在保障高准确率的同时兼顾响应速度与低成本,并通过特别设计的微调策略在长短提示词场景下均表现优异。

DeepPGDB的推出标志着植物基因组学的变革性进步,促进了计算生物学、基因组学与农学的跨学科合作。 该系统通过整合高质量基因组与多组学数据、先进的AI驱动调度、标准化命令生成及交互式可视化工具,赋能不同背景的研究者高效访问并解读复杂生物数据。 DeepPGDB不仅支持精确的基因定位、功能注释和群体遗传学研究,还通过其总结模块增强了生物学见解的提取能力。 尽管DeepPGDB已展现出巨大潜力,但仍有提升空间。

未来,团队计划根据用户反馈系统性地收录更多高质量植物基因组数据,提升数据库的全面性与时效性;此外,更将致力于全面整合模型上下文协议(MCP)架构,以扩展其对多组学数据(如转录组、蛋白质组、代谢组)的整合能力,并进一步增强系统从复杂数据中提取生物学意义的智能分析水平。DeepPGDB有望在农业科学、物种保护和生物技术等领域成为突破性发现的基石,引领植物科学迈入全新的数据驱动发现时代。

【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。

<END>