想必各位生物学家们已经用惯了欧美的基因数据库,那今天小编就为大家介绍一个由我国中科院打造的国产基因数据库!
2024年2月28日,美国总统拜登正式签署了《关于防止关注国家获取美国公民大量敏感个人数据和美国政府相关数据的行政命令》,限制中国、俄罗斯、伊朗等六个“关注国家”访问和利用包括基因组数据、生物识别数据等“敏感数据”。
因此,为应对NCBI的“卡脖子”,构建和发展中国人自己的生物基因数据库已经迫在眉睫。我国已成立了国家基因组科学数据中心(https://ngdc.cncb.ac.cn/)数据库,包括原始测序数据归档库GSA、基因组归档数据库GWH、基因组变异数据库GVM、非编码RNA等。
一、数据库建立
根据科技部、财政部2019年6月联合发布的通知,国家基因组科学数据中心正式启动建设,其依托单位为中国科学院北京基因组研究所,同时联合了生物物理研究所及上海营养与健康研究所共同参与。
该中心的建设旨在应对我国基因组学领域在数据存储、管理、应用方面的实际需求,并着力解决“数据孤岛”与“数据主权”等核心挑战。中心聚焦人、动物、植物和微生物等基因数据资源,核心任务包括构建国家级数据库体系、持续扩充数据资源规模、提供专业数据服务、保障系统稳定运行、推进关键技术创新及深化数据挖掘应用。
目标是建成国际领先的基因组科学数据平台,推动科学数据开放共享,确保数据安全可控,有力支撑国家科技创新体系与经济社会发展战略。
目前,中心配备了一支90余人的专业团队,拥有超过5000个CPU计算核心及总量逾8PB的数据存储能力,并已研发部署多个多组学数据库系统。
二、数据库工作
中心的工作重点集中于三个核心方向:
1. 构建中国人群精准医学信息库: 聚焦普惠健康目标,整合中国人群精准医学相关组学数据资源,系统构建其基因组遗传变异图谱。
2. 打造国家级原始组学数据共享平台: 基于高通量测序产生的超大规模原始数据,建设符合国际规范的组学数据归档库,促进国内原始数据的开放共享。
3. 建立综合性多组学数据库体系: 围绕国家关键战略生物资源,整合海量组学数据,发展数据挖掘与应用技术,形成支持科研与转化的综合体系。
国家基因组科学数据中心(NGDC)建成了涵盖九大类别、共计112项的数据资源体系,包括原始测序数据、基因组与变异信息、基因表达谱、非编码RNA、表观基因组图谱、单细胞组学数据、生物多样性与生物合成、健康与疾病关联数据以及文献与教育资源。其核心平台——基因组序列归档库(GSA),作为生命科学组学数据的汇交、存储与共享中枢,已获得国际权威认可,并于2023年入选“全球核心生物数据资源”(Global Core Biodata Resources, GCBR),成为我国目前唯一入选的生物数据库。
NGDC整合的多元数据资源广泛覆盖基因组学、转录组学、表观遗传学、单细胞研究、人类健康与疾病机制解析、动植物资源多样性等多个前沿领域。这些高度集成的数据库群为全球科研界提供了关键数据支撑,显著促进了基础研究成果向实际应用的深度转化。
依托强大的多组学数据整合能力,NGDC有效驱动了个性化医疗实践、疾病机理探索、农作物遗传改良以及动物健康管理等领域的突破性进展,同时在药物靶点发现、重大疾病防控及精准诊疗策略开发中奠定了坚实的数据基础。尤其在人类健康研究、疾病相关基因组变异解析、肿瘤学研究以及衰老与长寿机制探索等领域,NGDC提供的资源与服务有力加速了科研成果的临床转化与产业应用。
此外,NGDC提供的开放数据访问接口与先进可视化工具,显著增强了跨学科、跨机构间的协作效率与交流深度,已成为支撑全球生命科学创新研究与技术发展的重要基础设施。
三、数据内容与数据上传
NGDC包含以下类型的数据内容:
基因组数据:涵盖各种生物(包括植物、动物、微生物等)的基因组序列数据,这些数据对于理解生物的遗传多样性和进化历史至关重要。
转录组数据:提供RNA测序数据,这些数据有助于研究基因表达模式、转录调控网络以及在不同条件下的基因活性变化。
蛋白质组数据:包括蛋白质的结构、功能和相互作用信息,对于理解生物分子机制和开发新药物具有重要意义。
代谢组数据:涉及生物体内的代谢途径和代谢产物,对于研究生物的生理功能和代谢疾病有重要作用。
表观遗传数据:包括基因变异和表型数据,这些数据对于理解遗传疾病、育种和进化适应具有重要作用。
环境数据:涉及生物与其环境相互作用的数据,如环境压力响应、生态位点分布等。
NGDC接受以下类型的数据上传:
原始测序数据:包括但不限于Illumina、PacBio等平台生成的原始测序数据,这些数据可以是基因组、转录组或蛋白质组数据。
分析结果:用户可以上传自己分析得到的结果,如差异表达基因列表、聚类结果、功能注释等。
元数据:如样本信息、实验设计、测序参数等,这些数据有助于其他研究者理解数据的来源和背景。
出版物相关数据:与已发表或即将发表的研究相关的数据,这些数据可以增加研究的透明度和可重复性。
第三方数据:其他数据库或研究团队共享的数据,这些数据可以丰富NGDC的数据资源。
此篇文章只是简单介绍NGDC的基本情况,关于该数据库的使用方法及功能我们会持续介绍,敬请期待!
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。