在生信的学习中,大家都会听说过KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少的一环。
这种分析方法依托的是由 Kanehisa实验室 在1995年开发的KEGG数据库,全称为 Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书),是分子水平功能注释最常用的公共数据库之一。
数据库链接:https://www.kegg.jp/
KEGG包含多个子数据库,有代谢通路、基因信息、化合物、酶、药物等等,以及最经常使用的Pathway通路信息 (分析一般需要借助其他工具,如DAVID、KOBAS等)可与其他大型数据库链接,可同时检索相关的基因组信息数据,如NCBI、ENSEMBL等。它把基因组、化学和系统功能信息整合到一张“通路图”里,方便研究者快速定位基因或代谢物在生物学过程中的作用。
本文将重点介绍下KEGG数据库的访问与查询功能。
一、KEGG 数据库核心模块解析
KEGG作为生物信息学领域的核心工具,整合了基因组、化学和系统功能信息,其数据体系可分为四大层级:
1. 通路数据库(PATHWAY)
参考通路图(Map 开头):覆盖代谢、遗传信息处理等 7 大领域,以图形化方式展示分子互作网络。例如,map00010 糖酵解通路图中,方框代表酶(如己糖激酶 K00844),圆圈代表代谢物(如 C00668 葡萄糖),箭头表示反应方向。
物种特异性通路(物种缩写开头):如 sce00010(酿酒酵母糖酵解通路),绿色方框标注该物种特有的基因或酶,点击可查看详细注释。
2. 同源基因数据库(ORTHOLOGY)
KO 系统:将不同物种中功能相似的基因归为同一 KO 组(如 K04257 嗅觉受体基因),支持跨物种功能比较。例如,人类己糖激酶基因 3101、3098、3099 均属于 K00844。
检索技巧:在 KEGG 首页搜索框输入 “ko: 基因名” 或直接访问http://www.genome.jp/kegg/ko.html,可快速定位目标 KO 及其关联通路。
3. 化合物与反应数据库
COMPOUND:收录小分子化合物信息,输入 C 编号(如 C00078)或分子式(C11H12N2O2)可查询结构、分子量及参与的代谢反应。
REACTION:存储酶促反应方程式,支持通过 EC 编号(如 5.4.2.2)或酶名称检索。
4. 层级分类数据库(BRITE)
功能分类体系:以树状结构组织数据,例如药物分类 br08340 将化合物按治疗领域细分,支持批量下载 htext 或 json 格式文件。
交叉引用:通过 LinkDB 工具(http://www.genome.jp/linkdb/)可查看各数据库间的关联关系,如某个通路的基因来源。
二、数据检索与获取实战
1. 关键词搜索
全局检索:在 KEGG 首页搜索框输入 “氮代谢”,可同时检索到 pathway(map00910)、module(M00001)、KO(K00103)等相关条目。
高级筛选:点击搜索结果页的 “Filter” 按钮,可限定检索类型(如仅显示 Pathway),或按物种、疾病分类过滤。
2. 精准定位方法
ID 检索:直接输入通路编号(如 map01230 氨基酸合成通路)、基因 ID(hsa:101954268)或化合物 C 编号,快速跳转至目标页面。
物种筛选:在 PATHWAY 检索页的 “Organism” 下拉菜单中选择物种(如 hsa 代表人类),可查看该物种特有的通路注释。
3. 数据导出与格式转换
图形下载:在通路图页面点击 “Download” 按钮,可获取 png、svg 或 kcf 格式文件,支持后续编辑。
批量获取:通过 API 接口(http://rest.kegg.jp/)可批量下载数据,例如使用 “list/pathway/hsa” 命令获取人类所有通路列表。
三、典型应用场景示例
案例:分析肿瘤相关代谢通路
1. 确定研究方向:假设关注肝癌糖代谢异常,在 KEGG 首页搜索 “肝癌”(H00014),进入 DISEASE 数据库查看相关通路。
2. 检索关联通路:点击 “Disease pathway” 链接,发现 hsa04110 细胞周期通路和 hsa00010 糖酵解通路显著富集。
3. 挖掘关键基因:在 hsa00010 通路图中,点击绿色方框(如 K00844 己糖激酶),查看其在人类中的基因成员(如 HK1、HK2)。
4. 数据整合:通过 LinkDB 工具关联 NCBI Gene 数据库,获取基因序列和表达数据,为后续实验设计提供依据。
四、注意事项与资源拓展
1. 数据更新:KEGG 每月新增约 80 个基因组数据,建议定期访问官网(https://www.kegg.jp/)查看更新日志。
2. 访问权限:基础检索和数据浏览免费,高级分析工具(如 BlastKOALA)需注册账号,部分 API 服务仅限学术用途。
3. 学习资源:
官方文档:http://www.genome.jp/kegg/document/help_bget_module.html
实战教程:CSDN 博客《KEGG 数据库的使用方法与介绍》提供图文并茂的操作指南。
下次我们将深入探讨 KEGG 的数据分析功能,教你如何利用这些数据进行通路富集分析和可视化,敬请期待!
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。