天然产物 (NPs)是生物体产生的小分子,其高生物活性在药理学和其他行业中具有巨大的潜在应用。天然产物是指动物、植物提取物或昆虫、海洋生物和微生物体内的组成成分或其代谢产物以及人和动物体内许许多多内源性的化学成分统称,其与药物发现,化学生态学和分子生物学等领域紧密相关,一直以来备受科学界的关注。
多年来,各种主题的天然产物数据库不断增加。2020年,德国耶拿大学(University of Jena)Steinbeck课题组发表了综述"Review on natural products databases: where to find data in 2020",清点了过去20年发布的120多种天然产物数据库。其中,16%已不再在线,40%是商业的,剩下是开放的NP数据库,通常专门针对特定类型。
今天,我们主要为大家介绍通用型天然产物数据库——COCONUT!
COCONUT简介
COCONUT (COlleCtion of Open Natural ProdUcTs) 数据库是由德国耶拿大学(Friedrich-Schiller-Universität Jena)的Maria Sorokina 和 Christoph Steinbeck教授从53个不同数据库以及文献中合并整理得到。是一个开放的天然产物数据库,目前有60万+化合物数据,2020年版本便包含426,916个无立体化学结构的天然产物和746,626个有立体化学结构的天然产物。从植物提取物到深海海绵里的神奇成分都能查。其数据整合了文献、公共数据库和实验数据,支持化学结构检索、生物活性查询及多样性分析,广泛应用于药物发现、代谢组学和天然产物研究。
COCONUT数据库是免费的,面向所有用户开放,不需要登录即可使用。当前版本(2020年8月)包含426,916个无立体化学结构的天然产物和746,626个有立体化学结构的天然产物。其Web界面允许进行多种形式搜索(例如:分子名称,InChI,InChI key,SMILES,结构,分子式),以及分子属性、子结构和相似性等高级搜索,还能以不同格式下载整个数据库或搜索结果。还可以通过REST API (REpresentational State Transfer Application Programming Interface)查询数据库。如果您是做药物研发、代谢分析或者单纯想找天然产物结构,这个库能帮你省下大把查文献的时间。
官网地址:https://coconut.naturalproducts.net/
快速上手:从搜索到下载
1. 直接搜名字或结构
- 场景1:你知道化合物名
比如想查“姜黄素”(Curcumin),直接在首页搜索框输入名字,秒出结果。结果页会显示结构式、分子量、来源物种(比如姜黄)、文献引用等。
小技巧:如果名字太常见(比如某个生物碱),在左侧筛选栏加个“分子量范围”立刻缩小范围。
- 场景2:手头有分子式或结构
点击“Draw Structure”按钮,画个结构(或用SMILES码/SDF文件上传),数据库会匹配相似结构。比如画个“苯环+两个羟基”,能搜到所有黄酮类化合物。
避坑指南:结构画得太简单可能搜出几千条结果,记得右侧勾选“仅显示最佳匹配”提高效率。
2. 高级检索
在检索结果页,利用Advanced Search进一步缩小范围,可进行高级检索的性质有基本的理化性质(包括分子量、LogP、氢键供体/受体数量等)、化合物分类。
3. 数据下载与导出
搜到目标化合物后,勾选条目,点击“Download”可导出CSV或SDF文件。
进阶操作:
- 导出时勾选“Include 3D Structure”获取分子三维坐标,直接拖进PyMOL或AutoDock做分子对接。
- 批量下载超过1000条数据?用“API工具”(官网底部有文档链接),写个Python脚本自动抓取。https://coconut.naturalproducts.net/api-documentation
高级功能
1. 数据可靠性怎么判断?
- 每个化合物详情页的“References”会标注数据来源,优先选择标注了“Isolated”(已分离)或“Experimental NMR/MS”的数据,这类信息可靠性更高。
- 看到“Predicted”标签?可能是计算机模拟生成的结构,用前建议实验验证。
2. 关联工具推荐
- 和PubChem联用:在COCONUT搜到化合物后,复制InChIKey到PubChem查更详细的毒理/合成路径。
- 搭配ChemDraw:下载的SDF文件可直接导入ChemDraw调整结构,发文章用图一键搞定。
COCONUT 2.0
COCONUT 2.0 是2021年发布的重大升级版本,相较于旧版(COCONUT 1.0),主要改进包括:
- 数据规模翻倍:收录超过 60万条 天然产物记录(截至2025年4)。
- 数据质量提升:整合更多实验验证数据(如NMR、质谱数据),减少冗余条目。
新增功能模块:
- 生物合成途径预测(与AntiSMASH等工具联动)。
- 生物活性靶点预测(基于ChEMBL和BindingDB数据)。
- 化学空间可视化(通过PCA或t-SNE降维分析)。
- API增强:支持更复杂的查询和批量数据获取。
COCONUT的核心优势是免费+数据全,适合快速初筛化合物。但复杂分析(比如分子动力学模拟)仍需搭配专业工具。用好筛选器和导出功能,效率翻倍!
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。