摩熵化学
数据库官网
小程序
打开微信扫一扫
首页 分子通 化学资讯 化学百科 反应查询 关于我们
请输入关键词

揭秘PatCID数据库: 专利中化合物小分子自动提取!

  • 化学结构式
  • PatCID
  • 专利分析
  • 小分子化合物
唯思派 09/27

自动分析专利文献能帮助加快药物研发、材料科学等多个领域的研究。在专利文件中,关键信息常常藏在展示分子结构的图里。PatCID( (Patent-extracted Chemicalstructure Images database for Discovery ,专利提取化学结构图像发现数据库)数据库让科学家们能大规模获取这类信息。有了它,用户能查清楚哪个分子出现在哪份专利里。

PatCID数据库包含8100万张化学结构示意图,对应1400万个独特的化学结构。如果把它和当前顶尖的化学专利数据库做对比:在一组随机样本中,PatCID能识别出56.0%的分子,这个比例高于自动建立的数据库——谷歌专利(41.5%)和SureChEMBL(23.5%),也高于人工建立的数据库——Reaxys(53.5%)和SciFinder(49.5%)。

PatCID 利用了最先进的文档理解方法,其高质量数据超越了现有的自动生成专利数据库,甚至可以与商业化的、手动创建的专利数据库相媲美。为自动文献综述和基于学习的分子生成方法提供了有希望的应用。

PatCID 特点

PatCID数据库系统整合了美国、欧洲、日本、韩国及中国五大专利局发布的授权专利文本,所收录的有机化学结构式专利文献覆盖率超过全球总量的90%。截至最新统计数据,该平台已完成8070.42万幅分子结构图像的数字化收录工作,经拓扑结构校验后确认对应1380.65万个非重复性化学实体。

相较于现有公共专利资源库(如Google Patents与SureChEMBL),PatCID在化合物收录总量上呈现数量级优势;其尤为突出的区域覆盖能力体现在亚太区专利文献的完整度层面,对日韩中三国专利局近十年公告的有机分子专利实现92%以上有效收录,较同类数据库高出30%。

PatCID 文档处理流程

PatCID 采用先进的文档理解模型来自动提取化学结构信息。该流程包括文档分割、图像分类和化学结构识别三个步骤。

在第一处理阶段,基于专利文献视觉特征构建的DECIMER-Segmentation模型对输入文档实施定向分割,该模型通过迁移学习策略在包含美中日韩欧五局近十年化学专利的高分辨率文档集(总计12.8万页)上进行微调,其区域检测模块采用改进的区域提议网络(RPN)架构,结合专利文档特有的排版特征优化锚框参数配置,最终在测试集上实现93.7%的边界框交并比(IoU)阈值达0.8的检测精度。

第二阶段针对分割图像的类型判别环节,研究团队开发了双通道MolClassifier分类框架。该模型在Mask R-CNN骨干网络中整合通道注意力机制,通过同步输出像素级分割掩膜与类别概率分布,有效区分分子结构(占比62.3%)、马库什结构(28.1%)及背景噪声(9.6%)三类目标。数据集构建过程中,从USPTO专利库中分层抽样提取15720张化学图像,经双盲标注协议验证后保留有效样本14985张,并通过随机仿射变换、弹性形变及墨水噪声注入等数据增强策略将训练样本扩展至原数据量的4.8倍。

在第三阶段即分子结构矢量化环节,创新设计的MolGrapher模型采用级联式处理流程:首先基于改进的HRNet关键点检测网络定位原子节点坐标(平均定位误差<0.8像素),继而通过图神经网络动态构建化学键邻接矩阵。训练阶段采用混合数据策略,将RDKit生成的11.5万张合成结构图像与真实专利图像进行对抗域适配,在USPTO测试集上实现化学键类型分类F1-score达0.914,较传统基于规则的OSRA系统提升37.2个百分点,且在稠环化合物识别等复杂场景中展现出显著优势。

交互式文档探索

相较于传统化学专利数据库仅提供分子-文档关联检索的基础功能,PatCID系统实现了多维交叉定位能力的突破性进展。具体表现为系统构建了文档空间坐标映射系统,通过矢量图形界面实时渲染专利文件原始版式结构,同时建立分子结构实例与文档坐标系的亚像素级对应关系。

用户在提交特定分子结构检索请求后,系统可动态生成具有分层可视化功能的分析界面:不仅高亮标注目标分子在PDF文档原始页码中的精确位置(精确至第3节图注区),更能同步调取该分子所处的完整化学语境信息。这包括但不限于关键合成路径图谱(含产率及反应条件标注)、相关权利要求项解析以及同族专利中的结构衍生关系比对。

结语

PatCID 是一个由专利出版物中提取的化学结构数据库,其数据质量和文档覆盖范围均优于现有数据库,为化学发现和分子生成模型训练提供了宝贵资源。

【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。

<END>