尽管越来越多地使用计算工具来补充药物
化学家在药物设计方面的专业知识和直觉,但预测药物
化学工作中的合成产量仍然是一个尚未解决的挑战。现有的设计工作流程可以从反应产率预测中受益匪浅,因为可以减少贵重材料的浪费,并且可以提供更多数量的相关化合物来推进设计、制造、测试、分析 (
DMTA) 周期。在这项工作中,我们详细介绍了艾伯维药物
化学库数据集的评估,以构建机器学习模型来预测铃木偶联反应的产率。密度泛函理论 (DFT) 衍生的特征和摩根指纹的结合被认为比单热编码基线模型表现更好,提供了令人鼓舞的结果。总体而言,我们观察到 15 年回顾性图书馆数据集中对未见过的反应物结构的适度概括。此外,我们将模型做出的预测与药物
化学家做出的预测进行比较,发现该模型通常可以更准确地预测反应成功和反应产率。最后,我们演示了这种方法的应用,以建议结构和电子上相似的构建块,以分别替换那些在合成之前或之后预测或观察到不成功