Py学习  »  机器学习算法

有机合成机器学习数据库简介

智药邦 • 1 年前 • 340 次点击  

之前我们分享了一些机器学习在有机合成应用上的优秀案例“如虎添翼—AI为有机合成插上腾飞的翅膀,内容来自德国哥廷根大学的Lutz Ackermann和浙江大学的XinHong Trends in Chemistry上发表的一篇综述 “When machine learning meets molecular synthesis”[1]。为建立质量高的模型,良好的数据库必不可少,理想的有机合成数据库需具有大规模、公开性、标准化等特点,能节省数据收集和整理的时间,本篇我们会介绍一些具代表性的有机合成机器学习数据库。

有机合成数据库

有机合成领域的文献数量不少,然而这些数据往往以冷数据形式收录,缺乏标准化整理,导致在建立模型时需要花大量的时间去收集和整理数据因此,理想的有机合成数据库具有大规模、公开性、标准化等特点。根据不同的数据来源,数据库被分类成基于实验的数据库、基于计算的数据库和开源反应数据库

基于实验数据库--Mayr's Database


德国慕尼黑大学Mayr教授课题组通过Mayr方程实现了对亲核性与亲电性反应的定量标度并建立了数据库[2]。Mayr方程(1A)由三个基于对速率常数的实验测量所得的经验参数组成,E为亲电参数,N为溶剂相关的亲核性参数, sN为溶剂相关的亲核敏感性参数。迄今为止,Mayr 的反应性参数数据库测量了 345 个亲电试剂和1250 个亲核试剂的参数。当中记录了132个碳正离子 、114个缺电子烯烃、9个硫 、5个氟 、4个氮 和 3个氯亲电体及78个其他碳亲电试剂 。亲核试剂则包括 530 个碳, 311 个氮、191 个氢、138个 氧、33 个硫和硒、29 个卤化物阴离子和 18 个磷亲核试剂。测得的反应性参数的分布接近正态分布(图1C),并基于置信度对数据库进行了分类。我们基于这个数据库可以预测超过 4,300,000 个反应组合的二级速率常数。

1. Mayr's Database

基于实验数据库--USPTO


NextMove通过文本挖掘技术,对美国专利中的有机合成反应作进一步标注,建立了USPTO 数据库[3],提高了数据的可用性。来自诺华生物医学研究所的Schneider课题组通过USPTO 数据库的标签进行挑选,整理出子集USPTO-50k数据库[4],图2USPTO-50k涵盖的有机反应类型。

2. USPTO-50k Database

基于计算化学的数据库--QM9


随着理论计算的进步,科学家可通过计算化学研究有机化学,预测分子性质和反应性能。计算化学数据库通常比实验数据库的规模更大,数据更完整。來自巴塞尔大学的Lilienfeld课题组在B3LYP/6-31G(2df,p)的方法基组下计算了133 885 个化合物(最多含个重原子)的量化性质并建立了QM9数据库[5]QM9的数据分布和计算特征如图3所示。QM9已被广泛应用于机器学习中,包含化合物特性预测、合成性能预测等。

3. QM9 Database

基于计算化学的数据库—杂环化合物C-H键官能化反应库


浙江大学的XinHong课题组基于DFT计算了环化合物C-H键官能化反应的能量势垒,建立了反应数据库(4)[6],数据库涉及了201个芳烃取代模式和 13 个自由基,6114 个竞争位的势垒和 9438 个势垒差异。该数据库被用作训练了一个随机森林模型并展现出令人满意的选择性预测效能,表明了DFT 计算可以作为一种有用的数据增强策略。

4. 杂环化合物C-H键官能化反应库

开源反应数据库:ORD


来自Relay TherapeuticsSteven M. Kearnes和麻省理工学院MITConnor W. Coley等人建立了开源反应数据库(Open Reaction Database, ORD[7],一种用于建立和分享有机反应数据的公开访问架构和基础的设施,期望符合科学数据管理的FAIR原则,方便下游数据取用。ORD架构可支持传统实验反应,也可支持新兴的自动化高通量实验和流动化学等技术。图5ORD当前可用的示例数据集,在GitHub上可获取(https://github.com/open-reaction-database)

5. ORD示例数据集

小结

有机合成反应数据库涉及的层面广泛,由于研究领域发展已久且数据量大,实验记录已从传统的纸本发展到今天的电子实验记录本,但仍未规范标准化可用于机器学习的数据记录格式,为数据库的收集和整理带来困难。本文介绍的数据库尝试整理了实验、计算化学等数据,考虑到数据未来可用作机器学习摸型的特征制作了标签。近年更出现ORD架构,期望能广泛用于日后的实验数据记录中,可见有机合成数据库建立已有雏形,为虚拟信息发展迅速的未来作好准备。
参考文献
[1] Oliveira J C A, Frey J, Zhang S Q, et al.  (2022). When machine learning meets molecular synthesis. Trends in Chemistry.
[2] Mayr, H. et al. (2003) π-Nucleophilicity in carbon–carbon bondforming reactions. Acc. Chem. Res. 36, 66–77
[3] Schneider, N. et al. (2016) Big data from pharmaceutical patents: a computational analysis of medicinal chemists’ bread and butter. J. Med. Chem. 59, 4385–4402
[4] Schneider, N. et al. (2016) What’s what: the (nearly) definitive guide to reaction role assignment. J. Chem. Inf. Model. 56, 2336–2346
[5] Ramakrishnan, R. et al. (2014) Quantum chemistry structures and properties of 134 kilo molecules. Sci. Data 1, 140022
[6] Li, X. et al. (2020) Predicting regioselectivity in radical C–H functionalization of heterocycles through machine learning. Angew. Chem. Int. Ed. 59, 13253–13259
[7] Kearnes, S.M. et al. (2021) The Open Reaction Database. J. Am. Chem. Soc. 143, 18820–1882

--------- End ---------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明-企业-职位/岗位 

姓名-学校-职务/研究方向




- 历史文章推荐 -


AI与化学

●JMC|化学设计自动化的不同等级和相关案例

●JCIM|MIT团队:从科学文献中自动提取化学反应

●Nat Rev Chem|实验化学中的数据科学进展:案例和建议

●JCIM|药物发现的超大型化合物数据集概述

AstraZeneca iLab|阿斯利康的未来全自动化实验室简介

●未来已来:合成化学迈进智能化时代

Nat Chem|让化学的集体知识公开化和机器可操作化

●AI提高从头设计的新化合物的可合成性

●人工智能改变化学领域,机器学习范式加速化学物质发现

●IBM|基于云服务与AI驱动的自动化有机合成实验室(上)

●IBM|基于云服务与AI驱动的自动化有机合成实验室(下)

●Science|类药有机分子的快速自动化组装

●CAS白皮书|人工智能在化学领域的应用全景和增长机会

●SRI与杨森制药合作,利用Al驱动的自动化学合成系统进行小分子药物发现

●JACS|一种支持机器学习的开源化学反应数据库

●Nature|DeepMind用深度学习改进化学中的密度泛函理论

●如何从文献/专利/图片等中快速提取化学结构?

●Nat Chem|化学机器学习的最佳实践:推荐的一套标准化指南

●NAT CHEM|人工智能的、增强智能的和自动化的化学


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/150572
 
340 次点击