JCIM｜向小数据集进军：用于化学反应研究的机器学习策略

2023年6月14日，美国密歇根大学化学系Paul M. Zimmerman团队在Journal of Chemical Information and Modeling上发表论文“Machine Learning Strategies for Reaction Development: Toward the Low-Data Limit”。论文探讨了机器学习策略（迁移学习和主动学习）在化学反应研究中的应用，特别分析比较了基于机器学习的和基于专家的化学反应研究之间的异同，指出在小数据集的情况下应用机器学习策略的可能性和广阔应用前景。

1 摘要

机器学习模型越来越多地被用于预测有机化学反应的结果。大量的反应数据被用来训练这些模型，这与化学家只利用少量相关化学转化信息发现和开发新反应的方式形成了鲜明对比。迁移学习和主动学习是两种可以在小数据情况下有效的策略，这可能有助于填补这一空白，并促进使用机器学习来应对有机合成的现实挑战。本文介绍了主动学习和迁移学习，并将其与进一步研究的潜在机会和方向联系起来，特别是在化学转化的前瞻性发展领域。

2 背景

分子和化学反应的化学空间是巨大的。类药物分子的数量10⁶⁰的数量级，这导致分子间合理反应的数量也爆炸式地增长，因为关键反应成分（例如，催化剂、碱或氧化剂）可以以各种数量结合。欲在这个巨大的化学空间中发现性能更好的分子和材料（和更有效的制备方法），有效的指导是至关重要的。多年来，化学家们一直在通过假设驱动的实验不断突破化学知识的界限（图1）。如今，可访问的数据和计算资源日益增多。本文尝试找到传统的专家策略和探索反应空间的计算手段之间的交叉点。

图1 化学研究的示意图。在广阔的化学空间中，有意义的化合物是稀疏的。为了确定生产反应路线，化学家对相关的先前结果进行处理，以确定初步研究。然后反复进行实验，根据结果提供的信息进行后续的探索。虽然历史证明是有效的，但探索过程应该可以更简化。

对于化学家而言，新的反应通常是通过对物理化学原理和相关反应的经验知识的创造性处理而设计出来的。化学家的直觉建立在从文献中得出的已知反应条件的基础上，在新的空间中开发了一套初步的实验。随着实验中的信息变得可用，专家的假设会被细化，并计划下一组实验。然而，探索的范围和方向可能会无意中受到当前化学理解的限制，从而阻碍对潜在最佳解决方案的考虑。尽管有这个缺点，且化学家通常使用的数据也较小（几篇论文和手工进行的实验数据），但传统的化学科学过程仍是有效的。

而机器学习在识别有用化学方面的应用越来越多，并在补充指导传统化学反应发现过程显示出相当大的应用前景。因为机器学习可以执行与化学家类似的过程，学习数据，进行数字转换，并进行预测。这个过程还使机器能够有效地逼近问题领域。因此，成功训练的模型能够做出定量准确的化学预测，如反应结果或分子的物理性质。更重要的是，当应用于迭代实验时，这种能力可以快速引导探索找到更好的解决方案，并缩短实验时间。因此，用机器学习补充传统的化学方法可以增强我们解决当前化学问题的能力。

更好地将机器学习的要求与实验室研究的现实相结合是急需且有帮助的。通常使用的数据集的特征可以区分两者。特别是，化学家研究的是与这个问题最相关的几个数据。而机器需要更多数量级的数据，覆盖了问题领域的相当大的一部分。对于化学家来说，化学原理对于在新的问题领域做出有意义的预测至关重要。而机器学习算法所需的大数据集缺乏这样可推广的概念。总之，对典型（小型）化学数据集进行操作并能够整合科学知识的机器学习算法将增强其在实验室中的实用性。

结合专业化学家的化学直觉（长期以来，它使小数据研究取得了成功），机器学习算法为实现这样的目标提供了机会。在这个以有机合成为中心的论文中，作者将直觉和假设驱动的化学研究与机器学习算法之间建立了联系。还展望了这些联系将如何影响未来的应用。

3 迁移学习

迁移学习是一种机器学习方法，目的是使用从手头的数据集（source domain，源域）中提取信息来实现对感兴趣的问题（target domain，目标域）更高效和有效的建模。理想情况下，由此产生的模型的预测将提供一组有意义的初始假设，供化学家参考。一种流行的迁移学习范式是微调（fine-tuning），其中在较大的源数据集训练深度学习模型（称为预训练模型），然后在较小的目标数据集上进行微调。自然语言处理中，生成式预训练Transformer（Generative Pretrained Transformer, GPT）已经证明了预训练模型的潜力。在化学领域也出现了相似的研究，其能够提高深度学习模型的性能。有了丰富的源反应数据和相对较小的目标数据集，微调可以实现仅用其中一个似乎不可能实现的性能。在这种情况下，微调使深度学习算法能够提供无法单独使用目标数据创建的强大模型。图2展示了目前所关注的迁移学习所需要的重要组件：大的源数据集、迁移策略、小的目标数据集。而另一类从小的源数据集出发的迁移学习还没得到广泛的关注。对于较小的源数据集，一般可以考虑诸如逻辑斯蒂克回归、决策树、支持向量机等传统机器学习（如图3所示）。

图2 迁移学习的组件概述（上排）。将微调范式中每个组件的特征（中间）与化学反应研究的现实情况（下排）进行对比，说明了迁移学习的广泛应用前景。

图3 主流的机器学习算法通常需要大数据集用于训练（顶部）。对于数据稀少的情况（左下），需要考虑较小的传统机器学习模型。而有可能缓解这个情况的迁移学习还没有得到那么多的关注。

对于迁移学习所需要的源数据集一般有两种方式定义。一种是将手头的所有相关数据组合为单个源数据集。另一种是利用多源数据集进行迁移学习，类似于化学家的源数据只包含少数研究文章的传统方法。已有的每项工作都涉及化学反应的不同方面，如机理概念、可行的催化剂和试剂，以及温度或浓度等条件。这些信息如何融合到新反应的独特设计中，取决于化学家的专业知识（图4，实线）。类似地，可以在不同的源数据集上训练多个机器学习模型（图4，虚线）。这些模型中的每一个都将量化反应组分的不同方面如何影响反应结果（例如，如果底物的较大空间体积导致较低的产率，则会出现空间描述符的负回归系数）。然而，这些参数不太可能定量地转移到新的目标反应。另一方面，较松散的定性特征的子集（例如，底物空间描述符的系数为负，忽略其大小的事实）可能仍然是目标反应的有用提示。通过从多源模型中提取并组合最相关的特征表示，可以进行有效的一致性预测。虽然平衡多种观点到可行的反应条件对专业化学家来说是很自然的，但在统计上用机器学习实现这种协调融合仍是一项具有挑战性的任务。

图4 化学家的多源迁移学习与机器学习算法的比较。化学家经常根据文献提取简洁、定性的化学推理，并对目标反应进行适当调整（沿着灰色实线箭头）。相比之下，机器学习模型的黑匣子性质使得提取和修改对目标问题重要的特征都相对困难（灰色虚线箭头）。

总之，迁移学习是一种机器学习方法，用于在新的反应空间中进行初始假设探索，最大限度地利用来自附近但间接相关的反应空间的已有反应数据。从化学家的工作流程中获得的灵感可以用来更好地协调迁移学习的所有要素（源数据集、迁移学习策略和目标数据集）对齐化学反应研究的设置（图2）。能够更好地从有限的数据中学习的较小源数据集和模型值得更多关注，因为大型源数据集通常无法用于更新的、更有趣的化学转换（图3）。此外，利用多源反应数据集及其组件进行反应设计可能是一种有趣的反应开发迁移学习方法（图4）。迁移学习的这些进步可能会有助于引导化学家探索更有利的初始反应条件。

4 主动学习和贝叶斯优化

反应条件的初始假设（来自迁移学习或化学直觉）必须在实验结果出来后进行更新。在许多情况下，只更新一个反应组分，并评估这些组分的可变性。将改进的试剂合并到当前最知名的反应条件中，并重复该过程，直到获得令人满意的产率。这种验证、提炼和生成假设的方法（图5）是数据驱动科学的基础，长期以来一直是开发新的化学反应的标准。

图5 假设驱动的迭代湿实验（实线）和主动学习（虚线）之间的类比。本图展示了每一步人工湿方法和计算方法之间的差异。

主动学习是机器学习的一个子领域，在统计学领域也叫查询学习或最优实验设计。主动学习方法尝试解决样本的标注瓶颈，通过主动优先选择最有价值的未标注样本进行标注，以尽可能少的标注样本达到模型的预期性能。在探索新的化学反应时，主动学习会找到最“难”分类的样本用于标记，然后更新模型，开启下一轮循环。图5展示了主动学习基于传统假设驱动实验的计算模型。

机器学习算法的黑匣子性质值得在专家驱动和机器驱动的实验之间进行进一步的比较，并显示出关键的差异和局限性。首先，反应数据中信息的质量以及如何使用这两种类型的实验是不同的（图5，绿色箭头）。专家驱动的方法允许从反应数据中提取定性但可解释的反应趋势。相比之下，机器学习模型是通过数值过程训练的，这使得它们的可解释性降低。更重要的是，从看似合理的反应条件的广阔空间中选择一小组实验进行的过程差异很大（图5，黄色箭头）。在传统方法中，从上一次迭代中识别出的性能最好的试剂是固定的，并且下一个要筛选的单个反应成分是基于直觉启发式选择的。虽然这种方法可以提高产量，但它是在狭窄的空间区域中进行搜索，并可能导致得到局部最大值。另一方面，主动学习可以用统计分数来评估化学家定义的整个候选空间。主动学习搜索的空间是窄还是宽取决于其目标函数和底层模型，原则上可以实现两者之间的极限或某种目标。因此，即使是一种理论上“完美”的主动学习方法，也需要化学家的指导来选择其目标。不管潜在的局限性如何，已有有大量的研究证明了主动学习和贝叶斯优化在批量实验环境中的少数反应优化活动起到了一定的作用。图6展示了这方面的一些代表性例子。

图6 主动学习和贝叶斯优化研究的代表性例子。

5 反思与展望

利用现有技术设计合理的化学反应是化学反应研究的核心。在机器学习的类比中，迁移学习可以利用现有技术来帮助将主动学习引向潜在的富有成效的空间。除了提供初始化方案外，源数据上预训练的模型中的信息还可以指导后续研究。为了获得这些好处，迁移学习需要无缝地融入主动学习或贝叶斯优化。最重要的是，迁移学习必须提高主动学习的表现。换言之，必须避免负迁移。尽管这极具挑战性，但将迁移学习和主动学习或贝叶斯优化相结合的有效设计可以实现单独使用任何一种方法都无法达到的性能。

越来越多的例子表明，数据科学可以促进化学研究。迁移和主动学习因其在小数据量情况下增强预测能力而受到关注。本文提到众多例子分别显示了如何通过迁移和主动学习来实现反应结果和反应条件预测。然而，将迁移学习和主动学习的概念应用于更广泛的问题并没有限制。因此，机器学习方法的普遍适用性值得更多的研究。

机器学习策略在化学反应开发中的实际成本是限制其广泛应用的一个核心因素。虽然人们普遍认为机器学习可以对化学性质和转化进行建模，但这样做所需的数据量往往远远超过化学家在同一空间进行预测所需的数量。如果要全面引入机器学习策略用于化学反应开发，作者认为应该着重考虑三方面问题：（1）尽管与基准算法的比较对这一指标很有用，但机器学习算法的性能也应该与人类化学家的成效相比较。（2）需要考虑实验的成本。机器学习方法（通常需要大量数据）是否在成本、时间和人力资源方面有所减少，并可以完成具有挑战性的反应开发任务？（3）化学理解会导致化学反应的泛化，这是反应发展过程中非常有价值的结果。相比之下，机器学习算法的复杂性使得提取反应性原理变得困难。构建可解释性模型将是机器学习策略能够广泛应用的一个重要方面。尽管这三种成本的指标在很大程度上是不明显的并且相互交织的，但它们将有助于支持机器学习方法的预期应用。

6 结论

科学界常利用常规和高通量实验、机理研究和量子化学等建模方法三者协同不断开发新的催化剂、反应和合成路线，以获得具有挑战性的化合物目标。机器学习可以为这些化学研究注入统计支持，并提供实际价值，尽管目前很难从现有研究中判断这一观点“何时以及是否”成立。比如，需要多少数据？哪些机器学习方法对现实的低数据场景最有效？能够清楚阐明有用的化学概念吗？目前已有越来越多的系统前瞻的研究致力于并且有可能有助于回答这些问题。随着科学界研究的积累，机器学习科学通过反应空间进行探索（尤其是在数据量较小的情况下）可能很快成为化学家不可或缺的工具箱。最终，这将使化学家们专注于设计和发现重要的化学转化和功能分子的真正挑战。

参考文献

Shim E, Tewari A, Cernak T, et al. Machine Learning Strategies for Reaction Development: Toward the Low-Data Limit[J]. Journal of Chemical Information and Modeling, 2023.

--------- End ---------

在兴奋、质疑与期待中全面开花｜AI赋能药物研发重要进展资料合集 202302

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。