JCIM｜渤健：以工业视角评估机器学习算法在ADME性质预测中的应用

2023年5月22日，来自美国Biogen（渤健）的研究人员在Journal of Chemical Information and Modeling上发表论文《Prospective Validation of Machine Learning Algorithms for Absorption, Distribution, Metabolism, and Excretion Prediction: An Industrial Perspective》。论文中，作者收集了跨越20个月包含6种ADME性质的120个数据集，评估并分析了机器学习算法在性质预测中的应用，同时也分析了分子的不同表征方法对模型性能的影响。

1 摘要

吸收、分布、代谢和排泄(Absorption, Distribution, Metabolism, and Excretion, ADME）共同定义了药物在作用部位的浓度分布，对候选药物的成功至关重要。随着机器学习算法的进展以及更大的专有和公共ADME数据集的可用，学术界和制药科学界对预测早期药物发现中的药代动力学和物理化学性质产生了兴趣。在这项研究中，作者收集了跨越20个月包含6种ADME性质的120个前瞻性的体外数据集，这些性质包括：人和大鼠肝微粒体稳定性(human and rat liver microsomal stability)、MDR1-MDCK efflux ratio、溶解度(solubility)以及人和大白鼠血浆蛋白结合性(human and rat plasma protein binding)。作者对各种机器学习算法与不同的分子表征相结合进行了评估。本研究结果表明，随着时间的推移，梯度增强决策树和深度学习模型始终优于随机森林。作者还观察到，当按照固定的时间表对模型进行再训练时，性能会更好，更频繁的再训练通常会提高准确性，而超参数调整只会略微改善预期预测。

2 引言

ADME描述了药物在生物体内的作用情况(disposition)。这些过程共同定义了药物在作用部位的浓度分布，因此影响了化合物的药理作用和剂量方案。一个成功的候选药物应该平衡ADME性质与其他关键性质，如效力、合成性和安全性。在药物发现的早期阶段，主要化合物的药代动力学特征通常通过体外性质（如内在清除率(intrinsic clearance)、渗透性(permeability)、主动外排(active efflux)、血浆蛋白结合(plasma protein binding)）来估计，并依据ADME性质来排序优先考虑的化合物。在产生体外数据之前，制药公司通常使用计算模型来快速评估ADME性质，以支持设计具有最佳机会的新分子，使其成为高质量、差异化的临床候选药物。

在这篇论文中，作者报告了各种机器学习算法与不同的分子表征相结合的全面评估结果。这些算法的任务是在分20个月的数据中前瞻性地预测6个体外ADME性质。作为验证的一部分，作者对不同的计算预测模型进行了直接的比较，以证实和挑战机器学习领域应用于分子性质预测的一些最新主张。此外，作者使用时间分割数据集研究了适用领域、超参数调整和自动模型再训练对前瞻性预测的影响。

3 方法

3.1 数据

作者收集了6个ADME性质的体外数据，其中包括20个时间点，如表1所示。每个数据集按时间顺序分为训练集和测试集，ADME体外测定中筛选的所有化合物都包括在时间零点（t0）中，并用于训练不同ADME性质的初始机器学习模型。两个时间点的数据之间的差异被分为测试集，并用于前瞻性地验证模型。

在3521个化合物中，公共数据集具有3028个不同的骨架（36个）和2736个单重态（即仅包含一种化合物的骨架的数量），分别对应于0.85和0.77的骨架和单重态的分数，而Biogen数据集的骨架和单重态的比例分别为0.51和0.38。除了增加的结构多样性外，公共ADME数据集涵盖了所有6个体外ADME性质的实验值的很大范围（表2），并代表了单独或结合专有数据建立计算预测ADME模型的宝贵起点。表2也显示了使用RF、LightGBM、MPNN1和MPNN2预测6个体外ADME性质的模型性能。

表1 本研究中使用的体外ADME数据集综述

表2 公开ADME数据集统计情况

3.2 分子表征

为了捕获全局和局部的化学信息，所有分子都由2D拓扑描述符、2D分子指纹和基于分子图学习的表征的组合来表征。作者将1024维的功能连接指纹FCFP4位与RDKit包中的316维的2D描述符拼接起来，以作为基于支持向量机、随机森林、XGBoost、LightGBM和全连接神经网络模型的输入。对于消息传递神经网络，作者使用带有或不带有2D RDKit描述符的分子图作为分子表征。

3.3 机器学习方法

在本研究中，作者对用于分子性质定量预测的各种机器学习和深度学习算法进行了全面比较，包括随机森林、XGBoost、LightGBM、支持向量机、全连接神经网络和消息传递神经网络。这些模型的性能已在包含20个月的6个ADME性质的120个Biogen体外数据集上进行了全面的评估。

4 结果

4.1 用于6个ADME属性预测的机器学习模型的总体性能

作者首先评估了20个时间点数据上6个ADME性质不同机器学习算法的性能，如图1所示。尽管基线随机森林模型显示出强大的预测能力，所有性质的平均Pearson’r约为0.7，但总体而言，其他算法的表现优于随机森林模型。深度学习模型MPNN和FCNN，以及LightGBM和SVM算法，在回归任务得到了最好的预测。

图1 机器学习模型对六个ADME性质预测的总体性能。

为了了解观察到的模型性能差异是否具有统计学意义，作者进行了单因素方差分析，然后进行了成对的事后Tukey检验。图2显示了按显著性水平进行着色的模型比较的结果。总体而言，SVM、LightGBM和神经网络算法显示出与基准RF模型相比的显著且一致的改进，如图2中所有热图图图第一列的绿色所示。XGBoost显示出优于RF的性能，但与其他性能更好的方法相比，其预测性通常较差。例如，在HLM、RLM和MDR1数据集中，可以看到MPNN2、FCNN、LightGBM和SVM显著优于RF，p值<0.001。然而，对于溶解度和PPB数据集，显著性水平分别降至<0.01和<0.05，在某些情况下，差异并不显著。HLM、RLM和MDR1的热图清楚地显示，与溶解度和PPB数据集相比，模型性能的可变性更大，其中除RF外的所有模型都表现相似，没有任何显著性差异。图3还展示了不同机器学习模型与基准模型随机森林在6个ADME性质和依时间划分的20个数据集上的性能。

4.2 再训练对模型性能的影响

在药物研究环境中开发预测性ADME模型的一个主要优势是随着时间的推移，项目数据不断涌入，这允许在新数据可用时进行固定的更新。那么，问题是，在前瞻性测试以预测项目的化合物性质时，这些自动更新应多久应用一次，以保持稳健的性能。先前建立ADME性质的QSAR模型的工作表明，与随机分割选择相比，基于时间分割的训练集和测试集可以更好、更真实地评估模型性能。理想情况下，模型可以每天连夜重建，以确保模型中包含的所有实验信息在做出预测时都是最新的。然而，该方法可能不是信息量最大的方法，因为它大大减少了可用于前瞻性评估模型随时间和跨项目性能的可用数据量。为了研究再训练对模型性能的影响，作者使用了120个前瞻性数据集，这些数据集跨越了表1中描述的六个ADME性质的20个时间分割。作者将再训练频率设置为1个月、2个月、4个月、5个月和10个月，并应用前瞻性测试集的平均Pearson’r值来报告一段时间内的模型性能（图4）。

如图4所示，更频繁的再训练通常能使所有ML模型提供更好的性能。虽然相关系数的下降在5个月的时间间隔内大致保持不变，但从5个月到10个月，观察到前瞻性预测的进一步恶化。可以观察到较长再训练时间的预测性下降和平均相似性下降之间的总体趋势。基于这些结果，作者在内部将再训练计划设置为一个月，这似乎在预测稳健性和过拟合风险之间提供了最佳平衡。

4.3 分子表征对模型性能的影响

为了改进经典机器学习和深度学习模型对分子化学和结构特征的表征，作者考虑了分子描述符和分子指纹的不同组合。作者测试了结合局部和全局化学信息的混合分子表征是否也有利于其他机器学习算法。作者使用来自前瞻性数据集的20个时间分割数据集，评估了三种代表性机器学习算法（RF、LightGBM和FCNN）在两个关键的体外ADME性质HLM和MDR1-MDCK ER上的扩增分子表征的效果（表1）。为了建立机器学习模型，用FCFP4指纹、RDKit描述符或两种分子表征的混合组合对分子进行表征。20个时间分割数据集的Pearson’r分布用于评估模型性能。与基于图的MPNN模型获得的结果类似，在所有三种研究的机器学习算法中，与单独的FCFP4或RDKit表征相比，将FCFP4和RDKit组合在一起的混合表征始终能产生更好的性能（图5）。此外，可以看到，RDKit 2D分子描述符在ADME性质预测和机器学习算法中的表现优于标准FCFP4指纹表征。

图5 基于HLM和MDR1-MDCK ER的前瞻性数据集，分子表征（FCFP4、RDKit）对三种代表性机器学习算法（RF、LightGBM和FCNN）性能的影响。

4.4 适用领域分析

定义任何预测模型的适用范围对于理解模型的泛化性和估计误差的来源至关重要。在这里，作者在训练集中应用了测试化合物与其5个最近邻居之间的平均相似性，以量化其与模型适用范围的距离，并进一步了解与预测不确定性的潜在联系。更具体地说，使用基于大小为1024维的FCFP4分子指纹的Sorensen–Dice系数来测量任何两个样本之间的结构相似性。所得到的相似性得分以0.1个单位的间隔进行合并。预测误差由每个单独的测试化合物的实验值和预测值之间的绝对差表示。图6展示了使用三种代表性机器学习算法（RF、LightGBM和MPNN2）确定的HLM和MDR1-MDCK ER前瞻性数据集中所有化合物的预测误差和分组平均结构相似性之间的相关性。

无论机器学习算法和体外ADME性质如何，都可以观察到一个总体趋势，即随着测试化合物与训练集的相似性增加，预测误差降低，这与先前研究的结论一致。虽然定义与减少的泛化误差相关的严格相似性阈值是具有挑战性的，并且可能高度依赖于所探索的化学空间和体外ADME性质，但这也强化了一个普遍的假设，即任何测试化合物到训练集的结构距离都应被视为量化模型预测中不确定性的一种可能措施，并可被用作辅助药物化学家的额外工具。作者还探索了超参数调整对代表性机器学习模型性能的影响，如图7所示。

4.5 具有ADME性质更改的代表性匹配分子对规则

为了了解不同的官能团如何影响体外ADME性质，作者应用开源软件包mmpdb利用所有ADME数据生成匹配分子对（Matched Molecular Pairs, MMP）知识库工具。从>25000个化合物中提取了总计>12M个规则，其中每个规则与至少一个ADME性质相关。图8列出了一组反映常见药物化学变换的MMP规则，用于优化三个关键的体外ADME性质（HLM、MDR1-MDCK ER、溶解度）。图8中的条目可以大致分为五组，突出了常见的药物化学优化策略。第一组包含小的官能团变化（变换1-7）。第二组（变换8-11）涉及简单烷基的环化。第三组（变换12-21）包括脂族环状和双环的变换。第四组（变换22-33）显示了使用杂环置换的常见先导化合物优化变化。第五组包含（变换34-38）由具有稠杂环的普通铰链-粘合剂替代物组成。

5 讨论

现代药物发现的主要任务之一是对先导化合物的化学结构进行分子优化，以获得理想的体外和体内特性。该过程通常涉及通过既定的小分子设计周期进行，包括想法产生、合成和评估，目的是探索结构修饰，以在保持所需的药理学特征的同时最大限度地减少药代动力学和毒理学副作用。

由于可用的化学空间很大，这种多参数优化最初是通过使用传统的化学信息学工作流或更新的机器学习/人工智能生成模型，再加上最大化特定期望性质的强化学习策略来进行虚拟建模的。因此，计算预测模型的准确性变得越来越重要，因为它们被应用于从非常大的可访问或虚拟复合空间集合中优先选择分子。

在这里，作者研究了现代机器学习算法和分子表征在体外ADME性质建模中的使用和性能，ADME性质是化合物优化的组成部分。本文结果证实了先前的研究结论，即深度神经网络能够在单任务模型中优于随机森林等传统方法。然而，当被最先进的机器学习算法（如梯度提升机或支持向量机）相比时，性能上的差异并不显著。此外，作者还发现，与算法的选择相比，模型再训练和分子表征发挥了更大的作用。事实上，更频繁的再训练（1个月vs 5或10个月）和混合分子表征（RDKit+FCFP4或MPNN+RDKit）通常提供更好的整体性能。作者在公共存储库中发布了一个专有数据集，提高了公共领域ADME数据的质量和多样性。

参考文献：

Fang C, Wang Y, Grater R, et al. Prospective Validation of Machine Learning Algorithms for Absorption, Distribution, Metabolism, and Excretion Prediction: An Industrial Perspective[J]. Journal of Chemical Information and Modeling, 2023.

--------- End ---------

在兴奋、质疑与期待中全面开花｜AI赋能药物研发重要进展资料合集 202302

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。