JCIM｜深度学习用于血液毒性预测和血液毒性化合物的结构分析

2022年12月6日，中南大学湘雅药学院曹东升教授团队和浙江大学药学院侯廷军教授团队合作在Journal of Chemical Information and Modeling期刊上发表论文“Structural Analysis and Prediction of Hematotoxicity Using Deep Learning Approaches”。

血液毒性(Hematotoxicity)已成为药物发现中一种严重但被忽视的毒性。然而，只有少数计算模型被报道用于预测血液毒性。作者从公开资源中收集数据，构建了包含正负样本分子的血液毒性数据集。基于分子的SMILES序列，作者分别利用软件计算得到多样的分子描述符特征作为随机森林和极限梯度提升算法的输入和分子图作为基于图的深度学习模型GCN、MPNN、Attentive FP的输入，然后训练模型得到预测结果。

与其他相关规则和现有模型相比，本文的模型在高质量的外部验证集中获得了67.5%的BA和48.6%的F1结果，突出了模型的卓越可靠性和可推广性。然后，作者分析了模型学习到的原子权重的热图和SHAP值，并用于解释模型，以及从训练模型的总体水平和个体水平中错误分类的分子。作者使用匹配分子对分析(matched molecular pairanalysis, MMPA)和代表性子结构推导技术探索了现有血液毒性化合物的转化规律和独特的结构特征。这将为化学家优化或筛选分子提供更多有用的信息和方向。本研究将有助于筛选出血液毒性物质，从而提高治疗药物开发的有效性和成功率。

1 摘要

在这项研究中，作者构建了一个包含759种血液毒性化合物和1623种无血液毒性化合物的高质量数据集，然后基于7种机器学习(machine learning, ML)算法和9种分子表示的组合建立了一系列分类模型。基于两种数据分割策略和应用领域(applicability domain, AD)分析的结果表明，基于注意力分子指纹(Attentive FP)的最佳预测模型产生了验证集的平衡准确度(balanced accuracy, BA)为72.6%，AUC值为76.8%，测试集的BA为69.2%，AUC为75.9%。此外，与现有的过滤规则和模型相比，本文提出的模型实现了外部验证集的最高BA值67.5%。此外，沙普利加法解释(the shapley additive explanation, SHAP)和原子热图方法被用于发现与血液毒性相关的重要特征和结构片段，这可以为检测不期望的血液毒性化合物提供有用的提示。此外，采用匹配分子对分析(MMPA)和代表性子结构推导技术进一步表征和研究血液毒性化学物质的转化原理和独特的结构特征。本研究提出的基于图的新深度学习算法和深刻的解释可以作为一种可靠和有效的工具来评估新药开发中的血液毒性情况。

2 材料与方法

2.1 数据集

作者从公开资源中构建了一个血液毒性数据集，最终获得589个正样本、1183个负样本，合计1772个样本。接着，作者根据分子的Murcko骨架(Murcko scaffold)，将其划分为包含1330个分子的训练集，包含442个分子的测试集。另外，作者收集了610个新分子作为外部验证集。

2.2 分子表示

作者采用了9种分子表示方法用于构建预测模型，包括：

1.分子图(molecular graph)。分子图将分子表示为图，即，其中是原子(节点)集合，是化学键(边)集合，可作为基于图的深度学习模型的输入。

2.206维的MOE2d描述符。其提供分子的部分电荷信息(partial charge information)、原子数和键数、细分表面积(subdivided surface areas)和其他分子物理属性。

3.166维MACCS，包含特定子结构信息的结构片段特征。

4.扩展连接分子指纹(Extended Connectivity Fingerprints, ECFP4)，为1024 bit.

5.功能类指纹(Functional-Class Fingerprints, FCFP4)特征，为1024 bit.

6.150 bit的化学高级模板搜索(chemically advanced template search, CATS)特征，一种计算原子对之间距离的药效团指纹。

7.79 bit的电拓扑状态指数(electrotopological state indices, Estate)特征，表示受分子中所有其他原子的电子状态影响的原子的扰动电子状态。

8.200 bit的RDKit描述符(RDKit-d)，一组构象无关描述符，可以是从分子的符号表示中获得的实验描述符或理论描述符。

9.RDKit指纹(the RDKit fingerprint, RDKit-f)，1024 bit的哈希子结构或路径指纹。

在此，分子图的表示是通过Python包DGLlife计算得到，MOE2d、CATS和MACCS描述符分别由ChemDes、ChemoPyMOE计算得到。其他描述符是通过Konstanz Information Miner(KNIME)平台计算得到。总之，上述9种分子表示，代表分子的特征类型，通过对应工具的处理能够得到数据集中样本的特征，最后输入模型，得到预测结果。

2.3 模型构建和超参数优化

作者一共采用7个机器学习算法构建了血液毒性预测模型，包括：

1.随机森林(random forest, RF) RF是使用训练数据中的bootstrap样本和随机选择的特征创建的未剪枝的分类或回归树的集成。这是一种基于决策树的bagging扩展变体，它在决策树训练期间引入随机特征选择，以增强最终集成模型的通用性。

2.极限梯度提升算法(eXtreme Gradient Boosting, XGBoost) XGBoost是梯度增强框架的一种有效且可扩展的实现，它被视为新一代集成学习算法。

3.支持向量机(SVM) SVM是处理分类任务的一种很好的方法。输入向量被非线性地变换到非常高维度的特征空间，并在该特征空间中建立了线性决策曲面，并且决策曲面的特殊性质确保了学习机的高泛化能力。

4.GBDT GBDT是一种流行的集成决策树技术，它迭代地将几个弱学习者聚集在一起，以创建预测模型。这种方法已经在各种应用中表现出了出色的性能，因为它们通常对异常值具有鲁棒性，并且具有强大的预测能力。

5.图卷积神经网络(Graph Convolutional Networks, GCN) GNN旨在通过消息聚集策略迭代地聚集由原子特征向量编码的相邻原子信息以及由化学键特征向量编码的分子中的连接信息来学习每个原子的表示，然后更新中心原子的状态更新并进行读出操作(readout operation)。然后用独处的向量来预测分子性质。

6.消息传递神经网络(Message-Passing Neural Networks, MPNN) MPNN保持其对图同构的不变性，可以直接从分子图中学习化合物的特征。消息传递神经网络包括信息传递和节点更新两个步骤，最后通过读出操作得到整个分子的表示，然后进行预测分子性质。

7.注意力分子指纹模型(Attentive FP) Xiong等人提出了一种使用图注意机制从分子图中学习的图神经网络框架，其可以自动学习非局部的分子内相互作用。Attentive FP统一原子特征向量和相邻原子特征向量长度，并基于全连接层为每个原子及其邻居生成初始状态向量。在原子核分子级别，嵌入一个堆叠的关注层用于节点嵌入，这样就能使用注意力机制逐渐聚合信息以生成每个分子的新状态向量，并且状态向量用于编码分子图的结构信息并用于下游任务预测。

2.4 模型表现评估

作者主要采用5个评估指标评估模型的性能，包括：ROC曲线下面积AUC、F1分数、平衡准确率(balanced accuracy, BA)和马修斯相关系数(Matthews correlation coeffcient, MCC)。

另外，作者还基于相似度距离定义了适用领域(applicability domain, AD)指标。如果查询样本与训练集中最近邻居的Tanimoto相似度小于设定阈值，则认为该样本在适用领域之外，并且结果不可信。

3 结果与讨论

3.1 化学骨架与化学空间分析

图1 毒性数据集中，(A) 出现次数排名前150的Murcko骨架的云图，(B) 出现次数排名前150的碳骨架的云图。

本研究使用Murcko骨架核碳骨架探索了血液毒性数据集的化学多样性。从血液毒性化合物中，产生了414个独特的Murcko骨架和321个独特的碳骨架；从非血液毒性化合物中，产生了918个独特的Moocko骨架以及655个独特碳骨架。对于Murcko骨架，超过81%的骨架含有不超过10个分子。对于碳骨架，约64%含有不超过10个分子。从血液毒性数据中提取频率最高的150个支架，并用于生成相关的云图，以直观地说明数据的多样性。如图1所示，相关结构图片的大小表示具有特定骨架的分子的频率。骨架分析说明了血液毒性数据集的高度结构多样性，这将有助于开发具有高度通用性的血液毒性预测模型。

此外，作者采用主成分分析(PCA)散点图(图S1)和血液毒性数据的8个分子描述符的分布图(图S2)来探索血液毒性数据中的化学空间。结果表明，选择测试集来验证从训练集开发的分类模型的预测性能是可靠的，而且进一步表明了使用先进的机器学习技术来完全分类血液毒性的必要性和意义。

3.2 血液毒性预测模型的性能

表1 基于骨架划分策略的机器学习算法和描述符的不同组合的模型性能

使用7种机器学习算法和9种分子表示构建了总共35种用于血液毒性分类的机器学习模型。这些模型在Python环境和KNIME平台中实现。基于Murcko骨架的分割策略被执行了10次以避免随机性的干扰，并且平均结果被用于进一步检查所有模型的准确性和鲁棒性。每个度量指标的最佳性能结果以粗体显示，表1汇总了验证集和测试集的所有预测结果。

表2 基于随机划分策略的机器学习算法和描述符的不同组合的模型性能

此外，在建模过程中作者还进行了10次随机划分的策略，平均结果用于进一步评估模型的性能。每个度量指标的最佳性能结果以粗体显示，验证集和测试集的所有预测结果汇总在表2中。正如预期的那样，基于随机划分策略的平均预测结果与基于骨架划分策略的预测结果大致相似，并且前者显示出较大的标准差。尽管一些模型的性能略有变化，但总体趋势并未改变。基于随机划分策略的SVM和GBDT模型的性能与骨架划分策略相似。在基于描述符的模型中，RF模型的性能仍然优于XGBoost模型，这与先前模型一致。此外，基于图的模型仍然比使用描述符的大多数其他模型表现更好。以Attentive FP模型的性能为例，基于随机划分的预测结果呈现出较高的标准差和稍差的结果，测试集的AUC为75.2±3.2%，BA为69.1±2.3%。根据上述结果，最佳的血液毒性分类模型是采用基于Murcko骨架的划分策略的Attentive FP模型。

表3 通过基于Tanimoto相似性的方法(the Tanimoto Similarity-Based Method)确定的训练和测试集中AD内或AD外的化合物数量

作者进一步探索了基于Tanimoto相似度的AD和RF模型中性能最好的结构指纹的RDKit指纹。如表3所示，AUC值的变化趋势与预期基本一致，AD内的AUC值始终高于AD外的AUC。随着相似度阈值的降低，AD内和AD外分子的相应AUC值均呈现下降趋势。值得注意的是，尽管AD以外的AUC值都有所下降，但作者的预测模型仍然可以获得66.7%至73.5%之间的值，这表明该模型对于AD以外的化合物仍然具有一定的可预测性，并且平均相似度高于0.57的化合物更有可能具有可靠的预测。

3.3 基于描述符组合的共识模型

表S4 基于描述符的不同组合的前10个血液毒性预测共识模型的性能

为了探索描述符的潜力并提高现有基于描述符的模型的预测性能，作者通过对两个性能最佳的模型(RF和XGBoost)的预测值进行平均，构建了两系列的共识分类模型。因此，作者基于各种算法和描述符建立了114个血液毒性预测模型。表S4显示了基于各种描述符组合的前10个共识血液毒性预测模型的预测结果。

图2 (A) 基于RF(蓝色)和XGBoost(橘色)的共识预测模型比较。(B) 基于描述符组合的简单模型(蓝色)和共识预测模型(橘色)的比较。

如图2A所示，基于RF和XGBoost方法的共识模型均未显示任何明显差异。此外，如图2B所示，基于各种描述符组合的这些共识模型的总体性能优于基于单个描述符的简单模型。结合各种描述符可以从不同角度更全面地表示所研究分子的结构细节和物理化学数据，从而提高共识模型的性能。使用RF算法的前5个共识模型在测试集上达到的平均AUC为75.4%，平均BA为69.8%；而使用XGBoost算法的前五个共识模型在测试集上可以达到的平均AUC为75.4%，平均BA为6.92%。在基于单个描述符的模型中，使用RF算法在测试集上仅达到的AUC为75.4±0.5，BA为67.0±0.4%；而使用XGBoost算法在测试集上达到的AUC为73.7±1.0%，BA为66.2±0.5%。这些结果进一步表明，不同描述符的适当组合将增强模型的预测能力。基于多种描述符的一些共识模型的性能甚至与注意FP模型的性能相似。

3.4 与其他过滤规则和模型比较

表4 本文模型与其他规则或模型的性能比较

为了强调本文的分类预测模型在识别血液毒性化合物方面的适用性和通用性，作者将模型的血液毒性预测能力与一些相关毒性规则和药物相似性规则进行了比较，包括急性毒性规则(the acute toxicity rules)、遗传毒性致癌性规则(genotoxic carcinogenicity rules)、皮肤致敏规则(skin sensitization rules)、SureChEMBL规则、利平斯基规则(Lipinski rules)、辉瑞规则(Pfizer rules)、葛兰素史克规则(GSK rules)、金三角(Golden Triangle)、RF_QNPR模型和Consensus_QNPR模型。所有结果汇总在表4中。

3.5 模型解释

模型解释是建模过程中的关键步骤。为了彻底评估分类模型并加深对这些模型的理解，作者通过SHAP方法分析了基于描述符的模型所使用的分子描述符的重要性，并且分析了Attentive FP模型产生的学习权重的原子热图。

图3 (A) MOE2d模型、(B) RDKit描述符模型、(C) CATS模型、(D) Estate模型、(E) MACCS模型和(F) ECFP4模型给出的具有代表性的分子描述符的重要性(前10位)和每个分子描述符的SHAP值。每个分子在每个描述符的线上用一个点表示，这些点叠加起来显示密度。

如图3所示，可以观察到，尽管不同种类的描述符代表不同的化学意义，但与特定原子和特定结构相关的一些描述符被表现最出色的模型捕获。例如，对于氮原子数和与氮相连的结构的一些描述符，如a_nN(氮原子数)、MQN9(环氮数)、Kc_ssnh(仲胺数)和MACCS_142(氮原子)，它们对血液毒性和非血液毒性预测的贡献截然不同。这些描述符值较高的分子更有可能被预测为血液毒性化合物。

图4 基于Attentive FP模型的学习到的原子权重的热图：(A)血液毒性化合物和(B)非血液毒性化合物。被预测为血液毒性的原子结构以红色显示，而被预测为非血液毒性的则以蓝色显示。

除了对模型的全面解释外，单个分子的学习到的原子权重的热图可以提供对某些描述符重要性的深入理解。如图4所示，一些与氮原子或相关基团相关的片段以红色突出显示，表明这些片段有助于预测血液毒性，这与先前对描述符的分析一致，如a_nN(氮原子数)和Kc_ssnh(仲胺数)。此外，所有羰基的红色突出显示表明该结构有利于血液毒性，进一步证明了bitvector314 和bitvector650(均与羰基亚结构相关)在ECFP4结构指纹中的重要性。如果一个分子含有这些亚结构，则该分子被预测为具有血液毒性的可能性更大。对于正确预测的非血液毒性分子，碳链结构上的大多数碳原子结构以蓝色突出显示，证明这部分结构有利于非血液毒性。这与MACCS描述符中的判断一致，即MACCS_129描述符(亚甲基结构分为三组)和MACCS_128描述符(亚甲基构造分为两组)的频率可能会降低分子被分类为潜在血液毒性化学物质的可能性。结构分析表明，MACCS_129描述符的结构存在于53%的非血液毒性化合物中，比血液毒性化合物多约13%。

3.6 错误分类分子的分析

图5 基于错误分类的(A)血液毒性化合物和(B)非血液毒性化合物的Attentive FP模型的学习权重的原子热图。被预测为血液毒性的原子结构以红色显示，而被预测为非血液毒性的则以蓝色显示。

图6 错误分类的(A)血液毒性化合物和(B)非血液毒性化合物的分子描述符对输出值的影响(基础的输出值为训练集上的平均模型输出)。推动预测为血液毒性化合物的描述符为红色，而推动预测为非血液毒性化合物则为蓝色。

尽管上述不同的分析说明了重要描述符的一致性，但对少数分子的准确预测仍然是一项艰巨的任务。为了更好地理解模型的不精确性，作者进一步分析了一些典型错误分类的血液毒性和非血液毒性分子的原子热图和SHAP值，结果如图5和图6所示。

3.7 匹配分子对分析

表5 32组影响血液毒性的最常见化学转变

注：颜色的意义在于区分MMPs规则对血液毒性的贡献。蓝色表示相应的MMP倾向于降低分子的血液毒性，而红色表示相应的MMP倾向于增加分子的血液毒性。

作者采用匹配分子对(the matched molecular pairs, MMPs)方法进一步表征分子结构与血液毒性之间的关联。MMP是一对仅因单一局部结构变化而不同的化合物，属于同一对MMP的化合物可以通过子结构A到子结构B的分子转变而相互转变。2 382个分子的所有对的比较产生了总共13 460个不同的转变。所有少于10对且标签值不变的规则都被删除，以减少意外发生错误MMP的偶然性。最终，生成了821个MMP和32个规则。规则的详细列表如表5所示。

MMPs的结果表明，大多数规则是转变为短碳链，这有利于产生具有非血液毒性的化合物。一个这样的例子是由九个碳原子组成的长链转变成由两个基团连接的单个碳原子(表5中的ID为31)，从而在所有相关分子中形成无血液毒性化合物。总的来说，研究中发现的上述化学转变与先前对血液毒性的解释一致。尽管对数据集的数量和不清楚的活性变化水平仍有一些限制，但这些可靠的转变可以很好地作为预测物理化学性质的补充工具。更重要的是，它可以为化学家提供有洞察力的建议，以改善潜在的先导化合物。

3.8 代表性子结构推导

表6 毒性分子的代表性结构

为了进一步关注特定的血液毒性子结构，作者开发了基于圆形拓扑的自动结构推导方法来识别更具体的血液毒性结构特征。最后，发现了与血液毒性相关的10个子结构及其示例化合物，并列于表6中。

4 结论

本研究收集了由2383个血液毒性和非血液毒性分子组成的数据集，并使用7种机器学习算法和9种不同的分子表示组合构建了一系列分类模型。基于Attentive FP方法的最佳分类器能够实现预测，取得验证集AUC为76.8±3.1%，测试集AUC为75.9±2.5%的结果。与基于单个描述符的模型相比，基于各种描述符组合的模型表现出更大的性能改进。

参考资料

Long T Z, Shi S H, Liu S, et al. Structural Analysis and Prediction of Hematotoxicity Using Deep Learning Approaches[J]. Journal of Chemical Information and Modeling, 2022.

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向。