bioRxiv｜用可解释性深度学习架构改善药物反应预测，神话还是现实？

2022年10月6日，加拿大麦吉尔大学的研究人员Amin Emad在bioRxiv上发布论文Interpretable deep learning architectures for improving drug response prediction: myth or reality。论文基于四个最新的可解释性模型，全面系统地评估了将信号通路信息纳入模型体系结构对细胞反应预测模型性能的影响，且旨在回答五个主要问题：

1.当严格和全面地评估时，纳入生物通路信息是否会改善模型性能？

2.哪种通路整合策略最能提高模型性能？

3.可解释模型是否更适合于预测未知细胞系或未知药物的反应？

4.可解释模型的性能是否可以归因于通路数据集中存在的生物信息，或者通过使用随机生成的通路数据也可以实现类似的改进，反映性能的来源是技术（而不是生物信息）？

5.哪种通路数据库对提高模型性能最有帮助？

1 摘要

深度学习的最新进展使得对癌症细胞系(cancer cell lines, CCLs)-药物(drug)反应的预测更加准确。然而，这些模型的黑箱性质仍然是精确癌症医学采用的一个障碍。最近的努力集中在通过将信号通路信息(signaling pathway information)纳入模型体系结构来使这些模型可解释。虽然这些模型提高了可解释性，但尚不清楚这种更好的可解释性是以较不准确的预测为代价的，还是可以获得预测改进。

在这项研究中，作者全面系统地评估了用于药物反应预测(drug response prediction, DRP)的四个最新的可解释模型来回答这个问题，本文使用了三个收集的通路数据集。结果表明，以隐含层的形式显式包含通路信息的模型比隐式包含通路信息的模型表现得更差。此外，在大多数评估设置中，使用简单的黑盒模型可以获得最佳性能。用随机生成的信号通路替代真实信号通路对大多数可解释模型显示出差不多的性能。

论文的结果表明，新的可解释模型对于提高药物反应预测性能是必要的。此外，本论文的研究提供了不同的基线模型和评估设置来证明这些新模型的优越预测性能。

2 方法

2.1 数据预处理和统一数据集

作者进行了数据预处理，得到了统一的数据集。收集的数据特征如下，对于细胞系，主要包括三类特征：基因表达、体细胞突变和拷贝数变异；对于药物，主要包括两类特征：药物靶标信息和摩根指纹信息，详情见表S2。

表S2 统一数据集的数据模态和来源

表1总结了统一数据集中每个通路数据集的癌症细胞系、药物、基因和通路的数量，而补充表S3提供了所包含的CCL和药物的详细信息。对于通路数据，数量详情见表1。

表1 三个通路特异的统一数据集的概览

图1概述了统一数据集的收集过程以及本文所采用的三种常规数据划分方法用于评估模型性能。

图1 构建通路特异的统一数据集和数据划分方法。(A) 选择具有药物反应(drug response)、基因表达(gene expression)、体细胞突变(somatic mutation)和拷贝数变异CNV数据的CCLs。(B) 不同数据来源之间公共的基因。不存在于通路的基因被删除。(C) 在步骤B和STRING实验验证的PPI网络中获得的公共基因组中没有药物靶标的基因被删除。(D) 选择具有有值和药物-靶标信息的药物和小分子。（E）模型的输入数据被随机分成五折，训练、验证和测试集的比例为3:1:1。

2.2 可解释性模型及其变体概览

本文选择了4个最先进的基于通路的模型，包括两个显式通路模型(PathDNN、CDS)和两个隐式通路模型(HiDRA、PathDSP)。作者还考虑了两类基准模型，一个是5层感知机模型，另一个是朴素预测器模型(其仅简单地计算训练集中药物敏感性作为测试集中的预测值)。所有模型情况如表2所示。显式模型通常定义了一个连接的基因和通路层来反映基因-通路成员关系(gene-pathway membership)，如图2所示。

表2 本文所用的评估模型。表示通用基准模型，表示特定的随机通路基准模型，表示原始的基于通路的模型，表示变体模型；GEx表示基因表达特征，CNV表示拷贝数变异特征，Mut表示体细胞变异特征，T表示药物靶标特征，FP表示摩根指纹特征。

图2 使用通路和基因层的显式通路模型概览。第一隐含层(通路层)中，每个节点表示一条通路。一个二值基因-通路连接矩阵(0表示无连接，1表示连接)基于通路成员关系定义了基因和通路层。接着，通路层与一组全连接层相连以产生最终的药物反应预测。

3 结果

基于六个模型及其变体(表2)、三种数据划分方式(图1E)、三个通路数据集(表1)、癌细胞系三类特征(基因表达、体细胞突变和拷贝数变异)、药物两类特征(药物靶标信息和摩根指纹信息)，作者在论文中进行了广泛的实验、细致的分析，并得到以下结论：

1.包含KEGG通路信息的隐式模型优于显式模型；

2.化合物的摩根指纹特征比药物靶标特征更能预测未知细胞系的反应；

3.集成多个数据模态提高了模型PathDSP和CDS的性能；

4.随机生成的通路信息为预测未知细胞系中的药物反应提供了与生物通路信息相当的结果；

5.总体而言，通路数据集的不同并不会引起大多数模型性能的剧烈变化。

4 讨论

最近，为了使药物反应预测具有更高的可解释性和更高的预测性能，研究者提出了一些深度学习方法。在这项研究中，作者着手研究四种方法，这些方法试图通过在不同的实验设定下纳入通路信息来实现这两个目标。这些模型被用来预测三种方式的药物反应(包括未见过的CCL-药物对、未见过的CCL、未见过的药物)。作者将这些方法与三种类型的基准模型进行了比较。

本研究着重于从模型性能的角度评价纳入通路信息的效果，并没有根据这些模型的可解释性水平来评价它们。关注这些模型的可解释性方面的研究将是非常有见地的，并对目前的研究起到补充作用。另一方面，作者认为，虽然可解释性是精准医学中一个非常关键的目标，但新的模型有必要实现更高的可解释性的同时，提高药物反应预测的性能。此外，这些模型与黑盒模型相比显示出更好的性能是不够的，他们还需要针对随机生成的通路和朴素预测器评估他们的模型，以控制不同类型的偏差。

参考资料

Li Y, Hostallero D E, Emad A. Interpretable deep learning architectures for improving drug response prediction: myth or reality?[J]. bioRxiv, 2022.

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向。