BioRxiv｜PointVS：识别重要的蛋白质-药物关联的机器学习打分函数

2022年10月31日，牛津大学Jack Scantlebury等人在BioRxiv上发表文章PointVS: A Machine Learning Scoring Function that Identifies Important Binding Interactions。作者提出了PointVS，一个基于机器学习的蛋白质-药物关联评分函数。

PointVS使用等变图神经网络从给定的蛋白质靶标中提取重要的结合药效团。作者使用这些信息来执行片段细化，并分析相比于使用传统基于数据的结构信息方法而言，PointVS对接的改进。PointVS是第一个通过深度学习从分子设计靶点中提取结构信息的方法。

背景

在过去数年中，许多新的基于机器学习的评分函数可用于预测小分子与蛋白质的关联，其目标是近似两个分子作为输入和输出的分布，推算它们相互作用的能量。这种分布取决于结合所涉及的原子间相互作用，解释这些相互作用的评分函数可以准确地预测对不可见分子的结合亲和力。

方法

图是表示分子的自然方式。作者使用基于E（n）-等变图的图神经网络（Equivalent GNN，EGNN）层。EGNN层也是置换等变的，这意味着网络对输入节点的映射不随着其输入顺序而变。

在此基础上，PointVS是一个轻量级的E（n）-等变图神经网络模型，总体框架如图1所示。

图1. PointVS模型

（a）筛选测试和训练集。（b）在对接和评分任务上进行基准测试。（c）使用节点属性，以获得对蛋白质口袋中重要结合区域的深入了解。（d）将学到的知识用于片段细化。

PointVS中输入中的n个原子被赋予一个添加了单个位的编码特征向量，以指示原子来自配体还是受体，以及位置p0（一个三维向量）。EGNN有四个输入：位置、节点嵌入、边缘索引和边缘嵌入。如果有n个原子在输入结构中，位置是n×3矩阵，包含每个原子的x、y和z坐标。节点嵌入是一个n×12矩阵，包括原子不同类型的独热编码，并区分配体和受体原子。

图上的边表示化学键，亦代表配体-配体、配体-蛋白和蛋白-蛋白间的连接。对配体-蛋白边使用10埃的阈值，对配体-配体和蛋白质-蛋白质边使用2埃的阈值，大于该阈值即认为没有连接，以这种方式描述分子间相互作用。边缘张量是m条边的3×m矩阵，以独热编码表示这是配体-配体、配体-蛋白质或蛋白质-蛋白质相互作用。

结合袋被定义为蛋白质的集合，任何配体原子的6埃内的原子被囊括，剩下的则被忽略。每层EGNN之间都有残差连接，最后一层线性层之后，节点特征矩阵通过全局平均池化层，以得到图级别的特征向量，采用sigmoid激活函数，从而将输出压缩到y∈ [0,1]区间。

该体系结构包括残差连接用于学习节点特征，以避免梯度爆炸或梯度消失，防止过拟合，和进行表层和底层表征的更丰富组合，同时，使用浅层神经网络作为注意力机制，在这种情况下，模型学习对蛋白质-药物对进行评分，表示原子相互作用的重要性。

有充分的证据表明，虚拟筛选可以区分基于或者不基于蛋白质-配体相互作用的蛋白质-配体对，但在缺乏蛋白质受体信息的情况下，准确度会降低。机器学习中的蛋白质-配体关联预测和虚拟筛选是一个持续存在的问题，大多数深层神经网络都会导致单个原子的信息丢失，随着网络的加深，在原子层面上的表示学习变得越来越困难。相比之下，PointVS能够保持不同的节点（原子）信息，直到最后的层。通过整个网络的消息传递，信息得到丰富，并且与蛋白质-配体关联预测相关的原子节点特征，可以直接作用于机器学习打分。边的信息也可以探测原子或者分子相互作用的重要程度，成为描述非共价键的直观方法。我们还可以使用所分配的重要知识，通过PointVS识别重要的原子。同时，进一步使用两种方法进行特征表示学习：原子掩膜和边注意力。

为了强化对片段的学习，识别有关蛋白质重要区域的信息目标口袋是关键。作者利用PointVS在属性表示学习上的得分，识别这些重要位点。通过对给定结合小分子的蛋白质晶体结构进行学习，对于距离任何配体原子小于6埃的蛋白质原子，获得结合信息的重要性得分。如果对所述目标进行了碎片筛选，那就可以对几个晶体重复这一过程，以获得各目标蛋白质的平均重要性得分。

结果

作者将所提出的PointVS（包括分别使用CoreR和Core80）与现有的多种方法进行了比较，对于每一种方法，分别对比了引入或者不引入晶体姿态作为特征的情况。

结果如表1所示，表明PointVS的性能超过了现有模型，亦表明引入晶体姿态作为特征能够有效提升模型的性能。作者将片段细化（fragment elaboration）的结果与现有工具HotspotsAPI做对比， PointVS显著优于HotspotsAPI的结果。

表1. 不同方法对比

表2. 片段细化对比

总结

在本文中，作者提出了PointVS，一种基于等变图神经网络（EGNN）的蛋白质-配体亲和度预测方法。PointVS能更好地学习分子间的结合规则，而不是记忆训练数据，从而能够有效避免过拟合。

PointVS能够识别与蛋白质-配体亲和度相关的重要的相互作用，这可以在药物发现的其他阶段发挥作用，亦可以进一步做到片段细化。PointVS改进了精确预测分子的对接分数的机制，能够识别重要的结构信息的方法，有助于以片段细化的方式将药物靶向到特定蛋白。

更广泛地说，作者的研究表明，这些技术可推动以可用的分子生成的方式提取结构信息。

参考资料

[1] Scantlebury et al. PointVS: A Machine Learning Scoring Function that Identifies Important Binding Interactions. BioRxiv. 2022

[2] Satorras et al. E(n) equivariant graph neural networks. ICML. 2021

[3] Curran et al. HotspotsAPI: A python package for the detection of small molecule binding hotspots and application to structure-based drug design. J. Chem. Inf. Model. 2020

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。