Py学习  »  机器学习算法

Brief Bioinform|基于深度学习和传统打分函数的配体构象优化框架

智药邦 • 1 年前 • 167 次点击  

2022年12月10日,山东大学物理学院李伟峰、智峪生科郑良振、南洋理工大学生物科学学院慕宇光等人在Brief Bioinform杂志发表文章A fully differentiable ligand pose optimization framework guided by deep learning and a traditional scoring function。

文章基于深度学习算法设计了一个预测配体结合姿势RMSD的打分函数DeepRMSD,通过与传统打分函数Vina score结合,DeepRMSD+Vina能够取得更高的对接成功率。

1 背景介绍

计算机辅助药物设计中的一项重要任务是发现与致病蛋白具有高结合亲和力的先导化合物。由于蛋白质-配体结合亲和力预测在很大程度上依赖于配体在结合口袋中的位置,因此从配体众多对接姿势中挑选出最优结合姿势至关重要,这将影响到虚拟筛选结果的可信度。

在基于结构的虚拟筛选中,分子对接通常被用于探索配体在结合到蛋白质上时的潜在构象。当前的分子对接程序主要受制于打分函数的精度,致使较高的假阳性率。随着蛋白质-配体结构与结合亲和力数据的持续扩增,基于机器学习和深度学习的打分函数有望实现更高的精度。研究表明,打分函数的打分能力 (scoring power) 和对接能力 (docking power) 之间并没有很强的关联性。尽管一些基于机器学习和深度学习的打分函数已经被证明具有较强的打分能力,但是在对接任务中却表现很差,甚至不如传统的打分函数。因此,设计一个基于机器学习或深度学习的打分函数来选择配体的近天然构象,并明确地指导分子对接场景中的采样过程是非常有必要的。

虽然近些年基于机器学习和深度学习的打分函数层出不穷,但是它们大多聚焦于亲和力预测,当迁移到分子对接场景上时表现非常有限。此外,当前应用于分子对接场景的打分函数通常是对计算机产生的配体结合姿势进行重新打分,如GNINA。然而,基于深度学习算法来指导配体在蛋白质结合口袋中的结合行为仍然处于起步期。在大规模分子对接任务中,快速且有效地提升配体结合姿势的质量具有重要意义。

2 方法介绍

在评估对接能力时,一般认为RMSD越小的结合姿势具有更大的结合亲和力。因此,对于同一个蛋白质-配体复合物的不同结合状态,RMSD值可以近似成表征亲和力大小的另一种形式。论文作者提出的DeepRMSD是一个预测配体结合姿势RMSD的打分函数,将其与AutoDock Vina打分函数相结合 (DeepRMSD+Vina) 可以实现更高的对接成功率。鉴于DeepRMSD+Vina是对配体坐标完全可微的,因此基于该打分函数应用梯度回传构建了一个配体构象优化框架。

作者使用了PDBBind v2019中的蛋白质-配体复合物结构以及AutoDock Vina生成的对接姿势作为DeepRMSD的训练、验证集,同时使用了主流打分函数评价标准CASF-2016以及交叉对接数据集DISCO作为测试集。分子对接产生的结合姿势与天然构象之间的RMSD作为模型训练的标签。

在特征提取方面,作者首先计算了蛋白质与配体原子两两之间的距离,并对这些距离值分别作-1和-6次幂处理,然后根据特定的蛋白质-配体原子组合方式和距离处理方式分别进行求和,进而得到该原子组合的特征值 (Eq.1):

式中RA和L分别是蛋白质和配体的原子类型,i为-1或-6。将所有的特征值对接在一起形成该蛋白质-配体最终的特征向量,应用多层感知机 (MLP) 来拟合特征向量与RMSD之间的关系。这种特征描述方式使得DeepRMSD分数对分子坐标可导,从而为接下来搭建配体构象优化框架奠定了基础。

作者定义了一个长度为6+k的向量 (x,y,z,α,β,γ,θ12,…,θk) 来表征配体的构象。其中该向量的前六个值分别是第一个原子的3D坐标(x,y,z)和在空间中绕x, y, z轴旋转的角度(α,β,γ)kθk指的是配体可旋转键的数目和第k个可旋转键的扭转角度。在构建配体构象优化框架时,并没有直接对配体每个原子的坐标进行改变,而是通过对分子进行平移、旋转以及扭转分子内部的可旋转键来实现,进而保证了配体分子在优化过程中结构的合理性。

配体构象优化流程如图1所示:首先,配体分子被编码成长度为6+k的向量,这是该优化框架中对配体结合姿势最原始的表示。然后,由该向量还原出配体的3D坐标,用于提取蛋白质-配体相互作用特征以及计算Vina score。特征向量被输入到神经网络中来产生结合姿势的RMSD,将RMSD值与Vina score结合在一起作为最后的综合得分。至此,一个以配体向量为输入、以DeepRMSD+Vina的综合打分为输出的计算图构建完成。为了实现配体结合姿势的迭代优化,每当DeepRMSD+Vina打分完成,便计算综合分数对配体向量的导数,并将其作用于当前的配体向量来生成新的配体向量。当DeepRMSD+Vina分数不再显著下降时,优化停止。


图1. 基于DeepRMSD+Vina构建的配体构象优化框架

3 结果描述


3.1 DeepRMSD+Vina的对接能力评估


在CASF-2016对接测试集上的结果表明,DeepRMSD在高RMSD值的结合姿势上表现较好,相反,Vina score在低RMSD的结合姿势上表现更好 (图2a)。分子对接的主要目的是区分出一个或几个近天然结合姿势,这些结合姿势通常具有较低的RMSD值,因此打分函数在低RMSD区间的准确性十分重要。有趣的是,DeepRMSD+Vina作为两者的结合,在低RMSD区间能够取得更理想的效果。在CASF-2016 docking power测试中,DeepRMSD+Vina实现的Top 1成功率达到94.4 %(图2b,包含天然结构)和91.6%(图2c,不包含天然结构)。

图2. 在CASF-2016上的对接能力测试


3.2 DeepRMSD+Vina和配体构象优化框架在实际应用场景中的评估


在实际分子对接场景下,通过分子对接软件将配体对接到靶体上产生一定数目的结合姿势,然后通过打分函数对这些结合姿势进行打分排序,挑选出排名靠前的结合姿势。通常情况下,这些排名靠前的结合姿势仍然与天然构象之间存在或大或小的差异。因此,这些结合姿势的质量仍然有进一步提高的空间。

理想情况下,经过优化后的RMSD+Vina分数与真实RMSD值同时下降,代表优化成功。但是,受制于蛋白质结合口袋的形状与大小,很多情况下配体的活动范围有限,这使得优化后的RMSD+Vina值未必会下降。因此,作者只考虑优化后RMSD+Vina下降的样本来统计优化成功率。作者在重对接 (redocking) 和交叉对接 (cross-docking) 任务中测试了配体构象优化框架的优化成功率 (图3a和3d)。可以看出,对于RMSD在1-4之间的结合姿势,优化框架表现优异,有能力进一步提高结合姿势质量。在redocking(图3b,3c)和cross-docking(图3e和3f)对接成功率上,DeepRMSD+Vina显著优于基准打分函数Vina score和DeepBSP。

图3. DeepRMSD+Vina和配体构象优化框架在redocking和cross-docking任务中的表现


3.3 优化结构分析


理想情况下,成功优化的结构能更接近天然构象,并且有更强的分子间相互作用。这些高质量的结合姿势在优化过程中或许会受到一些关键相互作用的影响,比如氢键、π-π堆叠等。图4展示了一个结合姿势优化前后氢键形成情况。可以明显地看出,优化后的结构具有更多的氢键,符合蛋白质-配体结合的基本物理规律。

图4. 结合姿势 (PDB: 1OWH) 优化前后氢键形成情况。青色表示配体结合姿势,绿色与配体形成氢键的关键残基,橙色虚线表示氢键。

4 结语

该论文基于深度学习算法设计了一个预测配体结合姿势RMSD的打分函数DeepRMSD,通过与传统打分函数Vina score结合,DeepRMSD+Vina能够取得更高的对接成功率。论文中强调了对分子坐标可导的打分函数在未来分子对接和分子优化领域的重要性。作者基于DeepRMSD+Vina设计了一个配体构象优化框架来优化配体在受体结合口袋中的构象,这为深度学习算法在分子结构优化领域提供了范例,并有助于提高未来分子对接程序的性能,助力基于结构的虚拟筛选。

参考资料

Wang Z, Zheng L, Wang S, Lin M, Wang Z, Kong AW, Mu Y, Wei Y, Li W. A fully differentiable ligand pose optimization framework guided by deep learning and a traditional scoring function. Brief Bioinform. 2022 Dec 10:bbac520. doi: 10.1093/bib/bbac520.


--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向


- 历史文章推荐 -


AI药物设计

●JCIM|DockIT:虚拟现实交互的柔性分子对接

●JCIM丨DRlinker:深度强化学习优化片段连接设计

●Drug Discov Today | 基于对接的生成模型用于新药发现

●JCIM|MILCDock:用于药物发现中虚拟筛选的机器学习一致性对接

●Brief Bioinform | CoaDTI:预测药物-靶点相互作用的多模态协同注意力框架

●Drug Discov Today | 机器学习预测小分子pKa的进展和挑战

●BMC Bioinform | 拓扑增强的分子图表示用于抗乳腺癌药物的筛选

●Drug Discov Today | 分子表示与性质预测中的深度学习方法

●Front Pharmacol|DDIT:药物-疾病之间多种临床表型关联预测工具

●Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用

●国内首个可交互式计算的VR药物设计软件发布

●Front Pharmacol|基于图片段分子表示和深度进化学习的多目标药物设计

●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现

●Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力

J Med Chem|静电互补在基于结构的药物设计中的应用

●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法

●JCIM|基于图注意机制的有机化合物合成可及性预测

●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战

JCIM|利用深度学习进行基于结构的从头药物设计

Drug Discov Today|辉瑞:如何成功的设计小分子药物

诺华:技术时代的药物设计艺术

CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估

JMC|用于从头药物设计的生成模型

●用机器学习预测药物在靶点上的停留时间

●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学

●Drug Discov Today|用于从头药物设计的图神经网络GNN


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/150496
 
167 次点击