You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 
 

36 KiB

title date updated tags categories keywords description top_img comments cover toc toc_number toc_style_simple copyright copyright_author copyright_author_href copyright_url copyright_info katex highlight_shrink aside
BridgeDPI 2020-10-15 19:48:22 2022-05-22 11:15:31 [图神经网络 drug-taget interactions prediction 特征学习 超节点] 论文阅读笔记 <nil> <nil> <nil> <nil> <nil> <nil> <nil> <nil> <nil> <nil> <nil> <nil> <nil> true <nil> <nil>

摘要

动机:探索药物-蛋白质相互作用(DPIs)提供了一种快速而精确的方法来帮助实验室实验发现新药。基于网络的方法通常利用药物-蛋白质关联网络,通过相关蛋白质或药物的信息预测DPI,称为“关联内疚”原则。然而,“关联内疚”原则并不总是正确的,因为有时相似的蛋白质不能与相似的药物相互作用。最近,基于学习的方法通过利用已有的表征相互作用的数据库来学习DPIs的分子特性,但忽略了网络级信息。 结果:我们提出了一种新的方法,即桥接DPI。我们设计了一类虚拟节点来弥合药物和蛋白质之间的鸿沟,并构建了一个可学习的药物-蛋白质关联网络。该网络基于来自下游任务DPI预测的监督信号进行优化。通过药物-蛋白质关联网络传递的信息,图形神经网络可以捕获不同药物和蛋白质之间的网络级信息。通过结合网络级信息和基于学习的方法,BridgeDPI在三个真实DPI数据集中实现了显著的改进。此外,案例研究进一步验证了BridgeDPI的有效性和可靠性。 可用性和实施:BridgeDPI的源代码可访问https://github.com/SenseTimeKnowledge-Mining/BridgeDPI.本研究中使用的原始数据可在https://github.com/IBM/可解释的DTIP(用于BindingDB数据集),https://github.com/masashitsubaki/CPI_prediction(对于线虫和人类)数据集,http://dude.docking.org/(对于DUD-E数据集),分别为。联系人:limin@mail.csu.edu.cn或zhangjie1@sensetime.com

1 Introduction

传统上,开发一种新药需要数十年和数十亿美元(Avorn,2015;Paul等人,2010)。在新药开发过程中,药物-蛋白质相互作用(DPI)预测是至关重要的一步。传统的测定DTI的实验方法是在湿法实验中测定半数抑制浓度(IC50)或抑制常数(KI)。尽管实验分析仍然是检查DPI的最可靠的方法,但由于需要对所有可能的药物-蛋白质对进行单独实验,因此它们既耗时又成本高。因此,探索药物与蛋白质的相互作用机制,开发有效的计算方法来预测药物与蛋白质的相互作用具有重要的现实意义和迫切的需求。

药物与蛋白质之间的相互作用机理非常复杂,因此开发一种能够准确测定DPI的高效计算方法是一个巨大的挑战。目前预测DPI的计算方法分为三类:基于对接的方法、基于网络的方法和基于学习的方法。基于对接的方法通常使用分子动力学模拟来重建蛋白质与药物在空间中的接触关系。这些方法旨在寻找药物分子蛋白质结合口袋内的最佳结合位置(Gschwend等人,1996;LED和Caflisch,2018)。然而,它们需要精确的蛋白质3D结构,这是很难获得的,而一些蛋白质甚至没有3D结构(Liu和Altman,2015;Mizianty等人,2014;Zhang等人,2012)。与基于对接的方法不同,基于网络的方法绕过了直接重建他们的联系关系的方法,它基于一些先验的DPI数据,使用“内疚-联想”原则来预测DPI(Ballester和Mitchell,2010;Bleakley和Yamanishi,2009;Ding等人,2014;Durant和McCammon,2011;Luo等人,2017,2019)。关联内疚原则假设,如果一个目标与另一个目标有相似的特征,前一个目标很可能与一种药物相互作用,后者可以直接与后一种目标相互作用(Luo等人,2021年;Wang和Lukasz,2019)。因此,这些方法通常需要构建一个包含现有药物和蛋白质的网络,并计算药物和蛋白质-蛋白质对的相似度分数。然而,“关联内疚”原理依赖于相似性分数的质量,不能轻易地应用于低频率或看不见的蛋白质。此外,“关联内疚”原则并不总是正确的,因为也有一些类似的蛋白质不能与类似的药物相互作用(Maggiora等人,2014年)。最近,随着大量数据的积累,基于学习的方法被成功地应用于DPI预测(Li等人,2020,2022;wan等人,2019;Wang等人,2021;Wang和Zeng,2013;Yuvaraj等人,2021)。基于学习的方法通常将蛋白质序列和药物分子作为DPI预测的输入。与基于网络的方法相比,基于学习的方法主要侧重于通过先验数据学习单个药物-蛋白质对的相互作用机制,而忽略了一些网络层面的信息,即联想内疚原理,这是推断DPI的关键。因此,设计一种将联想负罪感原则引入基于学习的方法中的模式是非常重要和必要的。

在本文中,我们开发了一种深度学习框架BridgeDPI,它同时结合了基于网络的方法和基于学习的方法的优势,来预测DTI。与以前的基于学习的方法相比,我们将蛋白质序列和药物分子引入到有监督的药物-蛋白质关联网络中。该网络提供蛋白质和药物的邻域信息,这使得该模型不仅可以学习药物-蛋白质对的相互作用机制,还可以提供网络级的视角来帮助学习。在构建监督网络的过程中,我们引入了一类称为桥节点的节点。桥节点被设计为连接所有蛋白质或药物,并从网络级角度测量蛋白质/药物之间的关联。从基于网络的角度来看,通过桥梁节点,我们可以从蛋白质到药物获得两种类型的路径:显式路径和隐式路径。如图1所示,考虑到蛋白质-药物对P1-D1,我们可以从P1到桥节点到D1,其中桥节点明确地测量P1和D1之间的相互作用,从而学习相互作用机制来决定是否这对互动。像P1这样的路径将节点桥接到D1被定义为显式路径。从另一个角度来看,我们也可以从P1到桥节点到P2到桥节点到D2到桥节点到D1,桥节点不仅测量蛋白质(即P1-P2)/药物(即D2-D1)之间的关联,还测量蛋白质和药物(即P2-D2)之间的相互作用。这样,P1-P2,P2-D2和D2-D1可以隐式推断P1和D1之间的交互。这种类型的路径是隐式路径。总之,由于桥节点,BridgeDPI不仅学习深度交互机制,而且从网络级角度协助DPI预测。这使得BridgeDPI更全面地掌握特征以执行DPI预测,并且预测结果也更可靠。 image.png

我们在四个不同的数据集中提供与其他基线的综合比较结果。与最先进的(SOTA)结果相比,BridgeDPI在BindingDB数据集中实现了97.5%(高1.9%)的接收器操作特性曲线(AUROC)得分下面积,99.5%(高0.7%)在C.ELEGANS数据集中,在人类数据集中高99.0%(高1.1%)。此外,我们使用有用诱饵目录,增强型(DUD-E)数据集作为独立测试集来评估泛化。在BindingDB数据集上训练的BridgeDPI获得77.2%的AUROC分数(高3.2%)。总之,所有结果表明BridgeDPI在预测DPI方面是有效和可靠的。

2 Materials and methods

2.1 DataSet

**BindingDB:**BindingDB数据集从相应的研究论文中收集了2286319个药物-蛋白质对的亲和力数据,其中包括8536个蛋白质和989383个药物(Gilson等人,2016年;原始的BindingDB可以在https://www.bind ingdb.org/Bind/Index.jsp上访问,Gao的BindingDB版本可以从https://github.com/IBM/InterpretableDTIP)..)下载。在此基础上,Gao et al.。(2018)选择有IC50值的数据,将IC50值转换为1表示相互作用(IC50<100 NM),0表示不相互作用(IC50>10000 NM),构建二分类数据集。数据集包含39747个阳性样本和31218个阴性样本,分为训练集(28240个阳性样本和21915个阴性样本)、验证集(2831个阳性样本和2776个阴性样本)和测试集(2706个阳性样本和2802个样本)。我们使用这个数据集进行主要的正面比较。

**C.ELEGANS and HUMAN datasets: **线虫和人体数据集已被广泛用于DPI预测(线虫和人体数据集的平衡版本可从https://github.com/masashitsubaki/CPI_prediction)..)下载。这两个样本都是通过电子筛选方法将一组高度可信的阴性药物-蛋白质样本与已知的阳性样本相结合而构建的(Liu等人,2015年)。我们跟踪Tsubaki等人。(2019),并用均衡版本做研究。线虫数据集有7786个药物-蛋白质对,包括1876个蛋白质和1767个药物。人类数据集有6728个药物-蛋白质对,包括2001个蛋白质和2726个药物。线虫数据集和人体数据集都被随机分成5倍交叉验证。

DUD-E dataset:DUD-E是一个广泛使用的数据集,涵盖102个蛋白质和22886个簇状配体(MySinger等人,2012年;DUD-E数据集可在http://dude.docking.org/)..)上访问。每种活动都有50个诱饵,它们具有相似的物理和化学性质,但不同的2D拓扑结构。共有1429790个蛋白质配基样本(阳性样本22645个,阴性样本1407145个)。通过湿法实验或计算方法对样品进行了验证。DUD-E被用作一个独立的测试集来评估我们的模型在现实中的执行情况。在本文中,我们在BindingDB数据集上训练BridgeDPI,并在DUD-E数据集上进行测试。

2.2 Framework of BridgeDPI

针对DPI预测任务,提出了一种端到端深度学习框架BridgeDPI。整体学习架构如图2所示。BridgeDPI以蛋白质序列和药物微笑(Weininger,1988)为输入,并预测它们的相互作用。它由药物特征提取部分、蛋白质特征提取部分、药物-蛋白质桥图构造部分和分类部分组成。在药物和蛋白质特征提取部分,分别采用了卷积神经网络(CNN)层和前馈网络(FFN)层对药物微笑和蛋白质序列进行特征提取。在药物-蛋白质桥接图的构建部分,引入了一些桥节点来搭建蛋白质和药物之间的桥梁,从而可以使用图神经网络(GNN)来捕捉网络级别的信息来预测DPI。对于分类部分,我们得到GNN后蛋白质和药物图嵌入的元素乘积,然后将其馈入具有S形激活的线性层来预测相互作用。在本节中,我们将描述BridgeDPI中每个组件的详细信息。

2.2.1 Feature extraction of proteins

在将蛋白质送入BridgeDPI之前,我们需要将它们描述为数字载体。为了更好地描述蛋白质序列的性质,我们从局部和全局两个角度对其进行矢量化。对于局部视图,我们使用了一些CNN过滤器来捕捉蛋白质序列中的关键局部模式。首先,用One-Hot码编码蛋白质的主要氨基酸序列。然后,采用一维最大汇集CNN进行局部特征提取。最后,我们用两层模糊神经网络对CNN的输出进行变换,得到蛋白质的最终局部特征。对于全球视角,我们选择蛋白质的k-mer统计作为其全球特征,因为k-mer信息揭示了全球特征的分布,并衡量生物相似性以用于区分(Leslie等人,2004年)。在我们的研究中,我们设置了k?1,2,3,它们分别生成20-(k?1),400(20?20,k?2)和8000?(20?20?20,k?3)维向量。这些向量被归一化并连接在一起,以从全局角度表示蛋白质。这里,我们放弃了k4,因为它生成的维度太多(16万),使方法过于复杂,容易导致过拟合和耗时的训练。具体地说,对于长度为Lp的蛋白质I,其最终表示PI 2 Rdh被矢量化为: image.png

2.2.2 Feature extraction of drugs

在代表蛋白质之后,药物分子也需要被矢量化。类似地,我们还从药物分子中提取了局部视图和全局视图的特征。与蛋白质序列不同,药物分子是以原子为节点、以化学键为边的图形。这意味着类k-mer信息的统计不再适用。因此,我们选择了另一种全局视图的表示技术:分子指纹。分子指纹将药物分子编码成一系列二进制数字,其中隐含着一些子结构和拓扑信息(Rogers和Hahn,2010)。至于局部视图的表示,类似于蛋白质,我们也使用了一些CNN。首先,我们将药物的每个原子编码成一个75维的向量,其中包含原子和键的物理化学特征(Ramsundar等人,2019年)。然后,利用极大合并的细胞神经网络从75维向量中提取特征,并将提取的特征送入3层模糊神经网络,得到药物分子的最终局部特征。具体地说,对于具有ld原子的药物j,其最终表示dj 2 rdh定义为: image.png image.pngimage.png image.png

2.2.3 Bridge graph’s construction

在获得蛋白质和药物的最终表示后,下一步是引入网络级信息。为此,我们构造了一个有监督的药物-蛋白质关联网络,称为桥图。具体地说,我们在所构建的网络中引入了一类称为桥节点的节点来监督蛋白质/药物之间的关联以及药物-蛋白质对之间的相互作用。桥节点实际上是PI和DJ空间中的一些dh维向量,它们的关联被定义为它们之间的余弦相似性: image.png 其中Pi2Rdh和Dj2Rdh是蛋白质I和药物j的最终表示,Bk2Rdh表示桥节点,是计算向量的内积,Jj jj2是计算向量的二次正规值。网桥节点的向量从正态分布Nα0;1?随机初始化。在我们的模型中,我们使用m个桥节点(即B1;B2;…;Bm)来联合度量关联和相互作用:对于蛋白质-药物对i j,它们的相互作用可以用api;bk和adj;bk来度量;对于另一个蛋白质-药物对,它们的相互作用也可以用同样的方法来度量;而且,如果我们考虑两个桥节点,以桥节点为媒介,蛋白质i和蛋白质u之间的关联可以由api;bk和apu来推断;Bk,并且可以用同样的方式推断Drugj和Drugv之间的关联。换言之,将关联和相互作用的信息或网络级信息嵌入到由m个桥节点和蛋白质/药物节点构建的网络中,从而可以使用GNN来捕获信息。

具体来说,对于蛋白质-药物对和m个桥接节点,我们首先计算它们之间的余弦相似度,得到图的加权邻接矩阵: image.png 式中,A是加权邻接矩阵,a是定义为公式(5)的节点之间的余弦相似度。为了收敛的稳定性,我们过滤掉负边缘,并对A ij?进行归一化: image.png image.png 然后,为了捕获网络级信息,将3层GNN实现为: image.png image.png

2.2.4 Classification

在将网络级信息聚合到蛋白质和药物表示后,最后一件事是推断药物-蛋白质对是否相互作用。我们使用药物和蛋白质最终向量的元素乘积来模拟相互作用机制,并在两层FFN之后预测相互作用概率: image.png 这里是计算两个矢量的元素乘积,FFN输出是一个两层FFN,第一层是RELU激活,第二层是Sigmoid激活,^y ij?2R是预测的相互作用几率。为了使预测的交互概率接近真实的交互概率,我们使用一个二进制交叉熵损失函数作为训练目标,并加入L2正则化以提高模型的稳健性。 image.png 其中P是训练集中的所有蛋白质-药物对的集合,y ij?2R是蛋白质-药物对的真实相互作用值,H是模型中所有参数的集合,k是平衡各项的可调正则化系数。

2.3实现细节

我们使用Pytorch 1.6.0(Paszke等人,2019)来实现BridgeDPI。我们的实验使用了学习率为0.001的Adam(Kingma和Ba2019年)优化器。并且将L2正则化系数k设置为0.001。对于每个纪元,蛋白质-药物对的数据被随机洗牌,批次大小设置为512。BridgeDPI将被训练100个历元,在验证集上具有最佳AUROC的模型将被保留。对于其他超参数的设置,如层数、神经元数、丢失率等,根据验证集上的性能进行了实验选择。所有的实验进程都运行在一个NVIDIA GeForce RTX 1080 Ti GPU上。而BridgeDPI的最终超参数设置如表1所示。对于蛋白质,我们使用一维CNN,它有64个宽度为25的过滤器来提取其局部特征。然后,使用一层模糊神经网络将局部特征变换到128维空间。 image.png 对于蛋白质的全局特征,我们引入了两层FFN用于非线性变换,分别包含1024个和128个神经元。对于药物,我们使用具有64个宽度为25的过滤器的一维CNN来提取其局部特征。然后,使用一层模糊神经网络将局部特征变换到128维空间。针对药物的全局特征,我们引入了一个三层网络进行非线性变换,分别包含1024个、256个和128个神经元。它们的输出都是128维向量,作为蛋白质/药物节点在桥接图上的嵌入。对于桥接图,我们引入了64个桥接节点,与图中的蛋白质/药物节点具有相同的128维。然后,我们使用一个三层GNN来捕获网络级信息,这意味着每个节点向外最多可以聚集三个深度的邻居信息。最后,通过128,1个神经元的两层FFN得到了蛋白质与药物相互作用的分数。此外,我们还使用辍学技术(Sriastava等人,2014)来改进BridgeDPI的泛化,并将辍学率设置为0.5。

3 结果

3.1 BindingDB数据集的性能 为了评估BridgeDPI在预测DPI方面的性能,我们在BindingDB数据集上将BridgeDPI与一些方法进行了比较,这些方法包括Tiresas(Fokoue等人,2016)、E2E(Gao等人,2018)、CPI-GNN(Tsubaki等人,2019)、DrugVQA(郑等人,2020)、GraphDTA(Nguyen等人,2021)和TransformerCPI(Chen等人,2020)。此外,我们认为一个实用的模型应该能够处理未知的蛋白质,因为自然界中有大量的未知蛋白质。因此,我们跟踪郑等人。(2020)将测试集分为已见蛋白测试集和未见蛋白测试集,并研究了BridgeDPI在这两个测试集中的性能。表2显示了BridgeDPI和其他基线在这两个测试集上的结果。符号‘-’表示没有结果,这意味着实验结果没有出现在引用的论文中。总体而言,BridgeDPI在测试集中达到了SOTA性能。BridgeDPI的准确率(ACC)、AUROC和精度召回曲线下面积(AUPR)分别达到93.0%、97.5%和97.3%,明显优于以前的方法。 image.png

对于可见蛋白质测试集,我们发现所有模型的结果都很好,AUROC和ACC通常超过90%。Tiresas通过构建大规模关联网络来推断DPI,其AUROC相对较低,为93.9%。潜在的原因是蛋白质和具有高相似性信息的药物之间并不一定存在DPI。这也证明了仅仅依靠关联内疚原则来推断DPI是不够的。其他基于学习的方法通过先验DPI信息充分学习DPI的机制,将AUROC提高到97%左右,这表明学习建模相互作用机制对于DPI预测是重要和必要的(除了E2E,我们推测原因是E2E模型过于偏向于未知蛋白质的表现,而忽略了已见蛋白质)。其中,BridgeDPI的AUROC和ACC性能最好,分别达到98.9%和96.1%。与其他基线相比,BridgeDPI不仅注重学习互动机制,还结合了网络层面的视角来辅助学习。因此,我们的模型可以获得更全面的蛋白质和药物的特征表达,聚集了网络级的信息。这些表述将更有助于对DPI机制的学习。

对于看不见的蛋白质测试集,很明显,这些方法的性能差异很大。Tiresias产生的AUROC最差,为68.0%,这意味着该方法无法轻松应用于看不见的蛋白质。这很容易理解,因为看不见的蛋白质是药物-蛋白质关联网络中的一些孤立节点,缺乏足够的邻居信息来推断它们如何相互作用。其他基于学习的方法通过学习药物和蛋白质的相互作用机制进行了一些改进。其中,BridgeDPI优于其他方法,实现了SOTA性能,在未知蛋白质中,AUROC和ACC分别达到95.8%和89.3%,比之前的最佳方法(DrugVQA)高3.9%和3.8%。这表明引入桥节点确实通过结合网络级信息和学习的交互机制提高了在看不见的蛋白质集上的性能。此外,构建的桥图还使BridgeDPI能够了解一些更深层次的交互规则,因为GNN中的每个信息聚合就像蛋白质或药物之间的交互,或者蛋白质和药物之间的交互。这就是为什么BridgeDPI在预测可见蛋白质测试集和不可见蛋白质测试集的DPI时更准确。

3.2 Performance on the C.ELEGANS and HUMAN datasets

此外,我们还在许多研究中广泛使用的线虫数据集和人类数据集(Liu等人,2015)上进行了实验。我们选择k-近邻、随机森林、Logistic回归、支持向量机、E2E/GO、CPI-GNN、DrugVQA、GraphDTA和TransformerCPI作为基线。结果如表3所示。(2018)没有提供E2E的代码,我们再现了他们的模型,并在两个数据集上获得了实验结果。我们使用GraphDTA(Nguyen等人,2021)和TransformerCPI(Chen等人,2020)GitHub的代码在BindingDB数据集上生成他们的结果。其他基线的结果来自于它们的原始论文。从表3可以看出,对于随机划分的线虫和人类数据集,测试集中几乎所有的蛋白质都是蛋白质,这意味着模型可以很好地从训练数据集中学习到几乎所有的蛋白质信息,产生了非常好的结果。在这种情况下,无监督k-NN比其他模型略差,在线虫数据集上的AUROC和F1分别为85.8%和81.4%,在人类数据集上的AUROC和F1分别为86.0%和F1 85.8%。相比之下,传统的有监督机器学习方法(即RF、LR和支持向量机)稍好一些,线虫数据集的AUROC达到90.0%左右,人类数据集的AUROC超过91.0%。深度学习方法E2E/GO、CPI-GNN、DrugVQA、GraphDTA、TransformerCPI和BridgeDPI都达到了很好的性能,AUROC超过96.0%,F1超过89%。其中BridgeDPI的性能最好,在线虫数据集上的AUROC、F1分别为99.5%、97.0%,在人体数据集上的AUROC、F1分别为99.0%、94.9%。结果符合我们的预期。由于KNN、RF、LR和支持向量机等模型没有高质量的特征,很难学习DPI之间复杂的非线性关系,而深度学习模型具有很强的特征提取能力来学习交互规则。在此基础上,BridgeDPI集成了网络级信息和学习的交互机制,进一步改进了结果。 image.png

3.3 Performance on an independent test set

虽然我们在这些基准数据集上取得了很好的结果,但这些数据集存在严重的数据偏差,这将导致性能膨胀(Chen等人,2019;Yang等人,2020)。为了考察模型的真实性能,我们进行了以下实验:在BindingDB数据集上训练模型,在DUD-E数据集上测试模型。此外,我们还提出了一个称为PP@k的评价指标,它被定义为前k个预测的平均蛋白质水平精度(如公式12所示)。PP@k从蛋白质水平反映了k种召回药物模型的准确性,可以合理评价DPI预测方法在药物筛选中的可靠性。 image.png 其中m是蛋白质的数量,^sk rðiÞ是由蛋白质i,yðijÞ2f0模型召回的k种最可能的药物的集合;1g是蛋白质i和药物j对的真正相互作用值。

我们设定k¼10;20; 40; 80; 在本实验中为160。结果如表4所示。毫不奇怪,这些模型的性能都大大降低,支持向量机的AUROC甚至低于50%。与其他型号相比,BridgeDPI的性能最好。对于AUROC,BridgeDPI分别比E2E/GO、KNN、RF、LR、SVM高9.41%、8.58%、29.14%、32.03%、46.79%。此外,如果将整个BindingDB数据集用于训练,BridgeDPI和E2E/GO的AUROC将分别达到77.2%和74.8%。对于pP@k,BridgeDPI可以准确地回忆出k  80时60%以上的候选药物,这明显优于其他比较方法。如果将整个BindingDB数据集用于训练,BridgeDPI可以准确地在k  40时召回80%以上的候选药物。结果表明,BridgeDPI的可靠性和BridgeDPI的性能更好,即使在更现实的条件下。 image.png

3.4 Effect of the number of bridge nodes

通过引入桥节点,BridgeDPI在所有蛋白质和药物之间建立了多个桥。因此,我们对桥梁节点数量的影响进行了进一步的研究。我们应用不同数量的网桥节点(即1、2、4、8、16、32、64、128、256)来观察BindingDB数据集上的性能。图3显示了不同数量的桥节点的整体测试集、可见蛋白质集和不可见蛋白质集的结果。正如我们所看到的,不同数量的桥节点在可见蛋白质上的性能是稳定的,但在不可见蛋白质上的性能波动很大。随着桥节点数量的增加,看不见的蛋白质集的AUROC和AUPR不断提高,从而在整个测试集上获得更好的性能。这与我们各自的研究结果一致,因为桥节点与所有蛋白质和药物的连接意味着看不见的蛋白质不再是一个孤立的节点,这将使预测DPI更容易。当网桥节点数为64时,性能最好。更多的桥节点可以共同探索蛋白质和药物之间的潜在关系。然而,过多的网桥节点会导致一些节点在投票中扮演类似的角色,并带来过度拟合和成本过高的风险。

4 Case study

为了展示BridgeDPI在实际虚拟筛选中的性能,我们选择了两个重要的病毒靶点,3C样蛋白酶(3CLpro)和RNA依赖性RNA聚合酶(RdRp)作为研究对象。这两个靶点在蛋白质复制/转录和宿主细胞识别中起主要作用,因此对病毒繁殖和感染传播至关重要(Murugan等人,2020年)。与(Kim等人,2021年)一样,我们也选择了一些候选药物,如巴里西尼和伊维菌素,来测试预测的相互作用。首先,我们获得两个目标的氨基酸序列[3CLpro序列来自蛋白质数据库(PDB)数据库(Sussman等人,1998年),PDB ID为6WQF,RdRp来自国家生物技术信息中心(NCBI;Pruitt等人,2007年),NCBI YP_009725307.1]。然后,序列和候选分子被送入桥联DPI。最后,预测了它们的相互作用概率,如表5所示。表5显示,巴里西尼布、雷姆德西韦、洛匹那韦和利托那韦都是非常有潜力的药物,可以与3CLpro相互作用;伊维菌素、雷德西韦、索非斯布韦、达克拉他韦、洛匹那韦和利托那韦都是能与RdRp结合的有效药物。事实上,许多研究和临床试验也验证了结果(Caly et al.,2020;Elfiky,2020;Favalli et al.,2020;Kalil et al.,2021;Sadeghi et al.,2020;Stower,2020)。相比之下,阿司匹林等无关药物与病毒靶点的相互作用潜力很小。这些实验结果验证了BridgeDPI预测新药的有效性和可靠性,表明BridgeDPI对实际研究和药物发现具有指导作用。

5 结论

在本研究中,我们提出了一个端到端的深度学习框架,通过在基于学习的框架中引入网络级信息来预测DPI。我们构建了一个有监督的药物-蛋白质网络,并在其中引入了一类桥节点。桥节点通过在不同的药物和蛋白质之间传递信息来弥合药物和蛋白质之间的差距,因此我们可以使用GNN来捕获网络级别的信息,并依靠有监督的“关联内疚”来执行预测。因此,我们的模型综合了基于网络的方法和基于学习的方法的优点,集成了更全面的特征。实验表明,在BindingDB、线虫、人类、DUD-E数据集上,我们的方法优于其他竞争方法,并实现了SOTA性能。此外,带有具体例子的案例研究也重申了我们模型的实用性。