---
title: Drug–drug interaction prediction with Wasserstein Adversarial Autoencoder-based knowledge graph embeddings
date: 2021-07-13 14:53:54
updated: 2021-11-10 20:27:57
tags:
categories:
keywords:
description:
top_img:
comments:
cover:
toc:
toc_number:
toc_style_simple:
copyright:
copyright_author:
copyright_author_href:
copyright_url:
copyright_info:
katex: true
highlight_shrink:
aside:
---

# 摘要:
药理药物之间的相互作用可能会引发意想不到的不良事件。获取更丰富、更全面的药物-药物相互作用(DDIS)信息是公共卫生和药物开发的关键任务之一。近年来，几种知识图(KG)嵌入方法在DDI领域受到越来越多的关注，因为它们能够将药物和相互作用投影到低维特征空间中，用于预测链接和对三元组进行分类。然而，现有的方法只采用均匀随机模式来构造负样本。因此，这些样本往往过于简单，无法训练出有效的模型。通过引入基于Wasserstein距离和Gumbel-Softmax松弛的对抗性自动编码器(AAE)，提出了一种新的KG嵌入框架。在我们的框架中，自动编码器被用来产生高质量的阴性样本，并且自动编码器的隐藏向量被认为是可能的候选药物。然后，鉴别器学习药物的嵌入和基于正负三元组的相互作用。同时，为了解决传统产生式模型固有的缺陷--离散表示上的梯度消失问题，我们利用Gumbel-Softmax松弛和Wasserstein距离对嵌入模型进行稳定训练。我们在两个任务上对我们的方法进行了实证评估：链接预测和DDI分类。实验结果表明，我们的框架可以获得显著的改进，并且显著优于竞争基线。
补充信息：补充数据和代码可在[https://github.com/dyf0631/AAE_FOR_KG.](https://github.com/dyf0631/AAE_FOR_KG.)获得
Key words: drug–drug interaction; knowledge graph embedding; adversarial learning; Wasserstein distance.

# 背景
为了达到最佳的治疗效果，常常需要利用药物组合的优势。然而，当一种药物与另一种药物联合使用时，其预期的疗效可能会发生实质性的变化。从形式上讲，药物-药物相互作用(DDI)是药物成分之间的药理相互作用，可以改变药物的功能，引起药物不良反应(ADR)甚至医疗事故[1]。虽然在理想情况下，我们希望在临床试验期间发现药物之间所有可能的相互作用，但一些未被认识到的相互作用可能只有在药物被批准临床使用后才会被揭示。在美国，ADR每年导致大约10万人死亡[2]和7万4千急诊室就诊[3]。例如，乙酰水杨酸(ASA)，也被称为阿司匹林，是治疗发烧和疼痛的常用药物，既有抗炎又有解热作用。然而，当ASA与1-苄基咪唑联合使用时，高血压的风险或严重程度可能会增加。为了降低这些风险，提高医疗质量，大规模、可靠的DDI预测成为临床实践中的一项关键任务。

到目前为止，已经提出了各种DDI预测方法来解决这一问题。有一些来自药物基因组学和药理学领域的例子，包括[4，5]。
然而，这些方法只能处理有限范围的DDI病例，因为它们依赖于临床和实验室数据。此外，这种方法还需要每种药物的分子结构、药理作用、适应症等多方面的特点。因此，基于知识图(KG)的计算预测方法不依赖于这些昂贵的、劳动密集型的特征，因为它们能够实现对可能的DDI的自动、快速评估，因此受到越来越多的关注。

DDI数据可以表示为KG，其中节点表示实体，边表示关系。利用一系列三元组事实(h，r，t)构建了一个典型的DDI KG，其中h和t分别表示头部和尾部药物，r表示h和t之间的相互作用，因此，DDI预测问题可以通过KG嵌入作为链接预测任务，目的是将每个实体和关系嵌入到低维特征空间中，以便进行知识融合和更高效的计算。图1显示了DDI KG的示例。

在过去的几年里，已经提出了几种机器学习和深度学习的方法来嵌入DDI Kgs来预测未知的DDI[6-8]。首先，训练KG嵌入模型需要负样本，并且原始DDI数据集中没有确认的负样本。为了方便地生成足够的负样本来训练模型，Bordes等人提出了一种新的方法。[9]在KG中引入了局部封闭世界假设(LCWA)。根据“儿童权利公约”，幼稚园内存在的所有陈述均被假定为正确。相反，任何不存在的语句都是错误的。这一假设有利于负样本的产生，因为我们只需要构造原始KG中没有包含的三元组就可以被认为是假样本。现有的大多数嵌入模型都是通过统一的负抽样策略生成负三元组[9-11]。此采样将正三元组中的头部或尾部实体随机替换为实体集合中的不同实体，其中所有实体共享相同的采样权重。Trouillon等人。[12]评估每个正训练样本构建的负三元组数量对性能的影响。结果表明，产生更多的负片，直到饱和阈值，可以产生更好的性能。然而，Schroff等人指出，这种通用的采样方法通常对所导出的嵌入模型的稳健性和有效性只增加了有限的好处，甚至可能延迟模型的收敛。
[13]和赫曼斯等人。[14]。因此，我们利用对抗性学习来生成更多可信的负三元组，以提高KG表征学习的性能。例如，如果我们想要替换观察到的三联体(曲马多，增加神经兴奋活性，阿米替林)中的头部药物，以在两个候选药物“布洛芬”和“奈西姆”之间构建一个负的三联体，“布洛芬”由于其药理上与“他马朵”相似而成为更具欺骗性的替代药物。之后，这个更可信的三元组可以迫使KG嵌入模型提高性能以区分其真实性。然而，它也可能选择其他不相关的药物，这些药物会使嵌入模型易于区分，而不会鼓励其改进(例如：“Nexium”)，如果用上述随机抽样方式代替头药的话。该方法将所有药物表示在一个统一的特征空间中，然后根据药物之间的空间位置和距离选择合适的药物作为替代，生成欺骗性的阴性样本，从而进一步提高了模型的性能。

遗憾的是，诸如生成性对抗网络(GANS)这样的对抗性学习方法对于自然语言处理任务并没有产生令人满意的结果，因为标准的GAN仅限于连续实数空间，即连续数据，而不能直接对诸如单词等离散数据进行操作。为了克服这一不足，最近的研究提供了一些可行的方法，通过应用策略梯度(一类基于策略的强化学习(RL)算法)来取代传统的反向传播[15，16]。

虽然这些RL方法已经被证明是有效的，但高方差梯度估计使得模型需要大量的计算资源，而其复杂的超参数增加了本已难以训练的遗传算法的不稳定性。在这项工作中，我们提出了一种新的方法，引入Gumbel-Softmax松弛[17，18]和基于Wasserstein距离的对抗性自动编码器(AAES)来稳定地训练离散数据上的DDI嵌入模型。与复杂的RL机制相比，Gumbel-Softmax松弛可以有效地简化我们的模型，并允许快速迭代的对抗性学习框架，而不需要密集的RL启发式算法来加速整个模型的收敛。与GAN相比，AAE可以控制生成器构建负样本的方式，使其输出更接近真实数据。此外，我们使用Wasserstein距离作为高级度量来取代传统对抗性学习框架中原有的Jensen-Shannon(JS)发散。

为此，我们首先构造了一个自动编码器，对潜在码向量z(即其隐含单元)进行训练，以生成更多可信的实体(药物)作为负样本。由于我们要生成的实体是一个热向量，并且这种类型的离散数据在训练过程中是不可微的，因此采用Gumbel-Softmax松弛和Wasserstein距离来处理没有策略梯度机制的离散数据上的梯度消失问题。然后，将负的和正的三元组共同馈入鉴别器以获得嵌入，并将其作为KG的最终表示。我们在本论文中的创新贡献概括如下：

·我们提出了一种新的方法来解决DDIS的预测及其副作用。与临床试验或传统的基于机器学习的方法相比，我们的方法不需要大量的人工特征来产生更好的性能。
·从技术上讲，据我们所知，我们是第一个将AAE引入KG表示学习的公司。自动编码器的潜在向量能够产生更合理的负样本，鉴别器利用这些负、正三元组训练KG嵌入模型。
与传统的KG嵌入的对抗性学习需要密集的RL启发式学习不同，我们利用Gumbel-Softmax松弛和Wasserstein距离来解决离散数据上梯度消失的问题，加速KG嵌入模型的收敛。
·我们对该模型在链接预测和三重分类任务上的性能进行了评估。实验结果表明，该模型的性能优于现有的KG嵌入模型。

本文的其余部分组织如下。第二节介绍了DDI检测和预测的相关工作以及几种有代表性的KG嵌入模型。在第三节中，我们详细说明了所提出的对抗性学习模型的总体框架和训练过程。第四节描述了基准数据集、参数初始化设置和实验细节。第五节对我们的结果和通过现有方法得到的结果进行了并排的定性比较和讨论。最后，第六节讨论了结束语。

# 相关工作
在这一部分中，我们介绍了DDI检测和预测的研究现状。此外，我们对现有的几种重要的KG嵌入方法进行了简要的概述。

### DDI检测和预测
DDI预测是药理学的一项重要任务。许多现有的研究都是通过体内和体外实验来获得特定类型相互作用的结果。Krishna et al.。[19]构建了一项交叉研究，以评价胃内pH值对泊沙康唑吸收的影响。结果表明，在胃pH升高的情况下(如与质子泵抑制剂药物埃索美拉唑或奥美拉唑联合给药)，泊沙康唑的溶出度和吸收均会降低。目的：揭示奥美拉唑抑制血小板氯吡格雷的临床疗效。[20]对8205名患者进行了回顾性队列研究，发现氯吡格雷联合质子泵抑制剂会增加不良结果的风险。Menon等人。[21]通过13个实验，评价3D方案治疗慢性丙型肝炎病毒感染的直效抗病毒药物(如奥比塔韦、Paritaprevir和达沙布韦)与各种常用药物的DDIS。虽然上述工作产生了详细的比较结果，但由于实验室要求，它们没有很好的规模。随着计算方法和资源的进步，研究人员将注意力转向了大规模结构化数据库和基于机器学习的方法来解决这一问题。

一些研究已经提出了自动DDI发现方案。例如，程和赵[1]引入了表型、治疗、基因组和化学结构相似性作为药物特征，并采用了五种机器学习方法，包括k近邻、朴素贝叶斯、Logistic回归、决策树和支持向量机，以预测DDIS的真实性。Li等人。[22]通过结合药物分子和药理表型，构建了预测药物联合作用的贝叶斯网络。最近，为了进一步提高DDI预测模型的性能，许多药物之间的语义和拓扑度量被用作发现潜在DDI的输入特征[23]。穆尼奥斯等人。[24]利用KGS作为方便的统一表示，集成多种形式的异构数据，使数据可以用统一的特征描述来表示。然而，这些基于特征的方法不仅严重依赖于手工制作的特征的质量，而且还存在数据不完整和稀疏的问题。

KG嵌入由于其强大的克服数据不完备性和稀疏性问题的能力而受到越来越多的关注。KG嵌入方法已被证明在DDI预测任务中提供了具有竞争力的性能。其中，Abdelaziz等人。[25]提出了一个大规模的DDI预测框架，称为Tiresas。它首先将各种与药物相关的变量整合为DDI KG，然后利用该KG计算所有药物之间的多个相似性度量，并通过Logistic回归分类器预测潜在的DDiS。Celebi等人。[26]应用TRANSE、TRAND等几种经典的KG嵌入算法提取特征向量，以预测药物间的潜在相互作用。Ma等人。[27]Zitnik等人[8]开发了一种图卷积神经网络，在该网络中建立了端到端模型，用于在多模式图上进行多关系链接预测。Karim等人。[28]将复数(传统的KG嵌入方法)与卷积-LSTM网络相结合，以进一步优化模型性能。

在下面，我们将更详细地讨论具有代表性的KG嵌入技术。

### 现有的KG嵌入方法
关于在低维连续特征空间中嵌入KG来表示实体和关系的文献越来越多[29，30]。我们将现有的嵌入方法大致分为三类：基于平移的嵌入方法、基于张量分解的嵌入方法和基于神经网络的嵌入方法。

#### 基于翻译的嵌入方法
Mikolov等人。[31]提出了词嵌入算法word2vec中的译文不变性，该算法允许内涵相似的词具有相似的表示。遵循这一原则，Bordes et al.。[9]提出了横向KG嵌入模型。TRANSE将头和尾实体之间的关系解释为低维嵌入向量空间上的平移向量，即h+r≈t。定义了一个得分函数来衡量每个三元组事实(h，r，t)的真实性。分数表示h+r和t之间的距离，函数公式如下：
![Drug–drug_interactio-fig-0.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-0.png)
其中ℓ1，ℓ2分别为L1-范数和L2-范数。值得注意的是，如果三元组(h，r，t)有效，则嵌入模型产生低分，否则产生高分。

尽管TRASE通常提供可靠的性能，但它很难解决复杂的关系，如1−N、N−1和N−N。TransH[32]被提出通过引入特定于关系的超平面来克服这一缺点。TransR[33]将关系特定超平面扩展到关系特定空间。从那时起，大量的嵌入模型研究了不同的方法来提高性能。Transa[10]放弃了传统的欧几里德距离，考虑到它们的灵活性和适应性，采用了自适应马氏距离作为更好的度量。Transg[34]提出通过引入多维高斯分布来代替原来的结论数值空间来修正模型，并构造了一个概率嵌入模型来表示实体和关系。

#### 基于张量分解的嵌入方法
张量分解是KG嵌入的另一种有效方法。RESCAL[35]是朝这个方向发展的代表性方法。在RESCAL下，KG中的所有三元组事实都被投影到3D二元张量X中以表示固有结构，xijk=1表示所观察到的三元组(第i个实体、第k个关系、第j个实体)存在于图中；否则，xijk=0表示未知或不存在的三元组。然后，对KG进行秩-d分解，得到KG中的潜在语义。此模型遵循的原则表示为:
![Drug–drug_interactio-fig-1.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-1.png)
其中A∈Rn×d是能够捕捉实体潜在语义结构的矩阵，Rk∈Rd×d是对k次关系中的成对交互进行建模的矩阵。
根据该原理，得分函数fr(h，t)定义为：
![Drug–drug_interactio-fig-2.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-2.png)
其中A∈Rn×d是能够捕捉实体潜在语义结构的矩阵，Rk∈Rd×d是对k次关系中的成对交互进行建模的矩阵。
根据这一原理，得分函数fr(h，t)被定义为：矩阵，即mr=diag(R)，r∈rd。分数函数的转换如下：
![Drug–drug_interactio-fig-3.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-3.png)
原始的DistMult模型在每个关系的头部和尾部实体上是对称的；Complex[12]利用复值嵌入将DistMult扩展到非对称关系。
实体和关系的嵌入存在于复空间CD中，而不是嵌入DistMult的实空间RD中。分数函数修改为：
![Drug–drug_interactio-fig-4.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-4.png)
其中Re(·)表示复数值的实部，t表示t的复共轭。通过使用该得分函数，具有非对称关系的三元组可以根据实体的顺序获得不同的得分。
Simple[11]提出了关系的逆嵌入，并利用它计算了(h，r，t)和(t，r−1，h)的平均典范多元分数。得分函数公式如下：
![Drug–drug_interactio-fig-5.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-5.png)
其中r‘表示逆关系的嵌入，◦表示元素级的阿达玛乘积。Rotate[37]提出了一种旋转模型，其中每个关系都被看作是复杂空间中从源实体到目标实体的旋转，如t=h◦r。此外，Rotate还提供了一种自对抗的负抽样模式，它根据当前嵌入模型计算的分数选择负三元组。

#### 基于神经网络的嵌入方法
深度神经网络因其强大的泛化能力和表示能力而在许多领域受到欢迎。它们已被广泛用于KG嵌入。

ConvKB[38]被提出通过结合卷积神经网络(CNN)来捕捉实体和关系中包含的语义信息。在ConvKB中，将嵌入向量h、r、t连接成一个矩阵作为输入层，经过卷积运算后得到最终输出。

受到对抗性学习的启发，Minervini等人。[39]提出了一种对抗性集合正则化方法，用于正则化传统的嵌入模型，其中敌方采样最可信的输入表示集。De CaO和Kipf[40]采用Gans来产生具有特定所需化学性质的分子。此外，Wang et al.。[15]和蔡等人的研究成果。[16]应用GANS对KG通过政策梯度嵌入的似是而非的训练样本进行采样。他们利用生成器G(z；θ)构造负三元组，并利用鉴别器D(x；φ)作为嵌入模型来区分人工三元组和真实三元组。

综上所述，大多数以前的方法使用随机抽样或GANS来生成负训练三元组。Gans在提高模型性能的同时，也极大地增加了计算复杂度，给训练过程带来了不稳定性。在本文中，我们描述了一种基于AAES的新框架，通过生成高质量的似然否定样本来训练鉴别器，从而提高模型的表示能力。与上述方法相比，我们的框架可以在更少的时间内生成更合理的负样本，从而提高了嵌入模型的性能和实用价值。
# 方法
KG是有向图，其中节点对应于实体，边表示实体对之间的各种类型的关系。给定由三元组事实的集合�={(h，r，t)}和预定义的嵌入维数d组成的KG，KG嵌入的目的是在d维连续向量空间中表示每个实体h∈E和关系r∈R，其中E和R分别是实体和关系的集合。为了简化问题，我们将实体和关系变换成大小一致的嵌入空间，即d=k。换句话说，嵌入过程将文本三元组(h，r，t)投影到一个稠密的数值向量空间，在那里每个实体或关系都被变换成d维向量。利用这种向量表示，我们可以促进链接预测、DDI分类和其他下游应用。在DDI KGS中，药物是实体，药物之间的相互作用表现为关系。值得注意的是，我们介绍和使用的所有DDI KG只包含各种药物和相互作用的名称，以及它们之间的直接关系。除此之外，没有药物特性或其他额外信息可用。

![Drug–drug_interactio-fig-6.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-6.png)
图2.建议的用于KG嵌入的AAE的体系结构。(A)自动编码器的编码器学习为鉴别器生成似是而非的负三元组。
(B)应用自动编码器的解码器以通过最小化重构误差来进一步优化编码器的性能。(C)如右图所示，生成的负三元组和原来的正三元组都被送入鉴别器。(D)对鉴别器进行训练，以产生稳健和有效的KG表示模型。神经兴奋性+表明这种相互作用“增加了神经兴奋性活动”。

图2说明了所提出的对抗性学习框架。在开始时，从真正的DDI随机丢弃头部或尾部药物，并将所得碎片三态（曲马多，增加神经渗透性活动，Δ）作为编码器的输入。编码器接收并产生一个热量的载体，其表示来自候选药物的收集的阿米利亚尼泊尔（如Maprotiline）具有类似效果或结构的另一种药物，这种一次热量矢量需要喂食两个解码器和鉴别者。对于解码器方向，最终输出是对应于编码器的输入的两个新向量。解码器将它们限制为尽可能接近编码器的输入。因此，我们不仅可以保证该模型可以产生不同的药物，而且还可以确保所产生的药物在特征空间中的原始药物近侧。对于鉴别器方向，选择药物的“Maprotiline”以构建最终阴性三重蛋白（曲马多，增加神经氧化活性，Maprotiline）。最后，负面和正三态度被共同进入KG嵌入模型以学习嵌入向量。

### 自编码器用于抽样负面三重态事实
AutoEncoder的目标是为鉴别器提供比通过传统随机负面采样所获得的更具合理的负三态。

#### 传统负面采样的缺点
自从Bordes等人。[9]提出通过均匀负抽样来获得受损的三元组，许多研究人员在训练过程中已经将这一策略应用于负三元组的采样。该抽样策略从实体集合E中随机选择一个候选实体来替换原始正三元组中的头部或尾部实体。值得注意的是，实体集合E中的所有候选实体都具有相同的抽签概率。

显然，这种抽样方法在大多数情况下对训练有效的嵌入模型没有多大帮助。例如，给出一个有效的三联体(曲马多，增加神经兴奋活性，阿米替林)，我们的目标是用另一种可接受的药物取代尾部药物，以重新关联一个看似合理的三联体。
考虑到关系中的“神经兴奋”一词和“阿米替林”的药物类型，领域专家直觉地认为，尾部药物应该是一种止痛药。如果我们以随机的方式选择候选药物，许多构建的阴性三联体，如(曲马多，增加神经兴奋活性，埃索美拉唑)或(曲马多，增加神经兴奋活性，米诺地尔)可能会被识别器简单地识别为假，导致只有很少的参数更新。(曲马多，增加神经兴奋活性，埃索美拉唑)或(曲马多，增加神经兴奋活性，米诺地尔)可以被识别器简单地识别为假，导致只有很少的参数更新。相比之下，另一种产生的三联体，如曲马多(Tramadol，增加神经兴奋活动，对乙酰氨基酚)似乎是更合理的DDI，因为“对乙酰氨基酚”在药理上更类似于“曲马多”，而不是“米诺地尔”。值得注意的是，虽然这种传统的抽样方法在大多数情况下表现不如提出的方法，但当KG特别稀疏时(即KG中每个实体对应的三元组极少)，随机抽样方法有机会选择任何实体作为负抽样选项来训练模型，从而获得训练好的嵌入模型。本文不考虑这样的极端情况。

因此，我们引入了一种自动编码器来代替传统的均匀采样来构造更可信的负三元组。在这里，编码器的目标是在对抗性学习框架中生成药物作为生成器，而解码器则限制生成药物的方式和类型，迫使其更接近输入药物和相互作用。然而，在离散数据生成中仍然存在“不可微性”问题。

#### 离散数据的Gumbel-Softmax松弛
在本节中，我们首先说明为什么用离散数据训练对抗性学习模型是一个至关重要的问题。从数学角度看，假设药品(实体)总数为|E|，则下一个生成的一个热点索引向量y∈R|E|可以通过采样得到：
![Drug–drug_interactio-fig-7.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-7.png)
其中，o∈R|E|表示生成器中最后一层的输出日志，σ(·)表示Softmax函数。公式(7)中的采样运算意味着在发生器输出结束时不可微的阶跃函数。因为阶跃函数的导数几乎处处都是0，所以我们有∂y∂θG=0，A，E，其中θG是生成器的参数。根据链式规则，发电机损耗Lg相对于θG的梯度计算如下：
![Drug–drug_interactio-fig-8.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-8.png)
因此，∂lg/∂θG=0意味着发电机损耗的梯度不能通过鉴别器传播回发电机。换句话说，生成器不能基于鉴别器提供的反馈更新它自己的参数。这种现象被称为离散数据域中对抗性学习模型的“消失梯度”或“不可微性”问题。

从实例的角度来看，即使生成器的Softmax输出向量α=[0.250.35，0.25，0.15]可以改善生成器的性能以将α优化到允许定位特定实体的β=[0.05，0.70，0.15，0.10]，但是最终的采样结果没有改变，即OneHot(α)=OneHot(β)=[0，1，0，0]。相同的采样一热矢量被重复地馈送到鉴别器，使得鉴别器获得的梯度是无效的，并且无论鉴别器多么强大，发生器的收敛方向都是模糊的。

为了解决“不可微性”问题，本文利用Gumbel-Softmax松弛技术，通过在单纯形上定义连续分布来逼近从分类分布中抽取的模式。Gumbel-Softmax松弛包括两个部分：(1)GumbelMax技巧。根据Jang等人之前提出的研究。[17]和Maddison等人。[18]，公式(7)中的采样应重新参数化如下：
![Drug–drug_interactio-fig-9.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-9.png)
其中oi是o的第i个元素，g1、···、g|E|是I.I.D.。样本取自标准冈贝尔分布，即gi=−(Log Ui)，Ui∼Uniform(0，1)。(2)放宽离散性。到目前为止，公式(9)中的‘arg max’运算仍然是不可微的。
我们使用Softmax函数作为可微的、连续的近似来进一步逼近它，并计算|E|维样本向量ˆy。ˆy中的每个条目通过以下方式获得：
![Drug–drug_interactio-fig-10.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-10.png)
其中τ&gt;0是称为逆温度的可调参数。当温度τ接近0时，来自冈贝尔-软极大分布的采样向量等于一个热向量，且冈贝尔-软极大分布变得与分类分布相同。值得注意的是，通过这种方式，ˆy可以关于o进行微分，我们可以利用ˆy来代替一个热向量y作为发生器的最终输出。
因此，利用Gumbel-Softmax松弛来解决“不可微性”问题。生成器(我们的自动编码器的编码器部分)可以流畅地生成指示可信药物的单热点矢量。
#### 自动编码器体系结构
在生成器中，每个药物和相互作用最初从一个热点索引向量变换到与两个嵌入矩阵相关联的特定嵌入特征空间，一个用于药物的嵌入矩阵由E|E|×d表示，另一个用于相互作用的矩阵由R|R|×k表示，|E|和|R|分别表示药物和相互作用的总数。在本文中，药物的嵌入维数与相互作用的嵌入维数相同，即d=k。由于这种设置，我们可以将头部药物h和相互作用r的嵌入向量连接起来，并将其作为输入A=RESHAPE([h，r])重塑到二维卷积网络层，该层已被证明可以用滤波器ω来提取可用的特征。通过该层计算特征映射张量T∈Rb×m×n，其中b为m和n维特征映射的个数，然后将张量T整形为单个向量t∈RbMn，然后利用投影矩阵W=RbMn×|E|将其变换为|E|维特征向量。最后，应用上面描述的Gumble-Softmax松弛来产生看似合理的尾药。在数学上，药物v的单热矢量计算如下：
![Drug–drug_interactio-fig-11.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-11.png)
其中Re(·)表示整形操作，g(·)表示Gumble-Softmax松弛。生成器的输出是指特定药物的单热点索引向量。当这种药物与生成器的输入(包括头部药物和相互作用)联系在一起时，就形成了被破坏的三联体。
one-hot向量v作为输入，由两个线性网络层给出。为了调用自动编码器强制神经网络仅捕获数据的重要特征的限制，解码器中有两个输出。这两个输出维度是|E|和|R|，对应于两个生成器输入的维度。

### KG嵌入鉴别器
我们框架中使用的鉴别器是在前人研究的基础上构建的。如第2节所述，各个模型具有不同的结构和得分函数。药物嵌入和相互作用是通过最小化与正负三元组相关的排序损失来获得的。不同于以往通过随机抽样从整个药物集合中产生负样本的模型，我们采用自动编码器来构造更可信的三元组，以提高模型的性能。
### Training strategy
训练过程包括三个主要部分：i)自动编码器的参数更新，其中G和A分别表示生成器(编码器)和解码器；ii)鉴别器D的参数更新；iii)生成器G的参数更新。

自动编码器被设计成学习数据的有效表示。本文利用编码网络G(z；θ)来产生高质量的阴性药物，并利用解码网络A(x；η)来限制采样方向，以获得更多可信的样本。为了更新参数θ和η，我们通过最小化重建误差Lg，A：
![Drug–drug_interactio-fig-12.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-12.png)
鉴别器网络D(x；φ)的目标是将样本x区分为源自真实分布Pr(X)或生成器pθ(X)。给定原始训练样本(x，y)，y∈{1，−1}发信号通知它是来自Pr(X)的真实样本还是来自pθ(X)的生成样本，鉴别器LD的优化目标是最小化交叉熵：
![Drug–drug_interactio-fig-13.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-13.png)
如果分布p(X)是等比例分布Pr(X)和pθ(X)的混合，即p(X)=1 2(Pr(X)+pθ(X))，则公式(13)可以改写为：
![Drug–drug_interactio-fig-14.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-14.png)
生成器的目标与鉴别器相反，生成器试图构造负样本，从而欺骗鉴别器将负样本与真实样本混淆。其目标函数lg表示为：
![Drug–drug_interactio-fig-15.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-15.png)
与传统的单目标优化任务相比，这两个网络在对抗性博弈中的优化目标极具挑战性。传统的对抗性网络训练过程中存在着训练不稳定、难度大、生成器和鉴别器的损失函数信息不丰富、生成的样本缺乏多样性等问题。

这些问题是由于试图最小化真实分布Pr(X)和生成分布pθ(X)之间的JS发散而引起的。只有当两个分布P、Q有重叠部分时，才能计算JS散度。当这两个分布不重叠或重叠部分的大小可以忽略时，它们的JS发散度等于log2。这意味着，当真实分布Pr(X)和生成分布pθ(X)没有重叠时，对于所有生成的数据，鉴别器的输出为0，即D(G(z，θ))=0，∀z。结果，生成器的梯度为零。

受Wasserstein Gans[41]的启发，在Wasserstein Gans[41]中，引入了Wasserstein距离(也称为地球-移动距离)作为一个更健壮的度量来取代JS发散，在本文中，我们使用这个距离度量来提高我们的KG嵌入框架的性能。给定实分布Pr(X)和生成分布pθ(X)，它们之间的第一-瓦瑟斯坦距离形式为：
![Drug–drug_interactio-fig-16.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-16.png)
其中�(Pr，Pθ)是具有边缘分布γ(x，y)的所有可能的联合分布的集合。当两个分布之间没有重叠或略有重叠的部分时，JS发散变得恒定。相反，1-Wasserstein距离可以测量两个非重叠分布之间的距离。

方程(16)很难直接计算，需要通过Kantorovich-Rubinstein对偶定理将其转化为可解形式[42]。根据这个定理，对于一个满足K-Lipschitz连续体的函数，两个分布之间的Wasserstein距离可以转化为分布Pr和pθ之间期望差的一个上界。
我们重写第一个Wasserstein距离：
![Drug–drug_interactio-fig-17.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-17.png)
其中f(·)是K-Lipschitz函数，它满足以下条件：
![Drug–drug_interactio-fig-18.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-18.png)
如果一个函数是可微的，并且它的导数是有界的，那么这个函数是Lipschitz连续函数。由于鉴别器神经网络D(x；φ)满足上述条件，因此它也是Lipschitz连续函数，允许我们将公式(17)中的上界近似为：
![Drug–drug_interactio-fig-19.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-19.png)
与最后一层是输出范围[0，1]上的Sigmoid函数的标准鉴别器网络不同，在这一点上，我们只需要找到一个网络D(x；φ)来最大化两个分布Pr和pθ之间的期望差。因此，我们的鉴别器D(x；φ)中的最后一层是线性层，其范围不受限制。这意味着，对于真实样本，D(x；φ)的得分应该很高，而对于由模型生成的样本，预期得分较低。

此外，为了使D(x；φ)满足K-Lipschitz连续条件，我们可以通过限制参数φ的范围来逼近它，使得φ∈[−c，c]，c是一个相对较小的正数。

生成器的目标是最小化沃瑟斯坦距离，使实际分布Pr和生成的分布pθ尽可能地重合，即
![Drug–drug_interactio-fig-20.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-20.png)
因为D(x；φ)是一个非饱和函数，所以发生器参数θ的梯度不会消失。这解决了原有对抗性框架的不稳定性问题。此外，通过用Wasserstein距离代替JS发散度，该框架中生成器的目标函数可以在一定程度上缓解模型崩溃问题，使生成的样本更加多样化。算法1描述了用于KG嵌入的这种对抗性框架的详细过程。
![Drug–drug_interactio-fig-21.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-21.png)
# 实验
我们在两个广泛使用的公共数据集DeepDDI和Decagon上进行了链接预测和DDI分类实验。对于这两个数据集，我们随机抽取80%的药物对作为训练数据，10%作为验证数据，其余10%作为测试数据。表1收集了这两个数据集的统计数据。
![Drug–drug_interactio-fig-22.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-22.png)
### 数据集
我们在两个广泛使用的公共数据集DeepDDI和Decagon上进行了链接预测和DDI分类实验。对于这两个数据集，我们随机抽取80%的药物对作为训练数据，10%作为验证数据，其余10%作为测试数据。表1收集了这两个数据集的统计数据。

DeepDDI[7]由1710种药物和86种不同的相互作用类型组成，来自DrugBank[43]，捕获了192,284个药物对作为样本。99.87%的药-药对只有一种DDI。
Decagon[8]由637种药物和200种不同的相互作用类型组成，来自双边数据集[44]，捕获了1,121,808对药物-药物对作为样本。我们按照惯例抽样了200种中频DDI，从Top600到Top-800不等，确保每种DDI类型至少有90种药物组合。73.27%的药-药对存在多种DDI。
### 对比方法
为了全面评估我们提出的模型的性能，我们从三类KG嵌入中选择了几种有代表性的方法作为基线，并与我们的方法进行了比较。这些基线描述如下：
·TRANSE[9]表示低维特征空间中的实体和关系，并将关系解释为连接实体的平移操作。
·DistMult[36]提出了一种多关系学习方法，其中双线性目标在获取关系语义方面是有效的。
·Complex[12]描述了一种简单的张量分解方法，该方法使用具有复数值的嵌入向量来处理对称和非对称关系。
·KBGAN[16]提出了一种KG嵌入的对抗性学习框架，其中应用生成器对负三元组进行采样，以改进鉴别器的性能。
·SIMPLE[11]提出了一种基于典范多元分解的嵌入方法，该方法将模型扩展为独立学习每个实体的两个嵌入向量。
·Rotate[37]将实体嵌入为复值向量，并将关系定义为在复向量空间中从头部实体到尾部的旋转。此外，利用一种新的自对抗性负抽样方法对嵌入模型进行训练。

### 链接预测
链接预测是一项特征性任务，其目的是在给定现有药物和相互作用查询的情况下推断丢失的药物。
具体地说，链接预测的目标是预测给定(h，r)时丢失的药物t或给定(r，t)时预测h。结果是通过判别器得分进行排序得到的。
#### 评估指标
对于测试集中的每个DDI(h，r，t)，将真正的头部药物(或尾部药物)循环替换为药物集合E中的所有药物。然后，计算所有三元组对应的分数，所有分数按降序排列。
然而，一些重建的DDI可能巧合地在DDI KG中是真实的。在这种情况下，作为真实事实的重构DDI可能会产生较高的排名，从而导致不准确的评估。为了避免这种情况，遵循博德斯等人的观点。[9]，我们使用‘过滤’设置来消除出现在训练、验证或测试数据集中的所有重建的DDI。最后，通过以下指标衡量模型性能：
·mr：真实实体的平均排名。
·MRR：真实实体的平均倒数排名。
·HITS@N%：排在前N位的真实实体所占的比例，这里我们特别选择N=1、3、10来验证对比模型的性能。

需要注意的是，低MR、高MRR和HITS@N%分数表示性能良好。
#### 训练方案
我们利用Adagrad自适应优化器进行训练，并通过有限网格搜索进行参数优化：生成器α∈的学习率{0.01，0.005，0.001}，鉴别器β∈的学习率{0.5，0.1，0.05，0.01}，药物和相互作用嵌入向量的大小d∈{50,100,200}，小批量大小m∈{256,512,1024}，每次生成器迭代的鉴别器训练迭代次数∈{1，2，5}和总训练迭代次数e∈{300,500,700,1000}。最终参数设置在验证集上确定。

在DeepDDI数据集上，对于复杂的模型，最佳配置为{α=0.001，β=0.05d=200，m=512，ndis=1，e=300}；对于简单的模型，最佳配置为{α=0.001，β=0.1，d=200，m=512，ndis=1，e=300}；对于旋转的模型，最佳配置为{α=0.001，β=0.5，d=200，m=512，ndis=2，e=500}。在Decagon数据集上，对于复杂的模型，最佳构型为{α=0.005，β=0.5，d=200，m=1024，nDis=1，e=1000}；对于简单的模型，最佳构型为{α=0.005，β=0.5，d=200，m=512，nDis=2，e=1000}；对于旋转的模型，最佳构型为{α=0.005，β=0.5，d=200，m=512，nDis=5，e=1000}。有关参数设置的更多详细信息，请参见附录A。
#### 与最先进的模型进行比较
我们采用上述配置来训练我们的模型，并将我们的结果与最先进的方法进行比较。表2显示了在两个标准基准数据集上建议的方法和比较方法的详细比较。我们可以观察到：

·在这两个数据集上，通过我们提出的对抗性框架训练的KG嵌入模型在所有度量上都比其他最先进的方法获得了更好的性能。特别是我们训练的复杂模型，在两个数据集上都取得了最好的性能。
·TRANSE和DistMult作为KG嵌入的早期模型，与现有方法相比在表现力上有其固有的局限性。这些问题不太可能通过先进的培训方法完全得到补偿。
这就是为什么不在实验中通过对抗性学习来训练他们的原因。而复杂和简单可以看作DistMult的扩展版本，通过引入复值嵌入实现了对这些度量的改进。
·与均匀负抽样的模型相比，KBGAN和Rotate在两个基准数据集上也取得了较好的性能。特别是，KBGAN在MR中获得了第二好的结果，而Rotate在十边形数据集上的命中率为1%，获得了第二好的结果。它们良好性能的关键因素是它们还利用对抗性学习来训练模型。5.1节提供了更详细的分析。
·在DeepDDI数据集上，该框架在原有方法的基础上平均提高了3个点的命中率，提高了10%。即使在包含更多相互作用类型和73.27%的药物-药物对具有多种相互作用类型的十角形数据集的复杂性增加的情况下，我们也观察到平均提高了1个百分点。
### DDI分类
DDI分类是一项重要的药理学任务，旨在确定DDI三联体的真实性。由于现有的一些文章[6，7，28]对DDI预测进行了研究，我们将DDI分类作为一个多标签交互预测问题进行了研究。

给定一对药物，我们首先通过将相互作用集合R中的每个相互作用重复地添加到药物对中来构造DDI三元组，然后估计每个生成的三元组中的置信度。那些与高分三胞胎相对应的互动正是我们想要获得的。

#### Metrics
·ROC-AUC：接收器工作特性曲线下的面积。
·PR-AUC：精确召回曲线下的区域。
·P@K：在所有样本中TOP-K中预测为真的标签的平均百分比。本文选取K=1、3、5作为评价指标来评价模型的性能。
#### 训练方案
在本任务中，我们使用为链接预测而训练的模型。因此，所有设置和超参数配置都保留在上面。
#### 与最先进的模型进行比较
表3显示了DDI分类结果。由于TRANSE和DistMult是相对原始的模型，因此预计它们的性能不能令人信服地完成此任务，因此本实验中不包括相应的模型。
从表3可以看出：
![Drug–drug_interactio-fig-23.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-23.png)
·与链接预测任务类似，我们提出的方法在此场景中取得了一致的改进。在这两个数据集上，提出的框架改进了所有基线KG嵌入模型的性能。
当改进的复合形法在链接预测上优于其他模型时，对于分类任务，改进的旋转方法在DeepDDI数据集上取得了最好的效果，而改进的SIMPLE方法在十边形上取得了最好的效果。
·旋转的性能在不同的数据集中变化很大。改进后的模型在DeepDDI数据集的五个指标中的四个指标(PR-AUC、P@1、P@3和P@5)中产生了最好的性能。即使是P@5的结果也排在紧随其后的第二位。
然而，在十角形数据集上，旋转及其对抗性训练版本的结果是所有方法中最差的。
我们将在5.2节中讨论产生这些结果的具体原因。
·在DeepDDI数据集上，该框架比原方法平均提高了2个点的PRAUC性能。即使在十角形数据集的复杂性增加的情况下，我们也观察到平均改善了0.6个百分点。
# 讨论
在下文中，我们分析和讨论了在上述实验中观察到的结果，为了更直观地演示我们的模型的效果，包括模型的可视化表示。
### Link prediction
在两个标准基准数据集上，使用我们的对抗性框架的KG嵌入模型在所有度量上都获得了比现有方法更好的性能。KBGAN和Rotate也通过引入对抗性机制来生成负样本，从而获得了良好的性能。结果表明，对抗性学习比随机抽样能够构造更多的可信三元组，这些样本有利于提高嵌入模型的性能。这项工作中提出的具体对抗机制不同于现有文献中描述的机制。

Rotate提出了一种自对抗负抽样模式，该模式根据当前KG嵌入模型计算的分数选择负三元组。更具体地说，在传统模型中，每个负样本在损失函数中的权重都是相等的：
![Drug–drug_interactio-fig-24.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-24.png)
其中σ表示Sigmoid函数，γ表示固定裕度，fr(h‘i，t’i)表示第i个负样本的分数。Rotate First根据当前的嵌入模型计算每个负值样本的得分，然后利用Softmax运算将这些得分转换为负值样本对应的权重。最后，利用这些权重计算总损失。它的数学定义是这样给出的：
![Drug–drug_interactio-fig-25.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-25.png)
![Drug–drug_interactio-fig-26.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-26.png)
其中α表示采样温度。虽然由于去掉了生成器，这种方法的训练时间比一般的生成式对抗性框架要短，但原始轮换的性能不如我们的方法令人信服。由于这个原始的公式缺乏游戏式的训练过程，鉴别器无法与生成器竞争并相互改进。

我们的负抽样策略引入了一个完整的生成性对抗框架，以更好地训练类似于KBGAN的鉴别器。与KBGAN相比，我们提出的方法有两个优点：1)在生成器的基础上，增加了一个解码模块，将原来的负采样转化为一个自动编码框架。该方案保证了产生器产生的假药不会偏离真品太远，从而提高了负抽样的可信性；2)由于不可能直接在原始GANS中使用离散数据，离散抽样步骤阻止梯度传播回产生器，KBGAN依靠RL来实现其目的。然而，计算量增加和训练不稳定是RL固有的问题。我们的方法可以解决这两个问题，如图4所示。

为了更直观地比较不同采样策略生成的负样本，我们还可视化了分别由生成器和随机采样构建的损坏三元组，以进一步强调表4中的这一点。
最后需要指出的是，本文重点比较了相同条件下不同负抽样方法对模型性能的影响。因此，我们只使用具有单一输出的基于排名的损失函数来构建我们的实验。取而代之的是，为了获得更好的端到端性能，KG嵌入还可以通过使用可能导致更好的下行性能的基于多类的损耗公式来表现为多类评估问题。
### DDI Classification
相同的算法在链接预测和DDI分类任务中具有不同的性能。这表明这两个任务测量KG嵌入模型的不同性能方面。结果强调了框架对不同任务的灵活适应性和可扩展性。

这两个数据集之间的旋转性能差别很大。一个可能的解释在于Rotate的固定组成方法[37]，它利用元素级的阿达玛乘积(R1、◦、R2)。例如，给出三个人(a，b，c)的数据，其中b是a的哥哥(标记为R1)，c是b的姐姐(标记为R2)，我们很容易推断c是a的姐姐，c和a之间的关系是R2而不是R1◦R2。当可用关系的数量很少时，这种组合方法也许可以推断出额外的信息，但一旦观察到的关系数量增加，这种能力就不再产生附加值。

#### 学习嵌入的分析
为了定性地突出我们所提出的框架的能力，我们包括两个可视化实验：由随机模式构建的负样本相对于生成器，以及KG嵌入向量的图示。值得注意的是，我们的模型只能访问三元组形式的图的结构，并且与任何其他特性和属性无关。因此，我们不能轻易地通过注意力机制利用可视化，因为我们的输入并不代表特定的特征或特征。
![Drug–drug_interactio-fig-27.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-27.png)
表4，将传统的随机负样本与生成的样本进行了比较。我们可以注意到，生成器能够选择更多语义相关的药物作为阴性样本。
例如，给出一个真正的三胞胎(咪达唑仑，增加不良反应的风险，地佐辛)，发生器采用三种尾部药物，即乙酸甲酯、左旋美沙多和纳布芬。这三种药物都与地佐辛类似，都有麻醉作用。因此，这些药物构建的负三联体更可信，也更具欺骗性。

有了这样高质量的负三元组，我们可以训练出更好的KG嵌入模型，从而增强表示能力和泛化能力。与单词嵌入类似，KG嵌入也遵循一个基本原则，即具有相似内涵的实体应该具有相似的表示。我们通过将训练好的药物载体投射到二维空间来验证它们是否满足这一原则来证明这一点。图3显示了降维后的KG嵌入向量的图示。
![Drug–drug_interactio-fig-28.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-28.png)
图3.KG嵌入向量的插图。(A)降维后嵌入向量的概述。(B)RGB 1，0，0红圈中扩大的选择((A)项右边的)包含的主要是抗真菌药物。(C)RGB 0，1，0绿色圆圈中扩大的选择((A)中最下面的圆圈)主要含有皮质类固醇。
(D)黄黄色圆圈中放大的选择((A)项中顶部的选择)包含哮喘药物。我们可以看到，上述每个圈子中的药物都有相似的效果或类别。这个例子证明了我们的模型遵循翻译不变性标准。
通过应用UMAP降维[45](图？？)将嵌入向量投影到二维空间。
我们选择嵌入空间的三个区域，并放大它们，观察这些区域的药物是否在适应症或类别上有关联。数字？？在红圈中列出10种具有一贯抗真菌效果的药物。同样，黄色区域的绝大多数药物是皮质类固醇，绿色区域包含哮喘药物。这幅图也从定性的角度直观地支持了我们的模型的有效性。

值得注意的是，本文关注的是改进KG嵌入模型的性能，而忽略了与临床试验或传统的基于机器学习的方法的比较。这些较旧的方法通常不提供数据集，或者数据集太小，无法训练像我们这样的现代KGE模型。我们希望在今后的工作中弥补这一局限。

#### 复杂性和训练时间分析
实验中引入的所有模型(包括Transe、DistMult、Complex、Simple和Rotate)的训练时间复杂度均为O(D)，其中d表示嵌入空间的维数。由于KBGAN和我们提出的框架都由O(D)时间复杂度的生成器(框架的自动编码器)和O(D)时间复杂度的鉴别器两部分组成，所以这两个框架的时间复杂度都是d中线性的。然而，如上所述，基于策略梯度的方法在训练过程中可能是不稳定的，而我们提出的方法可以更有效地完成优化。
![Drug–drug_interactio-fig-29.png](https://imgs-1302910354.cos.ap-shanghai.myqcloud.com/images/Drug–drug_interactio-fig-29.png)
图4绘制了KBGAN的300个训练周期和我们在DeepDDI上的模型的运行时。这两个模型都使用复杂、简单和旋转作为它们的鉴别器。结果表明，与基于策略梯度的遗传算法相比，该方法有效地缩短了训练时间。此外，由于我们的模型和KBGAN都可以分为两个主要模块：生成器和鉴别器，因此参数的数量将比单个嵌入模型的参数数量更多。因此，虽然它们的形式复杂度与单一嵌入模型相同，但这两个对抗性学习框架需要更多的时间来完成训练过程。

除了模型的复杂性外，KG的大小，包括实体和关系的总数以及由此产生的三元组数量，也是影响培训时间的重要指标。DeepDDI数据集上的模型比十角形上的模型需要更多的时间进行训练，因为DeepDDI中的实体数量比十角形中的要多得多。

# 结论
本研究的目的是寻找一种新的负抽样方法，以提高DDI KG嵌入模型的性能。本文提出了一种基于Wasserstein距离的对抗性学习框架。我们在链接预测和DDI分类任务上对所提出的方法进行了评估。我们在两个标准集合上的实验证实，使用我们的对抗性学习框架可以显著提高所有基线模型的性能。

与现有的KG嵌入模型相比，该方法具有几个主要优势。首先，我们介绍了一个表示DDIKG的AAE框架。利用自动编码器产生更多似然药物作为阴性样本，这些阴性三元组与真实阳性三元组一起馈送到鉴别器，以提高嵌入模型的性能。

我们的方法还利用Gumbel-Softmax松弛和Wasserstein距离来处理离散数据上的消失梯度问题。与RL中传统的策略梯度相比，该方法能够更高效地完成优化任务。最值得注意的是，这里介绍的工作可以应用于改进大多数现有模型的性能，而不需要进行重大修改。我们的方法并不局限于DDI领域。除了这项近期工作的应用和范围之外，未来的工作将包括评估本文提出的模型对其他图形嵌入任务的益处，例如对分层数据的推荐、分类和检索设置。