CIKM 2022 | HGANDTI: 药物-靶点相互作用预测的异构图注意网络

今天给大家介绍的是由南开大学计算机科学学院，网络与数据安全技术天津重点实验室，蔡祥睿老师发表在信息检索和数据挖掘领域顶级学术会议 The 31th ACM International Conference on Information and Knowledge Management（CIKM 2022）上的论文 “Heterogeneous Graph Attention Network for Drug-Target Interaction Prediction”。

本文针对现有的基于图神经网络（GNN）的方法只聚合来自药物相关或靶标相关网络中受限制的一阶邻居节点的信息，并且不能捕获生物异构图中的长期依赖关系的缺陷，提出构建一个同时包含节点信息和边缘信息的生物异质图，并利用增强的图扩散网络在异构图的层间和层内聚合多跳邻居节点信息扩大图结构的学习范围解决上述的局限性.

1、摘要

药物-靶点相互作用（DTIs）的识别对于药物的发现和药物的重新定位至关重要。现有的基于图神经网络（GNN）的方法只聚合来自药物相关或靶标相关网络中受限制的直接连接节点的信息，并且不能捕获生物异构图中的长期依赖关系。在本文中，作者提出了异构图注意网络（HGAN）来捕获生物异构图中的复杂结构和丰富的语义，用于DTI预测。HGAN从层内和层间两个角度增强了异构图结构的学习。具体地说，作者开发了一个增强的图注意扩散层（EGADL），它有效地建立了可能不直接连接的节点对之间的连接，使信息从重要节点多次传递。通过叠加多个EGADL，从层间的角度进一步扩大了接受域。HGAN在两个异质生物数据集上提出了15种最先进的方法，在AUC和AUPR方面取得了接近1的结果。作者还发现，从层间角度（叠加层）扩大接受域比从层内角度（注意扩散）更有效，可以获得较好的DTI预测性能（AUC=0.9910

    ±
   
  
  
   \pm
  
 
± 0.006，AUPR=0.9898 
 
  
   
    ±
   
  
  
   \pm
  
 
± 0.007)。

2、背景介绍

药物-靶点相互作用的识别是药物发现（即寻找新药物）和药物再利用（即寻找现有药物的新适应症）的基础。传统的DTIs实验验证耗时且昂贵，且仅限于小规模的被验证数据集。许多研究已经采用计算方法来大规模地有效地识别药物-靶标关联。近年来，图神经网络（GNNs）同时利用节点属性和图拓扑，在节点/图表示学习方面取得了很好的成果。他们已经在各个领域引起了相当大的研究兴趣。一些基于GNN的方法已经被提出利用异质生物数据预测DTI。他们将异质性的生物数据构建成多个与药物和靶标相关的网络（图1(a))，其中节点是各种生物实体（即药物、靶标、疾病、副作用等）,而边缘是这些生物实体之间的相互关系。然后，他们将DTI预测作为一个链路预测问题。然而，这些方法在以下方面存在缺陷:

缺陷一：以相同的方式分别考虑每个关系网络（例如，药物-疾病网络）。它们忽略了不同关系网络之间的结构依赖性，以及跨网络中不同的语义关系，如药物-靶标-疾病，这限制了它们区分不同生物实体的结构作用的能力。
缺陷二：现有的工作，例如NeoDTI，都局限于一阶相邻节点的接受域，并且不能在单个GNN层中捕获远程依赖关系。虽然叠加多个GNN层增加了接受域，但这种深层的模型存在特征过平滑的瓶颈。
缺陷三：为齐次图建立了GCN和GAT。它们的操作是基于同质性的假设，即连接的节点往往具有相似的标签。异构生物数据本质上形成了一个异质性图（生物异构图）（图1(b)），具有复杂的结构、不同的节点类型和边缘类型，这给生物实体节点表示学习带来了挑战。因此，直接将GCN/GAT应用于生物关系网络不可避免地限制了图结构的学习能力。

在本文中，作者提出了一个异构图注意网络（HGAN）来预测DTIs。为了解决第一个和第三个问题，作者构建了一个同时包含节点信息和边缘类型信息的生物异构图（图1(b)）。这种对异质性生物数据的图形描述不仅可以系统地理解生物实体之间的复杂关联，而且还可以将知识整合到精确的DTI预测中。为了解决第二个问题，作者从层内和层间的角度扩大了HGAN在生物异质性图上的接受域。在层内，受图扩散网络在捕捉多跳邻居信息方面的优势启发，作者开发了一个增强的图注意扩散层（EGADL），以汇总中心节点若干跳内的相邻节点特征，如图2所示。在这个过程中，首先提取边上的注意力权重（图2（a））。随后，作者通过注意力扩散过程进一步提炼出多跳以外的节点对之间的注意力权重，这使得信息从多跳以外的重要节点传递过来（图2（b）中的虚线箭头表示）。为了加强节点表征学习，并在聚合其本地邻域的嵌入时最佳地保留节点嵌入，作者提出一个参数学习模块，以为每个EGADL提供一个特定的远程传输概率。通过在生物异质图上应用几个连续的EGADL，从层间的角度进一步扩大了接受域。据此，可获得具有丰富的语义信息特征的生物实体节点特征。此外，为了提高模型的表达性，作者提出了一个特征组合层，以充分利用从不同尺度上挖掘出的生物实体节点特征。然后，获得药物-靶标对的表示，并将它们输入预测模块，以确定给定的药物-靶标是否存在相互作用。文章总体流程图3所示

文章贡献如下：

作者提出了一种新的异构图注意网络，利用生物异构图中的长期依赖关系来提高DTI的预测性能。具体来说，从层内和层间的角度扩大了HGAN在生物异质性图上的接受域。
作者提出了增强的图注意扩散层，以探索每个生物实体节点的上下文相关的表示。特别是，作者设计了一个参数学习模块，为每个层提供一个特定的传送概率，这使得每个层能够最佳地保留节点特征，同时聚合来自其本地邻居的特征。
作者在两个生物异质性数据集上进行了实验。HGAN显著优于15种最先进的方法，在AUC和AUPR上的结果接近1，验证了HGAN对DTI预测的有效性。此外，实验表明，HGAN从层间（叠加层）扩大接受域优于层内（注意扩散），可以获得较好的DTI预测结果。

3、方法

3.1 图构造

异构图定义为有向图𝐺=（𝑉,𝐸,A,R），其中𝑉、𝐸、A、R分别表示节点集、边集、节点类型集和边类型集，由四种节点组成，即药物(D)、靶点(T)、疾病(I)和副作用(S)，以及10种边缘/关系，即D-T、D-D、D-I、D-S、T-T、T-D、T-I、I-D、I-T和S-D（见图2(a)）。每个生物实体节点

     v
    
    
     i
    
   
  
  
   v_{i}
  
 
vi（
 
  
   
    1
   
   
    ≤
   
   
    𝑖
   
   
    ≤
   
   
    
     N
    
    
     n
    
   
  
  
   1≤𝑖≤N_{n}
  
 
1≤i≤Nn）表示为一个向量
 
  
   
    
     x
    
    
     i
    
   
  
  
   x_{i}
  
 
xi∈
 
  
   
    
     R
    
    
     
      d
     
     
      n
     
    
   
  
  
   R^{d_{n}}
  
 
Rdn，每个关系类型
 
  
   
    
     r
    
    
     j
    
   
  
  
   r_{j}
  
 
rj（1≤𝑗≤
 
  
   
    
     N
    
    
     r
    
   
  
  
   N_{r}
  
 
Nr）表示为一个向量
 
  
   
    
     r
    
    
     j
    
   
  
  
   r_{j}
  
 
rj∈
 
  
   
    
     R
    
    
     
      d
     
     
      r
     
    
   
  
  
   R^{d_{r}}
  
 
Rdr，其中
 
  
   
    
     N
    
    
     n
    
   
  
  
   N_{n}
  
 
Nn=|𝑉|和
 
  
   
    
     N
    
    
     r
    
   
  
  
   N_{r}
  
 
Nr= |R|表示生物实体节点的数量和边缘类型的数量，和
 
  
   
    
     d
    
    
     n
    
   
  
  
   d_{n}
  
 
dn和
 
  
   
    
     d
    
    
     r
    
   
  
  
   d_{r}
  
 
dr分别表示每个节点嵌入和每个边缘类型嵌入的维度。据此，得到了用于生物实体节点的特征矩阵X∈
 
  
   
    
     R
    
    
     
      
       N
      
      
       n
      
     
     
      ×
     
     
      
       d
      
      
       n
      
     
    
   
  
  
   R^{N_{n} \times d_{n}}
  
 
RNn×dn和用于边缘类型的特征矩阵R∈
 
  
   
    
     R
    
    
     
      
       N
      
      
       r
      
     
     
      ×
     
     
      
       d
      
      
       r
      
     
    
   
  
  
   R^{N_{r} \times d_{r}}
  
 
RNr×dr。

3.2 节点/边缘类型特定的转换

对于每种类型的节点（关系），作者应用特定于节点（关系）类型的转换

     W
    
    
     A
    
   
  
  
   W_{A}
  
 
WA(
 
  
   
    
     W
    
    
     R
    
   
  
  
   W_{R}
  
 
WR)矩阵将它们投影到相同的特征空间中。

3.3 边注意计算

作者在设计图注意力扩散层之前，先对每层进行归一化（LN）操作应用于节点嵌入和边缘类型嵌入，以稳定模型的训练，提高模型的收敛性。随后依据规范化的节点嵌入和边缘类型嵌入计算每层中图中边（

     v
    
    
     i
    
   
   
    ,
   
   
    
     r
    
    
     k
    
   
   
    ,
   
   
    
     v
    
    
     j
    
   
  
  
   v_{i},r_{k},v_{j}
  
 
vi,rk,vj）的注意力值
 
  
   
    
     a
    
    
     
      (
     
     
      i
     
     
      ,
     
     
      j
     
     
      ,
     
     
      k
     
     
      )
     
    
   
  
  
   a_{(i,j,k)}
  
 
a(i,j,k)，得到每层的注意力权值矩阵
 
  
   
    
     S
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   S^{(l)}
  
 
S(l)。

同时，作者为了防止过拟合和加强模型的鲁棒性，首先随机删除一部分边，然后选择符合每个节点𝑣的top-𝐾边。实则是保留top-𝐾邻边的注意力权值，将其他邻边的注意力权值取值为无穷小数。最后得到归一化注意力权值矩阵

      S
     
     
      ~
     
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   \tilde{\mathrm{S}}^{(l)}
  
 
S~(l)。

3.4 增强的图注意扩散层

增强图注意力层（EGADL）的目标是用注意力机制捕获长期局部性的生物语义。作者基于每层计算出来的注意力权值矩阵

      S
     
     
      ~
     
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   \tilde{\mathrm{S}}^{(l)}
  
 
S~(l)通过图扩散的方式提取出生物实体节点之间的注意力值
 
  
   
    
     
      S
     
     
      ˇ
     
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   \check{\mathrm{S}}^{(l)}
  
 
Sˇ(l)，这些节点在生物异质图中没有直接连接，可能有多跳的距离链接。然后通过
 
  
   
    
     
      S
     
     
      ˇ
     
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   \check{\mathrm{S}}^{(l)}
  
 
Sˇ(l)聚合每层的节点特征表示得到
 
  
   
    
     H
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   H^{(l)}
  
 
H(l)。

为了提高模型的表达性，作者进一步将公式(6)扩展到多头图注意扩散中，通过进行𝑄个独立的图注意扩散，然后将其结果连接起来。

但是作者发现计算公式5中注意力矩阵的幂需要很大的代价，为了解决这个问题，作者通过将动态传送概率

     r
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
  
  
   r^{(l)}
  
 
r(l)定义为一个序列
 
  
   
    
     Z
    
    
     
      (
     
     
      M
     
     
      )
     
    
   
  
  
   Z^{(M)}
  
 
Z(M)来近似表达，则计算每层节点特征的聚合可进一步表示为
 
  
   
    
     
      S
     
     
      ˇ
     
    
    
     
      (
     
     
      l
     
     
      )
     
    
   
   
    
     
      H
     
     
      ~
     
    
    
     
      (
     
     
      l
     
     
      −
     
     
      1
     
     
      )
     
    
   
   
    =
   
   
    
     
      lim
     
     
      ⁡
     
    
    
     
      M
     
     
      →
     
     
      ∞
     
    
   
   
    
     Z
    
    
     
      (
     
     
      M
     
     
      )
     
    
   
  
  
   \check{S}^{(l)} \tilde{\mathbf{H}}^{(l-1)}=\lim _{M \rightarrow \infty} \mathbf{Z}^{(M)}
  
 
Sˇ(l)H~(l−1)=limM→∞Z(M)，其中
 
  
   
    M
   
  
  
   M
  
 
M表示需要做近似计算的步骤数。其具体的操作为

在现有文献中，传送概率

    r
   
  
  
   r
  
 
r∈（0,1）在所有层上都被设置为一个固定的值，这限制了模型学习的灵活性。与它们不同的是，作者设计了𝛾学习模块来学习每个EGADL的特定值。其**核心思想是在每层聚合嵌入的同时，最优地保持节点嵌入，通过将图的嵌入（即节点嵌入的平均值）非线性地转换为一个值，然后将该值夹入一个固定的范围内来计算
 
  
   
    
     
      r
     
     
      
       (
      
      
       l
      
      
       )
      
     
    
   
   
    r^{(l)}
   
  
 r(l)。**

整个图注意力扩散层的示意图为：

3.5 DTI预测

对于每个生物实体节点，从不同层提取的表示嵌入了不同的语义信息。为了充分利用从不同尺度捕获的生物实体节点的语义信息，作者提出了特征组合层来整合从不同层捕获的节点表示。具体来说，对于药物节点𝑣，通过以下操作从𝐿层获得其表示

     h
    
    
     v
    
   
  
  
   h_{v}
  
 
hv，同理也可获得靶点的表示
 
  
   
    
     h
    
    
     u
    
   
  
  
   h_{u}
  
 
hu。 **其中，
 
  
   
    
     ρ
    
   
   
    \rho
   
  
 ρ表示向量拼接操作。**

二元交叉熵（BCE）损失被用来评估预测的和真实的DTIs之间的差异。它的表述为

4 实验

4.1 数据集

作者使用了两个公开的数据集，可在作者提供的百度网盘链接(link：https://pan.baidu.com/s/1R1lpNFzVNlywy4T_001gjw code：4jkh)找到进行实验的数据。

4.2 实验设置

作者进行了一个10折交叉验证来进行评估模型效果。作者将所有已知的DTIs视为阳性样本，并随机选择与阳性样本相同数量的未知DTIs作为阴性样本。对于每一次交叉实验，随机选取90%的正样本和负样本作为训练集，其余样本作为DTI预测的测试集。

4.3 模型深度分析

模型需要确定的深度参数有：注意扩散跳数𝑀和图的注意扩散层数L。

4.4 模型鲁棒性分析

作者研究了模型网络层中的边缘丢弃率和注意头数𝑄。

4.5 图的宽度分析

不同关系中不同生物实体节点相互作用的数量是不平衡的，为了研究图宽度（感受野）对DTI预测性能的影响，作者根据每个生物实体节点的重要性，从其所有交互作用中选择top-𝐾邻居，top-𝐾邻居数量选择对模型的预测结果如下图所示

4.6 消融实验

作者对增强图注意力层获得的节点信息的组合方式做出合理性探究。

    V
   
   
    a
   
   
    
     r
    
    
     
      m
     
     
      e
     
     
      a
     
     
      n
     
    
   
  
  
   Var_{mean}
  
 
Varmean表示从𝐿层中提取的药物（靶点）特征向量进行元素级平均值组合。
 
  
   
    V
   
   
    a
   
   
    
     r
    
    
     
      m
     
     
      a
     
     
      x
     
    
   
  
  
   Var_{max}
  
 
Varmax表示从𝐿层中提取的药物（靶点）特征向量的元素级最大值组合。
 
  
   
    V
   
   
    a
   
   
    
     r
    
    
     
      l
     
     
      a
     
     
      s
     
     
      t
     
    
   
  
  
   Var_{last}
  
 
Varlast表示取最后一层的特征输出。
 
  
   
    V
   
   
    a
   
   
    
     r
    
    
     
      n
     
     
      o
     
     
      r
     
     
      e
     
     
      l
     
    
   
  
  
   Var_{norel}
  
 
Varnorel只考虑末端节点特征来计算边缘注意得分，而忽略了关系信息的组合方式。
 
  
   
    V
   
   
    a
   
   
    
     r
    
    
     
      n
     
     
      o
     
     
      l
     
     
      m
     
    
   
  
  
   Var_{nolm}
  
 
Varnolm是删除图层规范化操作的组合方式。
 
  
   
    V
   
   
    a
   
   
    
     r
    
    
     
      f
     
     
      i
     
     
      x
     
    
   
  
  
   Var_{fix}
  
 
Varfix表示在每个EGADL处具有固定传送概率（𝛾= 0.05）的组合方式。**通过实验，作者最后发现将每层获得的节点对应的特征拼接起来的方式能达到模型的最佳效果**。其实验结果如下表所示：

4.7 与基线方法的比较

作者通过在两个数据集上对比15种近三年的方法均取得最好预测效果。

5 结论

在本文中，作者提出了基于注意力机制和图扩散技术的HGAN来捕获生物异构图中的复杂结构和丰富的语义来进行DTI预测，通过实验方法对比验证了作者所提出模型预测性能的优势。

参考文献

文章地址：
https://doi.org/10.1145/3511808.3557346

代码地址：
https://github.com/Zora-LM/HGAN-DTI

标签：人工智能数据挖掘神经网络

本文转载自: https://blog.csdn.net/weixin_43872709/article/details/127595915
版权归原作者苏里所有，如有侵权，请联系我们删除。

CIKM 2022 | HGANDTI: 药物-靶点相互作用预测的异构图注意网络