跳到主要内容

GCMM:基于多模态注意机制的药物再利用图卷积网络

摘要

背景

药物-疾病关系的预测是人工智能在药物开发中应用的主要重点。尽管最近提出了许多计算模型,但从各种数据来源可靠地预测药物-疾病之间的关联仍然很困难。

结果

为了识别潜在的药物-疾病关联,本文介绍了一种新的基于多模态注意机制(GCMM)的图卷积网络端到端模型。特别地,GCMM将已知的药物-疾病关系、药物-药物化学相似性、药物-药物治疗相似性、疾病-疾病语义相似性和基于疾病-疾病目标的相似性纳入一个异构网络。图卷积网络编码器用于了解疾病和药物如何嵌入到不同的角度。此外,GCMM可以通过应用多模态注意层来为不同的特征分配不同的值级别和多源信息的输入来提高性能。

结论

5次交叉验证评估表明,GCMM在大多数标准上优于最近提出的四个深度学习模型。这表明GCMM可以可靠地预测药物-疾病关系,并建议改进所需的指标。超参数分析和探索性烧蚀实验也证明了模型每个模块的必要性和最高可能水平的预测性能。此外,还对阿尔茨海默病(AD)进行了案例研究。GCMM指出的与AD潜在相关系数最高的5种药物中,有4种已通过文献或实验研究得到证实,证明了GCMM的可行性。所有这些结果表明,GCMM可以为药物开发和重新定位提供一个强大而有效的工具。

同行评审报告

简介

尽管在这一领域技术不断进步,投资不断增加,但新药的研制仍需要很长时间。1].近年来获准销售的全新药物的数量极少,无法满足现代世界的医疗保健需求[2].DR研究已成为药物发现的一个潜在领域,并吸引了更多的兴趣[3.以提高药物的有效性和可靠性。有许多药物再利用的例子,这些例子在为已经批准的药物找到新用途方面是有效的。制药企业可使用两种方法,分别称为硅内容灾和基于活动的容灾[45].基于活动的容灾通常是实验性的和耗时的[6].由于高通量筛选等生物医学技术的迅速发展,正在以较低的成本为专门知识重新定位过程生成大量生物数据[7]和下一代测序技术[8].由于重新定位药物已成功完成三个阶段的临床试验,先前的资料可能会受到质疑[9],计算DR比实验技术更便宜,更容易获得[10].

基于特征匹配和分子对接技术是传统计算DR方法的两个例子[11].由于人工智能技术的发展,预测药物与疾病之间的联系以及药物与蛋白质之间的联系已变得越来越有可能并且成功。12].因此,算法已经被开发出来,可以预测某些药物如何与某些疾病或其他生物相互作用,而且它们的性能正在稳步提高。基于相似度的算法是基于联想犯罪的想法[13],这是dr领域的基本思想。根据关联罪恶感理论,两种药物与相同疾病相关的可能性与它们功能的相似程度成正比[14].

DR之前的研究主要集中在机器学习算法上。Laplacian正则化最小二乘(LapRLS)是一种半监督学习技术,用于预测药物-蛋白质相互作用,由Xia等人提出。[15].贝叶斯分析确定药物相互作用靶点(BANDIT4F),由Madhukar等人创建。[16],能够精确预测药物与特定靶点的相互作用,包括识别针对大范围小分子的特定靶点和对同一靶点的各种作用模式。然而,大多数机器学习方法在很大程度上依赖于特征工程和专家知识。作为人工神经网络的延伸,深度学习[17]也被广泛应用于计算药物再利用。深度学习的优势在于,它可以从大规模数据中学习输入特征和输出决策之间的复杂关系。为了学习药物特征表示,Zeng等。[18]构建了多个与药物相关的网络,并将它们与名为DeepDR的多模态自编码器集成。然后,通过将已知的药物特征和药物-疾病相关性输入变量差分自编码器的预训练,预测未来的药物-疾病相关性。当DeepDR的结果通过交叉验证和案例研究进行评估时,它们在识别新的药物-疾病联系方面优于传统方法。药物和疾病之间的关系可以被认为是一个二部图,它可以被认为是一个由药物、疾病和药物靶点之间的关系组成的异构生物网络。因此,图嵌入方法,特别是图神经网络方法[19,逐渐被应用到这个问题上。为了预测可能的药物-靶点相互作用,Wan等人。[20.]开发了一种来自HN的邻居信息的神经集成(NeoDTI)。NeoDTI自动学习拓扑保持表示,同时集成来自HN的各种数据。为了使用注意机制聚合来自几个图卷积层的嵌入,Yu等人。[21]提出了一种层注意图卷积网络(LAGCN)来预测药物-疾病的相关性。李等人。[36]建立了NIMGCN,将GCN分别应用于miRNA相似性网络和疾病相似性网络,并加入神经诱导矩阵补全来预测miRNA与疾病之间的关系。

虽然现有技术的计算容灾性能已经显著,但仍有一些局限性。有些策略最初只是考虑可比药物信息,而忽略了疾病之间的关系。此外,与现实情况相反,大多数模型将与疾病和药物相关的多模态信息的相关性视为平等。本文建议GCMM利用多源数据预测潜在的药物-疾病联系,以克服上述所有问题。首先,HN来自多视图药物和疾病相关信息,GCN编码器基于多源相似度生成药物和疾病嵌入。然后,根据多源信息注意过程的全球平均池对特征进行加权,而不是直接连接。下一阶段是用于进一步特征学习的全连接层。最后,矩阵补全用于确定每对的药物-疾病相关系数,将该问题视为来自HN的推荐任务。使用最近提出的四个基于深度学习的模型进行了对比实验,以确认所建议模型的有效性。结果表明,GCMM模型在HN中的表现优于其他模型。 A case study done on predicting potential treatments for AD further demonstrates the GCMM’s improvement and applicability.

总体而言,本文的主要贡献可以总结为:

  • 研究表明,多源药物和疾病信息构建HN更有利于从开源数据库中提取和融合用于硅片容灾的信息。

  • 提出了一种新的端到端GCMM模型,该模型能够准确预测潜在的网络关系,并比四种基线网络的性能有所提高。具体而言,分析结果证明了GCMM的准确性和鲁棒性。

  • 对AD进行的案例研究表明了GCMM的可用性。此外,相关系数最高的5种药物中有80%得到了既往研究的支持,并进一步分析了甲氧西林对AD的治疗潜力。

材料与方法

图1
图1

GCMM的架构。一个HN的构建,包含多源药物和疾病信息。b第一个GCN编码器。它以药物和疾病节点的HN为输入,融合它们的邻居信息,生成不同视图下的嵌入。c第二GCN编码器。d药物与疾病的多渠道关注机制。e全连接特征提取器。f矩阵补全解码器

本文将药物-疾病预测问题视为一个HN的推荐任务,该HN以药物、疾病为节点,相互作用或关系为边。如图所示。1,本节描述了由多源信息构建的HN,包括四种药物-药物、疾病-疾病相似性和实验验证的药物-疾病关联。在此之后,所提出的框架GCMM预测药物-疾病关联的工作流程被说明。

异构网络的构建

数字1a表示构建HN的过程。HN包括已知的药物-疾病关联、药物-药物化学相似性\ (G ^ C \),药物-药物治疗的相似性\ (G ^ T \)疾病,疾病语义相似\ (G ^ M \)以及疾病基于目标的相似性\ \ (G ^)

已知的药物与疾病的联系

来自两个综合数据库的临床报告或实验验证的药物-疾病关联被整合以建立HN: DrugBank [22]和repoDB [23].该网络包括1519种药物和728种疾病之间的5159个经实验验证的药物-疾病对。药物和疾病通过医学主题词的标准术语标准化[24].

药物-药物化学相似性

使用Open Babel v2.3.1 [25]、分子存取系统(MACCS)指纹[26]可以通过药物的SMILES字符串计算[27].如果有两个药物分子\(\左(g_i, g_j\右)\)在它们的MACCS片段位串中设置a和b位,其中c位设置在两种药物的指纹中,化学相似性[28\(G_{\left(g_i, g_j\right)}^C\)的药物-药物对定义为:

$ $ \{对齐}开始G_{\离开(g_i, g_j \右)}^ C = \压裂{C} {a + b - C} \ \左[0,1 \]\{对齐}$ $
(1)

\(G^C \in R^{N_g \乘N_g}\)表示药物的化学视图\ (N_g \)表示药物的数量。

药物-药物治疗的相似性

药物治疗相似性是通过药物靶点的标准蛋白序列相似性来衡量的,它包含了药物之间治疗连锁的概率。智人的典型蛋白质序列从Uniprot数据库下载(http://www.uniprot.org/).然后是蛋白质序列相似性\ (T (e_1、e_2) \)两种药物靶点\ (e_1 \)而且\ (e_2 \)使用Smith-Waterman算法[29].Smith-Waterman算法通过比较所有可能长度的片段和优化相似性度量来执行局部序列比对,以确定药物靶点的两串蛋白质规范序列之间的相似区域。结合两种药物的药物靶点的整体序列相似性\ (g_i \)而且\ (g_j \)由Eq决定。2通过平均所有的蛋白质对\ (e_1 \)而且\ (e_2 \)\(e_1 \in e_1 \)而且\(e_2 \in e_2 \)在这种情况下\(e_1 \ne e_2\)

$ $ \{对齐}开始G_{\离开(g_i, g_j \右)}^ T = \压裂{1}{n_{双}}\ _ {e1, e2}和T (e_1、e_2) \ \[0, 1 \]离开\{对齐}$ $
(2)

矩阵\(G^T \in R^{N_g \乘N_g}\)可以认为是治疗观点的药物。

疾病-疾病语义相似度

美国国立卫生研究院(NIH)数据库(http://www.ncbi.nlm.nih.gov/)可用于研究不同疾病之间的关系。详见[30.],每一个代表疾病的MeSH都表现出一个层次有向无环图(DAG)的结构。一种疾病\ (s_i \),其等级关系表示为\ (\ mathrm {DAG} (s_i) = \离开({\ mathcal {N}} \离开(s_i \右)\ varepsilon \左(s_i \) \右)\),在那里\({\mathcal {N}}\left(s_i\right)\)节点集是否包含\ (s_i \)还有它的祖先,还有\(\varepsilon \left(s_i\right)\)表示从父节点到子节点的直接链接集。继以往工作后[30.],共享较大部分dag的疾病往往具有更高的语义相似性。一个节点n的贡献\(\math {DAG}\left(s_i\right)\)疾病的语义价值\ (s_i \)由:

$ $ \ f {s_i}{对齐}开始(n) ={\左\{\开始{数组}{你}1 &文本{如果}{}\ n = s_i \ \马克斯\ f {s_i} {(n) \ n”中期\ \儿童的\ n \}和{}\{如果}\ n ne s_i文本。数组{}\ \端。} \{对齐}$ $
(3)

疾病的语义价值\ (s_i \)定义为:

$ ${对齐}DV \ \开始离开(s_i \右)= \总和_ {n \ {\ mathcal {n}}} f {s_i}左(n \) \ \{对齐}$ $
(4)

两种疾病的语义相似性\(G_{\left(s_i, s_j\right)}^M\)定义为:

$ $ \{对齐}开始G_{\离开(s_i, s_j \右)}^ M = \压裂{\总和\长成具_ {n \ {\ mathcal {n}} _{左(s_i \) \} \帽{\ mathcal {n}} _{\左(s_j \右)}}\离开(f {s_i} \左(n \右)+ f {s_j} \左(n \) \右)}{DV \左(s_i \右)+ DV \左(s_j \右)}在[0,1]\ \{对齐}$ $
(5)

左(s_i \ \ (DV \) \)而且左(s_j \ \ (DV \) \)表示疾病的语义贡献\ (s_i \)和疾病\ (s_j \)分别。然后,矩阵\(G^M \in R^{N_s \乘N_s}\)象征这种疾病的语义观点。\ (N_s \)是疾病的数量。

疾病基于目标的相似性

基于疾病目标的相似性度量是利用已知的药物-疾病关联来度量的,它包含了疾病之间目标关联的概率。杰卡德相似算法[31]用于计算节点结构的相似度。\ (E_i \)而且\ (E_j \)表示与疾病相关的目标集\ (S_i \)而且\ (S_j \)分别为基于目标的相似度\(G_{\left(s_i, s_j\right)}^A\)疾病对的定义为:

$$\begin{aligned} G_{\left(s_i, s_j\right)}^A=\frac{\vert E_i\ cap E_j\vert}{\vert E_i\ cap E_j\vert}{\vert E_i\vert + \vert E_j\vert -\vert E_i\ cap E_j\vert} \in \left[0,1\right] \end{aligned}$$
(6)

同样,矩阵\(G^A \in R^{N_s \ * N_s}\)注意到疾病的以目标为基础的观点。

模型架构

基于前一部分构建的HN结构,提出了一种新的端到端图神经网络框架GCMM来识别潜在的药物-疾病关联。该模型主要由编码器和解码器组成。具体来说,如图所示。1b-f, GCMM由以下四个主要模块组成:2层多视图GCN编码器、基于多模态的注意机制、全连接特征提取器和矩阵完整解码器。

图2
图2

GCN编码器的示意图

多视图GCN编码器

卷积神经网络[32已广泛应用于计算机视觉、语音识别和自然语言处理等领域。然而,CNN不能应用于非欧几里得空间中的数据结构。政府通讯(33]是结合图卷积和神经网络来实现半监督分类的图任务的典型谱模型。特别地,GCN利用图的拉普拉斯矩阵在频域上推导出图的拉普拉斯算子,然后在频域上类比欧几里得空间中的卷积,推导出图的卷积公式。在应用层面上,GCN及其变体显著改善了许多与网络相关的预测任务,例如预测小生物分子的性质和结构。

在GCMM中,使用四个相似度网络上的多视图GCN编码器来学习药物和疾病的低维表示。无花果。2如图所示,GCN编码器通过集成图中节点的域信息来更新特征。学习到的嵌入被用作下游任务的输入。从整个图中可以得到药物节点的嵌入\ (G ^ C \)而且\ (G ^ T \)

$ $ \{对齐}开始X ^{\离开(l + 1 \右)}=σ\ \离开({\ widetilde {D}} ^{- \压裂{1}{2}}{\ widetilde{一}}{\ widetilde {D}} ^{- \压裂{1}{2}}X ^{\左(左、右)}W ^{\左(左、右)}\)\{对齐}$ $
(7)

在哪里\ (X ^{左(l + 1 \右)}\ \在R ^ {N_g \ * F_g} \)表示\ (F_g \)尺寸特征\ (N_g \)药物\(左(l + 1\右)\)GCN层。特别是,\(X^{\左(0\右)}\)是随机初始化的\(W^{\左(l\右)}\)为模型学习的参数矩阵。一个为相似度G的相邻矩阵,公式定义为:

$$\begin{aligned} {\ widdetilde {A}} = I + A \end{aligned}$$
(8)

\ (L = {\ widetilde {D}} ^{- \压裂{1}{2}}{\ widetilde{一}}{\ widetilde {D}} ^{- \压裂{1}{2}}\)是G和的对称归一化拉普拉斯矩阵\ ({\ widetilde {D}} \)一个对角矩阵是否有对角入口\(左\ [{\ widetilde {D}} \右]_ {ij} = \总和_ {j} \离开[{\ widetilde{一}}\右]_ {ij} \).类似地,疾病节点特征由相似图获得\ (G ^ M \)而且\ \ (G ^)如下:

$ $ \{对齐}开始Y ^{\离开(l + 1 \右)}=σ\ \离开({\ widetilde {D}} ^{- \压裂{1}{2}}{\ widetilde{一}}{\ widetilde {D}} ^{- \压裂{1}{2}}Y ^{\左(左、右)}W ^{\左(左、右)}\)\{对齐}$ $
(9)

采用多层GCN编码器对多个相似度图、不同视角下的药物和疾病嵌入进行编码\(\左(X^C, X^T, Y^M, Y^A\右)\)可获得。

基于多模态注意机制

图3
图3

注意层的说明

注意机制[34]的灵感来自于人类的生物系统,即在处理大量信息时专注于不同的部分。模型的参数越多,表达能力就越强,可以容纳更多的数据,但这也会带来信息过载的问题。通过引入注意力机制,将注意力集中在对当前任务更重要的信息上,减少对其他信息的注意力,过滤掉无关信息,可以解决信息过载的问题,增强任务处理的有效性和准确性。注意力逐渐成为深度学习领域最重要的概念之一。

在GCMM中,在获得多视图特征后,引入基于多模态的注意层。如图所示。3.,它使模型能够区分多源输入并赋予不同的权重。全局平均池用于计算每个嵌入的权重。毒品\ (f的{}^ g \)通道,在本文中\(F_{in}^g = 2\),其信道统计量\(Z_g \in R^{1 \ * 1 \ * F_ (in) ^g \)是按药物特性计算的吗\(X \in R^{F_g \ * N_g \ * F_ (in) ^g \).用于药物的化学特性\ (X ^ C \),信道统计量\ (z_c \)定义为:

$ $ \{开始对齐}{}{z_c ^ {att} = \压裂{1}{F_g \ * N_g} \ \长成具和_ {i = 1} ^ {F_g} \ \长成具和_ {j = 1} ^ {N_g} X ^ C \离开(i, j \右)}\{对齐}$ $
(10)

各频道的注意力权重可计算为:

$$\begin{aligned} Z_{att} = \delta \left(W_2\sigma \left(W_1Z_g\right) \right) \end{aligned}$$
(11)

在哪里\(\delta \左(\ cdot{}\右)\)而且\(\sigma \左(\ cdot{}\右)\)分别为Sigmoid激活函数和Relu激活函数。\ (W_1 \)\ (W_2 \)是训练参数。多通道的关注\ (Z_ {att} \)是由\(Z_{att} = \left[z_c^{att}, z_t^{att}\right]\).最后,将各个视图的特征及其对应的权重系数结合起来进行标准化,对于药物在化学视图和治疗视图中的注意事项进行了显示12而且13

$ $ \{开始对齐}和{\ widetilde {X}} ^ {C} = X ^ C \ cdot z_ {C} ^ {att} \{对齐}$ $
(12)
$ $ \开始{对齐}和{}{{\ widetilde {X}} ^ {T} = X ^ T \ cdot z_ {T} ^ {att}} \{对齐}$ $
(13)

同样,基于药物和疾病注意的归一化嵌入从不同的角度进行了研究\ \(左({\ widetilde {X}} ^ {C}, {\ widetilde {X}} ^ {T}, {\ widetilde {Y}} ^ {M}, {\ widetilde {Y}} ^ {} \) \)可以通过本模块获得。药物通道嵌入被识别为\ ({\ widetilde {X}} =左\ [{\ widetilde {X}} ^ C {\ widetilde {X}} ^ T \] \),疾病通道嵌入识别为\ ({\ widetilde {Y}} =左\ [{\ widetilde {Y}} ^ C {\ widetilde {Y}} ^ T \] \)

全连接特征提取器

全连接层擅长综合从前一节提取的信息。在这个模块中,它被用来整合多个视图信息并生成最终的嵌入。给定药物通道嵌入\ ({\ widetilde {X}} =左\ [{\ widetilde {X}} ^ C {\ widetilde {X}} ^ T \] \),最后一个特征\(X^{'} \in R^{F_{out}^g \乘以N_g}\)定义为:

$ $ \{对齐}开始&Lin_ {X} = \σ(偏差+ \ _ {i = 1} ^和f的{}^ g} {{\ widetilde {X}} \ * W_ {X}) \{对齐}$ $
(14)
$ $ \{对齐}开始X ^{'} =堆栈(Lin_ {X ^ C}) \{对齐}$ $
(15)

在哪里\(W_{X} \in R^{V_g \乘1}\)是学习参数,和\(Lin_{X} \in R^{1 \ * N_g}\)表示药物嵌入的输出。毒品的最后一个特征\ (X ^ {} \)由堆叠多通道输出计算。同样,疾病最终嵌入\ (Y ^ {} \)可获得。

矩阵补全解码器

将从编码器中学习到的药物和疾病嵌入输入到矩阵补全模块中,并将偏好预测问题作为推荐任务处理。预测关联矩阵(U \in R^{N_g \乘N_s}\)定义为:

$ $ \开始{对齐}U = X ^ {' T} \ cdot Y ^{} \{对齐}$ $
(16)

中的值U\ (U_ {ij} \)是药物i与疾病j相关的程度。GCMM的目标是最小化之间差异的fre两栖范数U并对标记矩阵进行了实验验证\ (U ^ {} \).模型的损失函数定义如下:

$ ${对齐}\ \开始mathop {argmin} _{\θ}\绿色{u u ^{'}} \绿色^ {2}_ {F} \{对齐}$ $
(17)

结果与讨论

实验设置

已知药物-疾病关联对作为阳性样本,其他对作为阴性实例。由于数据集密度低,我们使用5FCCV来评估在所有阳性样本和随机选择的相同大小的阴性实例上的预测性能。在每一轮中,一个子集作为有效集,其他子集作为训练集。所有的实验都是在Linux系统上的一台11GB内存的GTX 2080Ti GPU上进行的。亚当优化算法[35]使模型训练的损失值最小,1000个训练epoch,学习率为0.001。选取受试者工作特征(ROC)曲线下面积(AUC)和准确度/召回率(PR)曲线下面积(AUPR)作为稳健性的主要评价指标。此外,还计算了基于阈值的指标,即Recall(也称为sensitivity), Accuracy(ACC), Precision和F1-measure (F1)。指标可以通过以下方法计算:

$ ${对齐}tpr = \ \开始压裂{TP} {TP + TN} \{对齐}$ $
(18)
$ ${对齐}玻璃钢= \ \开始压裂{FP} {TN + FP} \{对齐}$ $
(19)
$$\begin{aligned}&Precision = \frac{TP}{TP + FP} \end{aligned}$$
(20)
$$\begin{aligned}&Recall = \frac{TP}{TP + FN} \end{aligned}$$
(21)
$$\begin{aligned}&ACC = \frac{TP + TN}{TP + TN + FP + FN} \end{aligned}$$
(22)
$$\begin{aligned}&F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} \end{aligned}$$
(23)

哪一个TPTN《外交政策》FN分别表示真阳性、真阴性、假阳性和假阴性。

GCMM在交叉验证中的表现

表1 GCMM在5FCCV上的性能

如表所示1,它是十次实验的平均值。根据结果,可以观察到GCMM可以准确预测药物和疾病之间的关联,并且在数据集中表现稳健。平均AUC得分约为0.90,平均AUPR得分约为0.91。此外,每个折叠的偏差都很低,这说明了模型的稳定性。

基线方法和性能比较

图4
图4

GCMM和基线的性能。一个用其他方法验证GCMM的AUC值。b用其他方法验证GCMM的AUPR值

表2阳性与阴性样本比例为1:1时的性能比较
表3所有实例的性能比较

最近提出的四种深度学习模型,包括DeepDR、NeoDTI、LAGCN和NIMGCN [1820.2136],作为基线方法,以证明GCMM的性能优势。它们也是基于相似度的图神经网络模型。所有比较模型的训练集和测试集都与GCMM的训练集和测试集相同。根据各模型的拟合程度进行训练,并对模型的超参数进行调优。首先,使用与GCMM相同的训练数据集,以1:1的正、负样本比例对这些模型进行比较。他们10次试验的平均结果见表2.绘制ROC曲线和PR曲线,对预测效果进行评价。如图所示。4a, ROC曲线表示不同阈值下的真阳性率(TPR)和假阳性率(FPR)的变化,分类性能越好的模型AUC越大。如图所示。4b, PR曲线表示不同阈值下的准确率和召回率变化。AUPR值越大,模型的效果越好。接下来,对所有配对(包括阳性和阴性)执行交叉验证测试。这个场景基本上模拟了药物-疾病对稀疏标记的实际情况。可以观察到,GCMM大大优于其他基线方法,从表中大部分指标都有显著改善3.

可以看出,GCMM模型在两个主要指标上比其他模型更加优化。此外,与其他方法相比,GCMM稳定的其他指标相对更稳定。GCMM的优先级可以归结为以下几点:

  • 图卷积网络在相似图特征提取和异构信息融合方面有很好的效果。

  • 引入多维注意机制处理多模态信息,尤其针对复杂的药物-疾病网络。

  • 全连接层可以进一步有效地提取特征。

模型烧蚀实验

表4 GCMM及其变体的性能比较
图5
图5

GCMM及其变体的结果

本节在烧蚀实验中使用了两种GCMM变体,以验证每个模块在GCMM中的重要性。

为了确定基于多模态的注意层是否增加了模型的预测性能,使用了没有注意层的GCMM (GCMM sans att)。注意机制将GCMM的性能提高了大约3%,如表所示4和无花果。5.对于GCMM和无线性层的GCMM (GCMM_no_lin),5结果表明,进一步提取线性层的嵌入可使指标提高4%左右。由于各模块的组合,该模型获得了较高的预测精度。

多源信息的消融

表5多源信息性能

为了验证多模态信息的重要性,进行了单源和多源信息的消融实验。

如表所示5,是所有多源信息组合的实验结果。的信息(g ^ c + g ^ t + g ^ m + g ^ a \)在大多数指标上明显优于其他战斗的结果。具体而言,其结果比最佳单一信息多3.0%(g ^ c + g ^ m \)AUC和AUPR。此外,其结果比传统的高2.3%(g ^ t + g ^ m + g ^ a \)AUC和AUPR。

Hyper-parameter分析

图6
图6

不同超参数的结果

通过实验检验了四个重要参数——GCN层数、嵌入大小、输出通道和学习率,以检验超参数对模型性能的影响。

  • 从图中可以看出。6a 3层的性能最低,这可以归结为gnn的局限性是过度平滑问题[37].1层GCN的结果表明,较浅的GCN不能充分传播节点特征来融合异构信息。同时,可以发现适当的2层GCN对GCMM有显著的改善。

  • 嵌入尺寸直接影响GCMM的性能。在实验中,在[32,64,128,256,512]维度上改变嵌入尺寸。从无花果。6b,在一定范围内,嵌入尺寸越大,AUPR和Precision越高。本文选择256维。

  • 输出渠道决定了药物和疾病特征的最终维度。输出通道在[64,128,256]中改变。从Fig可以看出。6c在GCMM输出通道为128时,AUC和AUPR均达到最高。

  • 学习率是在模型训练过程中,每个参数作为损失函数被优化的程度,它的值与模型能否得到最优结果有关。如果学习率过高,待优化参数会在最小值附近波动。反之,过小的学习率会导致待优化参数收敛缓慢。数字6D显示该模型的最佳学习率为0.001。

案例研究

新药物有望治疗AD

为了进一步评估GCMM的新预测的质量,使用基于文献的新药物-疾病对评估进行了一个案例研究。具体而言,GCMM可用于预测AD的候选药物。阿尔茨海默病是目前最常见的神经退行性疾病[38],一般痴呆是特征性的,病因不明。药物重靶向作为AD的预测治疗手段具有重要的应用价值。

表6 GCMM预测的阿尔茨海默病新药物前5名

在计算所有药物-疾病对的预测相关性后,根据预测分数生成前5名药物-疾病关联的排序列表。然后通过从数据集中排除所有已知的药物-疾病关联来获得新的关联。表格6显示前5个预测AD的候选药物,其中4个(80%)有文献报道的证据。具体来说,地塞米松(\ \离开(11 \β,16α\ \)\ hbox {-} 9 \ hbox{-}氟\ hbox{-} \ 11日))与AD的预测相关系数最高。地塞米松水平被证明是AD的重要考虑因素[39]和[40提示阿昔洛韦联合地塞米松可能是治疗AD的替代疗法。第二种是半胱胺,它是氨基酸半胱氨酸的小分子脱羧衍生物,是针对神经退行性变的药物的理想特征。在[41],慢性半胱胺治疗可改善APP-Psen1 AD小鼠模型的习惯化和空间学习缺陷。第三,阿立哌唑是一种新型的抗精神病分子。[42]首先比较了阿立哌唑与安慰剂在AD相关精神病患者中的疗效和安全性。[43进一步开展了老年痴呆患者精神病治疗的双盲实验。[44]最后介绍了评价阿立哌唑治疗ad相关精神病的随机对照试验,并证明了其治疗效果。此外,第四个分子利福喷丁(RIF)是一种用于治疗结核病的抗生素,但在浓度低于影响生存能力的浓度时,可以防止大肠杆菌中卷毛杆菌依赖性粘附和生物膜的形成[45].[46]首次报道了大鼠脑匀浆中RIF的直接定量,同时研究了β\(淀粉样蛋白\ hbox {-} \ \)并发现RIF穿过血脑屏障,对AD有保护作用,进一步的体内研究正在调查中。

甲氧西林的性质分析

由于文献和实验证明甲氧西林与AD没有相关性,本节分析甲氧西林的性质及其与新型预测药物的相似性。

图7
图7

甲氧西林的化学结构

甲氧西林是一种耐青霉素的青霉素,其抗菌作用与青霉素类似[47].它的分子式是\ (C_ {17} H_ {20} N_2O_6S \)化学结构如图所示。7.甲氧西林主要用于耐药青霉素葡萄球菌引起的各种感染,如脓毒症、呼吸道感染、脑膜炎、软组织感染,也可用于化脓性链球菌或肺炎球菌与耐药青霉素葡萄球菌引起的混合感染[47].

结论

药物-疾病潜在关系预测是计算药物再利用的重要研究领域,可提高药物利用水平,指导临床应用。本文建立了一种新的模型,称为GCMM,用于识别潜在的药物-疾病关联。首先,GCMM通过GCN编码器通过HN融合关于多种药物和疾病相似性的拓扑信息。其次,与现有方法对每个源分配相同的权重不同,多模态注意机制应用于多源信息集成。在全连通层完成后,通过矩阵补全解码器得到每对药物-疾病的相关系数。在5FCCV上的实验结果表明,GCMM的性能优于其他四种基于相似度的图神经网络模型DeepDR、NeoDTI、LAGCN和NIMGCN [1820.2136],在大多数索引中,具有更高的准确性。此外,一个关于AD潜在治疗的案例研究提供了具体的应用,重申了GCMM的医学有效性。所有这些结果都表明了GCMM的有效性和稳健性,并得到了药物再利用的新预测药物-疾病关联的发现的支持。在未来的研究中,如何在生物数据的低稀疏性下提高生物信息的可靠性和多样性是一个值得研究的领域。此外,与疾病药物治疗有关的其他生物成分,包括蛋白质、mirna和生物过程,也可以添加到HN中。

数据和材料的可用性

在当前研究期间生成和/或分析的数据集可在Github存储库中获得,https://github.com/FanZhang0820/GCMM

参考文献

  1. Ashburn TT, Thor KB。药物重新定位:确定和开发现有药物的新用途。新药品发现2004;3(8):673-83。

    文章中科院谷歌学者

  2. 柯林斯FS。寻找一种罕见疾病的治疗方法:早衰症。循环。2016;134(2):126 - 9。

    文章谷歌学者

  3. 胡瑞敏,杨林,谢强,等。计算药物重新定位:从数据到治疗。临床药物学杂志,2013;30(4):335-41。

    文章中科院谷歌学者

  4. 金太瓦。阿尔茨海默病新疗法的药物重新定位方法神经病治疗。2015;12(1):132 - 42。

    文章中科院谷歌学者

  5. 魏玲,唐娟,邹强。一种改进的基于局部进化信息的dna结合蛋白预测方法。科学通报,2017;34(4):342 - 344。

    文章谷歌学者

  6. 王晓燕,王晓燕,王晓燕,等。有效治疗前列腺癌的药物重新定位。前沿物理。2018;500:66。

    谷歌学者

  7. 赫茨伯格RP,波普AJ。高通量筛选:21世纪的新技术。中国生物化学杂志,2000;4(4):445-51。

    文章中科院谷歌学者

  8. 狂欢节。下一代测序技术对遗传学的影响。植物学报,2008;24(3):133-41。

    文章中科院谷歌学者

  9. Padhy BM, Gupta YK。药物重新定位:重新研究现有药物以寻求新的治疗适应症。中华医学杂志(英文版);2011;37(2):357。

    文章中科院谷歌学者

  10. 薛辉,李娟,谢辉,等。药物重新定位方法和资源的审查。国际生物学杂志,2018;14(10):1232。

    文章中科院谷歌学者

  11. 阿查里亚C,库珀A,波利EJ。基于配体的药物设计的最新进展:构象采样药效团方法的相关性和实用性。中国药理学杂志。2011;7(1):10-22。

    文章中科院谷歌学者

  12. 人工智能。科学通报。2019;1(1):66。

    谷歌学者

  13. 蒋AP,巴特AJ。系统评估药物-疾病关系,以确定新药物使用的先导。临床药物学杂志2009;86(5):507-10。

    文章中科院谷歌学者

  14. 许芬豪尔A,弗洛尔斯海姆P,阿克林P,等。配体的相似性度量反映了目标蛋白的相似性。化学与计算学报,2003;43(2):391-405。

    文章中科院谷歌学者

  15. 夏志,吴丽丽,周旭,等。来自异质生物空间的半监督药物-蛋白质相互作用预测。中国生物医学工程学报。2010;4(2):1-16。

    谷歌学者

  16. 黄丽玲,王志强,王志强,等。一种使用不同数据类型的药物目标识别的贝叶斯机器学习方法。地理学报。2019;10(1):1 - 14。

    文章中科院谷歌学者

  17. 李文杰,李文杰,李文杰。深度学习。大自然。2015;521(7553):436 - 44。

    文章中科院谷歌学者

  18. 曾旭,朱松,刘旭,等。基于网络的深度学习方法在硅内药物重新定位。生物信息学,2019,35(24):5191 - 8。

    文章中科院谷歌学者

  19. 吴震,潘松,陈峰,等。图神经网络综合综述。神经网络学习系统。2020;32(1):4-24。

    文章谷歌学者

  20. 万峰,洪磊,肖安,等。NeoDTI:来自异构网络的邻居信息的神经集成,用于发现新的药物-靶点相互作用。生物信息学,2019,35(1):104 - 11。

    文章中科院谷歌学者

  21. 于忠,黄峰,赵旭,等。利用层注意图卷积网络预测药物-疾病关联。生物信息学报。2021;22(4):bbaa243。

  22. 郭爱春,郭永东,王志强,等。DrugBank 5.0: 2018年对DrugBank数据库的重大更新。核酸研究,2018;46(D1): D1074-82。

  23. 布朗AS,帕特尔CJ。药物重新定位的标准数据库。科学通报,2017;4(1):1 - 7。

    文章谷歌学者

  24. 以至于CE。医学主题标题。中华医学杂志,2000;32(3):366。

    中科院PubMed公共医学中心谷歌学者

  25. O 'Boyle NM, Banck M, James CA,等。开放的巴别塔:一个开放的化学工具箱。化学通报,2011;3(1):1 - 14。

    文章谷歌学者

  26. Cereto-Massagué A, Ojeda MJ, Valls C,等。虚拟筛选中的分子指纹相似度搜索。方法。2015;71:58 - 63。

    文章谷歌学者

  27. Quirós M, graoulis S, girdzijauskaits,等。在晶体学开放数据库中使用SMILES字符串描述化学连通性。化学通报,2018;10(1):1 - 17。

  28. 基于相似度的二维指纹虚拟筛选。今日药物发现。2006;11(23-24):1046-53。

    文章中科院谷歌学者

  29. Smith TF, Waterman MS.常见分子子序列的鉴定。中华分子生物学杂志,1981;37(1):344 - 344。

    文章中科院谷歌学者

  30. 王东,王杰,陆敏,等。基于microRNA相关疾病推断人类microRNA功能相似性和功能网络。生物信息学,2010,26(13):1644 - 50。

    文章中科院谷歌学者

  31. 孙文杰,王晓明,王晓明,等。利用Jaccard系数计算关键词相似度。在:国际工程师和计算机科学家会议论文集;2013.380 - 4页。

  32. 李文杰,李文杰,李文杰。深度学习。大自然。2015;521(7553):436 - 44。

    文章中科院谷歌学者

  33. Kipf TN, Welling M.半监督分类与图卷积网络。arXiv预印本arXiv: 1609.02907.2016.

  34. 牛智,钟刚,于慧。深度学习的注意机制研究进展。Neurocomputing。2021;452:48 - 62。

    文章谷歌学者

  35. 金马DP,巴JA。一种随机优化方法。arXiv预印本arXiv: 1412.6980.2014.

  36. 李娟,张松,刘涛,等。基于图卷积网络的神经诱导矩阵完成用于mirna -疾病关联预测。生物信息学。2020;36(8):2538 - 46。

    文章中科院谷歌学者

  37. 陈东,林勇,李伟,等。从拓扑角度测量和解决图神经网络的过平滑问题。见:AAAI人工智能会议记录。34 2020;(4): 3438 - 45。

  38. 戈德特M,斯皮兰提尼MG。一个世纪的阿尔茨海默病。科学。2006;314(5800):777 - 81。

    文章中科院谷歌学者

  39. 李志强,李志强,李志强,等。阿尔茨海默病和重度抑郁症的地塞米松抑制试验:与痴呆严重程度、抑郁症和CSF单胺的关系中华精神病学杂志。1990;2(2):99-122。

    文章中科院谷歌学者

  40. 张慧,杨志军,杨玉山,等。阿昔洛韦和地塞米松的组合可以预防小鼠阿尔茨海默病相关的认知障碍。精神药理学。2020;237(6):1851 - 60。

    文章中科院谷歌学者

  41. 半胱胺和半胱胺在神经退行性疾病和神经精神疾病中的治疗应用。前沿神经。2019;10:1315。

    文章谷歌学者

  42. 杜德恩,王文杰,王文杰,等。阿立哌唑治疗阿尔茨海默病患者精神病:一项随机、安慰剂对照研究临床精神药物杂志,2005;25(5):463-7。

    文章谷歌学者

  43. Streim JE, Porsteinsson AP, Breder CD,等。阿立哌唑治疗老年痴呆症养老院患者精神病的随机、双盲、安慰剂对照研究老年精神病学杂志。2008;16(7):537-50。

    文章谷歌学者

  44. De Deyn PP, Drenth AFJ, Kremer BP,等。阿立哌唑治疗阿尔茨海默病药物学杂志,2013;14(4):459-74。

    文章谷歌学者

  45. 马淑珍,林志勇,郭娜万,等。基于细胞的高通量筛选确定利福喷丁作为淀粉样蛋白和生物膜形成的抑制剂大肠杆菌.美国急性呼吸道疾病杂志,2015;1(10):460-8。

    文章中科院谷歌学者

  46. Mindermann T, Zimmerli W, Gratzl O.利福平浓度在人脑的不同隔间:一种新的方法来确定药物水平在脑细胞外空间。抗微生物制剂。1998;42(10):2626-9。

    文章中科院谷歌学者

  47. Sakoulas G, Moellering RC Jr.增加耐甲氧西林金黄色葡萄球菌菌株的抗生素耐药性。临床感染杂志,2008;46(增刊5):360-7。

    文章谷歌学者

下载参考

确认

不适用。

资金

国家杰出青年科学基金(No. 41725019)和国家自然科学基金(Grant No. 41775112和41877305)资助。

作者信息

作者及隶属关系

作者

贡献

ZF和HW设计了实验,并进行了实验,ZF分析了结果。YL对论文进行了修改。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到以刘

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

张峰,胡文文,刘颖。GCMM:基于多模态注意机制的图卷积网络药物再利用。BMC生物信息学23, 372(2022)。https://doi.org/10.1186/s12859-022-04911-8

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12859-022-04911-8

关键字

  • 计算药物再利用
  • 图卷积网络
  • 注意机制
  • 异构信息
Baidu
map