用图上的扩散核分配蛋白质结构域

BMC生物信息学体积23、物品编号:369（2022）引用本文

864访问
2Altmetric
指标细节

摘要

尽管提出蛋白质结构域分解的算法方法已经引起了人们的高度兴趣，但该问题固有的模糊性使其仍然是一个活跃的研究领域。此外，随着复杂蛋白质结构解算数量的增加，对精确的自动化方法的需求也越来越大。虽然大多数以前的努力为分解三维结构集中在开发聚类算法，采用增强措施之间的氨基酸接近仍然是相当未知的。如果存在一个核函数，在其再现核希尔伯特空间中，蛋白质的结构域被很好地分离，则无需使用复杂的聚类算法就可以将蛋白质结构解析成结构域。受此启发，我们在蛋白质图上开发了一种基于扩散核的蛋白质结构域分解方法。我们检查了四种图节点核和两种聚类算法的所有组合，以研究它们分解蛋白质结构的能力。该方法在五个最常用的蛋白质结构域分配基准数据集和一个全面的非冗余数据集上进行了测试。结果表明，与四种最佳自动方法相比，使用一种扩散核的方法具有竞争力。我们的方法也能够为同一结构提供符合蛋白质结构域主观定义的替代划分。尽管依赖于相对幼稚的准则来选择最优分解，但该方法对简单和复杂结构具有竞争性的准确性和平衡的性能，该方法表明，特别是图上的扩散核，以及一般的核函数是促进将蛋白质解析为结构域并对蛋白质进行不同结构分析的有希望的方法。 The size and interconnectedness of the protein graphs make them promising targets for diffusion kernels as measures of affinity between amino acids. The versatility of our method allows the implementation of future kernels with higher performance. The source code of the proposed method is accessible athttps://github.com/taherimo/kludo。此外，所提出的方法可以作为web应用程序从https://cbph.ir/tools/kludo。

同行评审报告

背景

了解蛋白质功能、进化和三维组织的第一步通常是将其结构划分为更基本的单元，称为结构域。蛋白质结构域是蛋白质的紧凑和循环单位，能够独立折叠和起作用。尽管自1973年wettlaufer提出这个概念以来，已经过去了近半个世纪[1]，定义结构域仍然是许多争论的主题。一般来说，蛋白质结构域可以从三个不同但相关的角度来表征[2，3.，4:(1)反映结构特性的热力学稳定性、折叠自主性和紧凑性;(2)代表进化特征的保守和基因重复使用特征的重复;(3)在功能半独立性对应的分子机制中发挥特定作用。这些结构上有意义的亚基的描述促进了许多蛋白质组学研究，包括建立结构的进化关系[5]，蛋白质-蛋白质相互作用[6]，蛋白质结构和功能的从头预测[7]和分子动力学研究[8，9]，否则这在全长蛋白质中都是具有挑战性的任务。

虽然有几种方法试图从氨基酸序列预测结构域边界，但实验确定的蛋白质三维结构提供了丰富的原子坐标信息，使其成为描述具有现成空间结构的链的更好起点。一般来说，从三维结构中系统识别结构域的方法有三种[10:手动、半手动、自动。在人工分类数据库中，结构域基本上是通过人类专家的视觉检查来分配的。吟游诗人(11]是此类数据库中最广泛的数据库，主要处理结构域的递归特性和进化方面。AUTHORS是另一个数据库，指的是Islam等人收集的一组手动解决的域分配。[qh]12]。半人工数据库是指主要采用自动化方法进行蛋白质分解的数据库，但以CATH数据库为例，第一阶段方法之间的不一致是由专家监督解决的[13]。提出域名识别算法的努力几乎是在引入概念本身后立即开始的[14，15，16，17]。然而，直到蛋白质展开单元解析器(PUU)的首次亮相[18]在1994年，使用单独的广泛数据集进行参数优化和自动化方法的评估变得可行。这个，连同侦探[19]， domak [20.]，爸爸[12]标志着第二代蛋白质结构域自动分配方法的开始，并在CATH数据库中实现。

在过去的二十年中，已解决的蛋白质结构数量的指数级增长压倒了人类专家的检查，因此倾向于完全自动化的方法[21]。事实上，自从最初的方法问世以来，几乎每年都有新的算法被引入。这种多样化的策略包括但不限于图理论方法[22，23，24，25，26，27]、高斯网络模型[28，29]、范德华相互作用和氢键分析[30.，31]、Ising模型[29，32]，模糊聚类[33]，以及检查二级结构[34，35，36]。然而，许多方法试图最小化域间接口并利用结构紧凑的区域[37，38，39，40]。Veretnik等人对提出的算法进行了全面的比较[10]， dConsensus在2010年之前实现了公开开放方法的共识[41]。

尽管领域分配技术有着丰富的历史，但不同算法在数据集上的一致性很少超过组成结构的80% [42因为SCOP和CATH的专家方法是一致的。这反映了来自领域定义的不同标准的任务的主观性，如上所述。剑(43是一种最新的自动化方法，通过提供蛋白质链的替代分解来解决这个问题，尽管在以前的方法中产生多重解析并不是前所未有的[44，45]。然而，提出新的蛋白质分解算法方法是可取的，因为每种方法都有一定的缺点[46]和复杂的结构通常需要用不同的策略来处理，以便进行方便的划分。

从计算机科学的角度来看，蛋白质结构域分配是一个聚类问题，因此，当然，以前的方法主要关注的是它们用于蛋白质分配的聚类算法。虽然大多数作者都试图开发复杂的聚类算法，但是设计一种氨基酸之间的亲和度(接近度)来缓解聚类问题仍然是相当未知的。

内核简介

给定一组\ (n \)数据点$\Omega =\{x_1，…x_n \} $，核函数$k:\Omega \乘以\Omega \rightarrow {\mathbb {R}}$表示中每对点之间的亲和力ω\ (\ \)。对于任何核函数，都存在一个隐函数$\phi:\Omega \rightarrow \mathfrak {H}_k$它映射了每个数据点ω\ (x_i \ \ \)到非常高(或可能无限)维的希尔伯特空间\ (\ mathfrak {H} _k \)每两个点在哪里\ (x_i \)和\ (x_j \)在ω\ (\ \)核函数k表现为内积$k(x_i,x_j)=<\phi (x_i)，\phi (x_j)>$。注意，使用核函数k（.，．）we are able to obtain affinity between each pair of points in the unknown space\ (\ mathfrak {H} _k \)没有明确地知道这个空间[47]。到目前为止，已经引入了几种核函数来对不同学科的数据点进行聚类和分类[48，49]。

图节点核表示图中每对节点之间的亲和力。核矩阵K在一个图上是一个对称的正半定矩阵，有条目\ ([K] _ {ij} \)作为节点之间的指示性相似系数\ (v_i \)和\ (v_j \)。在已经提出的图节点核中，文献中最常用的是扩散核[50]。核心思想是让一个初始量，比如热量，从每个节点扩散到邻近的顶点。节点之间交换的热量\ (v_i \)和\ (v_j \)经过一段时间的间隔，就可以衡量两者之间的相似性\ (v_i \)和\ (v_j \)。或者，这个度量可以被理解为初始化的随机漫步器在一个起始节点上遇到另一个顶点的概率。通过捕获两个节点之间的所有连接路径的亲和性，本质上允许测量对噪声更具鲁棒性。虽然主要亲和系数是局部定义的，但扩散模型通过及时向前运行过程，在更大的尺度上揭示了图的整体结构。这使得这些方法除了将集群描述为随机步行者的低逃逸概率区域之外，还可以描述全局相似性的合理概念。

利用图节点核分解蛋白质

蛋白质的结构域是如此纠缠在一起，以至于在大多数情况下，使用欧几里得距离测量氨基酸残基的聚类不会得到适当的结果[43]。在实践中，当单个集群的结构高度非凸时，或者广义地说，当分散或中心性的度量不是实际集群的有效描述符时，基于核的聚类方法非常有用。

如果存在一个核函数，在其再现核希尔伯特空间(RKHS)中，蛋白质的结构域被很好地分离，则无需使用复杂的聚类算法就可以将蛋白质结构解析成结构域。受此启发，我们在蛋白质图上开发了一种基于扩散核的蛋白质结构域分解方法。我们研究了四种图节点核和两种聚类算法的所有组合，以研究它们将蛋白质结构分解为结构域的能力。

我们的方法在五个最广泛使用的基准数据集以及一组同源性低于40%的基于SCOPe v2.07的蛋白质链上进行了性能测试[51]。结果由通常用于评估领域分配算法的标准以及外在聚类有效性度量来评估。接下来，在评估的基础上，选择其中一个内核，将KluDo的准确性与四种众所周知的可用方法进行对比:DomainParser [22，23]， PDP [40]， DDomain [39]和剑[43]。此外，我们还讨论了我们的方法为蛋白质结构提供替代划分的能力如何解决蛋白质描述中的不确定性概念，并提高其与结构域的各种解释的兼容性。

方法

在本节中，我们提出了我们的方法:基于扩散核的图节点聚类蛋白结构域分配(KluDo)。对于蛋白质链，该方法包括6个步骤:(1)收集结构信息，(2)构建图，(3)单/多域分类，(4)核矩阵计算，(5)获得候选聚类，(6)确定域数。数字1说明了KluDo用于蛋白质结构域划分的总体工作流程。

收集结构信息

第一步，获得蛋白质结构所需的结构信息。利用DSSP工具从蛋白质结构中提取二级结构和可达表面积信息[52，53]。通过将每个残基的可达性值除以Miller等人给出的最大可能可达性，计算出每个残基的相对可达性面。[54]。每个残留物的疏水性也根据凯特-杜利特尔量表进行分配[55]。最后是旋转半径[56]的蛋白质结构。

图施工

基于蛋白质结构构造加权无向图，每个节点代表一个氨基酸残基，如果两个氨基酸之间存在至少一个原子接触，则每对节点通过一条边连接。在我们的例子中，假设两个原子接触如果它们的欧几里得距离等于或小于4 Å。每对残基之间的原子接触次数被认为是两个对应节点之间的边的权值。此外，为了评估我们构建蛋白质图的方法的合理性，进行了一组随机化试验(见附加文件)1)。

单/多域分类

在这一步中，使用bagging (bootstrap aggregating)分类器将输入的蛋白质结构分为单域或多域类。分类器由一组弱二元分类器组成，每个分类器都在训练集的平衡自举样本上训练(如下所述)。通过这种方式，平衡集生成(通过重新采样)，同时避免忽略数据的任何部分(通过多次引导)。

为了提供分类器的训练数据，我们减去了ASTRAL40 (v2.07)和五个著名的蛋白质结构域分配基准数据集(在“测试数据集”)，从ASTRAL95 (v2.07)中得到一组13350个蛋白质。从这些蛋白中，将在SCOP (SCOPe v2.07)和CATH (v4.2.0)中都被认为是单域的蛋白标记为单域，将在SCOP或CATH中都被认为是多域的蛋白标记为多域。结果得到了11,546个蛋白质链，包括6862个单结构域和4684个多结构域结构。为了克服两个类的不平衡，在训练前对每个bootstrap执行重新采样过程(参见附加文件)1，2)。

基于80%-20%的训练-测试分割评价，从一组候选模型中选择决策树作为基本估计器类型。此外，bootstrap的大小被设置为等于训练集的大小，以尽可能多地覆盖所有数据。为了设置另外两个超参数，即决策树的数量和重新采样过程(以平衡bootstrap样本)，使用5倍交叉验证对训练集进行网格搜索。因此，190决策树与SMOTE重采样算法的结合[57，58]被选为最佳选择(见附加文件)1)。

单/多域分类器的输入特征可以分为三种(重叠)类型:(1)生物特征，(2)基于网络的特征和(3)可聚类性评估特征。数字2给出了特征集的维恩图。一般来说，单/多域分类器使用了78个特性(参见附加文件)1)。根据图。2，部分特征是不言自明的:蛋白质大小(以残基数量计算)，旋转半径[56](作为蛋白质紧密度的度量)，残基的疏水性和表面可接近性的均值和方差，边和以及边和与节点数的比值。

为了计算42个特征，使用了三个网络中心性度量:度，亲密度[59]和between [60]。此外，为了计算30个特征(其中大多数涉及α -碳坐标的方差作为聚类性的度量)，对α -碳坐标执行主成分分析(PCA)。此外，霍普金斯[61]及倾角统计[62](作为聚类性的度量)是基于α -碳坐标计算的。此外，网络聚类系数(全局和平均局部)[63，64]被计算为网络群集性的度量(参见附加文件)1)。

由于上一步构造的网络是加权的，所以大多数情况下，基于网络的特征有两个加权和未加权的版本。由于方差可以用两种加权和不加权的方式计算，在计算加权方差时，一组生物和基于网络的值被视为权重(参见附加文件)1)。

核矩阵计算

在这一步中，根据下面描述的图节点核之一计算核矩阵。本文研究了四种图节点核:拉普拉斯指数扩散核、马尔可夫扩散核、马尔可夫指数扩散核和正则拉普拉斯核[49]。

拉普拉斯指数扩散核(LED)计算为:

$ $ \{对齐}开始K_{领导}= e ^ {L -β\}\{对齐}$ $

(1)

在哪里β\ (\ \)(带宽参数)既可以作为时间参数，也可以作为尺度参数l为网络的拉普拉斯矩阵。参数的值β\ (\ \)根据“带宽的决心”)。拉普拉斯矩阵l定义为\ (L =数字-模拟\),在那里D和一个分别为度矩阵和邻接矩阵。在加权网络的情况下，$现代{ij} $等于结点间边的权值\ (v_i \)和\ (v_j \)，如果两个节点没有连接，则为零。也D一个对角矩阵与顶点的度数相等吗我为\ (D_ {2} \)所有非对角线元素都是零。对于加权网络，\ (D_ {2} \)是连接到该节点的所有边的权值之和我。矩阵的指数\ (L -β\ \)可由Maclaurin级数计算:

$ $ \{对齐}开始K_{领导}= \总和_ {p = 0} ^ \ infty \压裂{1}{p !}(-\beta L)^p \end{对齐}$$

(2)

事实上这个术语β\ ((- \ L) ^ \页)统计路径长度的个数p每对节点之间同时为分母p！按路径长度标准化路径计数。与l作为一个对称矩阵，\ (K_{领导}\)变成一个正的半定矩阵，如[50]。

马尔可夫扩散核定义扩散模型中图节点间扩散距离的离散时间对应项[65，66]。借助周期马尔可夫链，核函数度量一对节点间热扩散模式的相似性。因此，当两个节点以完全相同的方式在图中扩散时，距离为零[48]。MD核矩阵计算为:

$ $ \{对齐}开始K_ {MD} = Z (t) Z ^ t (t) \{对齐}$ $

（3）

在哪里$Z(t)=\frac{1}{t}\sum _{\tau =1} ^t P^\tau$与t作为时间(带宽参数)和P为马尔可夫链过程的转移概率矩阵，定义为\ (P = D ^ {1} \)。

马尔可夫指数扩散核的引入是为了平衡LED中相对于顶点度的相似性度量[67]。它修改了LED，以防止在中心节点之间分配比外围节点更高的相似性:

$ $ \{对齐}开始K_{地中海}= e ^ {M -β\}\{对齐}$ $

（4）

其中马尔可夫矩阵米定义为\ (M = \压裂{D-A-nI} {n} \)与我作为单位矩阵n作为图中顶点的个数。在这里,n实际上是可能的最大程度(即。\ \ (n - 1))加上一个简单的(未加权的)图。由于所提出的方法构造了一个加权图，因此自然需要进行替换n潜在的最大加权度加1。然而，在本研究中，我们考虑事实上的最大加权度加1，而不是n。

正则拉普拉斯核(RL)首先在正则化算子的语境中被指定为计算图中两个节点之间的所有路径的内核，而不考虑路径长度[68](参见Eq。2)。这种相似性度量也可以用矩阵-森林定理解释为节点间的相对森林可达性[69]：

$ $ \{对齐}开始K_ {RL} = \总和_ {p = 1} ^ \ infty(-β\ {L}) ^ p = (I + \αL) ^{1} \{对齐}$ $

(5)

在哪里$0\le \beta \le 1$(相当于\α> 0 (\ \))限制每片森林的边缘数目，如[69]。该核也与众所周知的具有重启相似度的随机漫步和通勤时间核密切相关[70]。

带宽的决心

四个核函数中的每一个都有一个带宽参数，其大小可以解释为扩散时间或相应的随机漫步时间。因此，这个预先设定的时间必须与图的大小一致，以便随机漫步器有足够的时间搜索整个蛋白质。由于我们在图中铺设边的主要准则是每对残基(原子接触)之间的欧几里得距离，因此旋转半径[56]可以作为其各自图形大小的适当指标。对于蛋白质，该值被定义为结构中每个原子与其质心之间的均方根距离，并与残基数的0.5至0.6次方成正比[71]。另一方面，图上随机行走者的位移长度与随机行走时间的平方根成正比。因此，合理的近似假设带宽参数与旋转半径之间为简单的二次关系，即。\埃塔(\ \ * {R_g} ^ 2 \)在哪里\ (R_g \)旋转半径是和\埃塔(\ \)是比例常数。对于每一个结合核函数和聚类的方法，选择的值\埃塔(\ \)，使用预定义的值集所产生的精度\埃塔(\ \)在训练集的多域结构(由SCOP和CATH指定为多域)上进行计算。单/多域分类，假设所有结构都是多域的。对于每个核函数和聚类方法组成的三个值\埃塔(\ \)，并从中选出在ASTRAL40多域结构上表现最好的值。的确定值\埃塔(\ \)以及KluDo的其他参数值见表1(见附加文件)1)。

表1默认参数值

全尺寸工作台

获取候选聚类

给定在前一步中获得的核矩阵，可以使用几种聚类算法(最好是基于核的)来解析蛋白质结构。在本研究中，我们采用了两种聚类算法:kernel k-means [72]和光谱聚类[73]。这两种算法都取簇的数量，米，作为输入参数。在我们的方法中，从\ (m = 2 \)，则对较大的值进行聚类米在可行的范围内(考虑参数值)。

核k-means算法的工作原理与核函数对应的特征空间中的常规k-means算法类似。由于不能从核矩阵中获得聚类中心，因此核k-均值算法使用核技巧来隐式计算点到聚类中心的距离。为了降低对随机初始划分的敏感性，我们将算法重复100次，然后根据簇内平方和选择最佳输出。

此外，谱聚类对相似矩阵(在我们的例子中是核矩阵)进行操作。首先基于相似矩阵形成相似图，然后对图拉普拉斯算子进行谱分解得到点的谱嵌入。最后采用聚类算法，根据谱嵌入对点进行聚类。为此，我们选择了标准的k-means算法。与使用核k-means算法类似，这里的k-means算法也要重复100次，并选择最佳分区。

由于蛋白质结构的性质，在氨基酸聚类后需要进行一些后处理程序。数字3.显示当前步骤的流程图，包括后处理程序。蛋白质链大小的聚类n可以通过一个聚类标签列表来显示:\ (L = < l1、l2 \ ldots l_n > \)在哪里\ (l_i \)的集群标签我蛋白质链中的残基。在每次聚类之后，为了避免在多个域中分裂α -螺旋，每个分裂的α -螺旋的大小小于或等于参数最大α -螺旋大小合并（肉类)被重新分配到包含其大部分残基(l更新)。

给定列表l，蛋白质链可以被切成片段，使得每个片段由属于同一簇的一组连续残基组成，并且没有两个连续的片段是同一簇的成员。如果我们用t很明显，$t \ge m$。这些段可以通过一个有序列表来显示\ (S = < s_1、s_2…,s_t > \)在这\ (s_i = (b_i e_i) \)在哪里\ (b_i \)和\ (e_i \)分别表示该片段在蛋白质序列中的第一个和最后一个残基的索引。

最小分段大小(MSS)是我们算法的一个主要参数，它意味着不应该有任何段的大小小于这个值。作为聚类的结果，短段(大小小于海量存储系统(MSS)中)，它们以贪婪的方式被移除:从最短的开始，与相邻的段合并。重复这个过程，直到没有留下短段。的最大段计数与域计数比（特别提款权)作为我们算法的另一个输入参数。为了满足这一条件，继续去除短段的过程，直到满足给定的比率(图中称为去除过量段)。3.)。算法1描述了去除短段的过程。

在算法1中，Merge函数接受一个段列表年代还有一个片段\ (s_i \)作为输入并合并段\ (s_i \)与其相邻的部分(\ (s_张{}\)和/或\ (s_ {i + 1} \))，按照算法2中所示的程序。这个函数酒吧\ ({\ d{}}(。)\)表示一对线段之间的距离，在本研究中为两个线段中所有残基对之间的平均距离。换句话说，如果我们把所有剩余对之间的距离矩阵表示为D，两段之间的距离计算为:

$ $ \开始{对齐}{酒吧\ d {}} (s_k s_p) = \压裂{\总和_i ^ {s_k} \总和_j ^ {s_p} [d] _ {ij}} {| s_k |。| s_p |}{对齐}$ $ \结束

(6)

距离矩阵D可见，所有残数对之间的距离计算为:

$ $ \开始{对齐}{}[D] _ {ij} = [D] _{他}= \√6 {[K] _ {2} 2 [K] _ {ij} + [K] _ {jj}} \{对齐}$ $

(7)

在哪里K是核矩阵之一，在"核矩阵计算”。在算法2中，如果片段位于蛋白质链的开始(结束)处，则假设片段的前导(后继)为NULL。也是段的簇标签\ (s_i \)表示为\ (L [s_i] \)。

对于由\ ({m} \)集群\ ({c₁,c₂\ ldots C_m} \)，如果存在集群$为C_i $与尺寸小于最小域大小（MDS)参数(即$|为C_i | < MDS $)，则整个聚类被拒绝。作为一般规则，如果对于我们的方法的输入参数不存在可行的划分，则聚类过程将被取消。在这种情况下，所有获得的聚类最多\ (m - 1 \)被视为候选人。否则算法继续\ (m + 1 \)。注意，如果没有可行的分区\ (m = 2 \)，该算法拒绝了单/多域分类器的多域假设，将链重新考虑为单域。

确定域的数量

给定一组候选聚类(从上一步获得)和残差之间的成对距离矩阵(使用Eq。7)的最优域数在此步骤中计算。为了做到这一点，我们只考虑疏水氨基酸(疏水指数大于2)来计算最优聚类，因为它们的分布是结构模块化的一个更强的度量。所以,从n氨基酸,\ (n_h \)选择疏水性残基(\ (n_h < n \))。然后是轮廓指数[74](聚类效度度量)，为每个候选聚类计算如下:

$ ${对齐}SL_m = \ \开始压裂{1}{n h ^} \总和_ {i = 1} ^ {n_h} \压裂{b(我)——(i)}{\马克斯{\ {a(我),(我)\}}}\{对齐}$ $

（8）

在哪里一个（我的平均距离我这种氨基酸和所有其他氨基酸在同一簇中b（我的最小平均距离我该氨基酸与其他任何簇中的所有氨基酸相比，其中我余数不是成员。最后，选择域的数量，使轮廓分数最大化:

$ $ \{对齐}开始m_{选择}= {\ mathop {\ mathrm {argmax}} \限制_m} \ {SL_m \} \{对齐}$ $

(9)

结果与讨论

评价方法

在本研究中，使用两种方法来衡量预测分解相对于目标分解的正确性:域重叠分数和调整的Rand指数。对于这两种度量(下面将描述)，可以使用某个阈值来考虑预测分配为真。我们使用SCOP (SCOPe) [51]及CATH [75作业作为评估的参考。更准确地说，如果一个赋值符合SCOP或CATH数据库中的赋值，我们就认为它为真。

域重叠分数

该方法首先由Jones等人提出。[76]。为了计算重叠分数(OL)，首先在识别域和目标域之间建立一对一的最优匹配(使用重叠表[76])。然后，在两个分配中落在相同域的残基的百分比被认为是OL分数。换句话说，给定一对预测的和真实的域分解(由一个和P在无花果。4(分别为)大小的蛋白质n，可以形成一个重叠表，其中每个元素\ (n_ {ij} \)表示作为域成员的残基数目我和j分别在预测分解和真实分解中。在得到两种分解的最优匹配后，OL分数计算为:

$ $ \{对齐}开始OL = \压裂{\总和_ {ij \在{M_{选择}}}{n_ {ij}}} {n} \{对齐}$ $

(10)

在哪里\ (M_{选择}\)是两个赋值之间的最优匹配。最优匹配就是匹配米其中两个分区之间的重叠是最大的:

$ $ \{对齐}开始M_{选择}= {\ mathop {\ mathrm {argmax}} \限制_ {M}}{\总和_ {(i, j) \ {M}} {n_ {ij}}} \{对齐}$ $

(11)

因此，如果:(1)域的数量符合目标分配，(2)已识别域与参考域之间的重叠不小于某一阈值，则认为该分配为真。本文采用85%的阈值来报告主要结果。

调整后的兰特指数

通过对蛋白质结构进行真域分解，外部聚类评价方法可用于分数预测分割。OL分数的一个限制是它要求预测和目标分配中的域数量相等，而存在一些不具有这种限制的外在聚类有效性指标。为了评估我们的方法，我们选择了调整后的兰德指数(ARI) [77，78，79]，这是广泛使用的衡量聚类性能的外在指标之一。给定一个蛋白质链的大小n并对其进行域分解(预测分解和真分解)，计算出其中每个元素的列联表\ (n_ {ij} \)表示作为域成员的残基数目我和j分别在预测分解和真实分解中。所以联列矩阵的主对角线表示了分配到相同定义域的残数对。根据图。5，\ \ (a_i)和\ (b_i \)分别为行和列的和。引入ARI是为了校正兰德指数(RI) [77碰运气。根据列联表，ARI计算公式如下:

$ $ \开始ARI ={对齐}\压裂{\总和_ {ij} \离开({\{数组}{c}开始n_ {ij} \ \ 2结束\{数组}}\右)- \ [\ _i总和\离开({\ \ \{数组}{c} a_i开始结束2 \{数组}}\)\ _j总和\离开({\{数组}{c}开始b_j结束2 \ \ \{数组}}\)\右)/ \离开({\开始{数组}}{c n \ \ 2结束\{数组}}\右)}{\压裂{1}{2}左\ [\ _i总和\离开({\ \ \{数组}{c} a_i开始结束2 \{数组}}\右)+ \ _j总和\离开({\{数组}{c}开始b_j结束2 \ \ \{数组}}\)\右]——左\ [\ _i总和\离开({\ \ \{数组}{c} a_i开始结束2 \{数组}}\右)\ _j总和\离开({\{数组}{c}开始结束b_j \ \ 2 \{数组}}\)\]/ \离开({\{数组}{c}开始n \ \ 2结束\{数组}}\右)}\{对齐}$ $

(12)

为了报告本文的主要结果，ARI测量使用了50%的阈值。由于可以计算任何领域分解的ARI度量，因此在本研究中，还介绍了每个数据集上ARI分数的平均值和标准差的性能。

测试数据集

五个最常用的蛋白质结构域分配数据集加上最新发布的ASTRAL SCOP子集被用作测试集。Benchmark_1是由Veretnik等人提供的AUTHORS、CATH和SCOP之间的一组467个共识链。[80通过排除具有90%以上身份的链。链条Benchmark_2和Benchmark_3由Holland等人提供了一些严格的标准[2]。结构域的数量在SCOP、CATH和文献中晶体学或核磁共振结构作者的分配中一致。此外，选取所包含的结构域作为不同同源群的代表。Benchmark_3进一步满足了3个域分配之间的域重叠协议，与SCOP和CATH数据库更加一致。这两个数据集中只有一半是公开的，分别为Benchmark_2和Benchmark_3的156和135个链。另外两组为Islam等人提供的90条蛋白链的非冗余集，最大序列同一性为30%。[12在这里指的是伊斯兰教，以及Jones等人提供的常用的55种蛋白质基准。[76在这里指的是琼斯。此外，我们利用最新版本的ASTRAL SCOPe(2.07版)，通过去除序列同一性超过40%的链，构建了最全面的非冗余集;这里指的是ASTRAL40。在删除了缺少链id的条目后，得到了一组11958个链，这里还使用它来报告基于域数量的不同方法的性能。

扩散核的评价和聚类方法

我们检查了KluDo在使用每对扩散核(LED, MD, MED和RL)和聚类方法(核k-means和光谱聚类)的情况下分配蛋白质结构域的能力，利用表中的参数值1。对于这八种情况中的任何一种，首先通过假设所有蛋白链至少由两个结构域组成，对ASTRAL40的多结构域结构(SCOP和CATH认为是多结构域的结构域)进行了性能测量。这样，通过消除单/多域分类器对方法整体性能的影响(见图中虚线箭头)，可以阐明核/聚类方法之间效率的差异。1)。数字6显示了基于来自ASTRAL40数据集的2208个多域链的OL和ARI分数(分别使用85%和50%的阈值)的准确性。从图中可以看出，虽然核k-means算法的性能略好于谱聚类，但与RL核相比，三个核LED、MD和MED的精度更高。此外，LED、MD和MED三种核的性能也没有显著差异。此外，在使用核k-means算法的每个核的情况下，基于OL分数阈值范围(从5%到95%)的精度如图所示。7。同样，可以观察到LED、MD和MED内核在与阈值无关的性能方面没有显着差异，而RL的性能明显不佳(参见附加文件)3.)。

为了分析整个管道(包括单/多域分类器)的性能，在五个广泛使用的基准测试加上ASTRAL40数据集上执行了KluDo。根据表2与之前的分析不同，这里的谱聚类在大多数情况下比核k-means表现得更好。此外，在所有情况下，与使用这两种聚类算法中的任何一种的其他三种内核相比，使用LED内核都能获得更好或相同的性能(参见附加文件)4- - - - - -6)。

表2 KluDo在测试数据集上的性能

全尺寸工作台

最后，我们根据域的数量对ASTRAL40提取的四个子集的性能进行了检测。使用谱聚类算法的基准测试结果和每个子集(基于SCOP分配)的OL分数(阈值为85%)总结在图中。8。不正确的分配分为过切(分配的域数量比SCOP和CATH分配的都多)、过切(分配的域数量比SCOP和CATH分配的都少)、边界不一致(与SCOP或CATH分配的域重叠少于85%)和其他情况。所有的核在单域链和双域链上都显示出相当相似的精度。多域链中的大多数错误描述由过切和过切组成，这在大多数情况下与单/多域分类器的性能有关。此外，与聚类过程相关的边界不一致性在3-和4-域链的错误分解中也有很低的贡献(见附加文件)7)。

与其他方法的比较

由于LED内核相对于前面评估中的其他内核具有相对优势，在下一步中，我们将使用LED内核(以及两种聚类方法)的情况下的KluDo性能与四种众所周知的可用方法进行对比:DomainParser [22，23]， PDP [40]， DDomian [39]和剑[43]。DomainParser使用Ford-Fulkerson算法对加权图(流网络)进行递归二分区:在蛋白质图中设置一对人工源节点和汇聚节点后，去除源节点和汇聚节点断开的最小边集，得到两个子图。然后在每个子图上重复此过程，直到满足其停止条件。DomainParser试图使用它的图构造过程和停止标准来避免alpha-helices和beta-sheets的分裂。PDP基于致密性的假设，试图将蛋白质结构分解成更小的片段。通过一系列的切割，使域间和域内的接触比最大化。该方法的另一个目标是基于域的表面积来优化域的期望接触数。在PDP中，与DomainParser相比，alpha-helices和beta-sheets更容易被分割到不同的域。虽然适当的结构域边界偶尔会落在二级结构中，但除了紧凑性假设之外，这一特征可能会导致松散结构下蛋白质的错误分裂。与PDP类似DDomain算法还通过最大化域内接触来划分蛋白质结构。然而，该方法使用基于标准化接触的域-域交互配置文件的成对统计势，而不仅仅是PDP中的接触计数。DDomain将每个结构域限定为一个连续的片段，这对许多蛋白质链来说不是一个有效的假设。剑利用进化保存的亚结构(通过蛋白质剥离获得)[81])以凝聚方法重建蛋白质结构域。这些蛋白质单位代表了二级结构元件和结构域之间的蛋白质结构。这些组件的替代组装允许对链进行多次分解，这是作为该方法中蛋白质结构的模糊度度量引入的。与使用平面聚类方法的KluDo不同，所描述的所有四种方法都是分层方法，其中DomainParser、PDP和DDomain是自顶向下的，而SWORD是自底向上的。

基于OL(85%阈值)和ARI分数(%50阈值)的每种方法以及KluDo(使用LED内核和两种聚类方法)的性能如图所示。9一个,9B,分别。根据图。9A, KluDo(使用内核k-means)和PDP可以在Jones上获得最好的精度。同样，在Benchmark_1中，KluDo(使用谱聚类)能够获得接近表现最好的方法DomainParser的分数。通过使用谱聚类，KluDo也可以在其他数据集上获得第二高的分数。此外,无花果。9B表明，在使用光谱聚类的情况下，KluDo可以比Benchmark_1、Islam和Jones获得最好的精度(参见附加文件)5，6)。

表3 KluDo与ASTRAL40上以域数分隔的四种自动方法的性能比较

全尺寸工作台

此外,表3.显示了基于ASTRAL40上的OL分数(85%阈值)的准确性，由域数量分隔(基于SCOP和CATH)。从表中可以看出，在2域结构上使用核k-means比光谱聚类的性能更好，并且在CATH认为是2域结构的所有方法中性能最好。另一方面，与核k-means相比，光谱聚类在3域和4域结构上的精度更高。尽管具有相同的单/多域分类器，但可以观察到两种聚类方法在单域精度上的微小差异。这是由于聚类算法的多域划分不能通过结构域的假设条件。这些被摒弃的分解修正了结构多域的错误分类。此外，该方法在单域结构上的高精度表明，单/多域分类器的假阴性预测(将单域结构视为阴性类)在该方法的总体性能中可能起作用。正如预期的那样，PDP在单域链上表现不佳，因为它倾向于不合逻辑地分裂非紧凑结构。因此，PDP在ASTRAL40上精度较低的主要原因(图1)。9A)与其他方法相比，ASTRAL40具有较高的单域与多域比。相反，DomainParser与4域链上的其他方法相比显示出较差的准确性，因为它无法切割二级结构元素。尽管如此，它在基于OL分数的整体性能方面表现最好，只有ASTRAL40上的光谱聚类驱动的KluDo才能更好。根据表3.在使用LED内核和光谱聚类组合的情况下，Kludo的效率与域数量之间似乎存在平衡。总的来说，结果表明，与最佳可用方法相比，所提出方法的预测能力具有竞争力(参见附加文件)1，7)。

蛋白质图上的扩散核

图表示为处理异构生物数据提供了丰富的上下文。尽管本研究中使用的图节点核是节点相似度的强大度量，但当应用于具有低链接数的稀疏图时，它们会受到影响。由于它们的性质是基于热扩散的概念，它们很容易受到图中缺失环节的影响[82]。然而，在蛋白质结构域的情况下，相应的图表示包含良好连接的残基网络的密集结构。因此，扩散核在蛋白质分解中不受缺失环节形式的噪声的影响。

这种核的另一个限制是它们的时间复杂性，它在节点数量上的比例超过二次。更准确地说，在LED和MED内核的情况下，矩阵幂运算的计算复杂度为\ (O (n ^ 3) \)在哪里n是图中节点的个数。MD内核进行计算t矩阵乘法，每一个的代价是\ (O (n ^ {2.373}) \)在最快的算法中[83]。RL核中的矩阵反演的计算复杂度也与矩阵乘法相似，对于大型网络，所有这些都可能是计算负担。同样，在处理蛋白质图时，这不是禁止的。大多数蛋白质的残基数在50到2000之间(中位数在300左右)。84])远远低于图节点核的计算复杂性的限制性阈值。

此外，为了直观地显示蛋白质图上的扩散核是否会比原始的3D结构更好地分离结构域，在这两种情况下，蛋白质都可以可视化。为了观察核RKHS中蛋白质结构的投影，我们使用了核主成分分析(kPCA)等几种方法[85，86]。数字10显示了原始3D空间中蛋白质(PDB: 1d0n，链:a)的结构(通过考虑每个氨基酸的质心作为其相应的数据点)及其在LED核矩阵上由kPCA产生的前三个主成分(pc)上的投影。1与{{R_g} \ 0.006 \倍^ 2}\)作为带宽参数值)。与原始的三维结构相比，变换后的表示具有较好的结构域分离效果。

选择分解

如《方法章节中，KluDo试图将多结构域蛋白质结构划分为两个尽可能多的结构域。然后根据疏水残基的剪影评分对结果进行排序，以实现最佳分配。这就产生了许多分区，它们对应的轮廓分数可以作为与专家意见一致的可能指标。这使我们的方法能够为同一链提供可选的分区。在可以用不同的领域定义标准划分结构或专家之间没有一致解析的情况下，多重分解特别有意义。这类蛋白质的一些例子以及它们被KluDo(使用LED核和核k-means)分解的可能性如图所示。11。

根据图。11，大鼠DNA聚合酶β (PDB: 1bpb，链:A，图。11A)可以假设由SCOP和Sarawa等人描述的三个域组成:手指(残数88-151)，手掌(152-262)和拇指(263-335)[87]。或者，CATH数据库将此链划分为两个域棕榈和拇指部件作为单个域。从热图中可以明显看出，热图说明了“方法部分，KluDo可以检测该蛋白的两种分解。类似的例子是DNA聚合酶IV (PDB: 1jx4，链:A)。11B)在SCOP中有两个结构域。其晶体结构的功能解释揭示了与CATH一致的四个结构域:手指(1-77)，手掌(78-166)，拇指(167-233)和小指(244-341)结构域依次从N端到C端出现[88]。同样，KluDo非常通用，可以提供两种选择，再加上三域分解，所有这些都具有狭窄的轮廓分数差异。这里的热图反映了前三个区域(从N端开始)是如何相互交织在一起的。

以蛋清溶菌酶(PDB: 1lys，链:A)为例。11C)，该结构在SCOP和CATH中都被标注为单域。然而，动力学模拟和热力学研究发现了该链的两个折叠单元[89，90]。KluDo还提出了溶菌酶的单域和双域描述，后者具有两段结构域。CFTR (PDB: 2bbo，链:A，图11D)是KluDo识别折叠子单元能力的另一个例子。尽管该蛋白链在SCOP和CATH数据库中都被标注为单域结构，但荧光研究显示该蛋白有三个折叠子结构域:[91一个n端子结构域，包含ATP结合位点(389-494)，一个α -螺旋子结构域(495-564)，和一个类似于f1型ATP酶的中心α / β核，包含一个六链，大部分平行的β片(565-673)[92]。折叠亚基在囊性纤维化病因学中特别重要，其中CFTR折叠和错误折叠被认为是这种遗传疾病的主要驱动因素。替代分解也可能有助于识别蛋白质运动。在伸长因子Tu (PDB: 2c78)的情况下，链:A，图。11E)三域解析似乎是一个明显的选择，因为它包含在SCOP和CATH中。然而，分子动力学模拟阐明了GTP水解如何引起蛋白质内部的大构象变化[93]。通过比较延伸因子Tu的GTP (PDB: 1left，链:A)和GDP (PDB: 1tui，同源三聚体)结合结构的PDB条目，也可以感知到移动域，这与我们的方法发现的替代划分一致。

多分区使KluDo能够生成丰富的蛋白质链不同分解库。以上实例证明了该库的应用价值，可以解决结构域多准则定义问题。与通常倾向于只支持一种解决方案的人类感知相反，允许多种方法来划分蛋白质结构域的自动化方法可以为复杂结构的研究提供多种途径。据我们所知，只有SWORD和DHcL能够在自动化方法中提供多分区，而后者在常见基准测试中精度较低。

结论

蛋白质结构域分配是一个持续了几十年的问题，通过提出新的聚类方法，各种方法都解决了这个问题。另外，这里我们关注的是氨基酸之间亲和力的度量，而不是聚类算法。具有竞争力的精度和平衡性能的简单和复杂的结构(基于表3.尽管依赖于相对幼稚的标准来选择最优分解，但KluDo揭示了特别是图上的扩散核，以及一般的核函数是促进将蛋白质解析为结构域并对蛋白质进行不同结构分析的有希望的措施。图节点核是近年来在实际应用中广泛采用的趋势工具，特别是在生物数据中;例如基因关联研究[67，94]和PPI网络分析[95]。蛋白质图的大小和相互联系使它们成为扩散核的有希望的目标，作为氨基酸之间亲和力的有效措施。此外，还开发了新的图节点核，如连接词分隔［96),MinHash［83内核是当前的一个热门话题。此外，改进扩散核的努力可能允许从这些技术中获得更高的性能。采用多层图节点核[97]和链接富集[82是这类研究的两个例子。

我们提出的方法是一个通用的框架，可以实现最新的图节点核(或一般的核函数)，并且可以在该领域未来进展的帮助下为蛋白质描述提供更高的精度。此外，KluDo提出多种解决方案的能力可以解决由于只考虑此类蛋白质的单一有效结构域分解而导致的对模糊结构的偏见研究问题。该项目的源代码(用Python 3.7编写)可在Github上获得https://github.com/taherimo/kludo。KluDo可以作为Windows/Linux/Mac命令行应用程序执行。我们还开发了一个web应用程序，使KluDo可以通过万维网访问https://cbph.ir/tools/kludo。表中所有参数1除了内核函数之外，用户还可以在命令行和web应用程序中选择性地设置集群方法和域数量的上下边界(参见附加文件)1)。

数据和材料的可用性

这个项目的源代码(在MIT许可下)是用Python 3.7编写的，可以在https://github.com/taherimo/kludo。这个项目的web应用程序也可以在https://cbph.ir/tools/kludo。

缩写

阿里:: 调整后的兰特指数
BI:: 边界不一致
CA:: 正确的分配
kPCA:: 核主成分分析
克鲁舍:: 内核k - means
KluDo:: 基于核聚类的蛋白质结构域分配
领导:: 拉普拉斯指数扩散核
MD:: 马尔可夫扩散核
MDS:: 最小域大小
医疗:: 马尔可夫指数扩散核
肉类:: 最大α -螺旋大小合并
海量存储系统(MSS)中:: 最小分段尺寸
度:: 过调制
OL:: 重叠的分数
PC:: 主成分
主成分分析:: 主成分分析
RKHS:: 再现核希尔伯特空间
RL:: 正则拉普拉斯核
特别提款权:: 最大段与域计数比
SP:: 谱聚类
加州大学:: 削弱

参考文献

Wetlaufer DB。蛋白质的成核、快速折叠和球状链内区域。科学通报，2003;30(3):597 - 501。
文章中科院 PubMed 公共医学中心谷歌学者
Holland TA, Veretnik S, Shindyalov IN, Bourne PE。将蛋白质结构划分为结构域:为什么这么困难?中华生物医学杂志;2006;31(3):562-90。
文章中科院 PubMed 谷歌学者
Janin J, Wodak SJ。蛋白质结构域及其在蛋白质功能动力学中的作用。中国生物医学工程学报，2003;22(2):391 - 391。
文章中科院 PubMed 谷歌学者
波特LL，罗丝GD。蛋白质结构域的热力学定义。科学通报，2012;39(4):444 - 444。
文章中科院 PubMed 公共医学中心谷歌学者
托德AE，奥伦戈CA，桑顿JM。从结构角度看蛋白质超家族的功能进化。中国生物医学工程学报;2009;31(4):444 - 444。
文章中科院 PubMed 谷歌学者
张建军，张建军，张建军，等。蛋白质相互作用网络的结构信息分析。生物化学学报。2008;77:415-41。
文章中科院 PubMed 谷歌学者
Lewis TE, silitoe I, Andreeva A, Blundell TL, Buchan DW, Chothia C, Cuff A, Dana JM, Filippis I, Gough J. Genome3d:英国合作项目，基于范围和cath结构域的预测三维结构来注释基因组序列。中国生物医学工程学报，2012;41(1):491 - 497。
文章中科院谷歌学者
卢春华，黄世文，赖玉林，林春平，石春华，黄春春，徐文林，黄建奎。论蛋白质结构与蛋白质动力学的关系。生物工程学报，2008;32(2):625 - 634。
李建军，李建军，李建军，等。蛋白质内部动力学的粗粒度描述:蛋白质刚性亚基分解的最佳策略。生物化学学报，2009;16(2):491 - 491。
文章中科院 PubMed 公共医学中心谷歌学者
李建军，张建军，张建军，等。蛋白质结构域的研究进展。生物医学工程学报。2009;2:485-513。
谷歌学者
Murzin AG, Brenner SE, Hubbard T, Chothia C. scopp:用于序列和结构研究的蛋白质结构分类数据库。中华生物医学杂志。1995;24(4):536 - 536。
中科院 PubMed 谷歌学者
Islam SA, Luo J, Sternberg MJ。蛋白质结构域的鉴定和分析。生物工程学报，1995;8(6):513 - 526。
文章中科院谷歌学者
Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM。蛋白质结构域结构的等级分类。结构。1997;5(8):1093 - 109。
文章中科院 PubMed 谷歌学者
王丽娟，李丽娟。球形蛋白结构域的识别。中华生物医学杂志，2004;31(1):387 - 398。
文章中科院 PubMed 谷歌学者
crisppen GM.蛋白质的树状结构组织。中华生物医学杂志。1978;26(3):391 - 391。
文章中科院 PubMed 谷歌学者
玫瑰GD。球形蛋白质结构域的等级组织。中华生物医学杂志，2009;34(3):444 - 444。
文章中科院 PubMed 谷歌学者
王建军，张建军，张建军，等。蛋白质结构域的定位。生物化学,1981;20(23):6544 - 52。
文章中科院 PubMed 谷歌学者
Holm L, Sander C.蛋白质折叠单元解析器。生物工程学报。1994;19(3):556 - 568。
检测蛋白质结构域的程序。蛋白质科学，1995;4(1):103-12。
文章中科院 PubMed 公共医学中心谷歌学者
西迪基AS，巴顿GJ。连续和不连续结构域:一种自动生成可靠蛋白质结构域定义的算法。蛋白质科学，1995;4(5):872-84。
文章中科院 PubMed 公共医学中心谷歌学者
李建军，李建军。蛋白质结构域划分的计算方法。见:蛋白质结构预测与建模的计算方法，2007:125-145。施普林格,柏林
徐勇，徐东，高海峰。使用图论方法的蛋白质结构域分解。生物信息学。2000;16(12):1091 - 104。
文章中科院 PubMed 谷歌学者
郭建涛，徐东，金东，徐勇。基于神经网络的结构域划分域解析器性能改进。核酸学报，2003;31(3):944-52。
文章中科院 PubMed 公共医学中心谷歌学者
李建军，张建军，张建军，等。多结构域蛋白结构域界面残基的图谱分析。生物工程学报，2009;39(3):616 - 626。
Wernisch L, Hunting M, Wodak SJ。用图启发式方法鉴定蛋白质结构域。生物工程学报，1999;35(3):368 - 368。
杨建军，杨建军，李建军，一种基于聚类的蛋白质结构域分配算法。生物工程学报，2014;32(9):387 - 398。
M .， Lukasiak P.基于Domgen-graph的蛋白质结构域描述方法。铁道学报，2016,35(2):363-74。
文章谷歌学者
Kundu S, Sorensen DC, Phillips Jr GN。基于高斯网络模型的蛋白质自动结构域分解。中国生物医学工程学报，2004;37(4):725 - 733。
Taylor TJ, Vaisman II。用Delaunay镶嵌衍生晶格分配蛋白质结构域。3 .中国科学与工程学报(英文版)，2006;232-240。IEEE
别列佐夫斯基。球状蛋白中范德华结构域的离散结构。蛋白质工程学报，2003;16(3):161-7。
文章中科院 PubMed 谷歌学者
王晓明，王晓明，王晓明，等。多结构域蛋白连续结构域鉴定方法的研究进展。生物学报，2013;11(01):1340012。
文章 PubMed 中科院谷歌学者
泰勒的车手。蛋白质结构域鉴定。蛋白质工程学报，1999;12(3):203-16。
文章中科院 PubMed 谷歌学者
宣志勇，凌丽娟，陈荣生。一种蛋白质结构域识别的新方法。中国生物医学工程学报，2000;29(1):7-16。
文章中科院 PubMed 谷歌学者
张建军，张建军。基于聚类分析的蛋白质结构域自动识别方法。蛋白质科学，1995;4(3):506-20。
文章中科院 PubMed 公共医学中心谷歌学者
李建军，李建军。基于拓扑算法的蛋白质结构域识别。生物医学通报，2007;8(1):1 - 10。
文章中科院谷歌学者
张建军，张建军，张建军，等。蛋白质结构域的分子内相互作用分析。生物化学学报，2012;32(1):391 - 391。
文章中科院 PubMed 谷歌学者
蛋白质晶体结构结构域的鉴定。应用晶体学报，2007;40(4):778-81。
文章中科院谷歌学者
madj T, Gibrat J-F, Bryant SH.线程化蛋白质核心数据库。生物工程学报。1995;23(3):356-69。
周宏，薛斌，周勇。基于归一化域域交互剖面的结构域划分方法。蛋白质科学，2007;16(5):947-55。
文章中科院 PubMed 公共医学中心谷歌学者
李建军，李建军。蛋白质结构域解析器。生物信息学。2003;19(3):429 - 30。
文章中科院 PubMed 谷歌学者
Alden K, Veretnik S, Bourne PE。dConsensus:一个通过多个基于结构的算法显示域分配和构建共识分配的工具。生物医学通报，2010;11(1):1 - 7。
文章中科院谷歌学者
费尔德曼HJ。利用聚类识别蛋白质的结构域。生物医学通报，2012;13(1):1 - 12。
文章中科院谷歌学者
杨建军，杨建军，李建军，刘建军。分配蛋白质结构域的模糊原则。科学进展，2017;3(1):1600552。
文章中科院谷歌学者
Koczyk G, Berezovsky IN。结构域层次和闭环(DHCL):一个用于探索蛋白质结构域结构层次的服务器。核酸学报，36(增刊2)，2008:239-45。
李建军，李建军，李建军，李建军，李建军，李建军，李建军。基于网络的蛋白质结构域及其邻域识别。生物信息学,2012,28(7):1040 - 1。
文章中科院 PubMed 公共医学中心谷歌学者
华宇，朱明，王宇，谢忠，李敏。一种结构域识别的混合方法。科学通报，2014,34(1):1 - 7。
谷歌学者
模式识别。伯灵顿:学术出版社;2009.
谷歌学者
李建军，李建军，李建军。基于图核的协同推荐和半监督分类的实验研究。神经网络学报。2012;31:53-72。
文章 PubMed 谷歌学者
1 .一种基于深度图节点核的算法。In: 2017国际神经网络联合会议(IJCNN)， 2017:316 - 323。IEEE
孔国荣，张建军，张建军，等。离散结构上的扩散核。第19届国际机器学习会议论文集，2002;2002:315 - 22。
Chandonia J-M, Fox NK, Brenner SE。经营范围:蛋白质结构分类中的大分子结构分类扩展数据库。核酸学报，2019;47(D1): 475-81。
文章中科院谷歌学者
王志强，王志强。蛋白质二级结构词典:氢键模式识别与几何特征。中国生物医学工程学报，2003;22(12):2577-637。
Joosten RP, Te Beek TA, Krieger E, Hekkelman ML, Hooft RW, Schneider R, Sander C, Vriend G.一系列日常需要的pdb相关数据库。核酸学报，2009(增刊1):411 - 49。
李建军，李建军，李建军，等。蛋白质的结构与结构。中华生物医学杂志。1987;19(3):641 - 656。
文章中科院 PubMed 谷歌学者
Kyte J, Doolittle RF。一种显示蛋白质亲水特性的简单方法。中华生物医学杂志。2002;19(1):1 - 4。
文章中科院 PubMed 谷歌学者
刘建军，刘建军，刘建军，等。旋转半径对蛋白质结构致密性的影响。中华生物医学杂志，2008;42(4):623-8。
文章中科院谷歌学者
王松，姚鑫。基于集成模型的不平衡数据集多样性分析。2009年IEEE计算机智能与数据挖掘研讨会，2009:324 - 331。IEEE
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。Smote:合成少数派过采样技术。[J] .情报学报，2002;16(6):331 - 357。
文章谷歌学者
Bavelas A.任务导向群体中的沟通模式。[J]中南大学学报(自然科学版);2009;22(6):725 - 730。
文章谷歌学者
弗里曼LC。一组基于中间度的中心性度量。人与人之间,1977:35-41。
Hopkins B, Skellam JG。一种确定植物个体分布类型的新方法。植物学报，2004;18(2):213-27。
文章谷歌学者
Hartigan JA, Hartigan PM。单峰的浸测。Ann Stat.， 1985; 70-84。
霍兰波，李海涛。结构模型的传递性。比较组研究。1971;2(2):107-24。
文章谷歌学者
王志强，王志强。“小世界”网络的集体动态。自然科学学报，1998(3):444 - 444。
刘建军，刘建军，刘建军。扩散图，光谱聚类和动力系统的反应坐标。应用计算机学报。2006;21(1):113-27。
文章谷歌学者
Pons P, Latapy M.基于随机漫步的大型网络计算社区。计算机科学与信息科学，2005(1):1 - 3。施普林格
陈斌，李敏，王健，吴凤霞。基于图核和马尔可夫随机场的疾病基因识别。中国科学，2014;57(11):1054-63。
文章中科院 PubMed 谷歌学者
Smola AJ, Kondor R.图的核和正则化。见:学习理论与核机器，2003:144-158。施普林格,柏林
李建军，李建军。矩阵森林定理与社会群体测度关系。航空运输。1997;9:125-37。
谷歌学者
fousf, Yen L, Pirotte A, Saerens M.协同推荐任务的图核实验研究。第六届数据挖掘国际会议(ICDM ' 2006)， 2006:863-868。IEEE
坦纳JJ。蛋白质低聚物旋转半径的经验幂定律。晶体学报，2016,32(10):1190 - 1190。
文章中科院谷歌学者
史俊。多类光谱聚类。见:中国农业科学，2003:313-319。
吴亚平，李建平，李建平，等。光谱聚类分析与算法研究。神经网络学报，2001;14(4):849 - 856。
谷歌学者
Rousseeuw PJ。剪影:对聚类分析的解释和验证的图形辅助。[J] .计算机应用数学。1987;20:53-65。
文章谷歌学者
Dawson NL, Lewis TE, Das S, Lees JG, Lee D, Ashford P, Orengo CA, Sillitoe I. Cath:通过结构和序列预测蛋白质功能的扩展资源。中国生物医学工程学报，2017;45(1):389 - 391。
文章中科院谷歌学者
Jones S, Stewart M, Michie A, Swindells MB, Orengo C, Thornton JM。使用共识方法的蛋白质结构域分配:表征和分析。蛋白质科学，1998;7(2):233-42。
文章中科院 PubMed 公共医学中心谷歌学者
兰德WM。评价聚类方法的客观标准。社会科学进展与展望[J]; 2001; 31(3): 344 - 344。
文章谷歌学者
Hubert L, Arabie P.比较分区。J分类，1985;2(1):193-218。
文章谷歌学者
张建军，张建军。聚类比较的信息理论研究:基于聚类的聚类分析。[J] .中文信息学报，2010;11(4):591 - 591。
谷歌学者
Veretnik S, Bourne PE, Alexandrov NN, Shindyalov IN。蛋白质结构域的一致分配。中华生物医学杂志，2004;39(3):647 - 678。
文章中科院 PubMed 谷歌学者
gely J-C, de Brevern AG蛋白质剥离3D:分析蛋白质结构的新工具。生物信息学。2011;27(1):132 - 3。
文章中科院 PubMed 谷歌学者
陈建军，陈建军，李建军，等。一种基于扩展的图节点核链接富集方法。In:国际人工神经网络会议，2017:155-162。施普林格
Navarin N, Sperduti A.近似邻域散列图节点核。中文信息学报，2017,37(2):391 - 391。
真核生物和原核生物蛋白质组的蛋白质长度。核酸学报，2005;33(10):3390-400。
文章中科院 PubMed 公共医学中心谷歌学者
Schölkopf B, Smola A, m ller K-R。核主成分分析。见:国际人工神经网络会议，1997:pp。583 - 588。施普林格
Schölkopf B, Smola A, m ller K-R。作为核特征值问题的非线性分量分析。神经网络计算。1998;10(5):1299-319。
文章谷歌学者
Sawaya MR, Pelletier H, Kumar A, Wilson SH, Kraut J.大鼠DNA聚合酶β的晶体结构:常见聚合酶机制的证据。科学。1994;264(5167):1930 - 5。
文章中科院 PubMed 谷歌学者
林慧，杨伟，杨伟。y-家族DNA聚合酶的晶体结构:易出错和病变绕道复制的机制。细胞。2001;107(1):91 - 102。
文章中科院 PubMed 谷歌学者
马塔尼A，多布森CM。母鸡溶菌酶的折叠过程:一个“新视角”的视角。中国生物医学工程学报。1998;33(4):363 - 371。
文章中科院 PubMed 谷歌学者
张建军，张建军，张建军，等。鸡蛋溶菌酶的分子动力学研究进展。中国生物医学工程学报，2009;41(1):558 - 564。
杨志强，李建平，李建平。核糖体结合人CFTR NBD1的配体驱动载体折叠。生物质化学工程，2011;41(6):682-92。
文章中科院 PubMed 公共医学中心谷歌学者
Kim SJ, Skach WR。内质网CFTR折叠的机制。中华医学杂志，2012;3:201。
中科院 PubMed 公共医学中心谷歌学者
刘建军，刘建军，刘建军。GTP水解后EF-Tu的tRNA解离:主要步骤和抗生素抑制。生物化学学报，2011;31(1):391 - 391。
文章中科院 PubMed 谷歌学者
李建军，李建军，李建军，李建军，李建军。基于遗传算法的基因序列优化研究。生物医学通报，2018;19(1):1 - 12。
文章谷歌学者
贝特·DK，蒙达尔·AM。扩散核识别缺失的ppis蛋白网络生物标志物。In: 2015 IEEE国际生物信息学与生物医学会议(BIBM)， 2015; 1614-9。IEEE
李建军，李建军，李建军，等。一种基于遗传算法的疾病基因排序方法。Neurocomputing。2018;298:90-9。
文章谷歌学者
Oneto L, Navarin N, Sperduti A, Anguita D.多层图节点核:在保持凸性的同时进行堆叠。神经网络学报，2018;48(2):649-67。
文章谷歌学者

下载参考

致谢

我们感谢Mohammad-Hadi Foroughmand-Araabi博士(谢里夫理工大学)提供了网络服务器，使本项目的网络应用得以部署。

资金

作者没有得到这项工作的特别资助。

作者信息

穆罕默德·塔赫里-勒达里和阿米拉利·赞迪耶的贡献相同

作者及单位

伊朗德黑兰大学生物化学与生物物理研究所生物信息系
穆罕默德Taheri-Ledari
伊朗德黑兰大学生物化学与生物物理研究所生物物理系
Amirali Zandieh和Seyed Peyman Shariatpanahi
伊朗德黑兰Shahid Beheshti大学数学科学学院计算机与数据科学系
Changiz Eslahchi
伊朗德黑兰基础科学研究所生物科学学院
Changiz Eslahchi

作者

穆罕默德Taheri-Ledari

查看作者出版物

您也可以在中搜索该作者PubMed谷歌学者
Amirali Zandieh

查看作者出版物

您也可以在中搜索该作者PubMed谷歌学者
赛义德·佩曼·沙里亚帕纳西

查看作者出版物

您也可以在中搜索该作者PubMed谷歌学者
Changiz Eslahchi

查看作者出版物

您也可以在中搜索该作者PubMed谷歌学者

贡献

M.T.设计并实现了大部分KluDo管道，并开发了web应用程序。A.Z.参与了KluDo的设计和编码，进行了分析和参数确定，并起草了稿件。P.S.对这个问题的理论研究做出了贡献。C.E.提出了最初的问题，并帮助修改和增加了算法的特征。所有作者都阅读并批准了最终的手稿。M.T.和A.Z.在这项工作中贡献相当。

相应的作者

对应到Changiz Eslahchi。

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

作者宣称他们没有竞争利益。

额外的信息

出版商的注意

伟德体育在线施普林格·自然对已出版的地图和机构关系中的管辖权要求保持中立。

补充信息

附加文件1

。补充文件。本文档包括关于数据准备、单/多域分类器、核函数的带宽确定、随机图测试和用于实现的软件工具的附加信息。

附加文件2

。从数据集中提取的特征用于单/多域分类器。该文件包括从数据集ASTRAL95, ASTRAL40, Benchmark_1, Benchmark_2, Benchmark_3, Islam和Jones中提取的单/多域分类器特征。对于每个蛋白质结构，提取了78个特征。最后一列表示类标签。请参阅附加文件1为描述。

附加文件3

。假设所有结构都是多域，KluDo在ASTRAL40多域结构上的结果和性能评价。该文件包含KluDo结果，以及ASTRAL40多域结构上ARI评分的精度、平均值和标准差，假设所有结构都是多域的。准确度是基于OL和ARI分数计算的，考虑阈值从5%到100%，间隔为5%。从ASTRAL40数据集中，考虑了被SCOP和CATH识别为多结构域的11958个蛋白链中的2208个。所有这些结构都被KluDo假定为多域(没有使用单/多域分类器)。给出了使用默认参数值的所有核函数聚类方法组合的结果和性能。KK和SP分别代表核k-均值和谱聚类。

附加文件4

。KluDo和其他方法在测试数据集上的结果。该文件包含了KluDo以及其他方法(DomainParser, PDP, SWORD和DDomain)在Benchmark_1, Benchmark_2, Benchmark_3, Islam, Jones和ASTRAL40数据集上的结果。KluDo给出了使用默认参数值的核函数和聚类方法的所有组合的结果。KK和SP分别代表核k-均值和谱聚类。

附加文件5

。KluDo的性能以及其他方法在测试数据集上的准确性。该文件包含附加文件中结果的准确性4。准确度是基于OL和ARI分数计算的，考虑阈值从5%到100%，间隔为5%。在预测和目标分配之间的域数量不一致的情况下，OL得分通常设置为-1。KK和SP分别代表核k-均值和谱聚类。

附加文件6

。Kludo的性能以及其他方法在测试数据集上的ARI平均值和标准偏差。该文件包括ARI评分在附加文件中结果的平均值和标准偏差4关于SCOP, CATH以及基于SCOP和CATH的平均得分。KK和SP分别代表核k-均值和谱聚类。

附加文件7

。KluDo的性能基于ASTRAL40上的域数量。该文件由附加文件中结果的准确性组成4由域的数量分隔。基于SCOP和CATH数据库，从ASTRAL40中提取了4个子集:1域、2域、3域和4域结构。对于每个子集，测量了正确分配的百分比(基于使用85%阈值的OL分数符合SCOP或CATH的情况)、过切(分配比SCOP和CATH都多的域的情况)、过切(比SCOP和CATH都少的域的情况)、边界不一致(域的数量符合SCOP或CATH的情况下分配不正确)和其他情况。CA、OC、UC和BI分别代表正确的分配、过切、过切和边界不一致。KK和SP分别代表核k-均值和谱聚类。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议，该协议允许以任何媒介或格式使用、共享、改编、分发和复制，只要您适当地注明原作者和来源，提供知识共享许可协议的链接，并注明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可协议中，除非在材料的署名中另有说明。如果材料未包含在文章的知识共享许可中，并且您的预期用途不被法律法规允许或超过允许的用途，您将需要直接获得版权所有者的许可。如欲查阅本许可证副本，请浏览http://creativecommons.org/licenses/by/4.0/。创作共用公共领域免责声明(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据，除非在数据的信用额度中另有说明。

转载及权限

关于本文

引用本文

Taheri-Ledari, M.， Zandieh, A.， Shariatpanahi, S.P.et al。用图上的扩散核分配蛋白质结构域。BMC生物信息学23， 369(2022)。https://doi.org/10.1186/s12859-022-04902-9

下载引用

收到了：2021年5月31日
接受：2022年8月23日
发表：2022年9月8日
DOI：https://doi.org/10.1186/s12859-022-04902-9

关键字

蛋白质结构
图节点核
蛋白质结构域分配
聚类
扩散的内核

用图上的扩散核分配蛋白质结构域

摘要

背景

内核简介

利用图节点核分解蛋白质

方法

收集结构信息

图施工

单/多域分类

核矩阵计算

带宽的决心

获取候选聚类

确定域的数量

结果与讨论

评价方法

域重叠分数

调整后的兰特指数

测试数据集

扩散核的评价和聚类方法

与其他方法的比较

蛋白质图上的扩散核

选择分解

结论

数据和材料的可用性

缩写

参考文献

致谢

资金

作者信息

作者及单位

贡献

相应的作者

道德声明

伦理批准并同意参与

发表同意书

相互竞争的利益

额外的信息

出版商的注意

补充信息

附加文件1

附加文件2

附加文件3

附加文件4

附加文件5

附加文件6

附加文件7

权利和权限

关于本文

引用本文

分享本文

关键字

BMC生物信息学

联系我们