跳到主要内容

使用调整熵测量识别甲型流感病毒宿主特异性氨基酸特征

摘要

背景

甲型流感病毒(IAV)表现出巨大的基因突变性,具有感染禽类和哺乳动物宿主的巨大人畜共患潜力,并被认为是造成若干大流行的原因。流感预防和控制中的一个关键计算问题是识别具有跨物种传播潜力的分子特征。我们提出了一种基于调整熵的宿主特异性签名识别方法,该方法使用相似系数来融合氨基酸取代信息,提高了识别性能。已知聚合酶基因(例如PB2)的突变在禽流感病毒适应哺乳动物宿主方面发挥主要作用。因此,我们专注于PB2蛋白序列的分析,并识别宿主特异性PB2氨基酸特征。

结果

1996年至2006年使用一组H5N1 PB2序列进行验证的结果显示,调整熵的假阴性发现率为40%,而使用未调整熵的假阴性发现率为60%。不同程度序列发散的模拟结果表明,假阴性率不高于10%,而未调整的熵值范围为9 ~ 100%。此外,在所有水平的散度下,调整熵的假阳性率从未高于9%。调整熵还识别了先前在文献中识别的H1N1pdm PB2中的重要突变,这些突变解释了2008年至2009年之间的差异变化,而未调整熵无法识别这些变化。

结论

基于这些结果,调整熵为IAV监测和疫苗开发提供了一种可靠且广泛适用的宿主特征识别方法。

同行评审报告

背景

作为正粘病毒科的成员,甲型流感病毒(IAV)是具有分段基因组的负意义单链RNA病毒,偶尔对人类致命,已被证实是导致大量死亡的多次大流行的原因[2].由于IAV的巨大遗传多样性、快速进化变化的潜力、在宿主之间传播的能力以及在迁徙的野生水鸟中广泛传播,向人类传播仍然是一个全球关注的问题[3.].当一种新的IAV毒株获得感染人类的能力时,人类免疫系统通常不可能做出足够快的反应来避免严重的感染,因此监测和预测IAV传播给人类的潜力极其重要。人体内IAV的建立是一个多步骤的过程,包括从序列突变开始的传播、复制和适应。由于氨基酸序列通常是IAV数据库中最容易获得的信息类型之一,因此已经开发了几种计算方法来在序列水平上识别种间传播的候选位点。这种想法是同时使用系统发育和序列比对分析来确定具有该序列物种起源特征的蛋白质的必需氨基酸突变[456].

几种计算方法已经被考虑用于特定于主机的签名识别。一种方法是通过不同寄主的氨基酸残基比对来测定某一位置的不确定程度,并通过比较优势氨基酸类型来确定是否为特征。陈等人。[7]首次描述了对齐的IAV序列上的这些基本位置作为宿主特异性基因组签名,并使用熵测量来定位8个菌株上的鸟类-人类签名。芬克尔斯坦等人。[8]介绍了一种使用大流行性H5N1流感病毒残留频率统计分析来识别持久性宿主标记物的方法。另一种方法是使用基于互信息(MI)或调整后的rand指数(ARI)的方法,检查氨基酸突变与宿主之间的依赖/关联强度[9].胡等人也采用了类似的想法。[3.],并基于调整后的rand指数(ARI)进行测量,以评价特征位置对不同宿主的区分能力。此外,一些机器学习方法,如神经网络、支持向量机、随机森林和基于规则的建模已用于签名识别和预测[4610111213].

尽管这些一般方法已被证明在特征评价中是有用的,但所有现有的方法都仅基于氨基酸残基类型的比例。通过这些方法,所有20种标准氨基酸类型都隐含地假设彼此之间具有相等的相关性,这不是一个合理的假设[1415161718].一般来说,不确定性的程度直接取决于取代在给定位置内的保守程度,因为根据定义,保守取代在其生化性质方面变化很小。

许多方法已经被提出来了解氨基酸残基之间的相似性或模拟它们的取代。最早的方法是基于测量或评估氨基酸残基的各种物理化学性质[14].其他方法是基于氨基酸替换频率的经验测量已经发展。Dayhoff等人的PAM模型[19]使用计数方法估计,Jones等人也使用了类似的基于模型的方法。[16, Gonnet等人。[17]和穆勒等人。[20.].1992年,Henikoff和Henikoff [18]介绍了一种直接计算氨基酸替换频率的方法,通常称为BLOSUM评分矩阵,它避免了PAM模型的外推问题。最近,许多其他氨基酸替换/替代矩阵已被描述用于序列比较和比对,也可考虑用于特征识别[212223].

我们认为,宿主特异性特征识别的方法是可改进的,因为它们忽略了氨基酸类型之间相似性/替代率的差异。在这项研究中,我们提出了一种新的方法,即调整现有的用于宿主特异性签名识别的香农熵测量,使用氨基酸残基的比例和它们之间的相似性来识别宿主特异性签名。具体来说,我们从BLOSUM矩阵中提出了一个调整系数,并将氨基酸替代信息纳入到宿主特异性签名识别中。该系数被用来构造一个调整熵测量签名识别。调整使用氨基酸相似/替代率,我们称之为相似系数(SC).的SC表示从某一位置开始氨基酸残基类型之间取代的平均保守性。当氨基酸取代具有较低的相似性水平时,我们的调整放大了熵,当观察到较高的相似性水平时,我们的调整减小了熵。我们使用模拟和真实数据集来评估我们关于特定主机签名识别的方法,并将调整后的方法与Chen等人的方法进行比较。7基于未调整熵的方法。已知PB2等聚合酶基因的突变在禽流感病毒适应哺乳动物宿主方面起着重要作用。因此,我们专注于PB2蛋白序列的分析,并识别宿主特异性PB2氨基酸特征。结果表明,所提出的调整熵法有助于监测IAV必需蛋白突变,为病毒监测和疫苗开发提供有用的信息。

结果与讨论

基于H5N1数据集的方法评价和阈值选择

表格1显示了2000个IAV PB2蛋白序列比对的两个假设位置上的氨基酸组成和相应比例的示例,带有Shannon熵,SC(相似系数)和调整熵计算方法部分所述。

表1 PB2蛋白序列比对实例位置的氨基酸组成、命题、熵、调整熵和相似系数(SC)

在本节中,我们通过对PB2序列的分析,比较了在两个阈值下使用未调整和调整熵的宿主特异性签名识别灵敏度性能。作为训练数据,我们使用1996年至2006年的所有完整的H5N1 PB2序列(禽、猪和人),这提供了一个554个具有相同长度的759个氨基酸(AA)的H5N1 PB2序列的数据集(菌株名称和登录号在数据可用性部分详细说明)。与陈、施相似[24],我们排除了从人类分离的5个H5N1禽流感A序列,并将其作为我们的验证数据集。对554个H5N1 PB2序列的分析使用未调整熵(unadjusted entropy)识别出10个特征,阈值为0.33,其中9个特征与Chen和Shih [24],其余的签名(674)被确定为Chen等人的签名7)(表2).使用调整后的熵值和相同的阈值(0.33),发现了22个特征,其中11个(粗体)是新的,表明灵敏度提高。这些新签名中的一些可能是由于Chen和Shih [24].通过使用位置627的SC (SC = 2.2)调整调整熵的阈值,给出0.15(0.33/2.2)作为新的阈值。当应用这个新的阈值时,只有7个位置被识别为签名。其中4个位置通过未调整熵法和调整熵法同时发现,3个位置(BOLD)未被未调整熵法预测,阈值< 0.33(表2)2).

表2 PB2位置被识别为宿主特异性签名,使用未调整和调整熵和两个阈值(0.33和0.15)

两种方法的另一种比较是基于从人身上分离出的五种不同的H5N1型禽流感病毒株。这是我们训练数据集中排除的五种菌株。表格3.表明未经调整的方法发现了一个位置(627)是多态的,从而从5个菌株中识别出两个独特的菌株,假阴性率为0.6(3/5)。然而,表4结果表明,调整后的方法鉴定出3株独特的菌株,假阴性率为0.4(2/5),比未调整的方法小三分之一。此外,表4结果表明,对于调整熵法,在7个识别特征中,我们观察到3个菌株有2个突变,其余2个菌株有1个突变,而对于未调整熵法,在10个识别特征中仅发现1个突变,这意味着调整熵比未调整熵法更有效。

表3未校正法鉴定PB2的特征位点及突变模式
表4调整后方法鉴定的PB2的特征位点及突变模式

基于仿真的方法评价

为了研究不同方法的性能,我们开发了一种基于小集真实IAV序列生成候选位点的仿真算法。模拟过程的第一部分是定义“真积极”和“真消极”。我们从不同宿主之间不同发散水平的真实IAV序列数据集开始。校准后,我们可以直接将“信息性”起点或“真阳性”定义为PB2 Pos-627,这在实验上被称为宿主特异性签名(Chen et al7])。禽流感病毒通常在PB2的627位含有一个谷氨酰胺(E),而人类病毒在这个位置含有一个赖氨酸(K)。E627K取代PB2使禽病毒能够在体外低温下高效复制[7].为了识别“真正的否定”,我们使用以下过程。

  1. (1)

    对于训练序列排列中的每个位置,我们找到其优势氨基酸类型,并计算其在每个宿主中的调整熵;

  2. (2)

    为不同寄主选择不同显性氨基酸类型的位置;

  3. (3)

    对于从(2)中选择的位置,如果这些列处于平均调整熵的最高20%的列中,则将这些列视为“真负值”。

将这些列作为真阳性和真阴性,我们可以使用以下模拟过程模拟数据来估计假阳性和假阴性率。

对于假阳性检测,

  1. (1)

    对于每个获得的“真阴性”,我们可以使用估计的氨基酸比例作为参数来模拟来自多项分布的数据。例如,对于一个具有1600 Pro, 200 Phe和200 Asn的列,我们可以得到一个多项分布,参数分别为Pro, Phe和Asn的比例为0.8,0.1和0.1。

  2. (2)

    生成1000个新列,每个“真负”及其对应的多项分布的长度为1000;

  3. (3)

    对生成的列应用未调整和调整熵方法,并计算假阳性率。

类似地,我们可以从真正列的多项分布中生成新的列,并计算假阴性率。

在2009年著名的“猪流感”大流行之后,人和猪的IAV序列与2009年之前的相似度显著提高。因此,对于高度发散的训练数据集,我们选择使用仅2008年的所有人/猪H1N1 PB2序列。对于中值发散训练数据集,我们选择使用2000年至2009年的人/猪H1N1 PB2序列子集,每年的样本量相同。对于差异较小的训练数据集,我们选择使用2000年至2009年在美国发现的所有人/猪H1N1 PB2序列,其中2009年的序列占数据集的近一半。

表格5结果表明,调整熵法在灵敏度和特异性上都有较好的表现。请注意,对于发散性较小的训练数据集,使用未调整熵方法无法识别任何签名,这解释了0%的假阳性率和100%的假阴性率。

表5未调整熵法和调整熵法的假阳性和假阴性率

基于H1N1数据集的特征时序分析及相关应用

基因组特征的时间序列分析首先由Hu等人进行3.2014年。其想法是从不同宿主(人、禽和猪)分离出的IAV序列,根据它们的收集年份将其分为不同的组。根据Hu等人3.],在PB2蛋白中,鸟-人宿主特异性标记的数量在所有时间周期中都相对稳定。但与鸟类-人类的签名不同,猪-人类的签名数量在1978-2009年和2010-2013年期间显著减少。Hu等人提供了一种可能的解释3.猪和人IAV之间PB2蛋白序列水平的遗传差异可能在这两个时间段内减少了。但由于IAV的年代分组仅大致划分为6个时期:1902-1918年、1919-1957年、1958-1968年、1969-1977年、1978-2009年和2010-2013年,因此无法确定确切的变化点。为了更好地理解这一现象,我们基于2004年至2014年的H1N1 PB2数据,以每年为观察对象,对猪-人宿主特异性签名进行了时间顺序分析。表格6显示了每年根据调整和未调整熵确定的猪-人宿主特异性签名。根据我们的结果,2009年导致被识别的签名数量突然下降。2004 - 2008年未调整熵法平均签名数为19.8个,调整熵法平均签名数为29.8个,与Hu等确定的时间序列签名数比较接近3.]前三个时期(1919-1957年、1958-1968年和1969-1977年)的签字数分别为20、20和20。2009 - 2014年,未调整熵的平均数值为0.17,调整熵的平均数值为3.5。我们相信,2009年死亡人数突然减少的原因是众所周知的H1N1“猪流感”大流行,估计造成284,500人死亡[25].我们发现,从2009年开始,54和315位,然后66和731位不断被检测到。这些变化对病毒蛋白的影响有待在体内和体外进一步研究。

表6 2004-2014年PB2蛋白未调整(U)和调整(A)熵识别的猪-人特征位点

为了更好地了解大流行和识别特征的突然下降,除了识别特征的数量和位置变化外,还需要更多的突变信息。表格7显示了从2008年到2010年三个位置的突变:354,344,这是Belanov等人提出的宿主改变相关标记26]和560,其特征变化由调整后的熵确定。根据突变调查,在2008-2010年期间,344位的显性氨基酸没有发生变化,354位的突变是由“类人”型氨基酸向“类猪”型氨基酸的变化。I354L和V344M突变可能是在2009年5月获得的,这种变化可能与猪源H1N1病毒对人类宿主的适应有关[26].相比之下,我们的调整熵法识别的宿主特异性签名560位点具有从“类猪”到“类人”的AA突变,这更可能与H1N1对人类宿主的适应有关。请注意,未调整熵方法未检测到560位置,这表明使用调整熵对特征进行时间顺序分析有助于流感监测和疫苗株选择。

表7 2008 - 2010年三个位置PB2氨基酸突变

结论

我们证明,调整熵提供了一个可靠的和广泛适用的宿主特征识别方法,有用的IAV监测。1996年至2006年使用一组H5N1 PB2序列进行验证的结果是,调整熵的假阴性发现率为40%,而使用未调整熵的假阴性发现率为60%。不同程度序列发散的模拟结果表明,假阴性率不高于10%,而未调整的熵值范围为9 ~ 100%。此外,在所有水平的散度下,调整熵的假阳性率从未高于9%。调整熵还识别了先前在文献中识别的H1N1pdm PB2中的重要突变,这些突变解释了2008年至2009年之间的差异变化,而未调整熵无法识别这些变化。结果表明,调节熵有助于监测IAV必需蛋白突变,为病毒监测和疫苗开发提供有用的信息。

方法

调整后的熵

签名识别的思想是评估每个位置承载特定功能/属性的潜力。熵与系统的不确定性或无序性有关,可以用于特征识别,因为它是一个测量氨基酸残基在某个位置上的保守性的方法。克劳德·香农[27]定义信息熵为

$ ${\文本{熵}}= - \总和\ limits_{\;我}{(p_{我}\ * \ ln (p_{我}))}$ $

在哪里p观察到的概率是随机变量的Th值。根据IAV PB2序列比对的每一列氨基酸组成,可以计算熵来测量氨基酸残基的不确定度(= 1-20)从同一寄主的对齐序列的每个位置观察。然而,用于特征识别的熵只关注氨基酸残基类型所占比例的分布,而忽略了氨基酸残基之间的相似性。我们提出了一种调整熵测量方法,将熵和相似度结合起来,使调整熵=香农熵/相似度。未调整熵或香农熵量化不确定度测量和相似度,这是由相似系数量化,并测量给定位置的保守性水平。我们提出的宿主特异性签名识别方法类似于Chen等人介绍的熵法。[7除了我们使用调整后的熵。

作为一个简单的例子,部分对齐显示在图中。1,这说明了所提出的新方法与现有的基于香农熵或未调整熵的宿主特异性签名识别方法的差异。使用未调整熵,熵较低的突变位置,即。氨基酸组成稳定的位置,被选为潜在特征,而熵值较高的位置,即。氨基酸组成不稳定/随机的,被排除在外,如。非稳定位置(图;1).在选择的稳定突变位置4到8中,我们可以通过比较不同宿主的优势氨基酸类型来识别宿主特异性特征。位置8被这两种方法识别为特定于主机的签名。然而,调整熵方法识别了一个额外的主机特定签名,位置4,具有相对较高的熵,但保守。这个例子展示了如何通过使用相似度调整熵来改进特定主机签名的识别。下一节将详细介绍相似系数(SC).

图1
图1

基于调整和未调整(香农)熵测量的宿主特异性签名识别方法

相似系数(SC

利用相似系数调整熵可以放大具有非保守取代的氨基酸的熵,而减小具有保守取代的氨基酸的熵。通过特征识别,目标氨基酸集由n从对准的IAV序列的目标位置获得的氨基酸残基,其中n表示用于从某个主机进行识别的序列数。假定这些n氨基酸残基有不同类型(= 1,2,…,20),其中“替换”被定义为对之间的替换氨基酸种类一共给出了-1)/2对置换。对于两两替代,保守水平可以量化使用相似度评分和总体“相似度”之间从不同类型的目标位置可以定义为平均值−1)/2对可能的配对。

在这项工作中,对数概率(图。2)构成相似系数的基础(SC)中的20种标准氨基酸P (O)表示所观察到的给定残差对和的出现比例P (E)表示仅由偶然性引起的给定对的期望出现比例[18].具体来说,BLOSUM 62矩阵(鼓风机中正bstitutionatrix;无花果。2)被用作评分矩阵,使用相关蛋白质块的频率计算所有残基对的对数概率值,其中块中的两个序列如果至少62%的对齐位置相同,则它们被聚为相同的序列[18].BLOSUM评分已被证明对蛋白质序列的比对是有用的,因为它们提供了关于20种标准氨基酸之间取代的保守性的信息[28].BLOSUM矩阵是一个20 × 20的评分矩阵,对非保守的替换提供负分(惩罚),对保守的替换提供正分(奖励)。

图2
图2

氨基酸取代的BLOSUM62评分矩阵。特定氨基酸对的表值是定义为2log的对数概率2P (O) / P (E)),P (O)观察到的成对出现的概率和P (E)是假设独立的对发生的期望概率[18].氨基酸对之间的相似性是基于文本中描述的对数概率

基于BLOSUM矩阵,我们通过应用对数比值比的逆函数来获得每对氨基酸对的观测概率和期望概率之间的差异,从而获得氨基酸对之间的相似性。我们定义相似系数(SC)作为逆函数(f (x)=2x / 2)的平均居中BLOSUM62分。公式如下:

$ $ \{对齐}开始SC & = 2 ^{{\离开({\压裂{{\总和\ limits_ {k = 1 \ ldots m}{\离开({\眉题{{O (b_ {k})}} - \眉题{{E (b_ {k})}}} \右)}}}{2 m}} \ )}} \\ & = 2 ^{{左({\ \压裂{1}{2 m} \离开({\总和\ limits_ {k = 1 \ ldots m}{\离开({\压裂{{\总和\ limits_{我= 1,……,米 \, \& \, 我\ ne k} {b_ {k,我}}}}{m - 1} \压裂{{\总和\ limits_ {j = 1,……,20 \, \& \, j \ne k} {b_{k,j} } }}{20 - 1}} \right)} } \right)} \right)}} \\ \end{aligned}$$

在这里表示从给定位置开始的氨基酸残基类型的数量,b我,我表示单元格中的日志赔率分数我,我为BLOSUM62矩阵,表示氨基酸类型的取代概率而且j而且\(\眉题{{O (b_ {k})}} \)而且\(\眉题{{E (b_ {k})}} \)表示观察到的和预期的氨基酸类型的平均BLOSUM62得分k,分别。\(\眉题{{O (b_ {k})}} \)计算为观察到的AA(除类型k)与氨基酸型配对k而且\(\眉题{{E (b_ {k})}} \)计算为所有可能的19个AA(除了类型k)与氨基酸型配对k

作为计算相似系数的一个例子(SC)时,假设两个给定位置的氨基酸组成为{Pro, Phe, Asn}和{Tyr, Trp, Phe} (即。两列来自对齐的氨基酸序列)。SC对每个职位的计算如下:

数组$ $ \开始{}{l * {20}} {b_{\公关o,板式换热器}= - 4}\ hfill & {b_{酪氨酸,Trp} = 2} \ hfill \ \ {b_{\公关o, Asn} = - 2} \ hfill & {b_{酪氨酸,板式换热器}= 3}\ hfill \ \ {b_{法Asn} = - 3} \ hfill & {b_{板式换热器,Trp} = 1} \ hfill \ \{\眉题{{E (b_{\公关o } )}} = - 2.05} \ hfill &{\眉题{{E (b_{酪氨酸 } )}} = - 1.21} \ hfill \ \{\眉题{{E (b_{板式换热器 } )}} = - 1.63} \ hfill &{\眉题{{E (b_{板式换热器 } )}} = - 1.63} \ hfill \ \{\眉题{{E (b_ {Asn } )}} = - 1.26} \ hfill &{\眉题{{E (b_ {Trp } )}} = - 2.26} \ hfill \ \ \{数组}$ $
$ $ SC(板式换热器,Pro, Asn) = 2 ^{{\压裂{{\离开({\压裂{- 4 - 2}{2}-(- 2.05)}\右)+ \离开({\压裂{- 4 - 3}{2}-(- 1.63)}\右)+ \离开({\压裂{- 3 - 2}{2}-(- 1.26)}\右)}}{2 * 3}}}= 2 ^ {0.677}= 0.6255 $ $
$ $ SC(板式换热器,酪氨酸,Trp) = 2 ^{{\压裂{{\离开({\压裂{2 + 3}{2}-(- 1.21)}\右)+ \离开({\压裂{3 + 1}{2}-(- 1.63)}\右)+ \离开({\压裂{2 + 1}{2}-(- 2.26)}\右)}}{2 * 3}}}= 2 ^ {1.85}= 3.605 $ $

根据这个定义SC,只有一种氨基酸残基的位置可以忽略,因为无论调整,这些位置的香农熵为0。或者,当位置包含所有20个标准氨基酸时,该SC将为1表示没有对熵进行调整,这是合理的,因为保守性水平被视为“平均”。在其他情况下,当观察到更保守的替换时,SC将大于1,表示相似度更高,而如果观察到更多的非保守替换,SC将小于1,表示相似度较低。基于BLOSUM62矩阵,大多数的SCs都在0.1到10之间。

特定于主机的签名识别

下面是我们用来识别签名的过程。

识别训练数据集

Chen等7]建议使用所有可用的序列作为签名识别的训练数据集,而在其他研究中(例如[3.]),可以根据不同的研究目标选择训练数据集。在这项工作中,我们用模拟数据集和部分真实数据集说明了我们的方法,我们还基于时间和位置进行了分析。

对齐序列

在这一步中,来自不同主机的所有序列都被对齐。我们可以选择Hu等人介绍的过采样或欠采样来平衡基于2个宿主的不同序列数的对齐3.].我们使用肌肉[29]作为Chen等人使用的对齐算法7和胡等人3.]在他们的签名识别方法中。

计算每个位置的熵值

基于对齐后IAV数据集各列氨基酸类型组成,使用Shannon熵来测量同一宿主(禽、猪或人)中对齐序列各位置氨基酸残基的不确定度。然后将熵除以相似系数得到调整熵:

$$adjusted\;熵= - \sum\limits_{i = 1,…,20} {(p_{i} \乘\ln (p_{i}))} /SC$$

其中每个p的比例氨基酸残基型。较大的相似系数将减少熵和不确定性。

将职位识别为潜在的签名

熵值低于阈值的位置被识别为稳定的,并被认为是潜在的特征。Chen等7]通过计算实验上称为宿主特异性签名的某一位置(具体为PB2-627)的熵建立了一个阈值,并将阈值设为0.4,而Chen和Shih [24]建议基于更大的训练数据集的0.33。我们提供了两个不同的阈值,一个是保持相同的阈值,另一个是基于PB2-627的调整熵。

对于选定的位置,比较不同宿主之间的优势氨基酸残基类型,看看它们是否可以被识别为宿主特异性特征

将不同宿主中不同优势氨基酸残基类型的熵值低于阈值的位置识别为特征点。这些特征可能表明这些位置的突变与潜在的种间传播有关。

作为一个例子SC和调整熵可能会影响签名识别,考虑上述示例中考虑的两种氨基酸组成{Pro, Phe, Asn}和{Tyr, Trp, Phe}。进一步假设每个氨基酸组成有2000个残基。表格1表示每个氨基酸前面残基的频率或比例以及Shannon熵,SC调整熵的计算如上所述。位置1的熵值比位置2低,但调整后的熵值要高得多,因为位置1的3种氨基酸类型与位置2的3种氨基酸类型之间的相似性相比非常“不同”。基于调整熵的方法,第二个位置被认为是首选的候选主机特定签名,而未调整熵的方法表明第一个位置是首选的。

数据和材料的可用性

在当前研究期间生成和/或分析的数据集从NCBI的流感病毒资源下载(https://www.ncbi.nlm.nih.gov/genomes/FLU/).看到https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4181488/bin/irv0008-0384-SD7.xlsx本研究中包含的病毒的品系名称和登录号。序列信息可通过上述链接获得。世界卫生组织/世界动物卫生组织/粮食及农业组织(世卫组织/世界动物卫生组织/粮农组织)H5N1进化工作组。修订和更新了高致病性禽流感A (H5N1)病毒的命名法。流感其他呼吸道病毒。2014年5月;8(3):384-8。https://doi.org/10.1111/irv.12230.Epub 2014年1月31日。PMID: 24483237;PMCID: PMC4181488。论文收录号:66a45ce8-78e8-45fc-a912-c3f621f677d7。

缩写

AA:

氨基酸

阿里:

调整后兰特指数

BLOSUM:

块替换矩阵

IAV:

甲型流感病毒

SC:

相似系数

参考文献

  1. 基于加权定向蛋白质重叠网络和调整熵测量的新型蛋白质功能分析。迪斯。内布拉斯加大学林肯分校。2016.

  2. Hay AJ, Gregory V, Douglas AR, Lin YP。人类流感病毒的进化。Philos Trans R Soc Lond Ser B. 2001;356:1861。

    文章中科院谷歌学者

  3. 胡永杰,涂培春,林春生,郭世涛。甲型流感病毒基因组特征的鉴定和时间序列分析。PLoS ONE。2014; 9: e84638。

    文章谷歌学者

  4. 强鑫,寇卓。基于反向传播神经网络的甲型禽流感病毒种间传播预测。数学计算模型。2010;52:2060-5。

    文章谷歌学者

  5. 伍中鹏,唐志强,谭太华利用随机森林预测甲型流感病毒蛋白的宿主趋向性。中国生物医学工程杂志。2014;7:S1。

    文章谷歌学者

  6. 王杰,马超,寇震,周永华,刘海林。利用信息丰富的物理化学性质预测禽流感病毒从禽到人的传播。中国生物医学工程学报,2013;

    文章谷歌学者

  7. 陈国伟,张淑春,莫春坤,罗永林,宫玉宁,黄建辉,施玉华,王建勇,蒋超,陈长杰,等。人A型流感病毒与禽流感病毒的基因组特征《新兴传染病》,2006;12:1353。

    文章中科院谷歌学者

  8. Finkelstein DB, Mukatira S, Mehta PK, Obenauer JC, Su X, Webster RG, Naeve CW。大流行流感病毒和H5N1流感病毒中持续存在的宿主标记物。中国病毒学杂志,2007;81:10292-9。

    文章中科院谷歌学者

  9. Miotto O, Heiny AT, Albrecht R, Garcia-Sastre A, Tan TW, Augusty JT, Brusic V.人流感A适应性突变的完全蛋白质组图谱:人畜共患病毒株在人体内传播的意义。PLoS ONE。2010; 5: e9025。

    文章谷歌学者

  10. 杨超,童军,谭涛。基于宿主趋向性蛋白特征的随机森林预测甲型流感病毒人畜共患病风险。国际化学杂志,2017;18:1135。

    文章谷歌学者

  11. 强鑫,寇泽,方刚,王艳。禽流感病毒氨基酸突变预测禽-人传播。分子。2018;23:1584。

    文章谷歌学者

  12. 尹荣,周旭,郑杰,郭志强。甲型流感病毒宿主趋向性物理化学特征的计算鉴定。中国生物工程学报。2018;16:1840023-1840023

    文章中科院谷歌学者

  13. 李志强,李志强,杨晓娟,Belák。甲型H1N1和H3N2亚型流感病毒宿主特异性特征的鉴定。BMC Genom. 2016;17:529。

    文章谷歌学者

  14. 罗戈夫,李志强。一种基于自然蛋白质序列中氨基酸残基周围环境分析的氨基酸残基相似性的数值测量方法。蛋白质学报2001;14:459-63。

    文章中科院谷歌学者

  15. 施瓦茨RM。用于检测遥远关系的矩阵。Atlas Protein Seq Struct 353-359 (1978)

  16. 琼斯DT,泰勒WR,桑顿JM。从蛋白质序列快速生成突变数据矩阵。生物信息学。1992;8:275 - 82。

    文章中科院谷歌学者

  17. Gonnet GH, Cohen MA, Benner SA。整个蛋白质序列数据库的穷举匹配。科学。1992;256:1443-5。

    文章中科院谷歌学者

  18. Henikoff S, Henikoff JG。蛋白质块中的氨基酸替代矩阵。自然科学进展,2001;29(3):349 - 349。

    文章中科院谷歌学者

  19. Dayhoff MO, Schwartz RM, Orcutt BC。蛋白质进化变化的模型。中国生物工程学报,1998;5:354 - 358。

    谷歌学者

  20. Müller T, Spang R, Vingron M.估计氨基酸替代模型:Dayhoff估计器,解析方法和最大似然方法的比较。《分子生物学》2002;19:8-13。

    文章谷歌学者

  21. Le SQ, Gascuel O.一种改进的通用氨基酸替代基质。分子生物学杂志,2008;25:1307-20。

    文章中科院谷歌学者

  22. 党昌昌,广立生,荣立生,等。一种快速有效的估计氨基酸替代模型的方法。参加:2011年第三届知识与系统工程国际会议(KSE) (2011)

  23. Dang CC, Le QS, Gascuel O, Le VS. FLU,流感蛋白的氨基酸替代模型。生物医学工程学报。2010;10:99。

    文章谷歌学者

  24. 陈国伟,施绍荣。2009年甲型流感大流行(H1N1)病毒的基因组特征新兴感染病2009;15:1897。

    文章谷歌学者

  25. 疾病控制中心美国疾病控制与预防中心牵头的合作组织首次发布了2009年H1N1流感大流行全球死亡率估计数。疾病控制中心,亚特兰大,佐治亚州(2012年)

  26. Belanov SS, Bychkov D, Benner C, Ripatti S, Ojala T, Kankainen M, Lee Kai H, Tang Wei-Tze J, Kainov DE.人流感病毒pdm09和A (H3N2)病毒进化标记的全基因组分析可指导候选疫苗株的选择。中国生物科学,2015;7:3472-83。

    文章中科院谷歌学者

  27. 香农CE。交流的数学理论中国机械工程学报(英文版);

    文章谷歌学者

  28. 皮尔森的车手。选择正确的相似度评分矩阵。《生物科学》2013;43:3-5。

    文章谷歌学者

  29. 埃德加钢筋混凝土。MUSCLE:多序列比对,精度高,通量大。核酸决议2004;32:1792-7。

    文章中科院谷歌学者

下载参考

确认

不适用。

资金

不适用。

作者信息

作者及隶属关系

作者

贡献

最初的概念是由SZ, GL和YZ提出的,YZ进行数据分析并起草了最初的手稿,KE, SZ和GL提供了大量的解释和修改手稿的投入。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到肯特·m·埃斯克里奇

道德声明

伦理和同意参与

不适用。

相互竞争的利益

不适用。

发表同意书

不适用。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

本文主要基于第一作者博士论文第三章[1].

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

张勇,埃斯克里奇,康明,张森。et al。使用调整熵测量识别甲型流感病毒宿主特异性氨基酸特征。BMC生物信息学23, 333(2022)。https://doi.org/10.1186/s12859-022-04885-7

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12859-022-04885-7

关键字

  • 甲型流感病毒
  • 宿主特异性
  • 氨基酸特征
  • 调整后的熵
Baidu
map