跳到主要内容

基于数据增强和弹性数据共享套索正则化的基因表达元分析

摘要

背景

基因表达分析可以为分析复杂的生物学机制提供有用的信息。然而,由于相对于大量基因的小样本量和大多数基因表达数据集的低信噪比,许多报道的发现是不可重复的。

结果

多数据集的元分析是解决上述问题的有效方法。为了提高meta分析的性能,我们提出了一个新的meta分析框架。它由两部分组成:(1)一种新的数据增强策略。存在多种跨平台归一化方法,可以从不同角度保留基因表达数据集的原始生物信息,并对数据集添加不同的“扰动”。利用这种扰动,我们为基因表达数据增强提供了一种可行的手段;(2)弹性数据共享套索\ ({{\ varvec {L}}} _ {\ mathbf {2}} \))。DSL -\ ({\ mathbf {L}} _ {\ mathbf {2}} \)该方法跨越了每个数据集的单个模型和所有数据集的一个模型之间的连续体。同时也克服了数据共享套索方法在处理高度相关特征时的不足。综合仿真实验结果表明,该方法具有较高的预测和基因选择性能。然后,我们将该方法应用于非小细胞肺癌(NSCLC)血液基因表达数据,以确定关键的肿瘤相关基因。我们的实验结果表明,该方法可用于识别一组强大的疾病相关基因特征,可用于NSCLC的早期诊断或预后甚至靶向治疗。

结论

我们提出了一种新颖有效的生物研究元分析方法,从多个基因表达数据集中推断和整合信息。

背景

现代高通量生物医学仪器的广泛应用,极大地加快了生命科学领域数据生成的速度。例如,美国国家生物技术信息中心(NCBI)的基因表达综合项目(GEO)已经收集了340多万个样本。如何从基因表达数据中准确筛选出与复杂疾病的诊断、治疗和药物开发密切相关的基因标记,是基因组研究的核心问题之一[123.45]。

利用生物统计学和机器学习方法分析基因表达数据存在三个主要问题。(1)大p小n。基因表达数据集通常包含大量基因和少量样本[6]。少数基因与目标疾病密切相关,而其他基因则无关。在机器学习方面,许多不相关的基因会引入噪声,并可能导致过拟合,进而对分类器的性能产生负面影响[7];(2)批处理效果。通过不同的处理结构和数据平台生成不同的基因表达数据,并以不同的数值尺度返回表达值。这种现象通常被称为批效应[8];(3)重现性较低。由于许多基因表达数据集的信噪比通常较低,已发表的基因生物标志物在其他研究中很少被复制[9]。

对多基因数据集进行meta分析,以提高基因组研究的统计性能,是应对上述挑战的一个有希望的解决方案[10]。目前的基因表达数据meta分析可以分为三种类型:(1)第一类方法是将不同研究的结果结合起来进行分析。例如,p值(11],效应量[1213],或ranks [14]。这些方法在鉴别差异表达(DE)基因方面更有优势。但这样的方法微不足道,容易导致错误的结果;(2)第二种方法通常采用特定的跨平台归一化(CPN)方法从多个数据集中去除批处理效应,随后将多个数据集合并为一个大数据集。然后,利用机器学习方法实现组合数据集的分类和基因选择。由于数据集大,这类方法往往比第一类方法获得更高的结果统计显著性[15]。然而,由于生物数据固有的复杂性,现有的CPN方法只能减少数据的批效应,而不能完全消除数据的批效应。因此,直接分析综合数据可能会产生一些问题[1516];(3)第三种元分析方法在不合并数据的基础上对多个数据集建立统一的模型,这是元分析的一个新的研究方向。例如,元阈值梯度下降正则化[17],元套索[18], meta-nonconvex [19]和数据共享套索(DSL) [20.]。关于上述方法的优缺点的讨论载于模拟”一节。本文重点介绍DSL方法,因为它在形式上更简洁、更合理。DSL方法跨越了每个数据集的单个模型和所有数据集的一个模型之间的连续体。通过套索惩罚,DSL方法也实现了基因选择。然而,DSL方法并不能达到分组的效果(强相关基因往往被包括在模型中或被完全忽略)[21]),因此忽略了基因之间的相关性,不能用于分析具有依赖结构的数据。如果一组基因之间有很高的相关性,DSL方法通常只选择一个基因代表整个组。由于参与同一生物通路的基因通常是高度相关的,因此群体情况在基因表达数据中非常常见[22]。

数据增强(Data augmentation, DA)是指对原始数据进行适当的“扰动”,以实现数据集的扩展;这是基于一定的先验知识,在保持特定信息的前提下进行的[23]。[242526都使用数据挖掘策略来人为地增加训练样本的数量。以往的研究旨在系统地理解数据增加的好处,结果表明数据分析可以起到调节作用,防止过拟合,增强模型的泛化能力[27]。DA的有效性启发我们考虑对基因表达数据进行增强。然而,传统的数据分析方法,例如,旋转或缩放,对于基因表达数据是不够的,因为它们不能产生足够的生物学解释。

为了提高meta分析的有效性,本文提出了一种新的meta分析框架(DA-DSL-)\ ({\ mathrm {L}} _ {2} \),无花果。1基于一种新的数据分析策略和弹性数据共享套索(DSL-)\ ({\ mathrm {L}} _ {2} \))方法。它由两个部分组成:(1)一种新的数据增强(DA)。存在多种CPN方法,可以从不同角度保留基因表达数据集的原始生物学信息,并对数据集添加不同的“扰动”。利用这种扰动,我们可以生成数据集的多视图表示;这是一种可行的基因表达数据增强手段。(2)DSL -\ ({L} _ {2} \)。DSL -\ ({\ mathrm {L}} _ {2} \)方法克服了DSL方法在处理高度相关特征时的缺点。我们采用了DA-DSL-\ ({\ mathrm {L}} _ {2} \)方法以一个逻辑回归模型来完成最后的模型。然后,我们对非小细胞肺癌(NSCLC)血液基因表达数据进行分析,以帮助识别可用于NSCLC早期诊断的基因特征。

图1
图1

拟议的DA-DSL-L概述2荟萃分析框架。Data1、…、DataM分别采用不同的跨平台归一化(cross platform normalization, CPN)方法进行合并,实现数据增强。我们使用弹性共享套索方法来处理这些增强数据(或多视图),该方法同时考虑了数据的同质性和异质性,以获得更好的特征选择性能

我们的实验结果表明,所提出的框架是一种有效的荟萃分析方法,可以识别出一组与疾病相关的健壮遗传标记。

本文的主要贡献如下:

  1. (1)

    本研究提出了一种适用于基因表达数据的新型DA策略。新策略将有助于增加训练样本的规模,增加生物数据的价值密度,提高机器学习的有效性,增强分子标记研究的泛化能力。

  2. (2)

    一种新的生物标志物选择方法DSL-\ ({\ mathrm {L}} _ {2} \)提出了。该方法提高了DSL方法在处理高度相关数据变量时的性能。此外,还从理论上讨论了该方法增强DSL方法的原因。

  3. (3)

    一个精细化的元分析框架DA-DSL-\ ({\ mathrm {L}} _ {2} \)提出了增强基因表达价值的方法。在这个框架中,基因表达数据的数据增强、跨多视图(或多数据集)共享的生物信息(同质性)和独特的效应(异质性)以及基因的群体效应都得到了很好的考虑。

  4. (4)

    由于血液基因表达的信噪比很低,很难从血液数据中找到有用的信息。我们利用该方法在NSCLC血液基因表达数据中鉴定了59个基因。这59个基因标记准确地将肺癌样本与正常样本区分开来。通过文献分析、通路分析、基因改变分析、生存预测分析和关联分析对59个基因进行进一步验证。所选基因可用于外周血检测,用于NSCLC的早期诊断。

本文的其余部分组织如下:我们回顾了“结果”一节。在“NSCLC数据准备和增强我们描述了基因表达数据的数据增强策略,以及新的正则化DSL-\ ({\ mathrm {L}} _ {2} \)技术。在“非小细胞肺癌模型训练及表现章节中,我们提出了一种新的DSL算法\ ({\ mathrm {L}} _ {2} \),并解释DSL-\ ({\ mathrm {L}} _ {2} \)从理论上加强DSL。在“非小细胞肺癌选定基因的生物学分析,我们通过全面的模拟分析和真实mRNA表达水平数据实验来衡量我们提出的方法的性能。一个简短的讨论和结论在“讨论与结论”一节。

结果

为了测试我们提出的方法的有效性,我们对两个大型肺癌基因表达数据集进行了全面的模拟测试和评估。这里使用的统计模型是logistic回归模型。

模拟

仿真中考虑了四种场景。每个场景由三个数据集组成,每个数据集由100个样本和1000个维度组成。我们从真实模型中模拟数据:\ (y_ {k} \)= [b]\ (y_ {k} \)= 1 |\(间{k} \);β\ (\ \)[qh] [qh]

在场景1中,我们假设不同数据集之间的差异很小,可以表示为\(X_{k} \sim N(\sqrt k - 1,\sqrt k)\)\(k{=}1,2,3.\)

β\ (\ \)数值是从

$ $ \β= \离开({\ underbrace {{3, 3, 3, 3, 3,}} _ {5} \ underbrace {{0 \ ldots 0}} _{995}} \右),$ $

在分组变量情况下\ ({x} _{我}= \ \ρ* {x} _{1} +左(1 - \ρ\右)\ \ * {x} _{我}\), i = 2,3,4,5。

场景2与场景1类似,不同之处在于还有其他独立因素也对相应的分类变量起作用\ (\ mathrm {y} \)

$ $ \β= \离开({\ underbrace {{3, 3, 3, 3, 3, 2 - 2, 2, 2, - 2,}} _ {10} \ underbrace {{0 \ ldots 0}} _{990}} \右)$ $

在场景3中,我们认为不同数据集之间的差异是显著的:\(间{k} \ sim N \离开({k - 1, \离开({\压裂{k}{\√6 k}} \右)^ {2}}\)\)\(k{=}1,2,3.\)

$ $ \β= \离开({\ underbrace {{3, 3, 3, 3, 3, 1.5, 2, - 2, 2, 2, - 2,}} _ {10} \ underbrace {3 \ ldots 3} _ {20} \ underbrace {{0 \ ldots 0}} _{970}} \右)$ $

为此我们定义了两个分组变量:

$ $ \开始{对齐}{x} _{我}&ρ= \ \ * {x} _{1} +左(1 - \ρ\右)\ \ * {x} _{我}\四\ mathrm{我}= 2,3,4,5,\ \ {x} _{我}&ρ= \ \ * {x} _{11} +左(1 - \ρ\右)\ \ * {x} _{我}\四\ mathrm{我}= 12 \点,30;\{对齐}$ $

场景4与场景3类似,不同之处在于我们考虑有三个分组变量的情况:

$ $ \β= \离开({\开始{数组}{* c {20}} {\ underbrace {3 \ ldots 3} _ {30} \ underbrace {{2 - 2.5, - 1.5, 1.8 - 2.5,}} _ {5} \ underbrace {{3 \ ldots 3}} _ {40} \ underbrace {{2 \ ldots 2}} _ {25}} \ \ {\ underbrace {3 \ ldots 3} _ {30} \ underbrace {2 \ ldots 2} _ {70} \ underbrace {{0 \ ldots 0}} _{800}} \ \ \{数组}}结束\右)$ $

三个分组变量定义如下:

$ $ \开始{对齐}{x} _{我}&ρ= \ \ * {x} _{1} +左(1 - \ρ\右)\ \ * {x} _{我}\四\ mathrm{我}= 2,\点,30;\ \ {x} _{我}&ρ= \ \ * {x} _{36} +左(1 - \ρ\右)\ \ * {x} _{我}\四\ mathrm{我}= 37 \点,75;\ \ {x} _{我}&ρ= \ \ * {x} _{101} +左(1 - \ρ\右)\ \ * {x} _{我}\四\ mathrm{我}= 102,\点,130;\{对齐}$ $

在这种情况下,有三组相关基因和一些不相关基因。良好稀疏回归方法仅识别200个真实基因,而将其他800个噪声基因的系数设置为零。

我们在多维过程中使用十倍交叉验证(CV),并将其应用于训练数据,以选择最佳调优参数(这平衡了数据拟合和模型复杂性之间的权衡)。在十倍CV中,数据首先被分成10个相等(或几乎相等)大小的折叠(或片段);然后进行10次训练和验证迭代。数据的不同折叠在每次迭代中进行验证,而其余的九折叠用于模型构建。有三个参数:\({\λ}_ {1}\)\({\λ}_ {2}\),d r \ ({} _ {} \)。的d r \ ({} _ {} \)参数设置为\ \(压裂{1}{\ sqrt {D}} \)由[20.]。(\({\λ}_ {1}\)\({\λ}_ {2}\)选择交叉验证精度性能最大的网格作为最优参数。的\({\λ}_ {1}\)序列是为X和Y值生成的,以这样的方式,最大的\({\λ}_ {1}\)值足以产生所有的零系数β\ (\ \)\({\λ}_ {2}\)取{0.001:0.01:5}(Start: step size:End)。Lasso和Elastic net使用“glmnet”函数(Matlab, version 2014b)进行。其他方法是使用我们自己的Matlab代码执行的。本文的模拟数据实验和下面的真实数据实验是在Ryzen 7 2700X和64G RAM的个人计算机上进行的。

我们设置相关控制变量ρ\ (\ \)基因的比例分别为0.3、0.6和0.9。我们对每种方法进行了800次实验,并报告了平均10-CV的分类精度。

基因选择是基因组分析的重要组成部分。在我们的研究中,采用约登指数(Youden 's index, YI)来衡量每种方法的基因选择能力。在强调敏感性和特异性的情况下,YI综合了敏感性和特异性信息,其取值范围为0 ~ 1。YI值越高,基因选择性能越好。

$ ${\文本{一}}={\文本{敏感性}}+{\文本{特异性}}{-}{1}$ $

在敏感性\(: = \压裂{\ mathrm {TP}} {\ mathrm {TP} + \ mathrm {FN}} \),特异性:=\ \(压裂{\ mathrm {TN}} {\ mathrm {TN} + \ mathrm {FP}} \),真阴性(TN)\(左|{:= \ \眉题{\β}。*\overline{\widehat{\beta}}\right|}_{0}\),假阳性(FP)\(左|{:= \ \眉题{\β}。* \ widehat{β\}\右|}_ {0}\),假阴性(FN)\(左|{:= \ \β。* \眉题{\ widehat{\β}}\右|}_ {0}\)和真阳性(TP)\({:=\左|\beta .*\widehat{\beta}\右|}_{0}\)。的\ (. * \)元素明智的产品,和\({\ |。\右|}_ {0}\)计算向量中非零元素的个数,\(\眉题{β\}\)\(\overline{\widehat{\beta}}\)逻辑上的“非”操作符在向量上吗β\ (\ \)\ (\ widehat{β\}\)

为了完成数据分析,我们使用了三种经典的跨平台规范化方法(Z-score规范化、COMBAT和XPN)。例如,我们使用z分数归一化来合并三个数据集(\(间的{1}\)\(间的{2}\)\(间{3}\)),以生成原始数据的视图。类似地,COMBAT和XPN分别用于生成其他数据视图。

竞争的方法可以分为三类:(1)不考虑同质性。在单个数据集中训练的模型\(间的{1}\)\(间的{2}\)\(间{3}\),分别包括Lasso, Elastic, HLR(我们报告了这些模型对这三个数据集的平均性能)。(2)不考虑异质性。三个数据集合并成一个合并数据集[\(间的{1}\);\(间的{2}\);\(间{3}\)]。在合并后的数据上直接训练M-Lasso、M-Elastic和M-HLR三个模型。(3)不考虑分组效应。比如Meta-Lasso和DSL。此外,一种经典的综合分析方法稀疏群套索(SGL) [28]也参与了这项实验。

表格1显示了800次运行中所有方法在10-CV上的平均分类性能。总之,DA-DSL-\ ({\ mathrm {L}} _ {2} \)在分类评价方面,该方法比其他方法具有一定的优势。例如,在场景1中ρ\ (\ \)= 0.3, DA-DSL-的平均精度\ ({\ mathrm {L}} _ {2} \)方法的回收率为84.19%,是各方法中回收率最高的方法。在场景3中ρ\ (\ \)= 0.6,即DA-DSL-达到的值\ ({\ mathrm {L}} _ {2} \)方法的平均准确率分别比Lasso、M-Lasso、Elastic Net、M-Elastic Net、HLR、M-HLR、SGL、Meta-Lasso和DSL的平均准确率高19.21%、4.18%、16.20%、5.95%、15.55%、7.43%、4.67%、4.20%和3.87%。

表1仿真分类预测结果

表格2在800次重复中,通过所有方法演示了基因切片的平均能力。总之,DA-DSL-L2该方法在所有情况下均获得最佳的基因选择性能。例如,在场景3中ρ\ (\ \)= 0.3, DA-DSL-L2结果表明,与Lasso、M-Lasso、Elastic Net、M-Elastic Net、HLR、M-HLR、SGL、Meta-Lasso和DSL相比,其遗传选择效率分别高出41.05%、11.45%、41.15%、11.29%、41.59%、14.76%、7.62%、7.90%和5.68%。这些结果提示DA-DSL-L2该方法能够识别更少的噪声基因和更多有意义的标记。

表2模拟基因选择结果

并对这些方法的收敛性进行了测试。以场景2为例,在相关系数为0.6的情况下,Lasso、M-Lasso、Elastic net、M-Elastic net、HLR、M-HLR、SGL、Meta-Lasso、DSL、DA-DSL-L分别需要0.08、0.09、0.07、0.07、4.98、13.31、12.29、9.7、0.1895、3.22 s2分别收敛到它们的解。

非小细胞肺癌的血液基因表达特征

肺癌仍然是全世界癌症相关死亡的主要原因。全球平均预后仍然很差,5年生存率约为15%,这是由于大多数患者在无法治愈的阶段诊断出晚期癌症,这是晚期疾病治疗方案的一个挫折来源。迫切需要建立一种更可靠的工具来检测非小细胞肺癌(NSCLC),在疾病的早期阶段,在症状出现之前。

NSCLC数据准备和增强

据我们所知,有两个大的(样本量bbbb150)外周全血NSCLC基因表达数据集(表1)3.)。这两个数据集来自两个不同的平台,这意味着同质性和异质性都存在。在本节中,我们使用提出的方法来鉴定基于血液的基因表达特征,这些特征可用于NSCLC的早期诊断。

表3 NSCLC数据集简介

每个探针集被映射到一个官方的基因符号,对于对应于同一基因的多个探针集,我们将这些探针集平均以代表该基因。我们选取了所有数据集共有的基因子集。总共有11959个基因被保留。

我们在GSE12771和GSE20189中随机选择三分之二的样本进行模型训练。GSE12771和GSE20189中剩余三分之一的样本用于模型测试运行“测试集1”和“测试集2”。

我们使用三种经典的跨平台归一化方法(Z-score归一化、COMBAT和XPN)来完成数据增强。例如,我们使用Z-score归一化来合并两个训练集(GSE12771和GSE20189中三分之二的样本),以生成原始数据的视图。类似地,COMBAT和XPN分别用于生成其他数据视图。最终训练集由846个样本组成,其中非小细胞肺癌435例,健康对照411例;试验集1由73个样本组成,其中非小细胞肺癌31例,健康对照42例;测试集2由49个样本组成,其中非小细胞肺癌23例,健康对照26例。

非小细胞肺癌模型训练及表现

比较了Lasso、Elastic net、HLR、SGL、Meta-Lasso和DSL六种策略。

DA-DSL-的调谐正则化参数\ ({\ mathrm {L}} _ {2} \)在训练数据集中的多维度上使用5-CV进行调优。利用所有的训练数据,用确定的调优参数训练出最终的分类器。模型的截止点计算为产生最高YI值的点。

如表所示4, DA-DSL-\ ({\ mathrm {L}} _ {2} \)该方法在训练准确率上优于所有竞争者,训练误差仅为2.23%。通过对比,lasso的训练误差为5.09%,几乎是我们提出方法的2.3倍。此外,DA-DSL-\ ({\ mathrm {L}} _ {2} \)方法也比DSL方法(一种不实现分组效果的方法)更好,这意味着\ ({\ mathrm {L}} _ {2} \)范数技术在基因表达数据中表现良好。在测试集1和测试集2的结果中可以看到相同的观察结果,表明提出的方法达到了最好的分类性能和更好的效率。用DA-DSL-预测考试成绩\ ({\ mathrm {L}} _ {2} \)与健康对照组相比,非小细胞肺癌患者的诊断方法具有显著意义(P< 0.01,t以及)。

表4各方法的判别结果

虽然DA-DSL-\ ({\ mathrm {L}} _ {2} \)在所有的技术中,方法花费的时间比较长。它在特征选择和分类质量方面具有优势。

非小细胞肺癌选定基因的生物学分析

我们提供了表中所有策略鉴定出的排名最高的10个基因的结果5。如上面的仿真部分所述,所提出的方法在识别关键基因方面表现出良好的性能。因此,我们可以认为,由DA-DSL-鉴定的基因\ ({\ mathrm {L}} _ {2} \)癌症数据集中的方法可以帮助医护人员推断与癌症发展相关的真正生物标志物。例如,EGR1通过调控抑癌通路,通过细胞周期阻滞和细胞凋亡与癌症抑制有关。EGR1低表达的患者可能有较高的疾病复发风险,并且可能存在对治疗有耐药性的肿瘤[31]。最近的一项研究报道了CD74基因融合在肺癌患者中含有编码TRKA受体的NTRK1基因的激酶结构域。CD74-NTRK1融合导致组成性TRKA激酶的发展,并具有致癌性。用TRKA激酶活性抑制剂治疗表达NTRK1融合的细胞可以抑制TRKA的自磷酸化和细胞生长[j]。32]。VWF分泌与ADAMTS-13之间的失衡可能在晚期NSCLC高凝状态中起重要作用。然而,血浆VWF/ADAMTS-13比值升高可能是晚期非小细胞肺癌患者死亡率的关键预测因素[33]。此外,SIAH蛋白在许多重要的生物过程中起着关键作用。例如,SIAH2蛋白在人肺癌中的表达显著增强,可能成为肺癌治疗的新靶点[34]。

表5通过稀疏逻辑回归方法从肺癌数据集中筛选出排名最高的10个基因

为了使用所提出的方法进一步验证所选基因,我们使用cbiopportal [31]与NSCLC TCGA数据集和Reactome [35]。结果发现,在1229例NCSLC患者中,865例(70%)有59个基因发生改变。10个排名最高的基因改变的结果如图所示。2:可以看出,最大的改变基因是PIK3CA(所有患者中有24%的改变)。17%的患者检测到ACAP2和CANNA1R的改变。这些结果本身就为这些基因的治疗价值提供了有希望的证据。

图2
图2

由DA-DSL-选择的TCGA非小细胞肺癌(临时)数据集中排名最高的10个基因改变\ ({\ mathrm {L}} _ {2} \)

我们还进行了Kaplan-Meier生存分析kmplotDA-DSL-鉴定的10个基因\ ({\ mathrm {L}} _ {2} \)对1925名患者的联合数据集进行了分析,结果如图2所示。3.。总体而言,所有基因均有一定的预后价值,如MAPK4(风险比为1.83;P= 4.4e−10),VT11B(风险比,1.8;P= 4.1e−09)和NTRK1(风险比1.43;P= 0.0024)。我们通过Oncomine进一步验证了Bittner Lung数据集上的10个基因。如图所示。4ACAP2、ECHDC3、EGR1和CD74 mRNA水平升高与肿瘤发展高度相关。

图3
图3

DA-DSL-筛选前10位基因的生存预测\ ({\ mathrm {L}} _ {2} \)

图4
图4

Bittner肺数据集中ACAP2、ECHDC3、EGR1和CD74 mRNA表达与肿瘤分级(1-4级)之间的关系

然后,我们对使用DA-DSL-鉴定的基因进行了途径分析\ ({\ mathrm {L}} _ {2} \)。59种生物标志物富集于153种不同的生物标志物中P< 0.05)。我们在图中总结了前20个最重要的路径。5

图5
图5

途径分析。比值富集表示−log()的基因模块的功能显著性。p值)

在这些重要的途径中,有些与血小板功能有关。例如,RUNX1调节参与巨核细胞分化和血小板功能、血小板脱颗粒、对血小板胞质Ca2+升高的反应以及血小板活化、信号传导和聚集的基因。众所周知,血小板通过不同的机制促进肿瘤的发展。转移是癌症相关死亡的主要原因;然而,转移是一个非常低效的过程。一旦进入血液,癌细胞就会进入循环细胞附近,并迅速与血小板结合[36]。此外,血小板可能通过抑制T细胞的功能来帮助免疫系统隐藏癌症[37]。因此,血小板在肿瘤发生和癌症转移过程中起到局部和全身反应的作用,因此可以作为癌症非侵入性检测的有用信号来源[38]。其中最重要的途径之一是细胞因子信号的免疫相关途径。原发肿瘤部位的微环境主要包括肿瘤相关巨噬细胞、肿瘤相关成纤维细胞、髓源性抑制细胞、肥大细胞等。这些细胞分泌多种细胞因子和趋化因子促进肿瘤转移[39]。

结合图2的结果。23.45, DA-DSL-选择的基因特征\ ({\ mathrm {L}} _ {2} \)为非小细胞肺癌提供了潜在的治疗标记物和途径。

结直肠癌研究

结直肠癌(CRC)是世界范围内最常见的肿瘤疾病之一。在所有癌症中,结直肠癌的复发率很高,在过去的二十年中,结直肠癌的治疗仅略有改善。早期诊断和及时治疗可显著降低死亡率和发病率。这里收集和分析了三个基因表达研究的数据(表1)6)。

表6结肠直肠数据集简介

我们主要遵循NSCLC研究部分的数据处理,例如(1)我们取了所有数据集共有的基因子集;(2)使用GSE110223和GSE110224进行模型训练,使用GSE113513进行模型验证;(3)三种跨平台归一化方法的数据增强。

如表所示7, DA-DSL-\ ({\ mathrm {L}} _ {2} \)该方法在训练准确率上优于所有竞争者,训练误差仅为1.15%。在验证结果中也可以看到相同的观察结果,表明所提出的方法达到了最佳的分类性能和更高的效率。

表7各方法的判别结果

使用DA-DSL-L2,在CRC数据集中鉴定了51个基因,包括CCNA2, DLGAP5, RRM2。这些被选择的基因可能在结直肠癌的发展中起重要作用。例如,敲低CCNA2可通过阻碍细胞周期进程和诱导细胞凋亡来显著抑制结直肠癌细胞的生长[41]。有文献表明,CCNA2在胰腺癌、乳腺癌、肺癌等肿瘤中也有高表达,是判断肿瘤预后不良的重要指标[42]。临床研究表明,DLGAP5与结直肠癌的侵袭和迁移有关[43]。作者还认为这是判断预后不良的重要指标。对于RRM2的表达,研究表明它与CRC的侵袭深度、分化程度、无病生存及转移有关[44]。

进一步验证DA-DSL-L选择的基因2,我们考虑如果将决策树等非线性分类器应用于所选基因是否会提高性能(图2)。6)。结果显示出了希望。51个基因的性能优于或相当于由12394个基因组成的整个基因集的性能。

图6
图6

DA-DSL- L筛选的51个基因决策树性能比较2整个基因集由12394个基因组成

讨论与结论

识别关键疾病相关基因生物标志物是基因组学研究中最大的挑战之一。由于成本的考虑,大多数基因表达数据集在基因组研究中需要很小n和大p,根据这些数据归纳结论存在问题。在荟萃分析中结合多个实验数据集是解决这一问题的有效方法之一。本研究提出了一种新的元分析框架(DA-DSL-L)2)。在该框架中,充分考虑了基因表达数据的数据增强、跨多视图(或多数据集)共享的生物信息(同质性)和独特的效应(异质性),以及基因的群体效应。

我们演示了一个全面的模拟实验。我们提出的框架的模拟结果在预测和基因选择方面是有希望的。我们将该方法应用于非小细胞肺癌血液基因表达数据,以鉴定关键的肿瘤相关基因。在血液数据中寻找知识是具有挑战性的,因为血液基因表达的信噪比非常低。我们基于两个大的基于血液的NSCLC数据集生成了一个多视图表示,以提高信噪比。训练样本量为n= 846。我们使用DSL\ ({\ mathrm {L}} _ {2} \)方法处理数据。我们的结果表明,与六种最先进的方法相比,所提出的方法实现了优越的分类性能(只有59个基因特征)。此外,59个基因中的一些在独立的TCGA数据集中高度一致。然而,这59个基因富集了150多条重要通路,其中一些与肿瘤发展密切相关。我们还在CRC数据集上验证了所提出的方法。结果表明,该方法在训练精度上优于其他方法。在外部CRC验证数据集中可以看到相同的观察结果。简而言之,我们为基因表达研究提供了一种新颖有效的荟萃分析策略,有助于将多个基因表达数据集的原始数据转化为癌症诊断、预后和个性化治疗的知识。

虽然本文的重点是基因表达数据的荟萃分析,但所提出的方法也可用于其他数据类型。例如,该框架中提出的数据增强策略为其他非图像数据的数据增强提供了新的思路。提出的特征选择方法(DSL-L)2)可以直接应用于其他数据类型。

我们建议合并三种方法- z -score, COMBAT和xpn -用于DA。然而,这种组合可能并不总是必要的。还可以考虑一些新的合并方法,如scBatch [8]。在未来的研究中,将对该方法与其他合并方法的结合进行更全面的考察。其他技术可以处理分组效应,即。,网络处罚[4546474849]。未来的方向可能还包括结合外部基因调控网络来处理分组效应。如算法部分所述,我们转换DSL-\ ({\ mathrm {L}} _ {2} \)解决标准套索问题的方法。尽管套索问题可以用一些非常有效的方法来解决,。,glmnet,对于求解一个大矩阵,如本文中大小超过40,000 * 40,000的矩阵,这仍然是一个计算量大且内存昂贵的过程。因此,我们的目标是开发一种更有效的DA-DSL-算法\ ({\ mathrm {L}} _ {2} \)方法在未来的研究。这项研究的另一个缺点是缺乏对已确定的基因或途径的详细分析。

方法

荟萃分析

对高维基因表达数据的分析是分析复杂生物机制的有用工具[3.4]。然而,由于大量基因的小样本量以及许多基因表达数据集的信噪比通常较低,许多报道的结果不具有可重复性或普遍性[950]。

有许多公开的大型基因表达研究涉及元分析,这是一种结合多个数据集或其他相关信息以提高统计能力的方法。目前的基因表达数据荟萃分析可以分为三组:第一组方法是结合不同研究的结果进行分析。例如,例如,p值(11],效应量[13],等级[14],自适应费雪方法[51]。有关这些方法的详细回顾,请参见[15]。然而,这些方法忽略了基因之间的相关性。休伊和巴特[52提出了一种基于弹性网技术的元分析方法来解决这一问题。在Hughey和Butte的研究中,需要一种CPN方法来消除多数据集之间的批效应。然而,由于生物数据固有的复杂性,现有的CPN方法只能减少而不能完全消除数据的批处理效应。因此,直接分析综合数据可能会产生问题[16]。没有CPN的程序,Ma等。[17提出了一种元阈值梯度下降正则化方法。通过考虑多个基因的联合建模,该方法可以解释基因对临床结果的联合影响。然而,这种方法在“全入或全入”的情况下进行基因选择;也就是说,该方法考虑了所有数据集中重要或不重要的基因。由于不同的实验条件、工艺流程、生物标本的选择和平台,元分析数据中的数据异质性是常见的。因此,如果一个基因在一个数据集中是重要的,它可能在其他数据集中不重要。

李等。[18提出了Meta-lasso方法来解释数据异质性。该方法通过分层分解为回归系数,既可以借助多数据集的力量来增加识别重要基因的能力,又可以保持数据集之间选择的灵活性,以考虑数据集的异质性。Zhang等人也有类似的想法。[19提出了基于非凸惩罚(如SCAD和MCP)的Meta-nonconvex来执行meta分析。然而,Meta-lasso或Meta-nonconvex遭遇了“全力以赴”的场景;在某些数据集上,忽略变量可能很重要。总值(20.提出了DSL技术。该方法跨越了每个数据集的单个模型和所有数据集的一个模型之间的连续体。通过套索惩罚,DSL方法也实现了基因选择。然而,DSL方法不能产生分组效应,因此忽略了基因之间的相关性。当处理包含群体结构的数据时,当群体内的基因高度相关时,DSL方法只能选择一个基因来表示整个群体结构。在遗传学研究中,基因通常以通路(或群)的形式共同表达生物学功能。提出了一些解决基因高度相关问题的工作。例如,弹性网[21是lasso和ridge(或L2处罚)方法,由L2在惩罚模型中,可以达到分组的效果。基于同样的思想,学者们陆续提出了Elastic SCAD [53),竹荚鱼,\ ({\ mathrm {L}} _ {2} \)(54]及HLR [5556]。

数据增加

数据分析被计算机视觉研究者广泛应用。通过数据分析训练的模型通常更稳健,过拟合也更少[5758]。数据分析需要对原始数据进行适当的“扰动”,以实现数据集的扩展;这是基于一定的先验知识,在保持特定信息的前提下进行的[23]。数据增强技术的有效性促使我们考虑将数据增强技术应用于基因表达数据。然而,传统的数据分析方法,例如,旋转或缩放,不适合基因表达数据,因为它们不能产生足够的生物学解释。

CPN是一些基因表达荟萃分析的重要程序。这种方法消除了不同基因表达数据集之间的差异(或批处理效应),同时保留了数据中的生物信息。在CPN方法的开发方面有广泛的努力。例如,z分数归一化[59],可能是实现CPN的最简单方法。更先进的方法已被设计出来,包括距离加权辨别(DWD) [60]。通过减去DWD方向向量乘以每个基因的每个投影平均值,每个源子集在DWD方向上进行适当的移位。经验贝叶斯(或称COMBAT) [61]是跨基因和实验条件“借用信息”的贝叶斯经验框架,希望借用的信息能带来更好的估计或更稳定的结论。XPN [62[]是一种涉及在非异质基因的多个数据集中搜索基因块的技术。PLIDA [63],这是一种使用主题模型组合每个数据集中的表达模式的方法,然后使用每个基因乘法权重将学习到的主题与每个数据集标准化。WaveICA [64方法利用样本按注入顺序的时间趋势,将原始数据分解成具有不同特征的多尺度数据,对多尺度数据提取并剔除影响批次,得到干净的数据。每种CPN方法都从不同角度保留了原始数据集的原始生物信息,并对数据集添加了不同的“扰动”。利用这种扰动,我们可以生成数据集的多视图表示;这对于基因表达数据的扩增是可行的。

基因表达数据的数据增强

在对多基因表达数据集进行整合分析时,通常需要消除数据之间的批效应。有几种建议的消除批效应的方法,包括DWD [60], disTran [65]、中位等级评分(MRS) [66],经验贝叶斯(战斗)[61], XPN [62], plida [63]和WaveICA [64]。这些CPN方法涉及合并来自不同方面的数据并产生不同的系统扰动。微扰的概念对数据分析至关重要。在本文中,我们提出了通过不同的合并方法合并数据集,以生成原始数据的多个视图。换句话说,基因表达数据是通过不同的CPN方法增强的。例如,如果有两个数据集,分别有20和30个样本。我们可以通过三种CPN方法生成原始数据的三种视图。数据量将从50增加到50 * 3 = 150。

弹性数据共享套索正则化

DSL的最初目的是解决由属于非重叠的、预先指定的组的观察引起的问题。在本文中,我们将DSL方法扩展到元分析。更正式地说,我们假设我们有n表格观察\(({\varvec{x}}_{\varvec{i}}},y_{i},d_{i})\),即\ ({\ varvec {x}} _ {{\ varvec{我}}}\在{\ mathbf {\ mathbb {R}}} ^ {p} \)\(y_{i} \in {\mathbf{\mathbb{R}}}\),\(d_{i} \in \{1,2,…D \} \)。在这里,p表示基因的数量和D对应于数据集(或视图)的数量。我们定义X这个矩阵有\ ({\ varvec {x}} _ {{\ varvec{我}}}\)这是两行,\({\varvec{y}} = (y_{2},y_{2},…, y_ {n}) \),\({\varvec{d}} = (d_{1},d_{2},…, d_ {n}) \)。在不损失一般性的情况下,预测器和响应都是标准化和集中的。为简单起见,我们考虑一个回归案例,我们认为\ (y_{我}\)定义为:

$ $ y_{我}=间{我}^ {T}(β+ \ \ Delta_ {{d_{我 } }} ) + \ varepsilon_{我}$ $
(1)

\ (\ varepsilon_{我}\)是独立的噪声项。标准DSL如下所示:

$$(\hat{\beta},\hat{\Delta}_{1},…,\hat{\Delta }_{G} ) = {\text{argmin}}\,\frac{1}{2}\sum\limits_{i} {\left( {y_{i} - x_{i}^{T} (\beta + \Delta_{{d_{i} }} )} \right)^{2} + \lambda \left( {\left\| \beta \right\|_{1} + \sum\limits_{d = 1}^{D} {r_{d} } \left\| {\Delta_{d} } \right\|_{1} } \right)}$$
(2)

其中λ是调谐参数,\ (r_ {d} \)用作数据集的正则化参数,控制数据集之间的共享量;β表示跨数据集共享的公共效果,和我\ (\ Delta_ {{d_ {}}} \)的唯一效果数据集。这里的共同效应是对应于共享的生物信息,这里的独特效应是对应于不同合并方法之间的差异。然而,DSL方法倾向于只选择一个基因来代表相关组;执行类似功能的基因通常是相关的。这个缺点可能导致DSL方法性能的恶化。为了克服这一问题,本文提出了一种弹性数据共享套索(DSL-)\ ({\ mathrm {L}} _ {2} \))方法,封装在下面的等式中:

$ $ \开始{对齐}({β\}\帽子,帽子\{\三角洲}_{1},…,\hat{\Delta }_{D} ) &= \arg \min \frac{1}{2}\sum\limits_{i} {\left( {y_{i} - x_{i}^{T} (\beta + \Delta_{{d_{i} }} )} \right)^{2} + \lambda_{1} \left( {\left\| \beta \right\|_{1} + \sum\limits_{d = 1}^{D} {r_{d} } \left\| {\Delta_{d} } \right\|_{1} } \right)}\\& \quad + \lambda_{2} \left( {\left\| \beta \right\| + \sum\limits_{d = 1}^{D} {r_{d} } \left\| {\Delta_{d} } \right\|} \right) \end{aligned}$$
(3)

其中第一部分是线性损失函数,第二部分是用来产生稀疏度的lasso方法β\ (\ \)\ (\ Delta_ {d} \);最后一部分是\ ({\ mathrm {L}} _ {2} \)方法或脊法,对其产生分组效果β\ (\ \)\ (\ Delta_ {d} \)。λ\ ({\ mathrm {L}} _ {1} \)和λ\ ({\ mathrm {L}} _ {2} \)分别是控制稀疏性和分组效果的调优参数。

最后,我们将数据处理与DSL结合起来\ ({\ mathrm {L}} _ {2} \)方法(DA-DSL -\ ({\ mathrm {L}} _ {2} \))进行荟萃分析。

解决方案

在本节中,开发了一种有效的方法来解决DSL-\ ({\ mathrm {L}} _ {2} \)问题。事实证明解决问题(3.)相当于a\ ({\ mathrm {L}} _ {1} \)型优化问题。

引理1

我们定义Z, W作为

$ $ \{对齐}开始Z_ {N \乘以((D + 1) \乘以P)} & =左({\ \开始{数组}{* c{20}}{间的{1}}和{\压裂{1}{{r_{1}}}间的{1}}& 0 &{…0} \ \{间的{2}}& 0 &{\压裂{1}{{{{r}} _{2}}}间{2 } } & {...0} \\ \vdots & & & \\ {X_{D}} & 0 & 0 &{…r \压裂{1}{{{{}}_ {D}}}间{D}} \ \ \{数组}}\右)结束,\ \ W_ {((D + 1) \乘以P) \ * ((D + 1) \乘以P)} & =左({\ \开始{数组}{* c{20}}{\√6 {\ lambda_ {2}} {\ mathbf{我}}_ {P}} & 0 & 0 &{…大概{0}\ \ 0 & {\ \ lambda_{2}} \压裂{1}{{\√6 {r_ {1}}}} {\ mathbf{我}}_ {P}} & 0 &{…0} \ \ \ vdots & &{\√6 {\ lambda_{2}} \压裂{1}{{\√6 {r_ {2}}}} {\ mathbf{我}}_ {P}} & \ vdots \ \ 0 & 0 & 0 &{…大概{\ \ lambda_{2}} \压裂{1}{{\√6 {r_ {D}}}} {\ mathbf{我}}_ {P}} \ \ \{数组}}\右)结束,\ \ \{对齐}$ $

在哪里\(间{k} \)\ (y_ {k} \)表示数据集k或视图k)。我们还定义了\ (X ^{*} { = }( 1 {+} \ lambda_{2}) ^{- 1/2} \离开({\开始{数组}{* c {20}} Z结束\ \ W \ \ \{数组}}\)\)\(\tilde{y} = (y_{2}^{T},y_{2}^{T},…, y_ {D} ^ {T}) ^ {T} \)\(\波浪号{y} ^{*} = \离开({\开始{数组}{* c{20}}{\波浪号{y}} \ \ \ \ \ 0结束{数组}}\)\)\ \波浪符号{\β}= \√{1 + \ lambda_{2}}(β\ ^ {T}, r_ {1} \ Delta_ {1} ^ {T},…,r_{D} \Delta_{D}^{T})^{T}\)\(\波浪号{\β }^{*} = \ √6 {1 + \ lambda_{2}} \波浪号{β\}\)\(γ{=}\ \ lambda_{1} / \√{1 + \ lambda_ {2}} \)

然后我们有

$ ${对齐}\ \开始压裂{1}{2}\ \ |{\离开波浪号{y} ^ {*} - X ^{*} \波浪号{\β }^{*} } \ 正确\ | ^{2}+ \伽马\ \ |{\波浪号{\β }^{*} } \ 正确\ | _{1}& = \压裂{1}{2}\总和\ limits_{我}{\离开({y_{我}-间{我}^ {T}(β+ \ \ Delta_ {{d_{我}}})}\右)^ {2}+ \ lambda_{1} \离开({\左右\ | \β\ \ | _{1}+ \总和\ limits_ {d = 1} ^ {d} {r_ {d}} \左\ | {\ Delta_ {d}} \右\ | _{1}}\右)}\ \ & \四+ \ lambda_{2} \离开({\左右\ | \β\ \ | + \总和\ limits_ {d = 1} ^ {d} {r_ {d}} \左\ | {\ Delta_ {d}} \右\ |}\) \{对齐}$ $
(4)

\ \(β^ {*}\)是上述套索问题的解决者即。

$ ${\ \帽子β }^{*} = \ mathop {\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 压裂{1}{2}\ \ |{\离开波浪号{y} ^ {*} - X ^{*} \波浪号{\β }^{*} } \ 正确\ | ^{2}+ \伽马\ \ |{\波浪号{\β }^{*} } \ 正确\ | _ {1}$ $
(5)

那么情商。3.就变成了

$ $ \帽子{\β}= \压裂{1}{{\√6 {1 + \ lambda_{2}}}}{\ \帽子β }^{*} .$$

证明只是简单的代数,我们省略了。引理1表明DSL-\ ({\ mathrm {L}} _ {2} \)可以以类似套索的方式进行自动基因选择,并且可以通过许多有效的方法来解决,例如Matlab/R包“glmnet”[67]。求解套索的一类算法是坐标下降算法(CDA)。该算法广泛应用于求解优化模型,特别是小n和大p问题。这是因为CDA的渐近时间复杂度为0 (npm),np分别表示训练样本量、迭代数和特征数。通常情况下,n都不大。

我们现在证明DSL-\ ({\ mathrm {L}} _ {2} \)方法在一定程度上提高了DSL的预测能力。

定理1

引理1DSL-\ ({\ mathrm {L}} _ {2} \)估计\ (\ widehat{β\}\)是由

$ $ \打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\β}= \ mathop {\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 波浪号{\β}^{*{\文本{T}}} \离开({\压裂{{Z ^{{\文本{T}}} Z + \ lambda_{2}你{\ mathbf{我}}}}{{1 + \ lambda_{2}}}} \) \波浪号{\β}^{*}- 2 \波浪号{y} ^{{\文本{T}}} Z ^{{\文本{T}}} \波浪号{\β }^{*} + \ lambda_左|{{1}\ \波浪号{\β }^{*} } \ 吧。$ $ | _ {1}
(6)

在哪里\ (u = 1 + \压裂{1}{{r_{1}}} + \压裂{1}{{r_ {2}}} + \ cdots + \压裂{1}{{r_ {D}}} \)DSL正则化可以重写为

$ $ \打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\β}({\文本{DSL}}) = \ mathop {\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 波浪号{\β}^{{\文本{* T}}} Z ^{{\文本{T}}} Z \波浪号{\β}^{*}- 2 \波浪号{y} ^{{\文本{T}}} Z ^{{\文本{T}}} \波浪号{\β }^{*} + \ lambda_左|{{1}\ \波浪号{\β }^{*} } \ 吧。$ $ | _ {1}
(7)

定理1暗示了DLS -\ ({\ mathrm {L}} _ {2} \)方法是DSL方法的改进版本。请注意,\(\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\σ}= Z ^{{\文本{T}}} Z \)是相关矩阵的样本版本吗σ\ (\ \)

$ $ \压裂{{Z ^{{\文本{T}}} Z + \ lambda_{2}你{\ mathbf{我}}}}{{1 + \ lambda_{2}}} =(1 -σ\)\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\σ}+ \σu {\ mathbf{我}},$ $

在哪里\(\sigma = \lambda_{2} /(1 + \lambda_{2})\)收缩\(\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\σ}\)这就是单位矩阵。预测精度通常可以通过改变来提高\(\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\σ}\)对线性判别分析的一个更缩小的估计(6869]。因此,DSL-\ ({\ mathrm {L}} _ {2} \)通过正则化来加强DSL方法\(\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\σ}\)在Eq. (6)。的证明定理1附录”。

数据和材料的可用性

本文中使用的所有数据均可从GEO (http://www.ncbi.nlm.nih.gov/geo),接入号为[GSE12771、GSE20189、GSE110223、GSE110224和GSE113513]。

缩写

地理:

基因表达总览

尼共:

跨平台标准化

DSL:

数据共享套索

大卫·爱登堡:

数据增加

DA-DSL -\ ({\ mathrm {L}} _ {2} \)

弹性数据共享与一种新的数据分析策略相结合

DSL -\ ({\ mathrm {L}} _ {2} \)

弹性数据共享套索

非小细胞肺癌:

非小细胞肺癌

儿童权利公约:

结肠直肠癌

DWD:

Distance-weighted歧视

CDA:

坐标下降算法

参考文献

  1. Claussnitzer M, Cho JH, Collins R, Cox NJ, Dermitzakis ET, Hurles ME,等。人类疾病遗传学简史。大自然。2020;577:179 - 89。

    中科院PubMed公共医学中心文章谷歌学者

  2. 帕特尔N,布什w。基于多组学数据源的基因调控网络转录调控建模。BMC Bioinform. 2021;22:200。https://doi.org/10.1186/s12859-021-04126-3

    中科院文章谷歌学者

  3. 何敏,黄超,刘斌,王勇,李军。基于因子图聚合的异构网络嵌入疾病基因关联预测。生物医学通报。2021;22:165。https://doi.org/10.1186/s12859-021-04099-3

    文章谷歌学者

  4. 李建军,张建军,李建军。公开表达数据中性别偏见的大规模标记和评估。BMC Bioinform. 2021;22:168。https://doi.org/10.1186/s12859-021-04070-2

    中科院文章谷歌学者

  5. 董峰,何勇,王涛,韩东,陆慧,赵慧。基于时间序列基因表达数据的共表达网络变化模型预测病毒暴露反应。中国生物医学工程学报,2020;21(1):369。https://doi.org/10.1186/s12859-020-03705-0

    文章谷歌学者

  6. Frankell AM, Jammula S, Li X, Contino G, Killcoyne S, Abbas S,等。551例食管腺癌的基因选择为临床定义了基因组生物标志物。生物医学工程学报,2019;51:506-16。

    中科院PubMed公共医学中心文章谷歌学者

  7. 张建军,李建军。基于决策树欠拟合的基因表达数据挖掘方法。一种进化的多测试树方法。专家系统应用。2019;137:392-404。

    文章谷歌学者

  8. 费涛,于涛。scBatch:通过样本距离矩阵调整对RNA-seq数据进行批量效应校正。生物信息学。2020;36:3115-23。

    中科院PubMed公共医学中心文章谷歌学者

  9. Galvez JM, Castillo D, Herrera LJ, Valenzuela O, Caba O, Prados JC,等。通过整合微阵列和RNA-seq数据集来改善皮肤癌的诊断。中国生物医学杂志,2020;24(1)。

    文章谷歌学者

  10. Jansen IE, Savage JE, Watanabe K, Bryois J, Williams DM, Steinberg S,等。全基因组荟萃分析确定影响阿尔茨海默病风险的新位点和功能途径。中国生物医学工程学报,2019;51(1):444 - 444。

    中科院PubMed公共医学中心文章谷歌学者

  11. Rhodes DR, barrett TR, Rubin MA, Ghosh D, Chinnaiyan AM。微阵列的元分析。癌症,2002;60:28-34。

    谷歌学者

  12. 崔建军,刘宇,金诗,刘玉杰。结合多个微阵列研究和模拟研究间的差异。生物信息学。2003;19:i84 - 90。https://doi.org/10.1093/bioinformatics/btg1010

    文章PubMed谷歌学者

  13. 张建军,张建军,张建军,等。精神分裂症的外周生物标志物:微阵列基因表达数据集的荟萃分析。中华神经医学杂志,2019;22(2):186 - 93。

    中科院PubMed文章谷歌学者

  14. 郭建军,李建军,李建军,等。一种基于秩聚合的微阵列检测方法。中华生物医学杂志,2006;5:1。

    文章谷歌学者

  15. 李建军,李建军,李建军,等。微阵列基因表达数据整合的批效应去除方法综述。生物通报,2013;14:46 - 90。https://doi.org/10.1093/bib/bbs037

    中科院文章PubMed谷歌学者

  16. 齐磊,陈磊,李毅,秦毅,潘锐,赵伟,等。基于基因表达水平总结的风险评分的预后特征的关键局限性:一个切除的I期非小细胞肺癌的案例研究。生物通报,2016;17:33 - 42。https://doi.org/10.1093/bib/bbv064

    文章PubMed谷歌学者

  17. 马松,黄娟。肿瘤基因选择的规范化微阵列meta分析。生物医学通报,2009;10:1。https://doi.org/10.1186/1471-2105-10-1

    中科院文章谷歌学者

  18. 李强,王松,黄春春,于敏,邵杰。基于meta分析的基因表达数据变量选择。生物识别技术。2014;70:872 - 80。https://doi.org/10.1111/biom.12213

    文章PubMed谷歌学者

  19. 张宏,李世杰,张宏,杨志勇,任玉强,夏丽艳,等。基于非凸正则化的元分析。科学通报2020;10:57 . 55。

    中科院PubMed公共医学中心文章谷歌学者

  20. Gross SM, Tibshirani R.数据共享套索:一种发现隆起的新工具。计算机统计数据分析。2016;01:226 - 35。

    PubMed公共医学中心文章谷歌学者

  21. 邹宏,张海涛。基于弹性网的正则化和变量选择。[J] .社会科学与技术。2005;27(1):1 - 6。

    文章谷歌学者

  22. Segal MR, Dahlquist KD, Conklin BR。微阵列数据分析的回归方法。[J] .计算机工程学报,2003;10:961 - 961。

    中科院PubMed文章谷歌学者

  23. van Dyk DA,孟x - l。数据扩充的艺术。[J] .计算机工程学报,2001;10(1):1 - 10。https://doi.org/10.1198/10618600152418584

    文章谷歌学者

  24. Krizhevsky A, Sutskever I, Hinton GE。基于深度卷积神经网络的ImageNet分类。见:《神经信息处理系统进展》(NIPS 2012),第25卷。2012.p . 1097 - 105。http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networ

  25. 江程太阳王J, K, T, B,邓C,赵Y, et al。用于视觉识别的深度高分辨率表示学习。计算机工程学报。2020;43:1。

    谷歌学者

  26. Szegedy C,刘伟,贾勇,Sermanet P, Reed S, Anguelov D,等。深入卷积。见:IEEE计算机视觉与模式识别会议。2015.1 - 9页。https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Szegedy_Going_Deeper_With_2015_CVPR_paper.html

  27. cire DC, Meier U, Gambardella LM, Schmidhuber J.深度,大,简单的手写数字识别神经网络。神经网络计算。2010;22:3207-20。https://doi.org/10.1162/NECO_a_00052

    文章PubMed谷歌学者

  28. 李建军,李建军,李建军,等。[J] .计算机工程学报,2013;22(2):231 - 45。https://doi.org/10.1080/10618600.2012.681250

    文章谷歌学者

  29. 张建军,张建军,张建军,等。非小细胞肺癌的血液基因表达特征。中华癌症杂志,2011;17:336 - 7。

    中科院PubMed文章谷歌学者

  30. Rotunno M,胡宁,苏慧,王超,Goldstein AM, Bergen AW,等。I期肺腺癌外周血基因表达特征。中华癌症杂志,2011;4:1599-608。

    中科院文章谷歌学者

  31. 张建军,张建军,张建军,张建军。EGR1预测非小细胞肺癌患者的PTEN和生存率。中华临床医学杂志,2005;23(3):391 - 391。https://doi.org/10.1200/JCO.2005.08.127

    中科院文章PubMed谷歌学者

  32. Vaishnavi A, Capelletti M, Le AT, Kako S, Butaney M, Ercan D,等。肺癌中NTRK1的致癌和药物敏感性重排。中华医学杂志。2013;19:1469-72。

    中科院PubMed公共医学中心文章谷歌学者

  33. 郭锐,杨军,刘霞,吴军,陈勇。晚期非小细胞肺癌患者血管性血友病因子升高/ ADAMTS-13活性降低与预后不良相关。中华检验医学杂志,2018;32(2):522 - 522。https://doi.org/10.1002/jcla.22219

    中科院文章谷歌学者

  34. Moreno P, Lara-Chica M, Soler-Torronteras R, Caro T, Medina M, Álvarez A,等。泛素连接酶SIAH2 (7 in absent同源物2)在人肺癌中的表达增加。PLoS ONE。2015; 10: e0143376。https://doi.org/10.1371/journal.pone.0143376

    中科院文章PubMed公共医学中心谷歌学者

  35. 李建平,李建平,李建平,等。反应器路径知识库。中国生物医学工程学报,2019;48(2):498 - 503。

    公共医学中心谷歌学者

  36. Labelle M, Hynes RO。转移的最初几个小时:在血液播散过程中宿主-肿瘤细胞相互作用的重要性。中华癌症杂志,2012;2:10 - 9。https://doi.org/10.1158/2159-8290.CD-12-0329

    中科院文章PubMed公共医学中心谷歌学者

  37. Rachidi S, Metelli A, Riesenberg B, Wu BX, Nelson MH, Wallace C,等。血小板通过garp - tgf - β轴破坏T细胞对癌症的免疫。中国生物医学工程学报,2017;22(2):851 - 851。https://doi.org/10.1126/sciimmunol.aai7911

    文章PubMed公共医学中心谷歌学者

  38. 毕思MG,索尔N,林菲尔德SGJG,凡库拉A,穆勒M,尼迈耶A- ln,等。群智能增强的非小细胞肺癌检测使用肿瘤诱导血小板。癌症杂志,2017;32:238-252. 109。

    中科院PubMed公共医学中心文章谷歌学者

  39. Noy R, Pollard JW。肿瘤相关巨噬细胞:从机制到治疗。免疫力。2014;41:49 - 61。

    中科院PubMed公共医学中心文章谷歌学者

  40. Vlachavas EI, Pilalis E, Papadodima O, Koczan D, Willis S, Klippel S,等。f -18氟脱氧葡萄糖正电子发射断层扫描和基因表达数据的放射基因组学分析阐明了结直肠癌景观的流行病学复杂性。生物工程学报。2019;17(1):177 - 85。

    文章谷歌学者

  41. 甘燕,李燕,李涛,舒刚,尹刚。CCNA2在大肠癌生长和凋亡调控中的作用。癌症管理,2018;10:51 . 113。

    中科院PubMed公共医学中心文章谷歌学者

  42. Brcic L, Heidinger M, Sever AZ, Zacharias M, Jakopovic M, Fediuk M,等。细胞周期蛋白A2和B1表达在类肺癌中的预后价值。病理学。2019;51:481-6。

    中科院PubMed文章谷歌学者

  43. Branchi V, García SA, Radhakrishnan P, Győrffy B, Hissa B, Schneider M,等。dgap5在结直肠癌中的预后价值。中华结直肠癌杂志,2019;34(4):555 - 565。https://doi.org/10.1007/s00384-019-03339-6

    文章PubMed谷歌学者

  44. 刘霞,张宏,赖丽,王霞,洛伊拉森,薛磊,等。核糖核苷酸还原酶小亚基M2可作为预后生物标志物,预测结直肠癌的不良生存。临床医学杂志,2013;24:567 - 579。

    中科院文章谷歌学者

  45. 闵伟,刘军,张森。基于网络正则化稀疏logistic回归模型的临床风险预测和生物标志物发现。计算机工程学报,2018;15(3):944 - 953。

    PubMed文章谷歌学者

  46. 闵伟,刘军,张生。基于边缘群稀疏PCA的网络导向高维数据分析。生物信息学。2018;34:3479 - 87。

    中科院PubMed文章谷歌学者

  47. 黄红红,梁勇。基于高维基因组数据的肿瘤预后Cox比例风险模型。计算机工程学报,2013;18(6):1221 - 1230。

    中科院PubMed文章谷歌学者

  48. 黄慧,彭霞,梁勇。SPLSN:一种有效的生存分析和生物标志物选择工具。[J] .情报系统学报。2021;36:5845-65。https://doi.org/10.1002/int.22532

    文章谷歌学者

  49. 黄海红,刘学祥,李海明,梁勇。基于L1/2求解器和生物网络约束模型的分子通路识别。[J] .生物医学通报,2017;17(1):189。

    文章谷歌学者

  50. 黄红华,梁勇。基于自定进度学习和SCAD-Net的基因表达综合分析系统。应用科学学报,2019;35(5):1092 - 1092。

    文章谷歌学者

  51. 李俊,曾国光。结合多个转录组学研究,用于检测差异基因表达的自适应加权统计。Ann apple Stat. 2011; 5:994-1019。

    谷歌学者

  52. 嘿,JJ,巴特,AJ。利用弹性网对基因表达进行稳健的meta分析。核酸学报,2015;43:1-11。

    文章中科院谷歌学者

  53. Becker N, Toedt G, Lichter P, Benner a.基于弹性SCAD的SVM分类任务惩罚方法。生物医学通报,2011;12:138。

    文章谷歌学者

  54. 曾磊,谢军。基于scad - l2的群体变量选择。统计数据(柏林)。2014; 48:49 - 66。

    文章谷歌学者

  55. 黄红华,刘小勇,梁勇。基于混合L1/2 +2正则化的稀疏逻辑回归特征选择与癌症分类。PLoS ONE。2016; 11: e0149675。https://doi.org/10.1371/journal.pone.0149675

    中科院文章PubMed公共医学中心谷歌学者

  56. 黄红华,梁勇。Cox比例风险模型中杂交L1/2 + 2方法的基因选择。计算机工程学报,2018;44(4):663 - 668。

    文章谷歌学者

  57. 彭欣,唐震,杨峰,Feris RS, Metaxas D.联合优化数据增强和网络训练:人体姿态估计中的对抗数据增强。参见:IEEE计算机视觉与模式识别会议论文集。2018.2226 - 34页。http://openaccess.thecvf.com/content_cvpr_2018/html/Peng_Jointly_Optimize_Data_CVPR_2018_paper.html

  58. 彭翔,杨宇。基于后悔理论和组合权重期望理论的随机多准则决策区间值模糊软集算法。应用软件学报,2017;54:15 - 30。

    文章谷歌学者

  59. chadle C, Vawter MP, Freed WJ, Becker KG。用Z分数变换分析微阵列数据。中华医学杂志,2003;5:73-81。

    中科院PubMed公共医学中心文章谷歌学者

  60. Benito M, Parker J,杜强,吴健,Xiang D, Perou CM,等。系统微阵列数据偏差的调整。生物信息学。2004;20:105-14。

    中科院PubMed文章谷歌学者

  61. 李春华,李春华。基于贝叶斯方法的微阵列表达数据批量效应研究。生物统计学。2007;8:118-27。

    PubMed文章谷歌学者

  62. Shabalin AA, Tjelmeland H, Fan C, Perou CM, Nobel AB.基于跨平台归一化的融合两种基因表达研究。生物信息学。2008;24:1154-60。

    中科院PubMed文章谷歌学者

  63. PLIDA:基于扰动主题模型的跨平台基因表达规范化。生物信息学。2014;30:956 - 61。https://doi.org/10.1093/bioinformatics/btt574

    中科院文章PubMed谷歌学者

  64. 邓凯,张峰,谭强,黄勇,宋伟,荣志,等。WaveICA:一种基于小波分析的新型算法,用于去除大规模非靶向代谢组学数据的批效应。化学学报,2019;1061:60-9。

    中科院PubMed文章谷歌学者

  65. 姜宏,邓勇,陈华生,陶磊,沙强,陈健,等。联合分析两种微阵列基因表达数据集筛选肺腺癌标记基因。生物医学通报。2004;5:81。https://doi.org/10.1186/1471-2105-5-81

    文章谷歌学者

  66. 王晓明,王晓明,王晓明,等。肿瘤微阵列数据的跨平台分析改进了基于表型分类的基因表达。生物医学通报。2005;6:265。https://doi.org/10.1186/1471-2105-6-265

    中科院文章谷歌学者

  67. 傅立民,李建军,李建军。基于坐标下降的广义线性模型的正则化路径。[J] .计算机工程学报,2010;33(1):1 - 22。

    PubMed公共医学中心文章谷歌学者

  68. 弗里德曼JH。正则化判别分析。[J]中华医学杂志,1989;84:165-75。

    文章谷歌学者

  69. 刘建军,刘建军,刘建军,等。基于数据挖掘的统计学习方法研究。数学情报。2005;27:83-5。

    谷歌学者

下载参考

致谢

作者非常感谢匿名审稿人,他们的建设性意见对加强本文的呈现是有价值的。

关于本品

本文发表在BMC生物信息学第23卷第10期,2022年:生物信息学在医学中的应用。该补充的全部内容可在网上获得https://bmcbioinformatics.biomedcentral.com/articles/supplements/volume-23-supplement-10

资金

国家自然科学基金项目(62102261,62006155,6201101081)、澳门科技发展基金项目(0056/2020/AFJ, 0158/2019/A3)、韶关市科技项目(200811104531028)资助。本刊出版费用由韶关学院资助。资助机构在研究的设计、数据的收集、分析和解释以及撰写手稿方面没有任何作用。

作者信息

作者及单位

作者

贡献

HHH, HR和RM开发了方法,进行了分析,并起草了文章。YL发起并监督了这个项目。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到勇梁

道德声明

伦理批准并同意参与

不适用。

发表同意书

不适用。

相互竞争的利益

作者宣称他们没有竞争利益。

额外的信息

出版商的注意

伟德体育在线b施普林格《自然》杂志对已出版的地图和机构的管辖权要求保持中立。

附录:证明

附录:证明

定理1的证明

\({β\}\ \帽子)是DSL-L2解决方案。根据定义和Eq. (5),我们做到了。

$ ${对齐}\ \开始帽子{\β}& = \ mathop {\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 左|{\波浪号{y }^{*} - {{ X}} ^{*} \压裂{{\波浪号{\β }^{*} }}{{\ √6 {1 + \ lambda_{2}}}}} \右| ^{2}+ \压裂{{\ lambda_{1}}}{{\√6 {1 + \ lambda_{2}}}} \左|{\压裂{{\波浪号{\β }^{*} }}{{\ √6 {1 + \ lambda_ {2}}}}} \ | _ {1 } \\ & = \ mathop {\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 波浪号{\β}^{{* \文本{T}}} \离开({\压裂{{{{X }}^{{{*}{\ 文本{T}}}} {{X}}}} {{1 + \ lambda_{2}}}} \) \波浪号{\β} ^{*} - 2 \压裂{{\波浪号{y} ^{{*{\文本{T}}}} {{X }}^{*} }}{{\ √6 {1 + \ lambda_ {2 } } }} + \ 波浪号{y} ^{{*{\文本{T}}}} \波浪号{y} ^{*} + \压裂{{\ lambda_左|{{1}\ \波浪号{\β }^{*} } \ 对| _ {1}}}{{1 + \ lambda_{2}}}。\ \ \{对齐}$ $
(8)

替换恒等式

$ $ \开始{对齐}{{X}} ^{{*{\文本{T}}}} {{X}} & = \压裂{{Z ^{{\文本{T}}} Z + \ lambda_{2}你{\ mathbf{我}}}}{{1 + \ lambda_ {2 } }}, \\ \ 波浪号{y} ^{{*{\文本{T}}}} {{X }}^{*} & = \ 压裂{{\波浪号{y} ^ Z{{\文本{T}}}}} {{\ sqrt {1 + \ lambda_ {2 } } }}, \\ \ 波浪号{y} ^{{*{\文本{T}}}} \波浪号{y }^{*} & = \ 波浪号{y} ^{{\文本{T}}} \波浪号{y} \ \ \{对齐}$ $

转化为Eq. (8),我们有

$ ${对齐}\ \开始颠覆{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{\β}& = \ mathop {\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 压裂{1}{{1 + \ lambda_{2}}} \左\{{\波浪号{\β}^{{*{\文本{T}}}} \离开({\压裂{{Z ^{{\文本{T}}} Z + \ lambda_{2}你{\ mathbf{我}}}}{{1 + \ lambda_{2}}}} \) \波浪号{\β}^{*}- 2 \波浪号{y} ^{{\文本{T}}} Z ^{{\文本{T}}} \波浪号{\β }^{*} + \ lambda_左|{{1}\ \波浪号{\β }^{*} } \ 右| _{1}}\ \}+ \波浪号{y} ^{{\文本{T}}} \波浪号{y } \\ & = \ mathop{\ arg \分钟}\ limits_{{\波浪号{\β }^{*} }} \ 波浪号{\β}^{{\文本{* T}}} \离开({\压裂{{Z ^{{\文本{T}}} Z + \ lambda_{2}你{\ mathbf{我}}}}{{1 + \ lambda_{2}}}} \) \波浪号{\β}^{*}- 2 \波浪号{y} ^{{\文本{T}}} Z ^{{\文本{T}}} \波浪号{\β }^{*} + \ lambda_左|{{1}\ \波浪号{\β }^{*} } \ | _{1}。\ \ \{对齐}$ $

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,该协议允许以任何媒介或格式使用、共享、改编、分发和复制,只要您适当地注明原作者和来源,提供知识共享许可协议的链接,并注明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可协议中,除非在材料的署名中另有说明。如果材料未包含在文章的知识共享许可中,并且您的预期用途不被法律法规允许或超过允许的用途,您将需要直接获得版权所有者的许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/。创作共用公共领域免责声明(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非在数据的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

黄,HH。,Rao, H., Miao, R.et al。基于数据增强和弹性数据共享套索正则化的基因表达元分析。BMC生物信息学23(增刊10),353(2022)。https://doi.org/10.1186/s12859-022-04887-5

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12859-022-04887-5

关键字

  • 综合分析
  • 荟萃分析
  • 正则化
  • 变量的选择
  • 基因表达
Baidu
map