跳到主要内容

评估机器学习驱动的分类算法,利用GCKR基因中的变异来预测代谢综合征:德黑兰心脏代谢遗传学研究

摘要

背景

代谢综合征(MetS)是一种常见的多因素疾病,可增加患糖尿病、心血管疾病和癌症的风险。我们的目的是比较不同的机器学习分类方法在预测代谢综合征状态以及识别有影响的遗传或环境风险因素方面的作用。

方法

这项候选基因研究对4756名德黑兰心脏代谢遗传研究(TCGS)的合格参与者进行了研究。我们比较了使用逻辑回归(LR)、随机森林(RF)、决策树(DT)、支持向量机(SVM)和判别分析的预测模型。模型中包括人口统计学和临床特征,以及有关常见GCKR基因多态性的变量。我们使用10次重复10次交叉验证来评估模型性能。

结果

50.6%的参与者患有met。通过LR分析,MetS与年龄、性别、就学年限、BMI、体育活动、rs780094、rs780093有显著相关性(P < 0.05)。RF总体表现最佳(AUC-ROC = 0.804, AUC-PR = 0.776, Accuracy = 0.743),并表明BMI、体育活动和年龄是最具影响力的模型特征。根据DT的说法,BMI < 24,体育活动< 8.8的人有4%的几率患MetS。相比之下,BMI≥25,体力活动< 2.7,年龄≥33岁的人,患MetS的概率为77%。

结论

我们的研究结果表明,平均而言,机器学习模型在患者分类方面优于传统的统计方法。这些表现良好的模型可用于开发未来的支持系统,该系统使用各种数据源来识别患MetS的高风险人群。

介绍

代谢综合征(MetS)是指一系列相关因素(高血糖、高血压、血脂失调和腹部肥胖)的同时发生,这些因素会增加心血管疾病(CVD)、2型糖尿病(T2D)和不同类型癌症的风险[1]。MetS背后的病理生理机制很复杂,涉及遗传和环境因素,如生活方式、饮食和缺乏运动[2]。

据报道,全球范围内代谢综合症的患病率约为31%。虽然这一数字因性别和种族而异,但MetS在人口老龄化国家的男性和女性中普遍更普遍[3.4]。在伊朗,大约33.7%的成年人患有这种综合症[5]。由于在伊朗老龄化人口中不断上升的MetS患病率可能导致更高的CVD发病率和其他毁灭性疾病,这种痛苦需要在各个方面进行进一步的调查工作[678]。

设计预测模型可以帮助诊断更有可能患有MetS的患者,可以帮助预防干预措施,以对抗这种综合征以及它产生的未来心血管并发症。虽然研究人员在这些努力中经常使用临床或人口统计学变量,但开发包含遗传变量的模型是复杂的。由于MetS是一种复杂的多因素疾病,充分利用MetS相关基因的数据有可能为我们提供更强大的预测工具。

葡萄糖激酶(GCK)酶是肝脏和胰腺细胞中主要的葡萄糖传感器。它通过调节糖原合成、糖异生和胰腺β细胞胰岛素释放的生化途径来调节碳水化合物代谢。葡萄糖激酶调节蛋白(GKRP)与葡萄糖激酶结合并控制其细胞内位置和活性。葡萄糖激酶调节基因(glucokinase regulator, GCKR)位于2号染色体的短臂上(2p23.3-p23.2),包含19个外显子,编码GKRP (68 kDa, 625个氨基酸)[910]。全基因组关联研究(GWAS)和多个候选基因研究报告了GCKR变异与几个代谢参数相关,包括甘油三酯(TG)水平[111213141516]、胰岛素抵抗及空腹血糖水平[141517]以及2型糖尿病等代谢疾病[121517]、血脂异常(高甘油三酯和低高密度脂蛋白胆固醇水平)[1113]。常见的功能变异rs780094, rs780093和rs1260326是研究最多的GCKR基因遗传变异。rs780094和rs1260326的小t等位基因与高甘油三酯血症、低胰岛素抵抗和血糖水平有关。虽然这些影响似乎是MetS发展的相反因素,但一些观察性研究发现,MetS在具有这些snp的小等位基因的个体中更为普遍[14161718]。与rs780094一样,rs780093也是GCKR基因中常见的内含子变异,与多基因血脂异常和高TG水平有关[19]。

在这项工作中,GCKR基因的变异,以及临床和人口统计措施,将被用来建立代谢综合征的预测模型。最近,研究人员使用各种机器学习算法来预测MetS。决策树、随机森林等方法[20.21],以及支持向量机[22],在评估中表现优异。每种算法都有适合特定数据和问题类型的优缺点。在这里,我们的目标是比较某些机器学习模型(决策树、随机森林、支持向量机)与传统统计模型(逻辑回归、线性和二次判别分析),这些模型是根据德黑兰心脏代谢遗传研究参与者的数据开发的。我们使用模型来获得预测代谢综合征的最关键变量,并找到在根据MetS对个体进行分类时表现最好的变量。

方法

概述及研究人群

这项工作的受试者是从德黑兰脂质和葡萄糖研究(TLGS)中选择的。Shahid Beheshti医学科学大学附属的内分泌科学研究所(RIES)批准了这项研究方案,并于1999年启动了TLGS。这是一项动态队列试验,旨在研究伊朗人口中非传染性疾病的风险和保护因素。从德黑兰13区招募了15,005人,并通过6个阶段进行跟踪[23]。德黑兰心脏代谢遗传研究(TCGS)是TLGS中一项前瞻性的基于家庭的队列研究,旨在创建德黑兰人群的全面全基因组数据库。每三年对参与者进行随访,每个阶段所有参与者均签署书面同意书。通过这项研究的六个阶段,已经收集了13399个个体的基因型和表型数据。该项目的各个方面的细节,包括设计和实用方法(表型、基因分型和质量控制)已由Azizi F.等人在其他地方描述。[242526]。

在参加TLGS 6个阶段(1999-2017年)的15,005名参与者中,有13,399名受试者被基因分型并纳入TCGS。在这个人群中,在这项候选基因研究中,所有18岁以上在第一阶段未被诊断为MetS的人都包括在内。排除了以下人群:基因分型信息缺失的人群;参与者年龄小于19岁;第一阶段为MetS流行病例的参与者;无法获得基线或随访数据的参与者;以及那些不同意参与的人。最终4754名符合条件的参与者(2116名男性和2558名女性)被选中参加这项工作。患者招募的详细流程图如图所示。1

图1
图1

研究设计和参与者选择流程图;纳入4754名具有可用基因型信息的符合条件的参与者,>年龄19岁,在第一阶段没有普遍的MetS,并且来自德黑兰心脏代谢遗传研究(TCGS)的完整随访数据

术语定义

为了本研究的目的,代谢综合征(MetS)的定义采用联合中期声明(JIS)标准[27],即:存在以下5种代谢危险因素中的至少3种:(1)高血压,DBP≥85,SBP≥130 mmHg,或服用抗高血压药物;(2)男性空腹HDL < 40 mg/dL,女性空腹HDL < 50 mg/dL,服用降脂药物;(3)空腹TG≥150 mg/dL或服用降脂药物;(4)空腹血糖(FPG)≥100 mg/dL,或服用糖尿病药物;(5)和中心型肥胖(男女腰围(WC)≥90厘米,根据伊朗全国肥胖委员会指南)。根据JIS标准,具有至少三种代谢危险因素的个体被视为不健康病例。其他最多有两个上述风险因素的被认为是健康对照。吸烟状况分为从不吸烟、曾经吸烟、现在吸烟和二手吸烟。婚姻状况分为四类:单身、已婚、丧偶和离婚。

基因分析

采用标准蛋白酶K/盐析法从静脉血样本的浅黄色外套中提取基因组DNA样本。对提取的DNA进行定性估计时,使用Thermo Scientific NanoDrop 1000分光光度仪,排除质量和浓度较低的样品(DNA纯度在1.7 < A260/A280 < 2范围内)。DNA样本由deCODE genetics, Inc. (Reykjavik, Iceland)根据制造商规格(Illumina Inc., San Diego, CA, USA)使用humanomniexpress -24-v -0珠芯片(包含649,932个SNP位点,平均距离为4 kb)进行基因分型。PLINK程序(V 1.07)和R统计软件(V 3.2)采用了质量控制程序。使用GCKR多态性(rs780094、rs1260326和7800,093)的基因分型数据进行关联分析。

统计分析

为了找到与代谢综合征相关的基本预测因子,我们将分类机器学习(ML)算法,包括随机森林(RF)、决策树(DT)和支持向量机(SVM)与三种传统统计模型:逻辑回归(LR)、线性判别分析(LDA)和二次判别分析(QDA)进行了比较。绩效评估指标也按性别报告。所有统计分析方法均使用先前开发的“randomForest”,“MASS”,“proroc”,“rpart”,“插入”,“e1071″R包[282930.31323334]。

逻辑回归

逻辑回归(LR)是一种标准的分类方法,它对一个二分类结果的两类之一的概率进行建模。在这里,预测因子的线性组合线性拟合到响应变量的均值与logit链接函数下的二项分布。

$ ${\文本日志}{}\离开({\压裂{{文本\ p{}}}{{1 -{文本\ p{}}}}} \右)= {\ upalpha} + \ mathop \总和\ limits_{{{文本\{我}}= 1}}^{{\文本{k}}} {\ upbeta} _{{\文本{我}}}{\文本{x}} _{{\文本{我}}}{}$ $

P是一个人患met的概率,\ ({\ upalpha} \)是截距。x表示协变量(年龄、性别、受教育年限、BMI、吸烟状况、婚姻状况、体育活动、GCKR基因型SNP信息),b表示回归系数。

判别分析(线性和二次)

判别分析是由Fisher首先提出的最古老的分类器之一,目前在两个主要框架中使用:线性和二次。这些算法基于贝叶斯定理,与分类任务中的LR算法不同。这些分类器分别模拟每个响应类中自变量(X)的分布。然后,他们使用贝叶斯定理来估计X值的响应水平的概率。线性判别分析(LDA)通过寻找对响应变量建模和分类的自变量的线性组合来计算判别得分,而二次判别分析(QDA)则使用预测因子的非线性组合对响应变量进行分类[35]。采用R软件中的“MASS”包进行判别分析[29]。

决策树

决策树(DT)是一种用于回归和分类目的的监督机器学习方法[28]。DT通过学习决策树表示的简单规则来预测目标变量的值。它包括三个组件:节点、分支和叶。该算法对每个样本进行分类,方法是从树的根到某个叶节点进行排序。树中的每个节点都指定了一个特定示例属性的测试,从该节点向下延伸的每个分支对应于该属性的一个可能值。每个叶表示目标变量的预测值,给定的变量值由从根[36]。采用R软件中的“rpart”包实现决策树算法[33]。

随机森林

随机森林(Random forest)是一种基于集成的学习算法。39首先提议。它可以用于分类、回归和无监督学习[28]。该算法是一组未修剪的树(基于决策树算法的分类树),每棵树通过递归划分算法获得[37]。构造射频模型的算法T的数据集中的树n(i)通过自举法,随机抽样,用n观察数是选定的。(ii)使用递归分区算法为每个样本创建一棵树。在每个节点中,基于的随机样本执行分离(分区)(iii)递归划分算法继续进行,直到树达到其最大大小(即每个观测的末端叶节点),而不修剪树。(iv)然后算法遍历样本,对于每个bootstrap样本,重复步骤1-3。最终输出将是分类任务的类模式和回归分析预测的平均值[38]。常见的选择T1000棵树是为了什么\ \√p {} \)或者log(p) [39]。解释随机森林模型可能具有挑战性,因此我们需要总结使用变量重要性(VI)等量化指标生成的信息。VI是用于根据预测变量对响应变量的影响对其进行排名的指标。最著名的指标是基尼系数(Gini)和排列。该算法使用R软件中的randomForest包实现[28]。

支持向量机

支持向量机是Vapnik提出的另一种常见的监督学习算法,用于处理分类和回归分析[40]。它主要用于二元分类问题,适用于线性和非线性数据分类任务。SVM的目标是找到最好的分类函数来区分数据集中的两个类。SVM在高维空间中创建一个或多个超平面。最佳超平面将数据优化地划分为不同的类,类之间的间隔最大(最高边距)。在其非线性分类方法中,支持向量机利用各种核函数(即线性、多项式、径向基和sigmoid)来估计和最大化超平面边缘。采用R软件中的“e1071”包实现SVM算法[32]。

模型评估(模型的验证和比较)

为了更精确地评估模型性能并减少估计之间的潜在方差,我们使用了10次重复10次交叉验证[41]。该过程将数据分为10个子集,每个子集用于评估在其他9个剩余子集上专门训练的模型。然后对10次重复交叉验证获得的性能估计进行平均,以得到总体性能指标,如敏感性(SE)、特异性(SP)、准确性(ACC)、受试者工作特征曲线下面积(AU-ROC)和kappa。值得注意的是,每个子集的病例和对照的比例是相同的。每个子集都恰当地表示了主要示例和底层社区的状态。

对于每个评估任务,绘制一个混淆矩阵。评价指标定义如下:敏感性表示算法正确分类为MetS阳性的MetS患者比例。特异性表示算法正确分类为MetS阴性的健康受试者的比例。准确性是指被试在所有参与个体中被正确分类为阳性或阴性的比例。

$ $ =敏感性\压裂{TP} {{TP + FN { }}} , \,\, 特异性= \压裂{TN} {{FP + TN {}}} $ $
$ $ =准确性\压裂{TP + TN} {{TP + FP + TN + FN {}}} $ $

受试者工作特征(ROC)曲线是模型性能的另一个有用指标[41]。ROC曲线的x轴和y轴分别为敏感性和1-特异性[42]。ROC曲线下面积(AU-ROC)表示模型的判别能力,其取值范围为0.5 ~ 1。精度-召回率曲线与ROC曲线一样,可以概括单一值的信息预测性能。这一汇总统计被称为AUC-PR;(精度-召回率)曲线下的面积。总的来说,AUC-PR得分越高,分类器在特定任务上的表现就越好。数值越接近1表示模型性能越好。使用" proroc "和"插入" R包来获得相关的性能指标[30.3134]。

结果

研究人口特征

4754名受试者中女性占54.8%,平均年龄为36.78±13.21岁。根据JIS标准,2365名(50.6%)参与者有MetS。年龄、性别、受教育年限、BMI、吸烟状况、婚姻状况、体育活动、GCKR基因型SNP信息等自变量信息见表1。在这里,单变量p值,计算比较MetS阳性和MetS阴性组在每个预测器,也被提出。

表1比较健康组和不健康组MetS的独立人口统计学和遗传预测因素

对于两性,研究参与者和TCGS人群中无应答者的GCKR基因型的基线特征和常见snp见表2。基于结果,除了男性无反应者BMI较高、体育活动较低以及女性有反应者与无反应者之间吸烟和婚姻状况分布不同外,男性和女性有反应者与无反应者之间无显著差异。

表2研究参与者和无反应者GCKR基因型常见snp的基线特征

根据logistic回归模型计算各预测因子的调整OR值及其相应的显著性水平。结果显示,代谢综合征与年龄、性别、上学年限、BMI、体力活动、rs780094、rs780093有显著相关性(P < 0.05)(表2)3.)。男性患代谢综合征的风险是女性的2.373倍。发生代谢综合征的几率随着受教育年限的增加而降低(OR = 0.978)。在GCKR多态性(rs780094、rs1260326和780093)上,结果显示MetS与rs780094和rs780093相关,这种关系是由MetS患者中小T等位基因的频率明显更高引起的。

表3应用logistic回归评估独立人口学和遗传变量与代谢综合征之间关系的显著性

机器学习算法之间的性能比较

表格4基于10次重复10次交叉验证的平均值,总体和按性别总结了各种机器学习和传统统计方法的分类性能。总体而言,随机森林具有较高的分类准确率(mean = 0.743)、ROC曲线下面积(mean = 0.804)和AUC-PR (mean = 0.776)。决策树的总体准确率(mean = 0.738)排名第二,具有较高的特异性(mean = 0.804)和AUC-PR (mean = 0.730)。总的来说,与传统的统计模型相比,机器学习算法提供了更好的准确性、AUC-ROC和AUC-PR。机器学习模型的准确性、kappa、AUC-ROC和AUC-PR在两性中总体上都更高。线性判别分析(LDA)具有较高的敏感性(平均= 0.915),特异性却较低(平均= 0.230)。与总体结果相似,LDA在男性中具有最高的敏感性(平均= 0.754)。但在女性中,通过logistic回归(均值= 0.798)获得了最高的敏感性。

表4 LR、SVM、DT、RF、LDA和QDA算法的性能指标

随机森林模型中变量的重要性是使用平均减少基尼系数和平均减少精度计算的,如图所示。2。BMI、体育活动和年龄是这两个指数中最具影响力的变量。

图2
图2

在随机森林模型实现的基础上,利用基尼系数和准确度重要性指数评估预测因子的重要性;我们证实BMI、体育活动和年龄是预测MetS的最具影响力的变量

BMI出现在树根是最显著的决策树方法,并作为主要的预后因素。BMI +体育活动+年龄的组合是MetS的准确预测指标。根据图所示的诱导决策树。3.在美国,BMI < 24、体育活动< 8.8的个体患MetS的概率仅为4%。相比之下,BMI≥25、体力活动< 2.7、年龄≥33的人患MetS的概率为77%。

图3
图3

分类决策树,每个节点显示代谢综合征的成功概率;结合BMI、体育活动和年龄是预测MetS的准确指标

讨论

本研究旨在比较机器学习驱动的分类模型,即支持向量机(SVM)、决策树(DT)和随机森林(RF)在预测代谢综合征方面的性能,与三种传统分类器:逻辑回归(LR)、线性判别分析(LDA)和二次判别分析(QDA)的性能。通过对德黑兰心脏代谢遗传研究(TCGS)的合格参与者开发这样的模型,我们还获得了临床和GCKR多态性变量中最具影响力的MetS预测特征。

我们发现年龄、性别、上学年限、BMI、体育活动和rs780094和rs780093的遗传变异是预测代谢综合征的重要危险因素。尽管具有统计学意义,性别、受教育年限、rs780094和rs780093对MetS预测没有显著影响。另一方面,BMI、体育活动和年龄是最具影响力的MetS预测因子,这一点由随机森林模型的影响指标所示。这一结果与Fuentes等人的观点一致,他们认为BMI是与代谢综合征相关的人体测量变量之一,对早期检测至关重要[43]。

在我们的预测模型中,单核苷酸多态性显示出与代谢综合征的显著关系,这与之前研究MetS与类似遗传标记之间关系的工作结果一致[184445]。

在SVM、DT和RF三种分类机器学习方法中,RF对受试者MetS结果的分类效果最好,准确率最高(0.743),受试者工作特征曲线下面积(AU-ROC)(0.804)和AUC-PR(0.776)。这一结果与Szabo等人将随机森林算法应用于类似任务的研究结果相似,计算该方法的准确率为71.4% [464748]。worachartchewan等人还采用随机森林模型来预测曼谷人群的MetS,并确定最有影响力的预测因素。他们发现随机森林算法预测18至78岁成年人的MetS状态具有很高的准确性(98.11%)[49]。

决策树是表现第二好的模型,其计算的准确性、敏感性、特异性、AUC-ROC和AUC-PR分别为0.738、0.667、0.804、0.771和0.730。其他工作也实现了决策树检测代谢综合征,敏感性为91.6%,特异性为95.7% [43]。从决策树算法中获得的结果表明,BMI、体育活动和年龄的组合是预测MetS的准确预测因子。这与Huang等人之前探索生活方式变量与代谢综合征之间关系的工作相一致,发现BMI为> 27 kg/m的个体2易患代谢综合症[50]。在Worachartcheewan等人使用决策树诊断代谢综合征的另一项研究中,结果证实BMI≥25是诊断MetS的一个重要特征[20.]。在我们的工作中,DT的评估指标与RF几乎相似,并且都优于SVM。karmi - alavijeh等人也使用DT和SVM预测代谢综合征。在该研究中,SVM在几个性能指标上优于DT (SVM (DT)模型的精度、灵敏度和特异性分别为0.774(0.758)、0.74(0.72)和0.757 (0.739)[51]。

为了构建MetS的预测模型,其他工作类似地采用了各种数据挖掘方法,包括人工神经网络(ANN)、决策树、随机森林、支持向量机、主成分分析(PCA)和关联分析(AA)。他们的结果表明,DT的准确率在99%以上,优于ANN和SVM,后者提供了较低的精度指标[52]。其他研究人员已经表明,DT是一种构建代谢综合征预测模型的稳健机器学习方法,据报道准确率为73.90% [53]和71.80% [54]。Lin等人试图在接受第二代抗精神病药物治疗的患者中鉴定MetS。他们报告说,逻辑回归模型的准确性高达83.6%,表明BMI是识别代谢综合征状态的重要预测因子[54]。这一结果与发现RF和SVM是代谢综合征最准确分类器的研究形成了对比[222855]。代谢综合征的复杂性和多因素性及其并发症的严重性要求研究人员进一步重视模型敏感性。而二次判别分析提供了非常低的灵敏度,线性判别分析(LDA)具有最高的整体灵敏度。与我们的研究相似,其他研究表明LDA和RF是比SVM、分类树和ANN更敏感的分类器[22565758]。

与最近为开发MetS预测模型而进行的其他研究相比,这项工作提供了几个优势。需要强调的是,代谢综合征是一种多因素疾病,遗传、环境因素和生活习惯都与疾病的发病机制有关。与专门使用遗传变量的研究不同,我们使用临床重要的遗传信息开发了预测模型,以提供更相关的结果。此外,过去的建模工作很少在大数据上开发传统和机器学习算法来预测MetS。通过这项工作开发的机器学习模型具有提供良好的患者分类和指示最重要的风险因素的优势。这些模型可以作为临床工具的基础,从患者那里接收遗传和环境信息,作为输入和输出他们发生/发展MetS的机会。

另一方面,我们应该强调,研究人员在将这项研究的结果推广到我们研究样本中没有代表的其他人群时应该谨慎。此外,参与者中反应者和非反应者之间的轻微差异对研究指标的影响尚不清楚。

结论

必须将资源集中在最有可能发展或已经患有这些疾病的个人身上,以改善公共卫生措施在减轻代谢综合征等流行疾病负担方面的潜在效果。传统的统计模型在面对具有许多潜在的独立遗传和环境危险因素的多因素疾病时,往往无法提供可靠的预测模型。然而,与传统模型相比,现代机器学习算法可以提高临床问题的预测准确性。然而,即使结合遗传信息,这些模型也不足以用于临床应用[59]。第一个原因是,这类研究的样本量不足以作出结论性的判断;第二个原因是,在这方面需要全基因组信息;此外,人口之间的祖先差异必然要求这些模型分别考虑不同的种族群体[6061]。在这项工作中,我们使用来自TCGS患者的人口统计学、临床和遗传数据(GCKR基因的功能变异)的信息,比较了代谢综合征的预测模型。我们的研究结果证明,现代方法,特别是随机森林和决策树,可以提供高性能的MetS预测模型,当集成到决策支持工具或未来的调查中时,可以帮助减少未来的心血管、癌症或其他相关并发症。

该研究是利用多基因风险评分(PRS)作为疾病预测的现代方法来预测表型的第一步。TCGS的关键在于发现不同疾病的最佳预测模型,尤其是MetS,它在定义和病因学方面是多因素的。因此,我们决定对数据中已知基因的传统模型和机器学习方法进行测试,以比较它们的预测能力。

数据和材料的可用性

在当前研究期间生成和/或分析的数据集由于包含可能损害研究参与者隐私的信息而无法公开,但可根据合理要求从通信作者处获得。

缩写

AA:

关联分析

ACC:

精度

安:

人工神经网络

AUC:

曲线下面积

AU-ROC:

接收机下面积工作特性

AUC-PR:

精度-召回曲线下的面积

体重指数:

身体质量指数

心血管疾病:

心血管疾病

菲律宾:

舒张压

DT:

决策树

FN:

假阴性

外交政策:

假阳性

台塑:

空腹血糖

GCK:

葡糖激酶

GCKR:

葡糖激酶调节器

GKRP:

葡萄糖激酶调节蛋白

GWAS:

全基因组关联研究

高密度脂蛋白:

高密度脂蛋白

JIS:

联合临时声明

LDA:

线性判别分析

LR:

逻辑回归

大都会:

代谢综合征

ML:

机器学习

或者:

优势比

主成分分析:

主成分分析

PRS:

多基因风险评分

QDA:

二次判别分析

射频:

随机森林

里斯:

内分泌科学研究所

中华民国:

接收机工作特性

SBP:

收缩压

SD:

标准偏差

SE:

灵敏度

SP:

特异性

支持向量机:

支持向量机

T2D:

2型糖尿病

公布:

德黑兰心脏代谢遗传研究

TG:

甘油三酸酯

tlg:

德黑兰脂质和葡萄糖研究

TN:

真正的负

TP:

真阳性

厕所:

腰围

参考文献

  1. Kassi E, Pervanidou P, Kaltsas G, Chrousos G.代谢综合征:定义和争议。医学杂志2011;9(1):1 - 3。https://doi.org/10.1186/1741-7015-9-48

    文章谷歌学者

  2. 科尼尔MA,达比利亚D,埃尔南德斯TL,林德斯特伦RC,施泰格AJ,斯托布NR,范佩尔特RE,王H,埃克尔RH。代谢综合症。科学通报,2008;29(7):777-822。https://doi.org/10.1210/er.2008-0024

    文章中科院PubMed公共医学中心谷歌学者

  3. 奥贝达AA,艾哈迈德MN,哈达德FH,阿泽FS。约旦成年人代谢综合征的发病率高得惊人。中华医学杂志2015;31(6):1377。https://doi.org/10.12669/pjms.316.7714

    文章PubMed公共医学中心谷歌学者

  4. Mehairi AE, Khouri AA, Naqbi MM, Muhairi SJ, Maskari FA, Nagelkerke N, Shah SM。阿联酋青少年代谢综合征:一项基于学校的研究。PLoS ONE。2013; 8 (2): e56159。https://doi.org/10.1371/journal.pone.0056159

    文章中科院PubMed公共医学中心谷歌学者

  5. Nematy M, Ahmadpour F, Rassouli ZB, Ardabili HM, Azimi-Nezhad M.代谢综合征在中东、欧洲和北美流行的潜在差异。中华分子遗传学杂志2014;2(s1):019。https://doi.org/10.4172/1747-0862.S1-019

    文章谷歌学者

  6. Shahbazian H, Latifi SM, Jalali MT, Shahbazian H, Amani R, Nikhoo A, Aleali AM。伊朗西南部城市人群代谢综合征及其相关因素。中华糖尿病杂志。2013;12(1):1 - 6。https://doi.org/10.1186/2251-6581-12-11

    文章谷歌学者

  7. Karimi F, Jahandideh D, dabbagmanesh M, Fattahi M, RANJBAR OG。伊朗法尔斯一个农村社区成年人代谢综合征的患病率及其组成部分。中国心血管杂志,2015;9(2):94-99。https://www.sid.ir/en/journal/ViewPaper.aspx?id=436592

  8. Frootan M, Mahdavi R, Moradi T, Mobasseri M, Farrin N, Ostadrahimi A.代谢综合征在大不里士老年人群中的患病率。伊朗内分泌代谢综合征杂志2011;1:S1。

    谷歌学者

  9. 华纳JP,韭菜JP,托迪S,马卡姆AF,邦瑟龙DT。人葡萄糖激酶调节蛋白(GCKR): cDNA和基因组克隆,完整的一级结构,染色体定位。哺乳动物基因组。1995;6(8):532-6。https://doi.org/10.1007/BF00356171

    文章中科院PubMed谷歌学者

  10. vega -da- cunha M, Delplanque J, Gillain A, Bonthron DT, Boutin P, Van Schaftingen E, Froguel P.法国肥胖白人葡萄糖激酶调节蛋白2p23基因突变。Diabetologia。2003;46(5):704 - 11。https://doi.org/10.1007/s00125-003-1083-y

    文章中科院PubMed谷歌学者

  11. Shen H, Pollin TI, Damcott CM, McLenithan JC, Mitchell BD, Shuldiner AR.膳食干预研究中葡萄糖激酶调节蛋白基因多态性对餐后血脂反应的影响。胡文忠。2009;26(4):567。https://doi.org/10.1007/s00439-009-0700-3

    文章中科院PubMed公共医学中心谷歌学者

  12. Saxena R, Voight BF, Lyssenko V, Burtt NP, de Bakker PI, Chen H, Roix JJ, Kathiresan S, Hirschhorn JN, Daly MJ, Hughes TE。全基因组关联分析确定2型糖尿病和甘油三酯水平的位点。科学。2007;316(5829):1331 - 6。https://doi.org/10.4093/dmj.2014.38.5.375

    文章中科院PubMed谷歌学者

  13. Weissglas-Volkov D, Aguilar-Salinas CA, Sinsheimer JS, Riba L, Huertas-Vazquez A, Ordoñez-Sánchez ML, Rodriguez-Guillen R, Cantor RM, tusee - luna T, Pajukanta P.墨西哥血脂异常研究样本血浆高密度脂蛋白胆固醇和甘油三酯水平在白人全基因组关联研究中发现的变异的调查。中国心血管杂志,2010;3(1):31-8。https://doi.org/10.1161/CIRCGENETICS.109.908004

    文章中科院PubMed谷歌学者

  14. Orho-Melander M, Melander O, Guiducci C, Perez-Martinez P, Corella D, Roos C, Tewhey R, Rieder MJ, Hall J, Abecasis G, Tai ES。葡萄糖激酶调节蛋白基因常见的错误意义变异与血浆甘油三酯和c反应蛋白升高有关,但空腹葡萄糖浓度较低。57糖尿病。2008;(11):3112 - 21所示。https://doi.org/10.2337/db08-0516

    文章中科院PubMed公共医学中心谷歌学者

  15. Sparsø T, Andersen G, Nielsen T, Burgdorf KS, Gjesing AP, Nielsen AL, Albrechtsen A, Rasmussen SS, Jørgensen T, Borch-Johnsen K, Sandbaek A. GCKR rs780094多态性与空腹血清三酰甘油升高、空腹和ogtt相关胰岛素血症降低以及2型糖尿病风险降低相关。51 Diabetologia。2008;(1):70 - 5。https://doi.org/10.1007/s00125-007-0865-z

    文章PubMed谷歌学者

  16. 谭春春,马景荣,苏文文,王艳,林维凯,陈建昌,吴春林。葡萄糖激酶(GCK)和葡萄糖激酶调节蛋白(GCKR)基因多态性对中国健康成人和青少年代谢性状的交互作用。糖尿病。58 2009;(3):765 - 9。https://doi.org/10.2337/db08-1277

    文章中科院PubMed公共医学中心谷歌学者

  17. Onuma H, Tabara Y, Kawamoto R, Shimizu I, Kawamura R, Takata Y, Nishida W, Ohashi J, Miki T, Kohara K, Makino H.日本人群中GCKR rs780094多态性与2型糖尿病易感性、空腹血糖水平降低、甘油三酯水平升高和HOMA-IR降低相关。中国生物医学工程学报。2010;36(9):457 - 457。https://doi.org/10.1007/s00125-007-0865-z

    文章中科院PubMed谷歌学者

  18. Bi M, Kao WH, Boerwinkle E, Hoogeveen RC, Rasmussen-Torvik LJ, Astor BC, North KE, Coresh J, Köttgen A. GCKR中rs780094与代谢特征及糖尿病和心血管疾病的相关性:ARIC研究。PLoS ONE。5 (7): 2010; e11690。https://doi.org/10.1371/journal.pone.0011690

    文章中科院PubMed公共医学中心谷歌学者

  19. 连娟,郭娟,陈志,蒋强,叶宏,黄霞,杨霞,巴勇,周娟,段松。GCKR rs780093多态性与汉族老年人冠心病的正相关。中国生物医学工程学报。2013;35(6):863-8。https://doi.org/10.1155/2013/215407

    文章中科院PubMed公共医学中心谷歌学者

  20. worachartchewan A, Nantasenamat C, Isarankura-Na-Ayudhya C, Pidetcha P, Prachayasittikul .代谢综合征的诊断决策树分析。中国糖尿病杂志,2010;30(1):1 - 8。https://doi.org/10.1016/j.diabres.2010.06.009

    文章PubMed谷歌学者

  21. 巴比奇F,马马纳里克L, Lukáčová A, Paralič J, Holzinger A.基于机器学习的代谢综合征患者特征提取的预测模型。在:计算机科学课堂讲稿(包括子系列人工智能课堂讲稿和生物信息学课堂讲稿)。施普林格-;2014.118 - 32页。Doi:https://doi.org/10.1007/978-3-319-10265-8_11

  22. Lehmann C, Koenig T, Jelic V, Prichep L, John RE, Wahlund LO, Dodge Y, Dierks T.脑电活动(EEG)中阿尔茨海默病识别分类算法的应用与比较。中华神经科学杂志,2007;21(2):342-50。https://doi.org/10.1016/j.jneumeth.2006.10.023

    文章PubMed谷歌学者

  23. Azizi F, Madjid M, Rahmani M, Emami H, Mirmiran P, Hadjipour R.德黑兰脂质和葡萄糖研究(TLGS):原理和设计。中国内分泌杂志2000;2(2):77-86。

    谷歌学者

  24. 德黑兰脂质和葡萄糖研究:国家遗产。国际内分泌杂志,2018;16(4增刊):84774。https://doi.org/10.5812/ijem.84774

    文章谷歌学者

  25. Daneshpour MS, Fallah MS, sedaghti - khayat B, Guity K, Khalili D, Hedayati M, Ebrahimi A, Hajsheikholeslami F, Mirmiran P, Ramezani Tehrani F, Momenan AA, Ghanbarian A, Amouzegar A, Amiri P, Azizi F.心脏代谢遗传研究的原理和设计:德黑兰心脏代谢遗传研究(TCGS)的方案。JMIR Res Protoc. 2017;6(2): e28。https://doi.org/10.2196/resprot.6050

    文章PubMed公共医学中心谷歌学者

  26. Daneshpour MS, Hedayati M, Sedaghati-Khayat B, Guity K, Zarkesh M, Akbarzadeh M,等。非传染性疾病的遗传鉴定:德黑兰脂质和葡萄糖研究20年的发现。国际内分泌杂志,2018;16(4增刊):84744。https://doi.org/10.5812/ijem.84744

    文章谷歌学者

  27. Alberti KG, Eckel RH, Grundy SM, Zimmet PZ, Cleeman JI, Donato KA, Fruchart JC, James WP, Loria CM, Smith SC Jr.协调代谢综合征:国际糖尿病联合会流行病学和预防工作组的联合中期声明;国家心肺血液研究所;美国心脏协会;世界心脏联合会;国际动脉粥样硬化学会;以及国际肥胖研究协会。循环。2009;120(16):1640 - 5。https://doi.org/10.1161/CIRCULATIONAHA.109.192644

    文章中科院PubMed谷歌学者

  28. 李国强,李国强。基于随机森林的分类与回归。R新闻2002;2(3):在18到22岁的。https://CRAN.R-project.org/doc/Rnews/

  29. 维纳布尔斯WN,雷普利BD。现代应用统计学与S-PLUS。施普林格科技商业传媒;2013.https://doi.org/10.1007/978-1-4757-3121-7

    谷歌学者

  30. 张晓东,张晓东,张晓东,等。生物信息学研究中精密度-召回率曲线与受试者工作特征曲线的研究。2015;31(15):2595-7。https://doi.org/10.1093/bioinformatics/btv153

    文章中科院PubMed公共医学中心谷歌学者

  31. 库恩M,翼J,韦斯顿S,威廉姆斯A,基弗C,恩格尔哈特A,库珀T,梅尔Z,肯克尔B, C队。《中华医学杂志》2020;20(223):7。

    谷歌学者

  32. Meyer D, Dimitriadou E, Hornik K, Weingessel A, Leisch F, Chang CC, Lin CC. e1071:统计部门的杂项功能(e1071), TU Wien。R包版本。2014; 1(3)。

  33. R:用于统计计算的R项目。[引2020年12月30日]。https://www.r-project.org/

  34. Therneau T, Atkinson B, Ripley B.分类,回归和生存树的递归分区。1984年由Breiman, Friedman, Olshen和Stone所著的书的大部分功能的实现。Inst统计数学。2015。https://doi.org/10.1201/9781315139470

    文章谷歌学者

  35. Huberty CJ。判别分析。教育改革,1975;45(4):543-98。https://doi.org/10.3102/00346543045004543

    文章谷歌学者

  36. 宋yy,陆颖。决策树方法:分类和预测的应用。上海Arch精神病学杂志2015;27(2):130。https://doi.org/10.11919/j.issn.1002-0829.215044

    文章PubMed公共医学中心谷歌学者

  37. 王志刚,王志刚。见:统计学习的要素。统计学中的施普林格系列。施普林格,纽约,纽约州;2009.Doi:https://doi.org/10.1007/978-0-387-84858-7_15

  38. 随机森林。Mach Learn. 2001;45(1): 5-32。https://doi.org/10.1023/A:1010950718922

    文章谷歌学者

  39. 吉纳·R,波吉·JM,图洛·C.随机森林:一些方法论的见解。arXiv预打印arXiv:0811.3619。2008年11月21日。

  40. Cortes C, Vapnik V.支持向量网络。Mach Learn. 1995;20(3): 273-97。

    谷歌学者

  41. 库恩,约翰逊,应用预测模型。纽约:施普林格;2013.

    谷歌学者

  42. Akobeng正义与发展党。理解诊断测试3:受试者工作特征曲线。儿科学报,2007;96(5):644-7。https://doi.org/10.1111/j.1651-2227.2006.00178.x

    文章PubMed谷歌学者

  43. Romero-Saldaña M, Fuentes-Jiménez FJ, Vaquero-Abellán M, Álvarez-Fernández C, Molina-Recio G, López-Miranda J.工作人群代谢综合征早期检测的无创新方法。中华心血管病杂志,2016;15(7):549-58。https://doi.org/10.1177/1474515115626622

    文章PubMed谷歌学者

  44. Zahedi AS, Sedaghati-Khayat B, Behnami S, Azizi F, Daneshpour MS. GCKR常见多态性与代谢综合征的关系。北京医科大学学报(自然科学版),2018;https://doi.org/10.1186/s13098-021-00637-4

    文章中科院谷歌学者

  45. Mohás M, Kisfali P, Járomi L, Maász A, Fehér E, Csöngei V, Polgár N, Sáfrány E, Cseh J, Sümegi K, Hetyésy K GCKR基因在2型糖尿病和代谢综合征中的功能变异:罕见变异与颈动脉内膜-中膜厚度增加有关吗?心血管糖尿病。2010;9(1):1 - 7。https://doi.org/10.1186/1475-2840-9-79

    文章中科院谷歌学者

  46. Jamal S, Ali W, Nagpal P, Grover A, Grover S.通过整合蛋白质的序列、结构和功能信息,使用机器学习预测磷酸化位点。中华医学杂志2021;19(1):1 - 11。https://doi.org/10.1186/s12967-021-02851-0

    文章中科院谷歌学者

  47. Entezari-Maleki R, Rezaei A, Minaei-Bidgoli B.基于属性类型和样本量的分类方法比较。收敛与计算。2009;4(3):94-102。https://doi.org/10.4156/JCIT.VOL4.ISSUE3.14

    文章谷歌学者

  48. de Edelenyi FS, Goumidi L, Bertrais S, Phillips C, MacManus R, Roche H, Planells R, Lairon D.基于饮食和遗传参数的代谢综合征状态预测,使用随机森林。基因遗传,2008;3(3):173-6。https://doi.org/10.1007/s12263-008-0097-y

    文章谷歌学者

  49. 沃查特奇万A, Shoombuatong W, Pidetcha P, Nopnithipat W, Prachayasittikul V, Nantasenamat C.随机森林法预测代谢综合征。ScientificWorldJournal。2015; 2015: 581501。https://doi.org/10.1155/2015/581501

    文章PubMed公共医学中心谷歌学者

  50. 黄YC。应用数据挖掘技术探索代谢综合征与生活方式的关联规律。中国中医药大学学报(自然科学版),2013;42(3):29-36。https://doi.org/10.1177/183335831304200304

    文章谷歌学者

  51. 王志强,王志强,王志强。基于支持向量机的代谢综合征预测方法。ARYA动脉粥样硬化。2016;12:46 - 52。

    PubMed公共医学中心谷歌学者

  52. worachartchewan A, Nantasenamat C, Isarankura-Na-Ayudhya C, Prachayasittikul V.评估代谢综合征的定量人口-健康关系(QPHR)。排除j . 2013;12:569。

    PubMed公共医学中心谷歌学者

  53. Kim TN, Kim JM, Won JC, Park MS, Lee SK, Yoon SH, Kim HR, Ko KS, Rhee BD.基于决策树的韩国成人代谢综合征危险因素城乡差异识别方法。中华内分泌杂志,2012;35(9):847-52。https://doi.org/10.3275/8235

    文章中科院PubMed谷歌学者

  54. 刘春梅,刘春梅,刘春梅。基于CHAID决策树的青年代谢综合征早期检测方法研究。计算数学方法医学2014;2014:242717。https://doi.org/10.1155/2014/242717

    文章PubMed公共医学中心谷歌学者

  55. Burges CJC。支持向量机模式识别教程。数据科学,1998;2(2):121-67。

    文章谷歌学者

  56. 梅耶D, Leisch F, Hornik K.支持向量机测试。Neurocomputing。2003;55(1 - 2):169 - 86。https://doi.org/10.1016/s0925 - 2312 (03) 00431 - 4

    文章谷歌学者

  57. Smith A, Sterba-Boatwright B, Mott J.统计技术的新应用,随机森林,在细菌源跟踪研究。水资源,2010;44(14):4067-76。https://doi.org/10.1016/j.watres.2010.05.019

    文章中科院PubMed谷歌学者

  58. 基于微阵列的癌症分类,随机森林比支持向量机更好吗?中国农业科学,2007;11(2007):686-90。

    谷歌学者

  59. Lawson CE, Martí JM, Radivojevic T, Jonnalagadda SVR, Gentz R, Hillson NJ,等。代谢工程中的机器学习:综述。中国机械工程,2016;26(3):344 - 344。https://doi.org/10.1016/j.ymben.2020.10.005

    文章中科院谷歌学者

  60. Uffelmann E, Huang QQ, Munung NS, de Vries J, Okada Y, Martin AR,等。全基因组关联研究。Nat Rev Methods Prim 2021;1(1):1 - 21。https://www.nature.com/articles/s43586-021-00056-9。Doi:https://doi.org/10.1038/s43586-021-00056-9

  61. Lanjanian H, Najd Hassan Bonab L, Akbarzadeh M, Moazzam-Jazi M, Zahedi AS, Masjoudi S,等。脂蛋白变异的性别、年龄和种族依赖性是缺血性心脏病的危险因素:德黑兰心脏代谢遗传研究(TCGS)对不同年龄和性别的详细研究《生物学性别差异》,2022。https://doi.org/10.1186/s13293-022-00413-7

    文章PubMed公共医学中心谷歌学者

下载参考

确认

作者想对TCGS项目的工作人员和参与者以及对TCGS表型进行质量控制的Sajedeh Masjoodi表示感谢。特别感谢deCODE genetics, Inc.(雷克雅未克,冰岛)的科学支持。

资金

这项研究工作的所有部分,研究设计,数据收集,分析,数据解释和手稿写作都由伊朗德黑兰Shahid Beheshti医学科学大学内分泌科学研究所资助。资助机构在出版费用方面没有发挥作用。

作者信息

作者及隶属关系

作者

贡献

文学硕士:概念化,编程和软件,形式分析,写作-原稿。形式分析,写作和编辑。Hamed Moheimani:写作-评论和编辑。ASZ:数据清洗。FH-E:数据清理。HL:结果确认。FA:监督,MSD:监督。

相应的作者

对应到Maryam S. Daneshpour

道德声明

伦理批准并同意参与

当地伦理委员会在内分泌科学研究所批准了这项研究;Shahid Beheshti医学科学大学(研究批准代码:98104 &研究伦理代码:IR.SBMU.Endocrine.REC.1398.121)。在本研究中,所有参与者都提供了参与研究的书面知情同意书。这项研究是按照《赫尔辛基宣言》进行的。

发表同意书

不适用。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

补充信息

附加文件1

。读者可以参考补充材料文件,以查看模型每次重复和每次折叠的精度指标的更多细节。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/。创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

Akbarzadeh, M, Alipour, N, Moheimani, H。et al。评估机器学习驱动的分类算法,利用GCKR基因中的变异来预测代谢综合征:德黑兰心脏代谢遗传学研究。翻译医学杂志20.164(2022)。https://doi.org/10.1186/s12967-022-03349-z

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12967-022-03349-z

关键字

  • 决策树
  • 判别分析
  • 逻辑回归
  • 代谢综合征
  • 随机森林
  • 支持向量机
Baidu
map