跳到主要内容

使用医疗声明对AutoML框架进行疾病预测的基准测试

摘要

目标

确定并比较自动化机器学习(AutoML)工具在大型、高度不平衡的医疗保健数据集上的性能。

材料和方法

我们使用历史去识别的行政索赔,包括2019年之前四个不同时间窗口的人口统计信息和疾病代码标志,生成了一个大型数据集。然后,我们在该数据集上训练三个AutoML工具,以预测2019年的六种不同疾病结局,并在几个指标上评估模型性能。

结果

AutoML工具较基线随机森林模型有改进,但彼此之间没有显著差异。所有模型都记录了较低的区域下的精确召回曲线,并未能预测真实阳性,而保持真实负率高。模型性能与患病率没有直接关系。我们提供一个特定的用例来说明如何选择一个阈值,使真阳性率和假阳性率之间达到最佳平衡,因为这在医疗应用程序中是一个重要的考虑因素。

讨论

医疗保健数据集给AutoML工具带来了一些挑战,包括样本量大、高度不平衡和可用特性的局限性。改进可伸缩性,结合非平衡学习重采样和集成方法,以及策划的特征选择是实现更好性能的可能下一步。

结论

在研究的三种工具中,没有一种AutoML工具在预测性能方面始终优于其他工具。本研究中模型的性能表明,在处理医疗索赔数据方面可能有改进的空间。最后,最佳预测阈值的选择应以具体的实际应用为指导。

同行评审报告

背景和意义

利用生物医学和医疗保健领域的大数据增长,机器学习(ML)帮助改善了健康结果,降低了医疗保健成本,并推进了临床研究[1- - - - - -4].将ML应用于医疗保健数据的研究范围从疾病预测或改善护理质量的模型,到检测索赔欺诈等应用[25- - - - - -8].在各种研究中使用的临床大数据包括电子健康记录、医疗记录和索赔数据。许多研究仅限于单一的医疗保健或医院系统[9- - - - - -12].

尽管已经证明了机器学习的好处,但需要在问题的背景下训练不同的模型来获得良好的性能[13].对于每个模型,临床医生等领域专家需要与数据科学家合作设计ML管道[14].自动机器学习(AutoML)是一个新兴领域[15旨在简化这个劳动密集型的过程[16,可以加速ML在医疗保健场景中的集成[1].最先进的AutoML平台允许领域专家在不深入了解ML或统计知识的情况下设计性能良好的ML管道,同时为数据科学家减轻了模型选择和超参数优化等繁琐手工任务的负担[14].

随着ML在各行业被采用,需要标准化的基准和数据集来比较竞争系统[17].这些基准测试套件需要有数据集来突出已建立的ML方法的优缺点[18].尽管出现了许多AutoML工具,但该领域仍然需要标准化基准。多项研究对各种AutoML工具进行基准测试[1419- - - - - -21已经完成了。值得注意的是,Gijsbers等人[22提出了一个开源AutoML基准框架,为不同AutoML工具的性能提供客观反馈。Gijsbers等人在39个公共数据集上比较了4个AutoML工具,其中22个是二进制分类,混合了平衡和不平衡数据。在这些国家中,只有两个国家的某一阶层的患病率非常低,各为1.8%左右。大多数对基准的研究测试了样本大小在103量级、特征大小在10-100之间的公共数据集。相比之下,我们的研究使用了超过1200万人和超过3500个特征。

尽管不同的AutoML工具将根据问题的不同而执行不同的操作,但是需要在与医疗保健数据具有相似特征的数据集上进行基准测试。高度不平衡和大型数据集在医疗保健领域很常见,因此,通过确定一个好的基线模型,这些基准将被证明对加速模型构建过程是有用的。

对已发表的AutoML论文的回顾表明,尽管有潜在的应用和已证实的需求[23],在将AutoML应用于医疗保健领域方面做的工作很少[7].Waring等人认为,医疗保健领域缺乏AutoML解决方案的主要原因是:(1)缺乏高质量、有代表性和多样化的数据集,以及(2)当前针对生物医学环境中常见的大型数据集的AutoML方法效率低下。特别是,疾病预测问题往往涉及高度不平衡的数据集[24,但它们并不适合预测模型。疾病流行率远低于Gjisbers等人使用的公共数据集;本文所考虑的数据集阳性率在0.053% - 0.63%之间。极低的流行率不能给模型足够的样本从一个类别进行训练。

目标

为了促进AutoML工具在医疗保健领域的使用,首先需要评估它们在代表性数据集中的性能。这样做揭示了在医疗保健数据上使用这些工具的挑战和局限性,并作为未来改进的基础,以更好地解决医疗保健中的问题。在本研究中,我们使用124m行和3.5k特征的索赔数据生成了一个数据集。利用这一点,我们比较了不同AutoML工具在具有高类不平衡的数据集上预测不同感兴趣疾病的结果的性能。

材料和方法

人口

该分析中使用的人口包括12425,832人,他们从2018年1月1日至2019年12月31日连续参加了医疗保险或商业计划。这一时期需要持续登记,因为疾病队列的确定和特征的创建严重依赖历史索赔数据。虽然确保每个人的索赔历史的完整性是理想的,但强加一个更长的连续登记标准将使更少的人符合条件。虽然特性是基于2016 - 2018年的索赔数据创建的,但只能保证2018年的数据的完整性。

我们的目标是预测一个人是否会在2019年1月1日至2019年12月31日的任何时间首次出现特定疾病。在预测时间之前有目标疾病诊断的患者被排除在外。例如,那些在2019年之前被诊断为糖尿病的人将被排除在我们预测的糖尿病队列之外。

目标疾病

我们的目标是预测6种疾病的发生——肺癌、前列腺癌、类风湿性关节炎(RA)、2型糖尿病(T2D)、炎症性肠病(IBD)和慢性肾脏疾病(CKD)——在预测年。为每个目标疾病创建了基于权利要求的定义。表格1给出每种疾病的定义,以及相应的患病率和队列规模,按患病率增加的顺序排列。疾病标志基于《国际疾病分类第十版》(ICD-10)。由于索赔书中出现特定的ICD-10代码可能只是由于某一事件,例如要求进行筛选测试,而不是真正表明诊断,因此,对于所考虑的大多数疾病,我们要求在特定时间内至少有两份索赔书中出现该疾病代码。第二次出现ICD-10编码被认为是大多数疾病的确认诊断。

表1在最终队列表中标记疾病转归的定义和各自的患病率。使用的缩写:慢性肾病(CKD), 2型糖尿病(T2D),炎症性肠病(IBD),类风湿性关节炎(RA),国际疾病分类,第十版(ICD-10)

数据创建

特征来源于2016年至2018年会员的行政索赔历史。每一项索赔都对应一次病人就诊,并包含描述所提供的医疗保健服务的信息,如诊断代码、程序代码、医疗用品和设备以及所产生的费用。在本研究中,仅使用诊断代码作为特征。一项索赔可与多达12个诊断相关联,对应12个独特的ICD-10编码,根据疾病的严重程度排序。只考虑每项索赔中的前三种诊断,以确保只使用与所提供的保健服务最相关的临床诊断。其他ICD-10代码主要是为了记账目的而编写的,通常与过程或服务的相关性很小,甚至没有相关性。

每个诊断对应一个ICD-10代码,最长可达7位。对于前三种诊断,只使用ICD-10编码的前三个字符。前三个字符对应更广泛的诊断分类。例如,E10.2对应1型糖尿病合并肾脏并发症,而E10.65对应1型糖尿病合并高血糖。如果只取前三个字符,这两个ICD-10编码将属于“1型糖尿病”。只使用ICD-10编码的前三个字符允许我们创建具有相同疾病的适当大小的患者组。

对于患者从2016年到2018年的整个病史中的每一项索赔,取前三个ICD-10编码的前三个字符。从这前三个字符开始,根据在四个不同长度的时间段内这些代码的存在或不存在创建指示器标志。因此,每个代码对应于数据集中的四个标志。表格2显示窗口考虑的时间。

表2创建特性标志的时间周期

在不同的时间窗口对诊断标志进行分组,以向预测器引入时间组件。较早的诊断通常与疾病的预测不太相关。在较早的窗口中出现特定的诊断代码并不保证它将在随后的期间中出现。疾病标志仅由患者在时间窗口内与某一疾病相关的相关ICD代码的声明独立确定。

2018年的性别、国家级社会经济指数和年龄等人口信息也被用作特征。总共创建了3511个功能。

基准测试框架

图5所示流程图。1显示了用于对不同AutoML系统进行基准测试的框架[22],并修改为包含一个引导过程,以获得所考虑的每个指标的95%置信区间。每个模型使用的特征取决于目标结果;排除了与所预测疾病的ICD-10编码对应的标记。例如,对于肺癌,ICD代码C34的所有四个跨不同窗口的功能都被删除了。对于每一种目标疾病,我们从1200万人口中提取30万个样本,生成一个训练集,保持疾病流行率。三个AutoML工具(AutoSklearn [25),水(26]和TPOT [27])和随机森林模型对每种疾病在相同的训练集上进行训练。本研究使用随机森林作为基线,主要是因为在Gijsbers等人的框架中也使用了随机森林作为基线模型。[22].此外,随机森林是很好的基线模型,因为它们不需要太多的参数调整就能产生合理的预测,并且可以处理大量的输入和特征。我们的框架与参考框架之间的另一个区别是,对于每个AutoML模型,我们针对不同的指标进行了优化——平均精度(精度-回忆曲线下的面积(AUCPR)近似)、平衡精度和受试者工作特征曲线下的面积(ROC AUC)。H2O对aupr和AUC进行优化,AUC对应ROC AUC。我们没有优化H2O的平衡精度,因为这个指标不包括在它的基本内置记分器中。这导致每种工具针对每个目标疾病有多个模型,而不是针对ROC AUC优化的单一模型。随机森林模型被认为是比较的基线。每个工具都使用了默认设置,除了我们为每个模型设置的最大运行时间为48小时之外。所有模型都在相同的16 cpu 8核Intel Xeon (2.3 GHz)计算机上进行训练,内存为256GB。然后使用训练过的模型来预测剩余的1170万个样本数据集的结果。 For each model and target disease, bootstrapping was performed on the predictions to obtain 95% confidence intervals for each model metric. Samples were taken with replacement (both stratified and not stratified) from the holdout validation set to obtain 500 sets of 150,000 observations each. Metrics were then computed for the predictions of each model on each resampled dataset, yielding 500 values per metric per model which were used to derive the 95% confidence intervals. We note that, due to the large dataset size and consequent time and resource requirements, we ran each AutoML tool once for each choice of optimization metric, so these are confidence intervals for the performance on the holdout data for each of these specific AutoML runs.

图1
图1

基于Gjisbers等人的AutoML工具基准测试框架流程图

结果

不同模型在抵制集上的性能引导指标如图所示。2而且3.分别为ROC AUC和AUCPR(后者以平均精度近似表示)。同样的结果可以在补充表1和2,附加文件的表格形式中看到1

图2
图2

针对分层自举样本中各种疾病转归训练的不同AutoML模型的ROC AUC性能。中值用菱形标记表示,95% ci用直线表示

图3
图3

针对分层自举样本中各种疾病转归训练的不同AutoML模型的AUCPR性能。中值用菱形标记表示,95% ci用直线表示

在这两个图中,菱形标记表示每个模型的度量分数的中位数,而圆形标记表示通过自举计算的95%置信区间的下限和上限。这些数字显示了使用分层引导样本计算的指标。从分层和非分层bootstrap样本中获得指标的结果差别很小。非分层样本的结果见补充文件中的图1和图21.对于ROC AUC,我们观察不同疾病的不同表现。一般来说,没有任何一个AutoML框架能够始终如一地超越其他框架并获得很大的优势。此外,我们观察到疾病流行率与模型性能不直接相关;ROC AUC得分最高的是前列腺癌模型,前列腺癌是第二不流行的疾病(患病率为0.12%)。我们还观察到,用于预测CKD的训练模型的置信区间较窄,而CKD的患病率最高。越宽的置信区间对应越低的疾病患病率,其中肺癌的置信区间最宽(患病率为0.053%)。请注意,情况并非总是如此;对于前列腺癌,所有AutoSklearn和H2O模型,以及经过训练的ROC AUC优化的TPOT模型都具有相对较窄的置信区间。

由于模型得分和表现因疾病而异,我们根据Gjisbers等人所做的随机森林模型的中位数表现,将ROC AUC得分的中位数归一化。结果如表所示3..在各种疾病中表现最好的模型要么是H2O模型,要么是针对ROC AUC优化的AutoSklearn模型。然而,对于每种疾病,最佳模型与其他模型之间的差异很小。在相对于随机森林模型的ROC AUC改进方面,对于不太流行的疾病,观察到更大的改进。每种疾病的所有AutoML模型的改善中值分别为肺癌、前列腺癌、类风湿性关节炎、IBD、2型糖尿病和CKD的1.136、1.100、1.083、1.041、1.078和1.036。

表3不同AutoML模型的中值性能ROC AUC评分根据随机森林中值性能进行缩放。对每种疾病具有最佳性能的模型以粗体表示

由于数据集的不平衡,我们也在AUCPR上测量模型的性能。如图所示,所有模型的AUCPR评分都很低。3..前列腺癌模型ROC AUC评分的置信区间较窄,其引导aupr评分的置信区间较宽。一般来说,H2O模型的AUCPR中位数得分最高。但是,注意到AUCPR值的范围,没有任何一个模型在不同疾病中显著优于其他模型。

表格4显示了相对于随机森林模型的中值基线分数,模型的性能增加。尽管AUCPR评分较低,但我们普遍观察到,与基线模型相比,除了为平衡精度优化的TPOT模型,特别是那些被训练用于预测前列腺癌和肺癌的模型,AUCPR有所改善。对于肺癌、前列腺癌、类风湿性关节炎、IBD、2型糖尿病和CKD,每种疾病的所有AutoML模型的AUCPR改善的中位数分别为2.000、1.567、1.515、1.224、1.650和1.319。

表4不同AutoML模型的AUCPR得分中位数根据随机森林性能的中位数进行缩放。对每种疾病具有最佳性能的模型以粗体表示

除了ROC AUC值之外,为每个模型选择阈值是为实际目的评估模型的重要步骤。在处理不平衡数据时尤其如此[28].尽管AutoML输出模型已准备好产生硬预测,但在实践中,仍必须考虑阈值,根据所解决的问题,在真阳性率和假阳性率之间提供最佳平衡。使用完整验证集生成的实际ROC曲线如图所示。4

图4
图4

预测不同疾病训练模型的受试者工作特征曲线。ROC曲线使用完全验证集(N = 12,125,832)上的预测分数生成。

为了说明这一点,考虑预测肺癌的情况,在本研究探索的六种疾病中,肺癌的患病率最低。肺癌通常在预后差、生存率低的晚期被发现,因此它是美国癌症相关死亡的主要原因之一。一些旨在在干预最有效的早期阶段发现疾病的战略已经到位,其中主要是由国家综合癌症网络(NCCN)和美国预防服务工作队(USPSTF)提供的基于规则的筛查指南。然而,即使有了这些方法,每年只有大约2%的肺癌发病率通过筛查被发现。根据NCCN和USPSTF指南被认为有资格进行筛查的患者每年进行一次低剂量计算机断层扫描(LDCT)。尽管最不发达ct可以在可治疗阶段检测出肺癌,但它也会带来一些健康风险,特别是对那些没有患病的人。这些风险包括不必要的治疗、并发症和因暴露于低剂量辐射而患癌症的理论上风险。因此,在建立肺癌的预测模型时,必须考虑到这些相关的成本和尽可能多地识别阳性病例的目标。换句话说,对于这类问题,需要尽量减少假阳性的数量,同时努力实现较高的真阳性率(TPR)。在使用任何工具训练AutoML模型之后,在部署模型时应该保持谨慎。 Models typically provide predictive probabilities and selecting the correct threshold for the application is necessary. Identifying the correct thresholds depending on the trade-offs between TPR and FPR can be done by looking at the respective ROC AUC curves as seen in Fig.4

我们在补充表3,附加文件中根据ROC AUC显示了预测肺癌的最佳表现模型的不同混淆矩阵1.阈值的选择基于完整验证数据集的实际预测概率值的十分位数。确定最佳阈值将取决于真阳性、假阳性和假阴性的代价。我们考虑相同模型的假设美元成本,注意到医疗风险和生活质量方面的成本不包括在内。我们假设,如果没有及早发现这种疾病,每年的人均成本为30万美元(相当于假阴性的成本),而如果及早发现这种疾病,每年的人均成本将为84,000美元(相当于真阳性的成本)。对于这种情况,我们还考虑了两种假设的测试,一种测试定价为100美元,另一种是最不发达ct,平均成本约为500美元。我们根据不进行检测的基线情况计算节省(每个肺癌患者都与假阴性的成本相关)。数字5绘制不同十分位数概率阈值下每个假设测试成本的节省情况。模型的最佳阈值取决于使用模型的情况。对于100美元的测试,我们看到最佳分割点是在第70个百分位数,而对于500美元的测试,它是在第90个百分位数。对于500美元的测试,这个截止点是唯一能带来正储蓄的。这些截断分别对应于FPR = 0.3, TPR = 0.9,和FPR = 0.1和TPR = 0.52。

图5
图5

H2O (AUROC)模型的不同截止阈值对不同测试成本的人均平均节省。真正的正面成本设置为84,000美元,而虚假的负面成本设置为300,000美元。假阳性成本仅来自测试成本

讨论

由于AutoML软件包是在医疗保健数据环境中构建预测模型的有吸引力的开箱即用工具,我们在一个针对六种不同疾病结果的大型医疗索赔数据集上检查并比较了其中三种工具(AutoSklearn、H2O和TPOT)的性能。然而,这些数据集带来了一些挑战。首先,样本量(12.5M)比AutoML分析的典型数据集的大小要大得多。在这项工作中,我们使用了300k的分层样本进行训练,这对于AutoML来说仍然是相当大的,因为这些方法是计算密集型的,因为它们在许多不同的算法上迭代。例如,TPOT在48小时时限内完成的代数因每种目标疾病和评分指标而有很大差异。完成的代数从7到38代不等,18个型号平均为18.88代。不同AutoML模型的运行时间取决于初始条件和目标条件。然而,对于大多数方法,运行时间达到48小时。在医疗索赔数据的上下文中,这些AutoML方法在可伸缩性方面的改进当然是可取的。一旦在数据集的一个不同的和相对较大的子样本上训练几个AutoML模型在计算上变得可行,将得到的模型组合成一个集成可能会提供进一步的性能改进。

第二个挑战是医疗保健数据的病例患病率极低的特点;在我们的例子中,这一比例从0.053%到0.63%不等。这可能是我们在各种方法和疾病中观察到的低AUCPR评分的主要原因。在处理高度不平衡数据集方面的改进对于医疗保健应用程序至关重要。未来工作的一个方向是,本着[的精神,探索将过采样和过采样技术与集成方法相结合。28].

另一个可能部分解释在模型中观察到的较差性能的挑战来自医疗保健数据库中可用功能固有的局限性。由于索赔编码的目的是记账,一些医疗保健服务与特定的ICD-10编码相关联,这可能不一定表明存在某种疾病。例如,有资格进行癌症筛查的个人将根据癌症ICD-10代码进行筛查,无论结果如何。因此,没有患癌症的人在他们的索赔历史中仍然会有癌症代码。这意味着仅仅标记这些ICD-10代码并不能准确反映患者的病史。使用较少的选定特征可能有助于提高模型性能。例如,只保留与预测疾病临床相关的ICD-10编码对应的特征,可以减少特征集的规模,并使模型更容易建立特征与目标之间的关系。

结论

AutoML工具通常快速跟踪ML管道,它们生成的模型可以作为构建预测器的起点。然而,这些工具在本研究中使用的医疗索赔数据集上的性能表明,AutoML工具在处理如此大规模和如此高不平衡的数据方面可能有改进的空间。为了解决数据的局限性,下一步可能是进一步的特征选择、重采样和不平衡学习集成。

尽管使用AutoML工具进行模型选择和优化具有优势,但在根据研究问题确定最佳输出阈值时仍然必须谨慎。

数据和材料的可用性

目前研究中生成和分析的数据集不对外公开,因为它们包含私人健康信息。不过,如有需要,可应要求向编辑人员提供数据。

缩写

AutoML:

自动化的机器学习

ML:

机器学习

CKD:

慢性肾脏疾病

T2D:

2型糖尿病

炎症性肠病:

炎症性肠病

类风湿性关节炎:

类风湿性关节炎

诊断结果:

《国际疾病分类》第十版

中华民国AUC:

接收器工作特性曲线下的面积

AUCPR:

精度-召回曲线下的面积

参考文献

  1. Mustafa A, Rahimi Azghadi M.用于医疗保健和临床笔记分析的自动机器学习。电脑。2021;10(2)。https://doi.org/10.3390/computers10020024

  2. 陈明,郝毅,黄坤,王磊,王磊。基于机器学习的医疗社区大数据疾病预测:IEEE Access;2017年,页1 - 1。https://doi.org/10.1109/ACCESS.2017.2694446

  3. Luo G, Stone BL, Johnson MD, Tarczy-Hornoch P, Wilcox AB, Mooney SD, Sheng X, Haug PJ, Nkoy FL.基于临床大数据的机器学习模型的自动化构建:建议原理和方法。JMIR Res Protoc. 2017;6(8): 175。https://doi.org/10.2196/resprot.7757

    文章谷歌学者

  4. Osawa I, Goto T, Yamamoto Y, Tsugawa Y.基于机器学习的高需求高成本患者预测模型,使用全国临床和索赔数据。NPJ Dig Med. 2020;3(1): 148。https://doi.org/10.1038/s41746-020-00354-8

    文章谷歌学者

  5. Srinivasan U, Arunasalam B.利用大数据分析降低医疗成本。教授2013年;15:21-28。https://doi.org/10.1109/MITP.2013.55

    文章谷歌学者

  6. 王晓东,王晓东,王晓东。基于机器学习的疾病预测方法研究。见:2018 IEEE医疗保健信息学国际会议(ICHI)。纽约:IEEE出版社:2018。p . 467 - 4674。

    谷歌学者

  7. 韦林J, Lindvall C, Umeton R.自动化机器学习:医疗保健领域的现状和机遇。Artif Intell Med. 2020;104:101822。https://doi.org/10.1016/j.artmed.2020.101822

    文章谷歌学者

  8. Popescu M, Khalilia M.使用ICD-9本体特征改进疾病预测。2011年IEEE模糊系统国际会议(Fuzzy -IEEE 2011)。IEEE: 2011。https://doi.org/10.1109/fuzzy.2011.6007410https://doi.org/10.1109%2Ffuzzy.2011.6007410

  9. Shimabukuro DW, Barton CW, Feldman MD, Mataraso SJ, Das R.基于机器学习的严重败血症预测算法对患者生存和住院时间的影响:一项随机临床试验。BMJ Open respiratory Res. 2017;4(1)。https://doi.org/10.1136/bmjresp - 2017 - 000234。http://arxiv.org/abs/https: / / bmjopenrespres.bmj.com/content/4/1/e000234.full.pdf。

  10. Taylor RA, Pare JR, Venkatesh AK, Mowafi H, Melnick ER, Fleischman W, Hall MK.急诊室脓毒症患者住院死亡率的预测:局部大数据驱动的机器学习方法。Acad急诊医学2016;23(3): 269 - 78。https://doi.org/10.1111/acem.12876。http://arxiv.org/abs/https: / / onlinelibrary.wiley.com/doi/pdf/10.1111/acem.12876。

    文章谷歌学者

  11. 沙米尔·K, Johnson KW, Yahi A, Miotto R, Li L, Ricks D, Jebakaran J, Kovatch P, Sengupta PP, geljns S,等。使用电子医疗记录范围机器学习的医院再入院率预测建模:使用西奈山心力衰竭队列的案例研究见:2017年太平洋生物计算研讨会。Hackensack:世界科学:2017。p . 276 - 87。

    谷歌学者

  12. 陈明,郝毅,黄坤,王磊,王磊。基于医疗社区大数据的机器学习疾病预测。IEEE访问。2017;5:8869 - 79。https://doi.org/10.1109/ACCESS.2017.2694446

    文章谷歌学者

  13. Wolpert DH, Macready WG。最优化没有免费的午餐。IEEE跨进化计算。1997;1(1): 67 - 82。

    文章谷歌学者

  14. Zöller M-A, Huber MF。自动机器学习框架的基准测试和调查。J Artif Intell Res. 2021;70:409 - 72。

    文章谷歌学者

  15. 王晓峰,王晓峰,王晓峰。自动化机器学习:方法,系统,挑战。纽约:施普林格;2019.

    谷歌学者

  16. 姚强,王敏,陈勇,戴伟,李艳芳,涂伟伟,杨强,余宇。将人从学习中分离出来:自动化机器学习研究综述。arXiv预印本arXiv: 1810.13306。2018.

  17. Mattson P, Reddi VJ, Cheng C, Coleman C, Diamos G, Kanter D, Micikevicius P, Patterson D, Schmuelling G, Tang H,等。Mlperf:用于机器学习性能的行业标准基准测试套件。IEEE微。2020;分裂到8 - 16个。40 (2):

    文章谷歌学者

  18. Olson RS, La Cava W, Orzechowski P, Urbanowicz RJ, Moore JH。Pmlb:用于机器学习评估和比较的大型基准套件。个人经历分钟。2017;10(1): 1-13。

    文章谷歌学者

  19. 米卢蒂诺维奇M . Schoenfeld B . Martinez-Garcia D. Ray S . Shah S . Yan D.自动化系统的评价。在:自动机器学习ICML研讨会论文集,2020卷。维也纳:2020。

  20. Hanussek M, Blohm M, Kintz M. AutoML能超越人类吗?使用AutoML Benchmark对流行的OpenML数据集进行评估。http://arxiv.org/abs/2009.01564。访问2020年12月15日。

  21. Balaji A, Allen A.基准自动机器学习框架。2018。http://arxiv.org/abs/1808.06492。访问2020年12月15日。

  22. Gijsbers P, LeDell E, Thomas J, Poirier S, Bischl B, Vanschoren J.一个开源自动基准。arXiv预印本arXiv: 1907.00909。2019.

  23. 机器学习算法和超参数值的自动选择方法综述。new模型肛门健康信息生物信息2016;5(1): 1 - 16。

    中科院文章谷歌学者

  24. Khalilia M, Chakraborty S, Popescu M.使用随机森林从高度不平衡的数据预测疾病风险。BMC Med Inform Decis Making. 2011;11(1): 1-13。

    文章谷歌学者

  25. Feurer M, Klein A, Eggensperger K, Springenberg JT, Blum M, Hutter F. Auto-sklearn:高效和健壮的自动机器学习。正确的做法:自动机器学习。维也纳:施普林格:2019。113 - 34页。

    谷歌学者

  26. H2o automl:可扩展的自动机器学习。见:ICML AutoML研讨会论文集,2020卷。维也纳:2020。

  27. 奥尔森RS,摩尔JH。在:Hutter F, Kotthoff L, Vanschoren J,(编)。TPOT:一个用于自动化机器学习的基于树的管道优化工具。可汗:施普林格;2019年,151 - 60页。https://doi.org/10.1007/978-3-030-05318-5_8.https://doi.org/10.1007/978 - 3 - 030 - 05318 - 5 - _8。

    谷歌学者

  28. Schubach M, Re M, Robinson PN, Valentini G.预测罕见和常见疾病相关的非编码变异的不平衡感知机器学习。Sci众议员2017;7(1): 1 - 12。

    中科院文章谷歌学者

下载参考

确认

不适用。

资金

JM和EM得到了美国国立卫生研究院的资助,资助编号为LM010098。

作者信息

作者和联系

作者

贡献

RAR负责方法学、软件、形式分析、撰写原始草案和可视化的创建。

国防部负责方法学、软件、形式分析、数据整理和撰写原始草案。

SM对项目的概念化、方法学、数据管理、写作审查和编辑以及监督做出了贡献。

JTJ对项目的设计、方法、编写、审查和编辑以及监督都做出了贡献。

NS负责概念化,写作审查和编辑,以及监督。

EM在分析计划、TPOT设置、结果检查、稿件组织和修改等方面提供了建议。

JM帮助构思和设计项目,计划分析,并解释结果。他还协助撰写和编辑了手稿。

相应的作者

对应到杰森·h·摩尔

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

Roland Albert Romero, Mariefel Nicole Deypalan, Suchit Mehrotra, John Titus Jungao和Natalie Sheils是联合健康集团旗下OptumLabs的员工。娜塔莉·谢尔斯拥有该公司的股票。其他作者没有利益冲突需要披露。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构附属的管辖权要求保持中立。

补充信息

额外的文件1

针对非分层自举样本中各种疾病转归训练的不同AutoML模型的ROC AUC表现。中值用菱形标记表示,95% CI极限用圆形表示。

权利和权限

开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的用途,您将需要直接从版权所有者那里获得许可。欲查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献放弃书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

罗梅罗,r.a., Y.德帕兰,m.n.,梅赫罗特拉,S。et al。使用医疗声明对AutoML框架进行疾病预测的基准测试。个人经历矿业1515(2022)。https://doi.org/10.1186/s13040-022-00300-2

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s13040-022-00300-2

关键字

  • 自动化的机器学习
  • AutoML
  • 机器学习
  • 医疗保健
  • 医疗索赔
  • 类不平衡
Baidu
map