跳到主要内容

小面积估计的机器学习方法:预测荷兰人口的健康、住房和福祉

摘要

背景

地方决策者需要有关小地理区域的公共卫生、住房和福利的信息。例如,市政当局可以利用这些信息组织有针对性的活动,以改善其居民的福祉。调查通常用于收集数据,但许多社区可能只有很少甚至没有受访者。在这种情况下,直接根据调查结果估计当地人口的状况往往是不可靠的。

方法

小区域估计(Small Area Estimation, SAE)是一种在小地理级别上提供估计的技术,只有很少甚至没有应答者。在经典的个体水平SAE中,通过使用人口的辅助行政数据作为预测因子,将复杂的统计回归模型拟合到调查响应中,然后预测缺失的响应并聚合到所需的地理水平。在本文中,我们将梯度增强树(XGBoost)(一种著名的机器学习技术)与为估计荷兰全体人口的公共健康和福祉的特定问题而设计的结构化加性回归模型(STAR)进行了比较。

结果

我们使用五倍交叉验证(5CV)的样本外预测来比较这些模型的准确性和性能。我们对三个不同样本量和结果类型的数据集进行了分析。与STAR模型相比,梯度增强树能够提高预测的准确性和获得这些预测所需的总时间。尽管这些模型在总体精度上看起来非常相似,但在邻里水平上的小区域预测有时差异很大。因此,为了对小区域进行更好的预测,追求稍微更准确的模型可能是有意义的。然而,XGBoost最大的好处之一是不需要先验知识或模型规范。数据准备和建模更容易,因为该方法自动处理缺失数据、非线性响应、相互作用和空间相关结构。

结论

在本文中,我们提供了荷兰社区一级的健康、住房和福利指标的新的全国估计数,请参阅“在线资料”。我们证明,机器学习在准确性、稳健性、速度和数据准备方面为小区域估计提供了复杂统计回归建模的良好替代方案。这些结果可用于在地方一级作出适当的政策决定,并就哪些估计方法在准确性、时间和预算限制方面是有益的提出建议。

简介

地方当局定期监测荷兰人口的健康和住房状况。在荷兰,一项名为“成人和老年人健康监测”(HeMo)的广泛全国调查旨在收集全国和城市范围内的健康信息。这项调查由荷兰25个市政卫生服务机构(MHS)每四年进行一次。1并由国家公共卫生和环境研究所(RIVM)和荷兰统计局(CBS)协调。第二项调查被称为“荷兰住房调查”(Woon Onderzoek Nederland),收集有关当前和理想居住状况的信息。这项调查由荷兰统计局(CBS)与内政部(BZK)合作,每三年进行一次,以评估荷兰人口的生活状况以及他们在住房领域的愿望和需求[2].尽管这两项调查都包括了数万到数十万的受访者,但在荷兰的13808个社区中,许多社区只有很少的受访者,甚至没有受访者。在这种情况下,直接从调查反馈中估计社区层面的健康和福利是不可能的。

为了解决这一挑战,小区域估计(SAE)领域开发了许多方法,我们参考文献全面回顾了它们的优点和缺点[3.].回归方法在观察到的反应上训练一个模型,该模型是由受访者的特征(如年龄和教育水平)的辅助数据集预测的。在我们的问题中,回归模型特别适合,因为荷兰统计局拥有广泛的人口统计变量行政数据集,涵盖了整个荷兰人口。因此,我们可以利用调查中受访者的亚人群,根据观察到的健康相关指标或生活质量评级,训练一个回归模型。然后,我们使用这个模型来预测剩余人口的缺失调查反应。我们可以将这些预测汇总到任何想要的地理级别,比如市政当局、地区和社区。

以前的一项研究表明,复杂回归模型,如结构化可加性回归(STAR)模型,在荷兰的社区水平上实现了对几个健康相关指标的校正良好的预测[4].然而,基于统计回归的方法有一些缺点。首先,要选择一个模型。该模型既要处理辅助数据与结果之间的非线性关系,又要处理相互作用和空间效应。这通常需要统计学家将先验知识转化为模型,并仔细准备数据。第二,这适用于任何模型,模型应该训练和过度拟合应该通过正则化技术,如收缩或惩罚方法[5].第三,在处理包含数百万条记录的庞大数据集时,这种复杂的统计模型可能会遇到计算困难。

机器学习技术可以作为一种有吸引力的替代方案。与统计模型相比,它们有许多潜在的好处:更准确的预测,对大型数据集的训练时间更快,对不同数据集的鲁棒性更强,并且它们需要统计学家更少的工作和知识来设计和实现。机器学习作为SAE问题的潜在解决方案正在获得认可,尽管到目前为止它的应用有限[678910].在我们的研究中,我们将机器学习应用于一个具有重要空间成分的大规模预测问题:我们为荷兰的每个成年人生成预测。从机器学习的角度来看,上述过程是一个监督学习任务。有监督的机器学习方法可以被视为一种通用的学习算法,它采用带有正确标签示例的任何特征数据集,并输出一个能够从特征中预测未知标签的模型。

在本文中,我们使用梯度增强树(XGBoost),一种著名的机器学习技术,提供了市政、区和社区一级的健康、住房和福利指标的估计值[11].我们将XGBoost的性能与专门针对这一问题设计的复杂统计结构加性回归模型(STAR)进行了比较[4].我们表明,使用XGBoost可以在个人水平上预测指标,并且与复杂的SAE统计模型相比,结果通常更好。

方法

数据源

在本节中,我们将介绍本研究中使用的数据集。荷兰政策制定者对许多不同调查的小区域估计感兴趣。重要的是要验证机器学习是否能够适应这些调查,这些调查可能具有非常不同的特征。这种方法在将来可以用来自动产生所需的估计。我们考虑三个调查:

  1. 1

    “成人和老年人健康监测”(HeMo)

  2. 2

    “荷兰住房研究”(WoON)

  3. 3.

    “经历交通噪音干扰”(噪音)调查。

对于调查数据集,我们基于荷兰统计局提供的行政数据构建了相应的具有特征的人口数据集。人口数据集包括调查当年18岁或以上的全部荷兰人口,但未包括在两项调查中被收容的人除外。每个受访者都被分配了一个安全的识别号码,将每次调查与行政数据联系起来。该链接的授权由CBS提供。不可能披露和追踪个人。数据集汇总在表中1.结果和特征将在下一节中进一步详细描述。

表1本研究使用的数据集

健康monitor-HeMo

成人和老年人健康监测(HeMo)是一项关于自我报告健康和幸福的广泛全国性调查。这项调查每四年一次,由卫生部各区域与国家公共卫生和环境研究所(RIVM)和荷兰统计局合作进行。在撰写本文时,已经收集了2012年、2016年和2020年的数据。在本文中,我们考虑了2020年调查的结果。2020年9月,通过在线问卷收集了539,895名受访者(占荷兰成年人口的3.9%)的数据[1].我们考虑从调查中选择的34个二元健康指标。这些指标包括饮酒、吸烟行为、体重、身心健康、残疾、经济困难、锻炼、孤独、自我感知健康和非正式护理。表格9附录描述所有指标项。

荷兰住宅研究- woon

荷兰住房调查(WoON)也是一项全国性调查,由荷兰统计局(CBS)与内政部(BZK)合作每三年进行一次。该调查收集了18岁或以上非收容机构的荷兰居民的当前住房状况和期望住房状况的信息。撰写本文时,收集的数据为2006-2018年。下面我们来看看2018年的调查结果。2017年8月至2018年4月期间,通过在线问卷收集了67,523名受访者(占荷兰成年人口的0.54%,非机构)的数据[2].我们考虑了调查中八个连续的住房满意度评级。前7个评分为1 - 5分(1:非常不同意,2:不同意,……,5:strongly agree) and the last rating is a composite score between 1 and 10. Table10附录给出完整的描述。

经历过交通噪音的干扰

交通噪音干扰是2016年HeMo调查中一个重要的问题子集。噪声源被确定为道路、火车或空中交通噪音。道路噪声进一步分为任何噪声、小于50公里/小时的交通噪声和超过50公里/小时的交通噪声。然后将噪音滋扰分为(1)严重(2)中等或严重,从而产生表中10项指标11附录.行政数据预计只能提供有关荷兰人口遭受交通噪音干扰的有限信息。相反,在个体的空间位置测量的噪声水平可以提供大部分信息。RIVM开发了一个噪声分散模型,可以根据实际测量数据、公路和铁路基础设施知识、飞行路线等预测每个地址的噪声水平。[12].对于这项任务,我们只使用18-64岁的人群,并将其作为管理数据的附加特征添加到管理数据中。表格12附录描述噪声级预测。

人口管理数据

荷兰人口的特征来自CBS的管理数据。基于先前的研究和MHS和RIVM的专家意见,我们使用14个特征来模拟HeMo, WoON和Noise的响应。在个人层面,我们使用年龄、性别、种族、婚姻状况和最高完成教育水平。在家庭层面,我们有家庭类型、规模、收入来源、房屋所有权、收入和资产,以及家庭地址的X坐标和y坐标。在社区层面,我们有地址密度。对于WoON,我们还添加了8个额外的邻域特征,以测试为HeMo泛化开发的模型的效果。首先是无人居住住房、独栋住房、非租赁住房、社会住房和2000年以前建造的住房的百分比。第二,从一个人的房子到最近的森林、回水区和公共绿地的距离。对于噪声,我们包括来自RIVM噪声分散模型的附加噪声级预测。

表2用于HeMo和WoON预测的特征摘要
表3 WoON中用于预测的其他特征

2而且3.总结这些特征。对于分类特征,给出了类别。对于连续的特征,给出了中值和范围。还提供了种群数据中缺失特征的百分比。最重要的问题是缺少最高完成水平的教育。然而,教育水平是一个非常重要的健康预测指标,因为它可以用来区分学生与其他低收入的年轻人。因此,这个特性被认为太重要而不能被排除。缺失特征数据的处理将在下一节中讨论。为了获得尽可能接近调查日期的每个人的人口统计和空间特征,我们使用2020年9月1日作为HeMo的参考日期。对于WoON,我们可以获得人们填写调查的日期,因此可以使用这些日期获得该家庭在这一确切日期的人口统计和空间信息。 However, several data sources are only updated yearly, so for those we use the reference date of January 1, 2018.

市政当局,地区和社区

2020年,哥伦比亚广播公司的行政数据显示,在25个市卫生区、355个市、3163个区和13,478个社区登记的个人。市政卫生服务机构通过一个特定地区的几个市的共同系统(称为MHS区域)开展工作,在公共卫生领域执行若干任务。直辖市是具有法人地位和自治权或司法权的行政区划。他们的职责是中央政府授权给他们的。区嵌套在市中,区嵌套在区中。区和社区是具有一致性的区域,通常具有相似的人口特征,如年龄、社会结构、经济区域、地理特征等。他们没有正式的地位;它们是CBS为了管理和数据收集而定义的。

模型

预测问题的形式化

我们使用调查中受访者的亚人群,根据观察到的健康指标、生活质量评级或噪声干扰指标训练一个模型。然后,我们使用这个模型来预测剩余人口的缺失调查反应,并为荷兰的每个成年人生成预测。从机器学习的角度来看,这是一个监督学习任务。

假设我们有一组N个人表示为\ ([N] = \ {1 2 \ ldots N \} \).调查是一个子集\({\mathcal {I}}\子集[N]\)n来自这个种群的个体。从管理数据集中我们得到向量d特性\(x_i\in {\mathbb {R}}^d\)对于每个人.从调查数据集中,我们得到了回应\ (y_i \ \ {0,1 \} \)(分类)或\(y_i\in {\mathbb {R}}\)(回归)如果该个人曾参与调查(\(i\in {\mathcal {i}}\)),{NA} \ \ (y_i = \文本)否则(\(i\notin {\mathcal {i}}\)).

监督学习的目标是学习一个未知函数\(f:{\mathbb {R}}^d \rightarrow \{0,1\}\)\(f:{\mathbb {R}}^d \rightarrow {\mathbb {R}}\)从一组训练的例子\ ({\ mathcal {D}} = \ {(x_i y_i) \} _{我\ {\ mathcal{我}}}\)每一个都由一个输入向量组成\(x_i\in {\mathbb {R}}^d\)和相关的输出,可能是二进制的\ (y_i \ \ {0,1 \} \)或实\(y_i\in {\mathbb {R}}\).这个函数应该近似于未知的真函数\ (y_i \大约f (x_i) \)关于培训数据\(i\in {\mathcal {i}}\)目的是泛化到新数据\(i\notin {\mathcal {i}}\)这在训练阶段是看不到的。在预测政策制定者的患病率或平均评级时,我们将使用调查中可用的观察到的回答,以及对不在调查中的每个人的模型预测。因此,我们定义了预测的响应\ (y ^ * _i \)为:

$ $ \{对齐}开始y ^ * _i: ={\左\{\{数组}{你}开始y_i &我{}\ {\ mathcal{我}}\ \ f (x_i)范围内随意抽查,我和{}\ {\ mathcal{我}}{数组}\ \端。} \{对齐}$ $

给定对个体的划分\ (r = 1 \ ldots K \)相互排斥的地理区域R \ ({\ mathcal {}} _r \),在那里R \ ({\ mathcal{}} _1 \杯\ ldots \杯{\ mathcal {R}} _K = [N] \)而且R \ ({\ mathcal {}} _r \帽{\ mathcal {R}} _{如果}= \ emptyset \文本R \ ne s \),我们将每个地区的预测患病率或平均评分简单地计算为平均值:

$ ${对齐}p_r = \ \开始压裂{1}{\绿色{\ mathcal {R}} _r \绿色}\总和_{我\ {\ mathcal {R}} _r} y ^ * _i \{对齐}$ $

模型不可知的预测区间可以确定如下。我们的目标是计算\ (b = 1, \ ldots b \)引导统计\ (p ^ {(b)} _r \)为每个区域的真实均值,并取其95%百分位区间作为预测区间。为了量化模型的不确定性,我们将训练数据作为数据集进行bootstrap重采样\ (\ {{\ mathcal {D}} ^ {(b)} \} _ {b = 1} ^ {b} \)并将每种训练的模型表示为f \ (^ {(b)} \).分类结果的不确定性是伯努利试验\(y_i \sim \text {Bern}(p_i)\)从真概率\ (p_i \)我们假设回归的结果服从正态分布\(y_i \sim {\mathcal {N}}(\mu _i,\sigma _i^2)\)给定真均值\μ_i (\ \)和方差\ \(σ_i ^ 2 \).考虑到它们的真实均值,结果是独立的。我们用自举模型预测和常数方差估计平均值\ \(σ^ 2 = \压裂{1}{| {\ mathcal{我}}|}\总和_{我\ {\ mathcal{我}}}(y_i -{\眉题{f}} (x_i)) ^ 2 \)在哪里\({\眉题{f}} (x_i) = \压裂{1}{B} _ {B = 1} \和^ {B} f ^ {(B)} (x_i) \).对于每个自举样本\ (b = 1, \ ldots b \),我们训练模型f \ (^ {(b)} \)并对结果进行抽样。对于未知结果(\(i\notin {\mathcal {i}}\))我们模拟\(y^{(b)}_i \sim \text {Bern}(f^{(b)}(x_i))\)在分类和\ (y ^ {(b)} _i \ sim {\ mathcal {N}} (f ^ {(b)} (x_i) \σ^ 2)\)在回归。已知结果(\(i\in {\mathcal {i}}\))为观测值\(y^{(b)}_i:= y_i\),对应于有限样本校正。然后自举平均值被计算为\ (p ^ {(b)} _r = \压裂{1}{\绿色{\ mathcal {R}} _r \绿色}\总和_{我\ {\ mathcal {R}} _r} y ^ {(b)} _i \).它们的95%百分位区间是预测区间。

零模型

第一个模型是空模型。这个模型简单地预测了荷兰的平均值:患病率或平均评级。每个人,因此每个地理区域都得到了相同的结果:

$ $ \开始f (x_i) ={对齐}\压裂{1}{\绿色{\ mathcal{我}}\绿色}\总和_ {j \ {\ mathcal{我}}}y_j \{对齐}$ $

结构化可加性回归模型(STAR)

正在考虑的第二个模型是专门为荷兰的小面积估计设计的统计模型。该模型是一个结构化可加性回归模型(STAR),为使用惩罚b样条和使用马尔可夫随机场的空间信息建模非线性效应提供了一个详细的框架。广义线性模型和广义可加性模型可视为STAR模型的特例[5].

在本文中,我们使用了STAR模型的更新版本,该模型由[4].RIVM使用的当前STAR模型有几个改进。首先,更新后的模型包含了受教育程度。其次,更多的双向互动包括:性别年龄、种族年龄、婚姻状况年龄、教育程度年龄、种族性别、婚姻状况性别、教育程度性别。第三,使用基函数(连续特征的b样条,分类特征的假人)和回归系数的惩罚进入模型。这也实现了自动的特征选择,即不相关的特征将不会在模型中被选择,从而导致一个更简约的模型[13].最初的STAR模型被用于预测2012年的HeMo,但更新后的模型被用于预测2016年的HeMo。它也将被用作2020年HeMo预测的参考。

对(超)参数的估计是使用有限最大似然(REML)进行的bammgcvR包[1415].由于数据集的大小和模型的复杂性,不可能将该模型拟合到整个数据集。因此,数据集被MHS区域分割,并且每个分割都拟合一个单独的模型,如原始论文[4].为了避免边界效应,每个MHS区域的模型还包括在所考虑的MHS区域周围10公里缓冲区内的所有数据。这些模型具有相同的规格,但估计系数和平滑惩罚可能在不同地区有所不同。

STAR模型中不允许缺少特征值。因此,我们使用随机森林算法,从缺失最少的特征到缺失最多的特征,按顺序将缺失值赋值。

梯度增强(XGBoost)

第三种模型是使用决策树的梯度增强。这是一种用于分类、回归等的通用机器学习技术。在许多数据集上已经表明,复杂的机器学习模型(随机森林、核方法、神经网络、决策树增强)往往在表格数据集中具有良好的分类精度,例如我们的问题[16].我们选择了使用决策树的梯度增强,因为之前的研究比较了SAE中的机器学习方法,发现它们的工作效果略好[89]而且在我们的大型数据集中,它们的计算速度要快得多。

Boosting迭代地创建一个强预测模型,作为弱预测模型的集成,在每次迭代中添加一个新的弱预测模型来补偿现有弱预测模型所造成的误差。梯度增强通过允许任意可微损失函数的优化,推广了其他增强方法。通常采用决策树作为模型,称为梯度增强树。一种称为分类和回归树(CART)的决策树模型可用于分类和回归。给定一个任意的损失函数\ (L (y_i f (x_i)) \)时,梯度增强树可以用一般形式描述为[1317]:

  1. 1

    从一个常数函数开始:\ (f_0文本(x) = \ {argmin} _{\伽马_0}\总和_ {i = 1} ^ {n} L (y_i \伽马_0)\)

  2. 2

    对于每个迭代\(t = 1,\ldots, t \)构造一个新树:

    1. (一)

      例如\(i = 1,\ldots,n\),计算负梯度

      $ $ \{对齐}开始r_{它}= -左\[\压裂{\δL (y_i f (x_i)]}{\δf (x_i)} \右]_ {f = f {t - 1}} \{对齐}$ $
    2. (b)

      拟合目标的分类和回归树\ (r_{我t} \)给出终端节点\ (j = 1, \ ldots J_t \)具有相应的终端区域\ (R_ {j, t} \),即终端节点上的样例集合j在迭代t

    3. (c)

      \ (j = 1, \ ldots J_t \)计算终端节点估计值

      $ ${对齐}\ \开始伽马_ {j, t} = {argmin} _{\伽马}\文本\总和_ {x_i在R_ \ {j, t}} L (y_i, f {t - 1} (x_i) + \γ)\{对齐}$ $
    4. (d)

      使用学习率\α(\ \)更新一个新函数f {t} (x) \ \ ()作为

      $ $ \开始f t}{}{一致(x) = f {t - 1} (x) +α\ \和_ {j = 1} ^ {J_t} \伽马_ {j, t} {\ mathbb{我}}在R_ (x \ {j, t}) \{对齐}$ $

上面的梯度增强算法有两个主要的超参数:迭代次数,即构建的树的数量T,学习率\α(\ \).我们使用R包XGBoost梯度增强的实现[18].极限梯度增强(XGBoost)模型[11]已经在许多比赛中成功使用,我们选择它作为最先进的方法。我们将默认超参数值表示为“XGBoost0”,并将优化的模型表示为“XGBoost”。我们发现默认的超参数值\(\alpha =0.3, T=50\)很好地工作。但是,学习率较低\α(\ \)总是能得到更精确的模型。迭代的最佳次数T这取决于预测结果和学习率。因此,在优化模型中,我们将学习率设置为一个合理的低值\(\alpha = 0.1\)并根据训练数据的五次交叉验证,通过早期停止来限制迭代次数。XGBoost能够直接处理缺失的特征值,就像普通值一样,将它们视为树分割标准,因此不需要首先输入缺失的特征值。我们发现,用XGBoost,缺失值的预测效果稍好一些。

此处应注意空间位置特征,因为位置可能提供不能仅由人口统计学、家庭或社区特征解释的信息。在STAR模型中,位置隐式地包含在模型中,作为使用马尔可夫随机场项的空间相关随机效应,对于基于树的模型,此信息可以由simple提供x而且y坐标。然而,这可能会导致地图中的正交工件[19].因此,我们使用斜地理坐标(OGC)作为替代。这些都是K的特征转换添加到数据中的附加特征\ (x_i \)而且\ (y_i \)坐标特征,计算方法:

$ $ \{对齐}开始x ^ {OGC_k} _i = \√6 {x ^ 2 + y ^ 2 _i _i} \,{因为}\ \文本左[\θ_k -{:} \ \文本左(\压裂{y_i} {x_i} \) \右],\{对齐}$ $

角度在哪里\(θ_k \ \)取值\(\pi (k - 1)/ k, k = 1, \dots, k \),其中K是一个相当大的数字,选择这样的模型精度不会进一步提高。我们发现\(k = 24\)这是一种很好的交易。我们添加了一个扩展名“_ogc”来表示具有此位置信息的模型,而“_xy”作为具有普通x和y坐标的模型。

验证

为了评估模型的性能,我们使用数据集\ ({\ mathcal {D}} = \ {(x_i y_i) \} _{我\ {\ mathcal{我}}}\)已知二元健康相关指标或生活质量评级的调查受访者。我们将这个数据集分成五个互斥的训练集和测试集对,并进行五次交叉验证,即:\ ({\ mathcal {D}} _{\文本{火车}}\杯{\ mathcal {D}} _{\文本{测试}}= {\ mathcal {D}} \)而且\ ({\ mathcal {D}} _{\文本{火车}}\帽{\ mathcal {D}} _{\文本{测试}}= \ emptyset \).每一对都有一个模型f是否适合训练集\({\mathcal {D}}_{\text {train}}\)用观察到的响应和未知的响应在测试集中进行预测\({\mathcal {D}}_{\text {test}}\).将五个互斥测试集中的预测结合在一起,我们因此得到了原始数据集的样本外预测\ ({\ mathcal {D}} \)

为了验证模型,有两个方面特别重要:辨别和校准。歧视只适用于分类,校正适用于分类和回归。歧视衡量的是模型在多大程度上能够区分高风险个体和低风险个体,而不一定考虑预测的绝对值。另一方面,校准量化了预测概率或等级与观测概率或等级的接近程度。在我们的分类任务中,我们的目标是尽可能准确地预测单个概率,因此我们需要校准良好的模型。

接收者工作特征(ROC)是一种流行的识别可视化方法。ROC曲线下的面积(AUC)只衡量歧视,因为它是根据正面例子相对于负面例子的正确排名来计算的[20.].准确性也考虑歧视,因为它是在给定的阈值下正确分类的个体的比例。在二元响应的情况下,校准曲线比较预测概率分位数和每个分位数中1的真实概率。

衡量区分和校准的统计数据是均方误差(MSE)和负对数似然(NLL),我们通过除以样本量进行归一化。我们验证了不同的指标在模型中给出了一致的结果。我们主要将模型精度报告为MSE,这也是二元分类中称为Brier评分的有效度量[21]:

$ ${对齐}\ \开始文本{MSE} ({\ mathcal {D}} _{\文本{测试}})= \压裂{1}{| {\ mathcal {D}} _{\文本{测试}}|}\总和_{我\ {\ mathcal {D}} _{\文本{测试}}}(y_i - f (x_i)) ^ 2 \{对齐}$ $

结果

在本节中,我们首先使用HeMo指标“drinker”详细研究预测任务,这是数据集中的第一个指标。然后,我们总结了34个健康相关指标、8个生活质量评级和10个噪声干扰指标的结果。

根据HeMo调查,2020年社区、区和市各级所有指标的预测患病率可在在线材料提供的URL中找到。

健康指标"饮酒者"

任务是预测二元反应\(y_i \in \{0,1\}\),对应于健康调查问题“你在过去12个月内饮酒吗?”,考虑到个人的人口特征和空间特征。基于XGBoost模型预测的该指标的估计患病率如图中间面板所示。1

图1
图1

荷兰小区小面积估算的实例。基于调查回复(原始估计)、XGBoost模型对人口的预测(模型估计)以及两个模型(XGBoost vs. STAR)的百分点差异的“过去12个月内饮酒”的患病率。XGBoost基于X坐标和y坐标

XGBoost和STAR模型的预测存在一些差异,尽管它们生成的地图看起来非常相似。我们在图的右面板中绘制了预测患病率的差异。1并在表中列出绝对差异4

表4 XGBoost与STAR:预测患病率的百分比差异

在表5我们报告了准确性、AUC、MSE、NLL和训练模型所需的平均时间,并预测每个折叠中的响应。XGBoost是每个度量指标中最准确的模型,使用默认超参数可以在几秒钟内获得XGBoost的预测,而训练STAR模型几乎需要半个小时。

表5“饮酒者”指标的不同准确性指标

为了研究识别能力的全面轮廓并确保模型被良好校准,我们计算了ROC曲线和校准曲线如图所示。2.由于荷兰统计局不允许报告个人预测,我们使用100个不同的阈值作为ROC曲线,使用100个不同的患病率分位数作为校准曲线。模型之间的识别能力非常接近,每个模型都是很好的校准。

图2
图2

ROC和校准曲线。ROC曲线通过绘制不同阈值下的假阳性率和真阳性率来衡量差别。校准曲线显示了预测概率与真实概率的匹配程度:预测概率的平均值是在真实概率的不同分位数上计算的,对角线表示完美匹配

由于主要的兴趣是小区域,我们还希望确保新模型(XGBoost)在这些区域与以前的模型(STAR)匹配。在无花果。3.,我们比较了每个邻域的预测患病率,并通过不同区域大小的MSE测量模型精度。本例中的Pearson相关系数为95%,这意味着两个模型预测的流行度非常相似,但并不完全相同。XGBoost模型对于“饮酒者”指标的所有面积大小都具有较低的MSE。

图3
图3

XGBoost vs. STAR预测。我们在散点图(左)上比较XGBoost和STAR模型在每个社区的预测流行率。我们还计算了属于相同邻域大小分位数的个体分层的MSE(右)

所有与健康相关的指标,生活质量评级,以及噪音干扰

我们将XGBoost模型(x和y, ogc)与优化的超参数和STAR模型拟合到34个健康相关指标、8个感知生活质量评级和10个体验噪声干扰指标中。我们通过它们的MSE来衡量性能,因为之前的实验表明不同的度量标准给出一致的结果。由于主要目标是通过使用机器学习模型来改进现有的统计模型,因此我们还通过每个表中的以下列总结了XGBoost与STAR模型的比较:

  • 每个社区预测的皮尔逊相关(corr)。

  • XGBoost获得的预测(pred)的MSE改进百分比。

  • XGBoost在训练和预测时间(时间)上的改进%。

在表6我们看到XGBoost是34个健康指标中每一个指标的最佳模型。在表7,我们看到XGBoost是8个房屋调查评级中除一个以外的所有模型的最佳模型。在表8,我们发现XGBoost在噪声干扰指标上总是优于或同样好于STAR模型。

就整体MSE而言,XGBoost比STAR的改进似乎很小,低于1%,但每个邻域的预测流行率之间仍然存在差异,如84-97%的相关性所示。即使在搜索最优超参数的XGBoost模型中,训练和预测时间也得到了很大的改善。健康监测的训练和预测次数在10%左右,住房调查的训练和预测次数在1%以下,STAR模型的噪声干扰训练和预测次数在5%左右。

表6所有健康相关指标的MSE模型比较XGBoost斜坐标与STAR:预测之间的相关性(corr),百分比中MSE的减少(pred),百分比中训练和测试预测时间的减少(time)
表7各生活质量等级MSE模型的比较
表8基于以“-”分隔的相关噪声测量的所有噪声干扰指标的MSE模型比较

讨论

易于应用

我们研究了使用梯度增强树进行小面积估计的机器学习。机器学习的思想是使用一种通用的学习算法,可以应用于任何新问题。该算法是一个“黑盒”模型:我们必须只将特征定义为输入,将标签定义为输出。一个准确的模型被学习作为结果。这意味着不需要显式的模型规范,就像统计模型一样。

通用学习算法非常灵活:它可以学习非线性效应、任意程度的相互作用和复杂的空间模式。即使考虑了这些特征,调查数据仍然存在空间异质性,因此应特别注意空间成分。简单的x和y坐标工作得很好,但是斜坐标表示的特征转换可能会提高精度。该方法允许以一种灵活的方式在位置和特征之间进行任何可能的交互,因此它还可以在必要时模拟地理加权回归(GWR)。

模型应用程序是简单的。该模型可以适用于整个荷兰人口,而不是将数据分割成子集。原始数据集可以直接使用,因为决策树执行自动特征选择、缩放和分割。可以在模型中使用缺失的值,而不是用复杂的方法来输入它们。与STAR模型相比,XGBoost在数据预处理、模型规范和预测方面节省了大量时间。

模型的准确性

在我们的示例任务中,所有模型都比零模型取得了显著的改进,表明人口统计和空间特征与调查结果之间存在某种关系。零模型在实践中是无用的,因为它预测每个地区的流行程度相同。否则,模型在总体指标上看起来非常接近。在不同的阈值下,模型的假阳性率和真阳性率也有相似的情况。校准曲线表明每个模型都经过了良好的校准。在噪声预测任务中,使用斜坐标始终比x坐标和y坐标的误差更低。在这项任务中,信号可能主要是空间的,平滑效果通过去除正交伪影而有利于模型[19].

然而,如果我们观察每个小地区对“饮酒者”流行率的实际预测,就会发现一些差异。表格4表明很少有社区(0.6%)拥有超过% \ \ 5下午(\ \)预测患病率的百分比差异,即使这些差异可以达到\ \下午12 \ % \)XGBoost vs. STAR。在0-5%范围内存在微小但显著差异的社区更为常见。我们无法确定造成这种差异的社区特征,但在图的右侧面板中可以识别出空间趋势。1.STAR模型具有更精细的空间模型,而XGBoost在指定人口统计特征如何影响结果方面具有更大的灵活性。从很少的受访者中学习空间效应是不可能的,但如果有许多受访者,空间效应能够补偿有偏见的模型。这种偏差可能是由过于简化的模型规范或数据缺少重要特征造成的。例如,引入原始STAR模型的研究[4]发现,由于模型规范缺少“教育”水平,加上附近的受访者很少,导致吸烟流行率的估计令人难以置信。

这些发现表明,总体指标可能表明模型之间的差异很小,而实际的预测任务显示出相当大的差异。为了对小区域进行更好的预测,追求稍微更准确的模型可能是有益的。最终目标是准确预测社区水平的流行情况,我们希望准确性指标的改进可以作为这种能力的替代措施。整体指标并不能保证该模型对小区域更好。出于这个原因,我们验证了XGBoost对所有区域大小都更好。在非常小的区域观察到的差异最小。

模型拟合的解释

在许多情况下,解释预测模型是有意义的。STAR模型是可直接解释的:每个术语都描述了当所有其他特征保持不变时,预测如何作为一个特征值的函数变化。从这个模型可以计算出效应量和统计显著性。在无花果。4附录,我们绘制模型中包含的所有不同的项。尽管该模型在理论上是可解释的,但要理解几个特征(年龄、性别、种族、婚姻状况、教育程度)的影响是相当具有挑战性的,因为该模型包含了如此多的相互作用。

沙普利相加解释[22]是解释机器学习模型的一种方法。沙普利值是为每个个体的每个特征值计算的。在概念层面上,SHAP值将每个个体的预测解释为其特征贡献的总和。在无花果。5附录,我们绘制XGBoost在每个特征值处的平均SHAP值。它们提供了一种与STAR模型非常相似的解释。

限制和可能的扩展

许多允许将个人调查数据与其管理数据联系起来的其他调查也可以用同样的方法进行调查。我们的方法的主要限制是数据的数量和质量。基于回归的SAE需要用于总体的管理数据集和用于总体子集的合理大小的调查数据集。

荷兰收集了高质量的管理数据集,可在安全的CBS环境中使用,但许多其他国家并非如此。基于机器学习的复杂模型有许多可用的特征,但在信息较少的情况下,简单的模型可能具有竞争力。另一个限制可能是调查的规模。每次调查都有数万到数十万的受访者。在应答者相当少的情况下,简单的方法可能就足够了,因为不可能从少量数据中学习复杂的模型。我们还没有调查所需的最低数量的受访者,但这可能是一个进一步研究的主题。

我们在荷兰各地进行分层抽样调查[12],估计程序原则上可以解释一个不具代表性的样本。这是因为回归方法假设整个人口的数据是可用的,并预测不在调查中的个体的答案。例如,如果高收入人群回答了更多的调查,直接使用调查结果会产生偏见。基于模型的估计仍然应该是正确的,因为我们预测了高收入和低收入人群的答案,因为他们在人群中是有代表性的。唯一的要求是,鉴于个体的特征,模型对响应是无偏倚的。更简单的方法,如调查加权,通过结合设计权重和后分层考虑这一点。

结论

我们使用了梯度增强决策树,正如在“XGBoost”R包中实现的那样,作为一种机器学习方法,用于提供荷兰人口公共卫生、住房和福利的小区域估计。标签是调查中的回应,特征来自人口统计和空间变量的注册表数据集。这些回答适用于人口的一小部分,但注册数据适用于荷兰的整个成年人口。因此,缺失的调查反应可以通过观察到的反应训练的模型来预测,这些预测汇集成每个小区域的预测患病率或平均评级。

我们已经看到机器学习有很多好处。单一的机器学习方法可以在几分钟内完成预测任务,其精度与荷兰小区域估计专用模型相似。梯度增强决策树能够稍微提高准确率,并大大提高训练和预测时间。默认超参数工作得很好,调优只实现了很小的性能改进。该模型在简单性和易用性方面是无与伦比的。统计学家不需要进行复杂、耗时且容易出错的模型规范过程。该方法从x坐标和y坐标中自动学习非线性特征效应、不同程度的相互作用和复杂的空间信号。当信号以空间为主时,利用斜坐标变换可以进一步提高精度和解释。这些结果表明,机器学习是小面积估计的一个有吸引力的替代方案。

数据和材料的可用性

https://statline.rivm.nl/#/RIVM/nl/dataset/50090NED.代码https://gitlab.com/majuvi/smap-2020-paper.授权的研究人员可以在CBS远程访问环境中访问数据,请参见https://www.cbs.nl/en-gb/onze-diensten/customised-services-microdata/microdata-conducting-your-own-research

参考文献

  1. Hiemstra M, Dinnissen C. Opbouw en instructie total on Gezondheidsmonitor Volwassenen 2020。荷兰:中央统计局;2021.

    谷歌学者

  2. Janssen S. Woon 2018 onderzoeksdocumentatie en kwaliteits分析。加拿大:出生;2019.24页。

    谷歌学者

  3. 小面积估计的新进展。统计科学2013;28(1):40-68。

    文章谷歌学者

  4. van de Kassteele J, Zwakhals L, Breugelmans O, Ameling C, van den Brink C.使用结构化相加回归估计荷兰社区水平26种健康相关指标的患病率。中华卫生杂志,2017;16(1):1 - 15。

    文章谷歌学者

  5. 范美尔,刘文杰,刘文杰,刘文杰。模型、方法和应用。柏林:施普林格;2013.

    谷歌学者

  6. 克里格勒B,伯克R.洛杉矶无家可归者的小面积估计:成本敏感随机梯度增强的应用。Ann应用统计2010。https://doi.org/10.1214/10-AOAS328

    文章谷歌学者

  7. Anderson W, Guikema S, Zaitchik B, Pan W.在数据有限地区估计人口密度的方法:评估回归和基于树的秘鲁模型。PloS ONE。2014; 9(7): 100037。

    文章谷歌学者

  8. Robinson C, Dilkina B, Hubbs J, Zhang W, Guhathakurta S, Brown MA, Pendyala RM。评估商业建筑能耗的机器学习方法。应用能源,2017;208:889-904。

    文章谷歌学者

  9. Kontokosta CE, Hong B, Johnson NE, Starobin D.使用机器学习和小面积估计预测城市建筑级城市固体废物产生。城市生态学报,2018;

    文章谷歌学者

  10. Singleton A, Alexiou A, Savani R.绘制英国数字不平等的地理人口统计学:机器学习与小区域估计的集成。计算环境城市系统,2020;82:101486。

    文章谷歌学者

  11. Chen T, Guestrin C. Xgboost:一个可扩展的树木增强系统。旧金山:第22届Acm Sigkdd知识发现和数据挖掘国际会议论文集;2016.p . 785 - 94。

    谷歌学者

  12. Schreurs E, Jabben J, Verheijen E. stamina模型描述标准模型仪器噪声评估。乌特勒支:国家;2010.

    谷歌学者

  13. Hastie T, Tibshirani R, Friedman J.统计学习的要素:数据挖掘,推断和预测。纽约:施普林格;2009.

    谷歌学者

  14. 木头SN。半参数广义线性模型的快速稳定限制极大似然和边际似然估计。中国科学院学报(自然科学版);2011;36(1):1 - 3。https://doi.org/10.1111/j.1467-9868.2010.00749.x

    文章谷歌学者

  15. 伍森,高德,肖。大数据集的广义加性模型。中国科学院学报(自然科学版),2015;36(1):1 - 5。https://doi.org/10.1111/rssc.12068

    文章谷歌学者

  16. Fernández-Delgado M, Cernadas E, Barro S, Amorim d,我们需要数百个分类器来解决现实世界的分类问题吗?中国机械工程学报,2014;26(1):366 - 366。

    谷歌学者

  17. 弗里德曼JH。贪心函数逼近:一种梯度提升机。安统计,2001年。https://doi.org/10.1214/aos/1013203451

    文章谷歌学者

  18. 陈婷,何婷,Benesty M, Khotilovich V,唐毅,Cho H,陈凯,Mitchell R, Cano I,周婷,李敏,谢娟,林敏,耿勇,李艳。维也纳:R包版本1.4.1.1;2021.

    谷歌学者

  19. 杨晓明,王晓明,杨晓明。基于地理坐标的数字土壤制图方法。土壤。2020; 6(2): 269 - 89。https://doi.org/10.5194/soil-6-269-2020

    文章谷歌学者

  20. 福西特T. roc分析入门。模式识别,2006;27(8):861-74。

    文章谷歌学者

  21. 使用brier评分来评估二元预测。临床流行病学杂志,2010;63(8):938-9。

    文章谷歌学者

  22. 伦德伯格,李世义。解释模型预测的统一方法。长滩:第31届神经信息处理系统国际会议论文集;2017.p . 4768 - 77。

    谷歌学者

下载参考

确认

我们感谢参与2020年健康监测的研究人员。

资金

这项研究是在战略计划RIVM (SPR)的框架内进行的,其中专业知识和创新项目使RIVM能够应对未来的健康和可持续性问题。

作者信息

作者及隶属关系

作者

贡献

MV负责模型和实验,并撰写了手稿。LM参与模型开发,实施WoON实验,导出在线结果,并审阅稿件。LZ负责协调项目并审核稿件。JK撰写并批准了手稿。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到马库斯Viljanen

道德声明

伦理批准并同意参与

CBS提供了对管理数据和连接数据集的安全标识符的授权。不可能披露和追踪个人。只有经过授权的机构才能在严格的条件下使用CBS的微观数据进行统计研究。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

附录

附录

表9公共卫生监测(" HeMo ")提供的健康相关指标子集
表10房屋调查对居住质素的感知评分(“WoON”)
表11公共健康监控器经历过的噪声干扰子集(“噪声”)
表12 RIVM噪声分散模型估计的噪声级(dB)
表13荷兰教育水平说明
图4
图4

STAR模型术语“饮酒者”指标..由于25个GGD区域的每个区域都拟合了不同的模型,因此我们计算给定特征值在这些模型上的平均项值。尽管解释被视为统计模型的一个优势,但要解释如此复杂的模型并非易事。与下面的XGBoost SHAP值相比,STAR模型似乎有类似的解释

图5
图5

XGBoost SHAP值为“饮酒者”指标..由于SHAP值将每个个体的预测解释为其特征贡献的总和,因此我们计算给定特征值的这些个体的平均SHAP值。这些都有直观的解释。饮酒的积极因素有:年龄在20岁出头,性别是男性,离过婚,社会经济地位较高。负面贡献:退休、性别是女性、种族背景以伊斯兰教为主要宗教、家庭规模较大、收入和资产在最低的25%左右

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

Viljanen, M., Meijerink, L., Zwakhals, L.。et al。小面积估计的机器学习方法:预测荷兰人口的健康、住房和福祉。国际J卫生geor21, 4(2022)。https://doi.org/10.1186/s12942-022-00304-5

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s12942-022-00304-5

关键字

  • 小面积估计
  • 机器学习
  • 极端梯度增强
  • 保健和福利
Baidu
map