数据源
在本节中,我们将介绍本研究中使用的数据集。荷兰政策制定者对许多不同调查的小区域估计感兴趣。重要的是要验证机器学习是否能够适应这些调查,这些调查可能具有非常不同的特征。这种方法在将来可以用来自动产生所需的估计。我们考虑三个调查:
- 1
“成人和老年人健康监测”(HeMo)
- 2
“荷兰住房研究”(WoON)
- 3.
“经历交通噪音干扰”(噪音)调查。
对于调查数据集,我们基于荷兰统计局提供的行政数据构建了相应的具有特征的人口数据集。人口数据集包括调查当年18岁或以上的全部荷兰人口,但未包括在两项调查中被收容的人除外。每个受访者都被分配了一个安全的识别号码,将每次调查与行政数据联系起来。该链接的授权由CBS提供。不可能披露和追踪个人。数据集汇总在表中1.结果和特征将在下一节中进一步详细描述。
健康monitor-HeMo
成人和老年人健康监测(HeMo)是一项关于自我报告健康和幸福的广泛全国性调查。这项调查每四年一次,由卫生部各区域与国家公共卫生和环境研究所(RIVM)和荷兰统计局合作进行。在撰写本文时,已经收集了2012年、2016年和2020年的数据。在本文中,我们考虑了2020年调查的结果。2020年9月,通过在线问卷收集了539,895名受访者(占荷兰成年人口的3.9%)的数据[1].我们考虑从调查中选择的34个二元健康指标。这些指标包括饮酒、吸烟行为、体重、身心健康、残疾、经济困难、锻炼、孤独、自我感知健康和非正式护理。表格9在附录描述所有指标项。
荷兰住宅研究- woon
荷兰住房调查(WoON)也是一项全国性调查,由荷兰统计局(CBS)与内政部(BZK)合作每三年进行一次。该调查收集了18岁或以上非收容机构的荷兰居民的当前住房状况和期望住房状况的信息。撰写本文时,收集的数据为2006-2018年。下面我们来看看2018年的调查结果。2017年8月至2018年4月期间,通过在线问卷收集了67,523名受访者(占荷兰成年人口的0.54%,非机构)的数据[2].我们考虑了调查中八个连续的住房满意度评级。前7个评分为1 - 5分(1:非常不同意,2:不同意,……,5:strongly agree) and the last rating is a composite score between 1 and 10. Table10在附录给出完整的描述。
经历过交通噪音的干扰
交通噪音干扰是2016年HeMo调查中一个重要的问题子集。噪声源被确定为道路、火车或空中交通噪音。道路噪声进一步分为任何噪声、小于50公里/小时的交通噪声和超过50公里/小时的交通噪声。然后将噪音滋扰分为(1)严重(2)中等或严重,从而产生表中10项指标11在附录.行政数据预计只能提供有关荷兰人口遭受交通噪音干扰的有限信息。相反,在个体的空间位置测量的噪声水平可以提供大部分信息。RIVM开发了一个噪声分散模型,可以根据实际测量数据、公路和铁路基础设施知识、飞行路线等预测每个地址的噪声水平。[12].对于这项任务,我们只使用18-64岁的人群,并将其作为管理数据的附加特征添加到管理数据中。表格12在附录描述噪声级预测。
人口管理数据
荷兰人口的特征来自CBS的管理数据。基于先前的研究和MHS和RIVM的专家意见,我们使用14个特征来模拟HeMo, WoON和Noise的响应。在个人层面,我们使用年龄、性别、种族、婚姻状况和最高完成教育水平。在家庭层面,我们有家庭类型、规模、收入来源、房屋所有权、收入和资产,以及家庭地址的X坐标和y坐标。在社区层面,我们有地址密度。对于WoON,我们还添加了8个额外的邻域特征,以测试为HeMo泛化开发的模型的效果。首先是无人居住住房、独栋住房、非租赁住房、社会住房和2000年以前建造的住房的百分比。第二,从一个人的房子到最近的森林、回水区和公共绿地的距离。对于噪声,我们包括来自RIVM噪声分散模型的附加噪声级预测。
表2而且3.总结这些特征。对于分类特征,给出了类别。对于连续的特征,给出了中值和范围。还提供了种群数据中缺失特征的百分比。最重要的问题是缺少最高完成水平的教育。然而,教育水平是一个非常重要的健康预测指标,因为它可以用来区分学生与其他低收入的年轻人。因此,这个特性被认为太重要而不能被排除。缺失特征数据的处理将在下一节中讨论。为了获得尽可能接近调查日期的每个人的人口统计和空间特征,我们使用2020年9月1日作为HeMo的参考日期。对于WoON,我们可以获得人们填写调查的日期,因此可以使用这些日期获得该家庭在这一确切日期的人口统计和空间信息。 However, several data sources are only updated yearly, so for those we use the reference date of January 1, 2018.
市政当局,地区和社区
2020年,哥伦比亚广播公司的行政数据显示,在25个市卫生区、355个市、3163个区和13,478个社区登记的个人。市政卫生服务机构通过一个特定地区的几个市的共同系统(称为MHS区域)开展工作,在公共卫生领域执行若干任务。直辖市是具有法人地位和自治权或司法权的行政区划。他们的职责是中央政府授权给他们的。区嵌套在市中,区嵌套在区中。区和社区是具有一致性的区域,通常具有相似的人口特征,如年龄、社会结构、经济区域、地理特征等。他们没有正式的地位;它们是CBS为了管理和数据收集而定义的。
模型
预测问题的形式化
我们使用调查中受访者的亚人群,根据观察到的健康指标、生活质量评级或噪声干扰指标训练一个模型。然后,我们使用这个模型来预测剩余人口的缺失调查反应,并为荷兰的每个成年人生成预测。从机器学习的角度来看,这是一个监督学习任务。
假设我们有一组N个人表示为\ ([N] = \ {1 2 \ ldots N \} \).调查是一个子集\({\mathcal {I}}\子集[N]\)的n来自这个种群的个体。从管理数据集中我们得到向量d特性\(x_i\in {\mathbb {R}}^d\)对于每个人我.从调查数据集中,我们得到了回应\ (y_i \ \ {0,1 \} \)(分类)或\(y_i\in {\mathbb {R}}\)(回归)如果该个人曾参与调查(\(i\in {\mathcal {i}}\)),{NA} \ \ (y_i = \文本)否则(\(i\notin {\mathcal {i}}\)).
监督学习的目标是学习一个未知函数\(f:{\mathbb {R}}^d \rightarrow \{0,1\}\)或\(f:{\mathbb {R}}^d \rightarrow {\mathbb {R}}\)从一组训练的例子\ ({\ mathcal {D}} = \ {(x_i y_i) \} _{我\ {\ mathcal{我}}}\)每一个都由一个输入向量组成\(x_i\in {\mathbb {R}}^d\)和相关的输出,可能是二进制的\ (y_i \ \ {0,1 \} \)或实\(y_i\in {\mathbb {R}}\).这个函数应该近似于未知的真函数\ (y_i \大约f (x_i) \)关于培训数据\(i\in {\mathcal {i}}\)目的是泛化到新数据\(i\notin {\mathcal {i}}\)这在训练阶段是看不到的。在预测政策制定者的患病率或平均评级时,我们将使用调查中可用的观察到的回答,以及对不在调查中的每个人的模型预测。因此,我们定义了预测的响应\ (y ^ * _i \)为:
$ $ \{对齐}开始y ^ * _i: ={\左\{\{数组}{你}开始y_i &我{}\ {\ mathcal{我}}\ \ f (x_i)范围内随意抽查,我和{}\ {\ mathcal{我}}{数组}\ \端。} \{对齐}$ $
给定对个体的划分\ (r = 1 \ ldots K \)相互排斥的地理区域R \ ({\ mathcal {}} _r \),在那里R \ ({\ mathcal{}} _1 \杯\ ldots \杯{\ mathcal {R}} _K = [N] \)而且R \ ({\ mathcal {}} _r \帽{\ mathcal {R}} _{如果}= \ emptyset \文本R \ ne s \),我们将每个地区的预测患病率或平均评分简单地计算为平均值:
$ ${对齐}p_r = \ \开始压裂{1}{\绿色{\ mathcal {R}} _r \绿色}\总和_{我\ {\ mathcal {R}} _r} y ^ * _i \{对齐}$ $
模型不可知的预测区间可以确定如下。我们的目标是计算\ (b = 1, \ ldots b \)引导统计\ (p ^ {(b)} _r \)为每个区域的真实均值,并取其95%百分位区间作为预测区间。为了量化模型的不确定性,我们将训练数据作为数据集进行bootstrap重采样\ (\ {{\ mathcal {D}} ^ {(b)} \} _ {b = 1} ^ {b} \)并将每种训练的模型表示为f \ (^ {(b)} \).分类结果的不确定性是伯努利试验\(y_i \sim \text {Bern}(p_i)\)从真概率\ (p_i \)我们假设回归的结果服从正态分布\(y_i \sim {\mathcal {N}}(\mu _i,\sigma _i^2)\)给定真均值\μ_i (\ \)和方差\ \(σ_i ^ 2 \).考虑到它们的真实均值,结果是独立的。我们用自举模型预测和常数方差估计平均值\ \(σ^ 2 = \压裂{1}{| {\ mathcal{我}}|}\总和_{我\ {\ mathcal{我}}}(y_i -{\眉题{f}} (x_i)) ^ 2 \)在哪里\({\眉题{f}} (x_i) = \压裂{1}{B} _ {B = 1} \和^ {B} f ^ {(B)} (x_i) \).对于每个自举样本\ (b = 1, \ ldots b \),我们训练模型f \ (^ {(b)} \)并对结果进行抽样。对于未知结果(\(i\notin {\mathcal {i}}\))我们模拟\(y^{(b)}_i \sim \text {Bern}(f^{(b)}(x_i))\)在分类和\ (y ^ {(b)} _i \ sim {\ mathcal {N}} (f ^ {(b)} (x_i) \σ^ 2)\)在回归。已知结果(\(i\in {\mathcal {i}}\))为观测值\(y^{(b)}_i:= y_i\),对应于有限样本校正。然后自举平均值被计算为\ (p ^ {(b)} _r = \压裂{1}{\绿色{\ mathcal {R}} _r \绿色}\总和_{我\ {\ mathcal {R}} _r} y ^ {(b)} _i \).它们的95%百分位区间是预测区间。
零模型
第一个模型是空模型。这个模型简单地预测了荷兰的平均值:患病率或平均评级。每个人,因此每个地理区域都得到了相同的结果:
$ $ \开始f (x_i) ={对齐}\压裂{1}{\绿色{\ mathcal{我}}\绿色}\总和_ {j \ {\ mathcal{我}}}y_j \{对齐}$ $
结构化可加性回归模型(STAR)
正在考虑的第二个模型是专门为荷兰的小面积估计设计的统计模型。该模型是一个结构化可加性回归模型(STAR),为使用惩罚b样条和使用马尔可夫随机场的空间信息建模非线性效应提供了一个详细的框架。广义线性模型和广义可加性模型可视为STAR模型的特例[5].
在本文中,我们使用了STAR模型的更新版本,该模型由[4].RIVM使用的当前STAR模型有几个改进。首先,更新后的模型包含了受教育程度。其次,更多的双向互动包括:性别年龄、种族年龄、婚姻状况年龄、教育程度年龄、种族性别、婚姻状况性别、教育程度性别。第三,使用基函数(连续特征的b样条,分类特征的假人)和回归系数的惩罚进入模型。这也实现了自动的特征选择,即不相关的特征将不会在模型中被选择,从而导致一个更简约的模型[13].最初的STAR模型被用于预测2012年的HeMo,但更新后的模型被用于预测2016年的HeMo。它也将被用作2020年HeMo预测的参考。
对(超)参数的估计是使用有限最大似然(REML)进行的bam在mgcvR包[14,15].由于数据集的大小和模型的复杂性,不可能将该模型拟合到整个数据集。因此,数据集被MHS区域分割,并且每个分割都拟合一个单独的模型,如原始论文[4].为了避免边界效应,每个MHS区域的模型还包括在所考虑的MHS区域周围10公里缓冲区内的所有数据。这些模型具有相同的规格,但估计系数和平滑惩罚可能在不同地区有所不同。
STAR模型中不允许缺少特征值。因此,我们使用随机森林算法,从缺失最少的特征到缺失最多的特征,按顺序将缺失值赋值。
梯度增强(XGBoost)
第三种模型是使用决策树的梯度增强。这是一种用于分类、回归等的通用机器学习技术。在许多数据集上已经表明,复杂的机器学习模型(随机森林、核方法、神经网络、决策树增强)往往在表格数据集中具有良好的分类精度,例如我们的问题[16].我们选择了使用决策树的梯度增强,因为之前的研究比较了SAE中的机器学习方法,发现它们的工作效果略好[8,9]而且在我们的大型数据集中,它们的计算速度要快得多。
Boosting迭代地创建一个强预测模型,作为弱预测模型的集成,在每次迭代中添加一个新的弱预测模型来补偿现有弱预测模型所造成的误差。梯度增强通过允许任意可微损失函数的优化,推广了其他增强方法。通常采用决策树作为模型,称为梯度增强树。一种称为分类和回归树(CART)的决策树模型可用于分类和回归。给定一个任意的损失函数\ (L (y_i f (x_i)) \)时,梯度增强树可以用一般形式描述为[13,17]:
- 1
从一个常数函数开始:\ (f_0文本(x) = \ {argmin} _{\伽马_0}\总和_ {i = 1} ^ {n} L (y_i \伽马_0)\)
- 2
对于每个迭代\(t = 1,\ldots, t \)构造一个新树:
- (一)
例如\(i = 1,\ldots,n\),计算负梯度
$ $ \{对齐}开始r_{它}= -左\[\压裂{\δL (y_i f (x_i)]}{\δf (x_i)} \右]_ {f = f {t - 1}} \{对齐}$ $
- (b)
拟合目标的分类和回归树\ (r_{我t} \)给出终端节点\ (j = 1, \ ldots J_t \)具有相应的终端区域\ (R_ {j, t} \),即终端节点上的样例集合j在迭代t.
- (c)
为\ (j = 1, \ ldots J_t \)计算终端节点估计值
$ ${对齐}\ \开始伽马_ {j, t} = {argmin} _{\伽马}\文本\总和_ {x_i在R_ \ {j, t}} L (y_i, f {t - 1} (x_i) + \γ)\{对齐}$ $
- (d)
使用学习率\α(\ \)更新一个新函数f {t} (x) \ \ ()作为
$ $ \开始f t}{}{一致(x) = f {t - 1} (x) +α\ \和_ {j = 1} ^ {J_t} \伽马_ {j, t} {\ mathbb{我}}在R_ (x \ {j, t}) \{对齐}$ $
上面的梯度增强算法有两个主要的超参数:迭代次数,即构建的树的数量T,学习率\α(\ \).我们使用R包XGBoost梯度增强的实现[18].极限梯度增强(XGBoost)模型[11]已经在许多比赛中成功使用,我们选择它作为最先进的方法。我们将默认超参数值表示为“XGBoost0”,并将优化的模型表示为“XGBoost”。我们发现默认的超参数值\(\alpha =0.3, T=50\)很好地工作。但是,学习率较低\α(\ \)总是能得到更精确的模型。迭代的最佳次数T这取决于预测结果和学习率。因此,在优化模型中,我们将学习率设置为一个合理的低值\(\alpha = 0.1\)并根据训练数据的五次交叉验证,通过早期停止来限制迭代次数。XGBoost能够直接处理缺失的特征值,就像普通值一样,将它们视为树分割标准,因此不需要首先输入缺失的特征值。我们发现,用XGBoost,缺失值的预测效果稍好一些。
此处应注意空间位置特征,因为位置可能提供不能仅由人口统计学、家庭或社区特征解释的信息。在STAR模型中,位置隐式地包含在模型中,作为使用马尔可夫随机场项的空间相关随机效应,对于基于树的模型,此信息可以由simple提供x而且y坐标。然而,这可能会导致地图中的正交工件[19].因此,我们使用斜地理坐标(OGC)作为替代。这些都是K的特征转换添加到数据中的附加特征\ (x_i \)而且\ (y_i \)坐标特征,计算方法:
$ $ \{对齐}开始x ^ {OGC_k} _i = \√6 {x ^ 2 + y ^ 2 _i _i} \,{因为}\ \文本左[\θ_k -{:} \ \文本左(\压裂{y_i} {x_i} \) \右],\{对齐}$ $
角度在哪里\(θ_k \ \)取值\(\pi (k - 1)/ k, k = 1, \dots, k \),其中K是一个相当大的数字,选择这样的模型精度不会进一步提高。我们发现\(k = 24\)这是一种很好的交易。我们添加了一个扩展名“_ogc”来表示具有此位置信息的模型,而“_xy”作为具有普通x和y坐标的模型。
验证
为了评估模型的性能,我们使用数据集\ ({\ mathcal {D}} = \ {(x_i y_i) \} _{我\ {\ mathcal{我}}}\)已知二元健康相关指标或生活质量评级的调查受访者。我们将这个数据集分成五个互斥的训练集和测试集对,并进行五次交叉验证,即:\ ({\ mathcal {D}} _{\文本{火车}}\杯{\ mathcal {D}} _{\文本{测试}}= {\ mathcal {D}} \)而且\ ({\ mathcal {D}} _{\文本{火车}}\帽{\ mathcal {D}} _{\文本{测试}}= \ emptyset \).每一对都有一个模型f是否适合训练集\({\mathcal {D}}_{\text {train}}\)用观察到的响应和未知的响应在测试集中进行预测\({\mathcal {D}}_{\text {test}}\).将五个互斥测试集中的预测结合在一起,我们因此得到了原始数据集的样本外预测\ ({\ mathcal {D}} \).
为了验证模型,有两个方面特别重要:辨别和校准。歧视只适用于分类,校正适用于分类和回归。歧视衡量的是模型在多大程度上能够区分高风险个体和低风险个体,而不一定考虑预测的绝对值。另一方面,校准量化了预测概率或等级与观测概率或等级的接近程度。在我们的分类任务中,我们的目标是尽可能准确地预测单个概率,因此我们需要校准良好的模型。
接收者工作特征(ROC)是一种流行的识别可视化方法。ROC曲线下的面积(AUC)只衡量歧视,因为它是根据正面例子相对于负面例子的正确排名来计算的[20.].准确性也考虑歧视,因为它是在给定的阈值下正确分类的个体的比例。在二元响应的情况下,校准曲线比较预测概率分位数和每个分位数中1的真实概率。
衡量区分和校准的统计数据是均方误差(MSE)和负对数似然(NLL),我们通过除以样本量进行归一化。我们验证了不同的指标在模型中给出了一致的结果。我们主要将模型精度报告为MSE,这也是二元分类中称为Brier评分的有效度量[21]:
$ ${对齐}\ \开始文本{MSE} ({\ mathcal {D}} _{\文本{测试}})= \压裂{1}{| {\ mathcal {D}} _{\文本{测试}}|}\总和_{我\ {\ mathcal {D}} _{\文本{测试}}}(y_i - f (x_i)) ^ 2 \{对齐}$ $