基于空间扫描统计的人口健康调查数据地理聚类检测分析模拟研究

Jisu月球¹＆
Inkyung荣格¹

国际卫生地理杂志体积21，文章号:11（2022）引用本文

1113访问
指标细节

摘要

背景

在公共卫生和流行病学领域，空间扫描统计数据可用于从基于人群的健康调查数据中确定与健康相关结果的空间聚类模式。虽然在分析复杂的抽样调查数据时考虑复杂的样本设计和抽样权重是合适的，但在许多与空间聚类检测相关的研究中，经常使用不考虑这些因素的观察到的调查反应。

方法

我们进行了模拟研究，通过比较三种方法(1)个体水平数据、(2)加权个体水平数据和(3)聚合数据的空间聚类检测结果，研究复杂调查数据中哪种数据类型更适合使用。

结果

空间聚类检测的结果因数据类型的不同而不同。为了比较空间聚类检测的性能，在100次迭代中评估灵敏度和阳性预测值(PPV)。所有三种方法的平均敏感性都很高，但使用汇总数据时的平均PPV高于使用有或没有抽样权重的个人水平数据时的平均PPV。

结论

通过模拟研究，我们发现，在使用基于人口的健康调查数据的空间扫描统计数据搜索空间聚类时，使用聚合级数据比其他类型的数据更合适。

简介

重要的是要确定与慢性疾病有关的健康结果的地理差异[1]、体力活动[2]、行为健康[3.]，以及心理健康[4］．特别是，确定具有显著高或低风险健康结果的地点将有助于指导有针对性的卫生规划和制定卫生政策，以减少健康差距[5］．卫生当局经常对一般人口进行健康调查;因此，它可能有助于分析使用该数据的空间聚类模式。

在地理聚类检测的各种统计方法中，Kulldorff提出的空间扫描统计量[6已被广泛用于各种流行病学研究。该方法计算一个似然比检验统计量来比较扫描窗口的内部和外部。扫描窗口中使测试统计量最大化的区域被确定为最有可能的集群。蒙特卡罗假设检验通常用于获得一个p值，用于检验最可能聚类的统计显著性。空间扫描统计已发展为各种概率模型，如泊松[6]，伯努利[6]， normal [7，8]， ordinal [9]和多项[10］．基于这些模型的空间扫描统计方法可通过SaTScan™软件获得[11］．该方法已扩展到具有不同回归系数的聚类检测回归建模方法[12，13，14］．

公共卫生监察[15为规划、实施和评估公共卫生政策收集、分析和解释与卫生相关的数据。作为公共卫生监测的一部分，健康相关数据是从基于人口的调查中收集的。从这些正在进行的调查中获得的数据可用于了解公共卫生的趋势[16］．这种健康调查往往基于复杂的抽样[17]方法，包括一些设计特征，如分层、聚类抽样和不成比例抽样。样本设计特征需要纳入估计和分析，以将结果推广到整个种群。因此，为了确保估计和分析可推广到整个种群，在使用空间扫描统计量探索空间聚类模式时，似乎应该考虑样本设计和抽样权重。

一些研究利用基于人群的健康调查数据的空间扫描统计进行了地理聚类检测分析。然而，这些研究大多采用观察到的调查反应，没有考虑样本设计和抽样权重。罗伯逊等人[18在基于人群的健康调查(行为风险因素监测系统)中，使用离散泊松概率模型下的空间扫描统计量确定了高卒中患病率的空间聚类。他们从观察到的二元反应中确定了每个县的中风病例数，作为分析中的病例变量。Kebede等人[19]开展了一项研究，利用基于人口健康调查(埃塞俄比亚人口与健康调查)的伯努利空间扫描统计数据，确定15-49岁妇女健康覆盖率高的空间集群。同样，他们在分析中指定了二元响应中观察到的健康覆盖病例数作为案例变量。

有两种方法可以利用观察到的二元结果的调查反应。一种方法是按原样使用个人级别的数据，用0和1表示的二进制响应进行观察。在这种情况下，可以使用基于伯努利的空间扫描统计量进行空间聚类检测[6］．另一种方法是使用汇总级数据，将个人级数据汇总为每个地点的区域级费率。在计算区域级比率时，可以考虑抽样设计和权重。对于这类数据，可以使用加权正态空间扫描统计量[8]，用于确定具有高区域指标(例如，区域一级的死亡率和疾病流行率)和异质性人口的聚类。

当健康调查数据来自复杂的调查设计时，尚不清楚哪种模型适合使用。我们可以使用个人水平或区域水平的汇总数据进行疾病流行的空间聚类检测。采样权值加权的频率可以作为二进制数据来合理考虑采样设计。首先，我们对韩国社区健康调查(KCHS)应用了不同的方法，这是韩国几个基于人口的健康调查之一。我们确定了具有统计学意义的男性糖尿病诊断率高的空间聚类。在发现聚类检测结果因数据类型的不同而有很大差异后，我们进行了模拟研究，使用假设总体数据中的抽样数据来检验三种方法中哪种方法更合适。在生成模拟数据以模拟真实健康调查数据时，考虑了几个设计特征，例如具有不同抽样比例的分层和分层后权重。我们比较了检测到的聚类在敏感性和阳性预测值方面的准确性。

韩国社区健康调查数据

自2008年以来，韩国疾病控制和预防机构每年进行KCHS，以调查社区卫生中心的公共卫生状况和卫生行为[20.］．KCHS数据是从每个社区卫生中心(“市/县/区”或区级)平均900名成年人中收集的。调查基于复杂的样本设计。调查数据及样本权重可按要求提供于https://chs.kdca.go.kr/chs．

我们将糖尿病诊断的答案作为2018年KCHS的结果，以寻找糖尿病患病率高的地理集群。2018年，除济州岛的2个行政区外，韩国共有250个行政区。对(1)个体水平数据、(2)加权个体水平数据和(3)聚合数据进行空间聚类检测分析。前两种和第三种数据类型分别采用基于bernoulli和加权正态空间扫描统计量。我们使用圆形扫描窗口形状和由基尼系数确定的最佳最大报告簇大小(MRCS) [21]，而最大扫描窗口大小(MSWS)固定为50%。研究参与者被分为男性和女性两组进行分析。所有分析均使用SaTScan™9.6版软件进行。这项研究只显示了男性的结果。数据1而且2显示三种不同方法的聚类检测结果，有和没有年龄调整。仅在0.05的显著性水平上报告了有统计学意义的聚类。表1而且2包括在最佳MRCS值处确定的高糖尿病诊断率空间聚类的数量。

表1使用KCHS 2018数据中不同类型数据时，在MRCS优化值下，男性成人糖尿病诊断率高的显著聚类数(见图1)。1）

全尺寸表

表2使用KCHS 2018年数据中不同类型数据时，在MRCS优化值下，年龄调整男性成人糖尿病诊诊率高的显著聚类数(见图2)。2）

全尺寸表

根据方法的不同，检测到的集群非常不同。这些结果推动了本研究的开展。无论是否进行年龄调整，聚合数据的加权正态模型在韩国东北部地区发现了一个单一的重要集群。在处理调查数据时，有必要考虑抽样权值，以便进行正确的推断。有人可能会认为，通过抽样权重使用加权数据比使用观察到的单个数据更合适。然而，伯努利模型在加权数据中发现了太多重要的聚类，这可能是由于样本量膨胀造成的。利用调查数据，伯努利模型检测到的聚类在一定程度上与基于聚合数据的聚类相似。年龄调整后的数据仅检测到一个显著聚类，其位置与加权正态模型检测到的聚类相似。在不进行年龄调整的情况下，最可能的聚类与加权正态模型相似;然而，在西南地区也发现了另一个重要的星团。

无论调查数据使用何种数据类型，我们都希望发现共同的地理模式。然而，糖尿病诊断率高的显著空间聚类因数据类型而异。在2018年KCHS数据中使用其他健康结果时，空间聚类检测结果的模式相似。因此，我们的目标是通过模拟研究评估从二元调查响应中获得的数据类型更适合于使用空间扫描统计量进行空间聚类检测。

模拟研究

进行了一项模拟研究，以研究从复杂样本调查中获得的哪种类型的数据[个体级数据(频率和加权频率)和聚合级数据(粗略的率估计)]更适合使用空间扫描统计量进行空间聚类检测。首先，我们根据2018年韩国的行政区域生成了一个假设的人口数据集。研究区域包括250个地区。然后，我们以类似于KCHS采样过程的方式从假设的总体数据集中采样100次迭代。最后，我们使用SAS软件计算每个样本数据集的加权频率(个人级数据)和粗率估计(聚合级数据)[22]版本9.4，基于样本设计和抽样权重。对于每次迭代，我们应用基于伯努利的空间扫描统计量[6]到两类个人层面数据和加权正态空间扫描统计量[8]以聚合从模拟样本数据集中获得的数据。本模拟研究未考虑年龄调整。与KCHS的分析相似，我们只确定了统计上显著的聚类。

在这里，我们简要回顾了KCHS的抽样程序，这是基于一个复杂的样本设计，使用一个两阶段分层聚类抽样程序。调查对象以最小的行政单位(“洞/邑/面”)和住宅单位(普通住宅/公寓)分别为第1层和第2层。在第一阶段，根据家庭数量，通过与规模成比例的概率抽样，为每个行政单元内的每种住房单元类型选择一个样本区域(“tong/ban/ri”)作为主要抽样单位。在第二阶段，通过系统抽样选择家庭。详细的抽样程序载于一份简要的调查报告[20.］．

用灵敏度和阳性预测值(PPV)评价模拟结果的准确性。敏感性被定义为属于真正类群的地区中包括在重要类群中的地区数目。PPV被定义为重要聚类所包含的区中属于真正聚类的区数。给出了灵敏度和PPV在100次迭代中的平均值和标准差。本仿真研究采用R软件[23]版本4.0.2与rsatscan包[24]在R环境中迭代运行SaTScan™软件。

人口数据生成

(Step1)假设将人群按年龄(20-34岁、35-49岁、50-64岁、65岁以上)和性别进行分层。按年龄组和性别分层表示为\ (j \)（\ (j \)= 20-34岁男性1例，35-49岁男性2例，50-64岁男性3例，65+岁男性4例，20-34岁女性5例，35-49岁女性6例，50-64岁女性7例，65+岁女性8例)。
(Step2)我们使用2018年韩国地理地图定义了两个不同大小和形状的真实集群模型。两种真实聚类模型如图所示。3.．模型(A)中真正的集群由位于东北部的18个区组成，包括沿海地区。我们在模型(B)中假设了两个真实的集群，一个与模型(A)相同，另一个由位于中部地区的12个区组成。将属于真实聚类的每个地区的患病率设置为0.3，不属于真实聚类的每个地区的患病率设置为0.2。
(Step3)对于每个地区，我们为来自2018年韩国实际人口的二项分布的个体和Step2中定义的患病率生成二元结果。二项分布产生二项结果${\text{B}}\左({N_{kj}，{}p_{kj}}\右)$,在那里\ (N_ {kj} \)而且\ (p_ {kj} \)分别表示疾病的实际人数和流行率\ (j文本{th}} {\ \)分层的\ (k文本{th}} {\ \)区。

样本数据生成

(Step1)我们定义了每个地区的样本量(\ (n_ {k} \)) 900至920之间。
(Step2)样本量(\ (n_ {kj} \))，是由多项分布中抽取的，其样本量为(\ (n_ {k} \))和抽样比例(\ (q_ {kj} \))．假设的抽样比例列在表中3.．在抽样比例场景(1)中，假设采用简单随机抽样(SRS)，也就是说\ (q_ {kj} \)计算时使用\ (N_ {kj} / N_ {k} \)．在抽样占比情景(2)中，我们使用2018年KCHS按年龄和性别划分的实际占比作为抽样占比。在抽样占比情景(3)中，我们将35-49岁和50-64岁作为较高的抽样占比，而将20-34岁和65岁以上作为较低的男性和女性的抽样占比。这表明情景(3)中的抽样占比比2018年KCHS的实际占比更分散[即抽样占比情景(2)]。通过这个场景，我们考虑了这样一种情况，即人群中的某些群体比其他群体更有可能被抽样，这可能会导致抽样偏差。
(Step3)随机抽样\ (n_ {kj} \)从每个地区的每个分层的假设人口数据集中。
(Step4)抽样权值(\ (w_ {kj} \))的抽样个人资料\ (k \)和分层\ (j \)被计算为这个抽样个体被选中的概率的倒数。抽样权值表示如下:

$ $ w_ {kj} = \压裂{{N_ {kj}}} {{N_ {k} \ * q_ {kj}}}。$ $

表3三种不同的抽样比例\(\左({\左\{{q_{kj}} \右\}}\右)\用于仿真

全尺寸表

抽样权值(\ (w_ {kj} \))，然后使用分层后权重进行调整。分层后权重计算为2018年韩国人口普查的实际人口与各区按年龄和性别划分的抽样权重之和的比率。正如在人口数据生成中假设的那样，我们采用了按年龄和性别分层的方法，分为八个层次。分层后权重计算如下:

$ $ w_ {kj} ^{帖子文本\{-}分层}= \压裂{{N_ {kj}}} {{N_ {kj} \ * w_ {kj}}} = \压裂{{N_ {kj}}}{{\帽子{N} _ {kj}}}。$ $

最后，最终的抽样权值(\ (w_ {kj} ^{一}\))的计算如下。

$ $ w_ {kj} ^{一}= w_ {kj} \ * w_ {kj} ^{}{{-}} \文本分层后。$ $

模拟研究的抽样程序参照Vandendijck等人的描述[25］．

模拟研究结果

对真实聚类模型和采样占比场景(两种真实聚类模型和三种采样占比场景)的每种组合进行了仿真。灵敏度和PPV的平均值和标准差见表4．

表4在6种模拟场景下，用于空间聚类检测的每种数据类型在100次迭代中的平均灵敏度和PPV(括号中为标准差)

全尺寸表

模拟结果表明，在所有场景下，灵敏度和PPV的平均值和标准差都有相似的趋势。在所有情况下，无论是否使用这三种类型的数据，平均敏感性通常都很高，而在所有情况下，在汇总级数据上使用汇总度量(粗率估计)时，平均PPV最高。虽然差异不大，但在六种情况中，有四种情况对聚合数据的平均敏感性最高。有趣的是，与频率和粗率估计相比，使用加权频率时平均PPV非常低。我们发现，在使用加权频率时，整个研究区域都识别出了大量的集群，这在2018年KCHS的真实数据分析中可以看到。此外，当使用聚合级数据时，灵敏度和PPV的标准差在所有情况下都相对较低，这意味着我们可以获得比使用其他方法更一致和稳定的结果。使用来自复杂调查的聚合数据似乎比使用其他类型的数据更好地反映了真实的空间聚类模式。

讨论

在这项研究中，我们使用基于人群的健康调查数据，研究了哪种方法更适合于空间聚类检测。我们发现，在分析KCHS数据时，检测到的高患病率的地理聚类模式因数据类型而异。为了研究哪种数据类型更适合使用空间扫描统计进行空间聚类检测，我们进行了模拟研究。通过模拟研究，我们的研究结果表明，在各种场景下，使用区域级别的汇总度量估计在使用空间扫描统计信息检测空间聚类方面表现得更好。在所有情况下，尽管无论使用这三种类型的数据，平均敏感性都同样高，但在使用区域级比率估计时，平均PPV最高。因此，对于具有空间扫描统计量的地理聚类检测，使用汇总度量估计值(聚合级数据)似乎比其他类型的数据更合适，它考虑了样本设计和抽样权重。

本研究的一个局限性是我们在模拟研究中部分实现了KCHS的抽样程序。KCHS基于两阶段分层整群抽样程序;然而，我们不能考虑聚类采样特征来简化模拟过程。尽管如此，这种简化的抽样程序似乎产生了有意义的结果，因为从假设总体数据抽样的样本数据中抽样权值是可用的。

结论

根据我们在模拟研究中的发现，在使用空间扫描统计量探索空间聚类检测时，在基于人口的健康调查的三种数据类型中，似乎更适合使用聚合级数据(率估计)。预计还需要考虑其他抽样特征，如聚类抽样，进行更多的模拟研究，以获得更全面的结果。

数据和材料的可用性

本研究中使用和/或分析的数据集可根据合理要求从通讯作者处获得。

缩写

mrc:: 报告的最大集群大小
”:: 最大扫描窗口大小
KCHS:: 韩国社区健康调查
PPV:: 阳性预测值
SRS:: 简单随机抽样

参考文献

Kauhl B, Maier W, Schweikart J, Keste A, Moskwyn M.基于健康保险索赔的德国东北部高血压的小范围空间分布及其与区域剥夺的关系BMC公共卫生，2018;18(1):121。
文章中科院谷歌学者
田村K, Puett RC, Hart JE, Starnes HA，拉登F, Troped PJ。在美国三个州的老年妇女中，体育活动和肥胖与建筑环境因素的空间聚类。BMC公共卫生，2014;14(1):1 - 16。
文章谷歌学者
黄玲，Tiwari RC, Pickle LW，邹哲。协变量调整加权正态空间扫描统计及其在美国肥胖与肺癌死亡率地理聚类研究中的应用。中华医学杂志，2010;29(23):2410-22。
文章谷歌学者
山冈K，铃木M，井上M，石川H, Tango T. 2011-2017年日本神奈川县自杀死亡率的空间聚类特征。BMC精神病学2020;20(1):1 - 15。
文章谷歌学者
卫生差距和卫生公平:概念和衡量。《公共卫生》，2006;27:7 7 - 94。
文章谷歌学者
空间扫描统计。公共统计理论与方法。1997;26(6):1481-96。
文章谷歌学者
黄丽丽，郭道夫，黄丽丽。基于正态概率模型的连续数据扫描统计量。国际卫生地理学杂志，2009;8:58。
文章谷歌学者
黄玲，陈志强，陈志强，陈志强。异质人口数据的加权正态空间扫描统计量。美国统计学会，2009;104:886-98。
文章中科院谷歌学者
郑志刚，刘志刚，刘志刚。一种基于空间扫描的数据统计方法。统计医学2007;26:1594-607。
文章谷歌学者
荣格I，库尔多夫M，理查德OJ。多项式数据的空间扫描统计量。中华医学杂志2010;29:10 - 8。
文章谷歌学者
库尔多夫信息管理服务公司SaTScan v9.6:用于空间和时空扫描统计的软件。2018.www.satscan.org．
协变量调整的空间扫描统计的广义线性模型方法。中华医学杂志2009;28(7):1131-43。
文章谷歌学者
李娟，朱娟。空间回归系数的聚类检测。统计医学。2017;36:1118-33。
文章谷歌学者
李俊，孙勇，张海辉。混合效应模型中回归系数的空间聚类检测。环境科学。2020;31:e2578。
谷歌学者
萨克SB，伯克曼RL。美国的公共卫生监督。流行病学，1988;10:164-90。
文章中科院谷歌学者
卡尔森SA，登斯莫尔D，富尔顿JE，约尔MM，科尔HW 3。3个美国监测系统:NHIS、NHANES和BRFSS的体育活动流行率和趋势差异。《物理健康法案》2009;6(S1): S18-27。
文章谷歌学者
Heeringa SG, West BT, Berglund PA。应用调查数据分析。博卡拉顿:查普曼和霍尔/CRC;2017.
谷歌学者
Roberson S, Dawit R, Moore J, Odoi A.使用圆形和灵活的空间扫描统计数据对佛罗里达州中风患病率的地理差异进行探索性调查。PLoS ONE。2019; 14(8): 1 - 16。
文章谷歌学者
孙文杰，李丽娟，李志强，等。埃塞俄比亚医疗保险覆盖的空间分布和相关因素:2016年埃塞俄比亚人口与健康调查的进一步分析。《Arch Public Health》，2020;78(1):1 - 10。
文章谷歌学者
姜玉文，高玉生，金玉杰，等。韩国社区健康调查数据简介。奥松公共卫生研究展望。2015;6(3):211-7。
文章谷歌学者
韩娟，朱林，Kulldorf M，等。使用基尼系数确定空间扫描统计数据的最佳簇报告大小。国际卫生地理杂志，2016;15:27。
文章谷歌学者
SAS研究所SAS 9.4帮助和文档。Cary: SAS Institute Inc.， 2002-2012;2017.
R核心团队。R:用于统计计算的语言和环境。维也纳:R统计计算基金会;2013.
谷歌学者
Rsatscan:与SaTScan独立软件接口的工具、类和方法。2015.https://CRAN.R-project.org/package=rsatscan/．
范登迪克Y, Faes C, Kirby RS，等。基于模型的带抽样权的小面积估计推理。口水统计。2016;18:45 - 73。
文章中科院谷歌学者

下载参考

确认

不适用。

资金

本研究由韩国疾病控制与预防机构(B0080520000732)资助的研究计划支持。

作者信息

作者及隶属关系

韩国首尔西大门区延世路50-1号，延世大学医学院生物医学系统信息系生物统计科，03722
Jisu Moon & Inkyung Jung

作者

Jisu月球

查看作者出版物

您也可以在PubMed谷歌学者
Inkyung荣格

查看作者出版物

您也可以在PubMed谷歌学者

贡献

IJ构思了这项研究。JM进行了模拟并分析了数据。所有作者都起草了手稿。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到Inkyung荣格．

道德声明

伦理批准并同意参与

该研究得到了首尔大学伦理研究小组(IRB)的批准。e1912/001 - 010)。

发表同意书

不适用。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议，允许以任何媒介或格式使用、分享、改编、分发和复制，只要您对原作者和来源给予适当的署名，提供知识共享许可协议的链接，并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中，除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中，并且您的预期使用不被法定法规所允许或超出了允许的使用范围，您将需要直接获得版权所有者的许可。如欲查看本牌照的副本，请浏览http://creativecommons.org/licenses/by/4.0/．创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料，除非在资料的信用额度中另有说明。

转载及权限

关于本文

引用本文

Moon, J.， Jung, I.使用空间扫描统计数据对基于人口的健康调查数据进行地理聚类检测分析的模拟研究。国际J卫生geor21， 11(2022)。https://doi.org/10.1186/s12942-022-00311-6

下载引用

收到了：2022年4月13日
接受：2022年8月26日
发表：2022年9月9日
DOI：https://doi.org/10.1186/s12942-022-00311-6

关键字

健康调查
地理监测
抽样设计
取样重量
空间聚类检测

基于空间扫描统计的人口健康调查数据地理聚类检测分析模拟研究

摘要

背景

方法

结果

结论

简介

韩国社区健康调查数据

模拟研究

人口数据生成

样本数据生成

模拟研究结果

讨论

结论

数据和材料的可用性

缩写

参考文献

确认

资金

作者信息

作者及隶属关系

贡献

相应的作者

道德声明

伦理批准并同意参与

发表同意书

相互竞争的利益

额外的信息

出版商的注意

权利和权限

关于本文

引用本文

分享本文

关键字

国际卫生地理杂志

联系我们