进行了一项模拟研究,以研究从复杂样本调查中获得的哪种类型的数据[个体级数据(频率和加权频率)和聚合级数据(粗略的率估计)]更适合使用空间扫描统计量进行空间聚类检测。首先,我们根据2018年韩国的行政区域生成了一个假设的人口数据集。研究区域包括250个地区。然后,我们以类似于KCHS采样过程的方式从假设的总体数据集中采样100次迭代。最后,我们使用SAS软件计算每个样本数据集的加权频率(个人级数据)和粗率估计(聚合级数据)[22 ]版本9.4,基于样本设计和抽样权重。对于每次迭代,我们应用基于伯努利的空间扫描统计量[6 ]到两类个人层面数据和加权正态空间扫描统计量[8 ]以聚合从模拟样本数据集中获得的数据。本模拟研究未考虑年龄调整。与KCHS的分析相似,我们只确定了统计上显著的聚类。
在这里,我们简要回顾了KCHS的抽样程序,这是基于一个复杂的样本设计,使用一个两阶段分层聚类抽样程序。调查对象以最小的行政单位(“洞/邑/面”)和住宅单位(普通住宅/公寓)分别为第1层和第2层。在第一阶段,根据家庭数量,通过与规模成比例的概率抽样,为每个行政单元内的每种住房单元类型选择一个样本区域(“tong/ban/ri”)作为主要抽样单位。在第二阶段,通过系统抽样选择家庭。详细的抽样程序载于一份简要的调查报告[20. ].
用灵敏度和阳性预测值(PPV)评价模拟结果的准确性。敏感性被定义为属于真正类群的地区中包括在重要类群中的地区数目。PPV被定义为重要聚类所包含的区中属于真正聚类的区数。给出了灵敏度和PPV在100次迭代中的平均值和标准差。本仿真研究采用R软件[23 ]版本4.0.2与rsatscan包[24 ]在R环境中迭代运行SaTScan™软件。
人口数据生成
(Step1)假设将人群按年龄(20-34岁、35-49岁、50-64岁、65岁以上)和性别进行分层。按年龄组和性别分层表示为\ (j \) (\ (j \) = 20-34岁男性1例,35-49岁男性2例,50-64岁男性3例,65+岁男性4例,20-34岁女性5例,35-49岁女性6例,50-64岁女性7例,65+岁女性8例)。
(Step2)我们使用2018年韩国地理地图定义了两个不同大小和形状的真实集群模型。两种真实聚类模型如图所示。3. .模型(A)中真正的集群由位于东北部的18个区组成,包括沿海地区。我们在模型(B)中假设了两个真实的集群,一个与模型(A)相同,另一个由位于中部地区的12个区组成。将属于真实聚类的每个地区的患病率设置为0.3,不属于真实聚类的每个地区的患病率设置为0.2。
(Step3)对于每个地区,我们为来自2018年韩国实际人口的二项分布的个体和Step2中定义的患病率生成二元结果。二项分布产生二项结果\({\text{B}}\左({N_{kj},{}p_{kj}}\右)\) ,在那里\ (N_ {kj} \) 而且\ (p_ {kj} \) 分别表示疾病的实际人数和流行率\ (j文本{th}} {\ \) 分层的\ (k文本{th}} {\ \) 区。
样本数据生成
(Step1)我们定义了每个地区的样本量(\ (n_ {k} \) ) 900至920之间。
(Step2)样本量(\ (n_ {kj} \) ),是由多项分布中抽取的,其样本量为(\ (n_ {k} \) )和抽样比例(\ (q_ {kj} \) ).假设的抽样比例列在表中3. .在抽样比例场景(1)中,假设采用简单随机抽样(SRS),也就是说\ (q_ {kj} \) 计算时使用\ (N_ {kj} / N_ {k} \) .在抽样占比情景(2)中,我们使用2018年KCHS按年龄和性别划分的实际占比作为抽样占比。在抽样占比情景(3)中,我们将35-49岁和50-64岁作为较高的抽样占比,而将20-34岁和65岁以上作为较低的男性和女性的抽样占比。这表明情景(3)中的抽样占比比2018年KCHS的实际占比更分散[即抽样占比情景(2)]。通过这个场景,我们考虑了这样一种情况,即人群中的某些群体比其他群体更有可能被抽样,这可能会导致抽样偏差。
(Step3)随机抽样\ (n_ {kj} \) 从每个地区的每个分层的假设人口数据集中。
(Step4)抽样权值(\ (w_ {kj} \) )的抽样个人资料\ (k \) 和分层\ (j \) 被计算为这个抽样个体被选中的概率的倒数。抽样权值表示如下:
$ $ w_ {kj} = \压裂{{N_ {kj}}} {{N_ {k} \ * q_ {kj}}}。$ $
表3三种不同的抽样比例\(\左({\左\{{q_{kj}} \右\}}\右)\ 用于仿真
抽样权值(\ (w_ {kj} \) ),然后使用分层后权重进行调整。分层后权重计算为2018年韩国人口普查的实际人口与各区按年龄和性别划分的抽样权重之和的比率。正如在人口数据生成中假设的那样,我们采用了按年龄和性别分层的方法,分为八个层次。分层后权重计算如下:
$ $ w_ {kj} ^{帖子文本\{-}分层}= \压裂{{N_ {kj}}} {{N_ {kj} \ * w_ {kj}}} = \压裂{{N_ {kj}}}{{\帽子{N} _ {kj}}}。$ $
最后,最终的抽样权值(\ (w_ {kj} ^{一}\) )的计算如下。
$ $ w_ {kj} ^{一}= w_ {kj} \ * w_ {kj} ^{}{{-}} \文本分层后。$ $
模拟研究的抽样程序参照Vandendijck等人的描述[25 ].
模拟研究结果
对真实聚类模型和采样占比场景(两种真实聚类模型和三种采样占比场景)的每种组合进行了仿真。灵敏度和PPV的平均值和标准差见表4 .
表4在6种模拟场景下,用于空间聚类检测的每种数据类型在100次迭代中的平均灵敏度和PPV(括号中为标准差)
模拟结果表明,在所有场景下,灵敏度和PPV的平均值和标准差都有相似的趋势。在所有情况下,无论是否使用这三种类型的数据,平均敏感性通常都很高,而在所有情况下,在汇总级数据上使用汇总度量(粗率估计)时,平均PPV最高。虽然差异不大,但在六种情况中,有四种情况对聚合数据的平均敏感性最高。有趣的是,与频率和粗率估计相比,使用加权频率时平均PPV非常低。我们发现,在使用加权频率时,整个研究区域都识别出了大量的集群,这在2018年KCHS的真实数据分析中可以看到。此外,当使用聚合级数据时,灵敏度和PPV的标准差在所有情况下都相对较低,这意味着我们可以获得比使用其他方法更一致和稳定的结果。使用来自复杂调查的聚合数据似乎比使用其他类型的数据更好地反映了真实的空间聚类模式。