摘要
背景
Quenouille-Addelman解决方案已被提出,以适当地分析线性模型的交叉或阶乘处理安排,其中包括一个定性/分类和一个零水平的定量因素,这种情况在生态毒理学研究中特别普遍。然而,对最近文献的回顾表明,这种解决方案没有被使用,可能是由于缺乏认识到零级因子可以产生不完整的阶乘安排。
结果
通过实际的例子,我证明了如果在必要时不使用Quenouille-Addelman解决方案,研究的结论可能会发生实质性的改变。
结论
由于怀疑缺乏详细的方法可能导致解决方案的利用不足,我描述了如何使用当前的统计软件包应用解决方案,并讨论了如何调整解决方案以解决以前没有考虑到的一些实验情况。
简介
用包括零水平的交叉或析因处理安排分析一项研究是一个被低估的挑战,因为通常情况下,每个定性/分类因素水平的零数量本质上是相同的处理。考虑一项研究p施用不同的农药r不同的利率,其中一个利率为零。由于无论哪种农药的施用速率为零,都有{p(r-1) + 1}单一处理组合而不是p×r.因此,无法使用双向线性模型进行分析,因为分析的平方和(SS)和自由度(df)需要调整,以解释处理的不完全阶乘安排。上述情况在审查应用(如农药、粘性牙科水泥)、富集(如施肥、同位素富集研究)、接种(如生长激素、疫苗)、污染物、储存时间等的文献中很常见。
Quenouille (1953)及阿德尔曼(1974)独立提出了一种解决方案,以下简称线性模型的Quenouille-Addelman (QA)解决方案来处理上述问题。简而言之,QA解决方案包括合并两个模型的SS以获得单个模型,而不增加类型I和类型II错误(见下文)。然而,尽管存在这种解决方案,但在必要时实际上从未应用过。为了支持这一说法,在附加文件中提出了最近的文献检索,其中有一个定性因素和一个包括零水平的定量因素1:综述文献中Quenouille-Addelman溶液的使用频率。这项研究表明,没有一项被回顾的研究应用了QA解决方案。相反,11.4%的研究使用了错误的析因线性模型,2.5%的研究从分析中排除了对照治疗数据,36.7%的研究对结合定性和定量因素的变量进行了单向检验,49.4%的研究使用了其他不适当的方法,例如遗漏了定性治疗之间的比较(附加文件)1:综述文献中Quenouille-Addelman溶液的使用频率)。如上所述的所有方法都是有偏见的,或者会导致信息丢失,如下所述。由此产生的必然结果是,QA解决方案在很大程度上被遗忘了,这可能是由于误解了零级别对阶乘安排的影响。关于这个问题的最新进展似乎早就该公布了。在这里,我(1)演示了不遵守QA解决方案如何改变研究的结论,(2)描述了如何使用当前的统计包实现解决方案,(3)检查了解决方案如何适应于解决Quenouille没有考虑的情况(1953)及阿德尔曼(1974).
Quenouille-Addelman解决方案和替代(有缺陷)方法
到目前为止,还没有证明在必要时不使用QA解决方案的不利影响。在一篇综述论文中,盖茨(1991)讨论的解决方案使用了一个例子,其中所给予的调整是微妙的,这并不公平的解决方案在大多数出版物中所使用的效果(Quenouille1953;格林等人。1976,1977;康拉德等人。1993;卢和尼尔森1993;Cushman等人。1998;奥利维尔等人。2000;龚等。2001;莫罗和鲍斯2001,2003).使用模拟数据(可在附加文件2:生成图的模拟数据。1和表1)受上述研究和文献回顾的启发,我确定定性变量不同水平随定量变量增加所遵循的趋势可以预测解决方案的效果。在不常见的情况下,所有个体定性处理与定量变量的关系从水平0线性扩展(例如,图。1A),解决方案提供的调整是最低的。对结果的解释略有修改,尽管线性模型拟合的结果可以发生实质性的变化(表1).所有已发表的使用QA解决方案的研究中只有一项(即Gong等。2001)报告了这些数据。对于所有其他情况,如果不使用解决方案(即Quenouille),则QA解决方案和未调整的模型之间存在显著差异1953;格林等人。1976,1977;康拉德等人。1993;卢和尼尔森1993;Cushman等人。1998;奥利维尔等人。2000;莫罗和鲍斯2001,2003).如果有零电平和没有零电平的关系不同(例如,图。1b)时,解赋予的调整值最大(表2)1).在后一个例子中,未调整的模型和QA解决方案提供了相反的结果,一个表明了强交互作用,另一个则不是。改变比例(即应用数据转换)没有帮助。因此,在大多数情况下,QA解决方案以牺牲交互项为代价增加与定性变量相关的SS。未调整的模型在评估定性变量的主要影响时有一个膨胀的第二类错误率,在评估相互作用时有一个膨胀的第一类错误率。
通常使用其他方法来代替QA解决方案(附加文件1:综述文献中Quenouille-Addelman溶液的使用频率)。例如,一些作者在分析中省略了对照治疗数据。虽然这在某些情况下可以近似QA解决方案,但它也可能改变结果,因为定量变量的主要影响不能在其整个范围内进行评估。其他作者在一系列分析中反复使用对照处理和其他处理,导致I型错误率过高。在许多情况下,作者将定性和定量变量合并为一个变量,并进行单向测试,然后进行多次比较(事后)测试,将每种治疗与单个对照(例如,Dunnett或Williams试验)或正交对比进行比较。例如,剂量为0、25和100毫升的给定农药可分别分为对照、低剂量和高剂量。然而,这并不能改变一个事实,即两种不同农药的控制剂量是相同的处理。此外,这种方法意味着不能检查因素之间的相互作用,也不可能进行趋势分析(见下文)。这同样适用于ANCOVA或回归模型。Dunnett或Williams测试的信息量也比QA解决方案少得多。 For example, using the data in Fig.1a, Dunnett检验仅显示0水平与除一种处理组合外的所有处理组合不同(即,a水平在定量因子值1处)。Dunnett或Williams测试还排除了没有零水平的后续测试,因为这增加了I型错误率。可以使用对比来获得主要效果和接近QA解决方案的交互测试统计数据,但据我们所知,还没有人研究过这一途径。
固定效应双向线性模型的Quenouille-Addelman解
Quenouille (1953)及阿德尔曼(1974)给出了双向固定效应线性模型的手工计算解。尽管解决方案的某些步骤可以使用统计包执行(Gates1991),解决方案通常很难在一次执行中执行(霍金2013).由于怀疑缺乏详细的示例可能导致QA解决方案未得到充分利用,我在下面描述了使用大多数包实现解决方案的逐步方法。
- 1.
使用整个数据集,使用双向线性模型计算所有变化源的未调整SS和df。
- 2.
从数据集中删除零级别,并运行与第1步相同的分析。
- 3.
通过结合两个线性模型创建SS表。取从第一个模型中得到的定量变量,误差和总数的SS和df。由第二种模型得到定性因子和相互作用的SS和df。
- 4.
增加与误差项相关的df数,以包括相互作用项所损失的度,因为零水平的定性因子之间的差异只能是机会差异(Quenouille)1953).各处理df之和(A + Z + [A × Z];表格1)现在等于不同处理的数量减1。当然,如果有任何理由怀疑零水平的定性因素之间存在差异,它们的SS也可以根据Quenouille (1953).如果设计是平衡的,未调整的双向线性模型和QA解决方案都产生相同的总SS[即,没有缺失数据;见Addelman (1974)和盖茨(1991)]。
- 5.
计算均方(MS = SS ÷ df), F值(F = MS ÷ MS错误)和调整后模型的p值(使用电子表格或概率表中的函数制成表格)。对于最后一步的例子,请读者参考统计教科书或表右侧所示的QA解决方案1.
其他实验情况下的Quenouille-Addelman解
下面,如果可能的话,我将为无法使用Quenouille提供的计算来解决的分析和实验情况确定解决方案(1953)及阿德尔曼(1974),并在之前的文献中没有提及。
多项式的对比
由于线性模型不能识别存在两个以上水平时,哪一对均值是不同的,因此通常需要进行额外的检验。当使用固定间隔的定量变量时,一种有效的方法是使用多项式对比进行趋势分析,而不是事后测试(Keppel)1982).例如图中的数据。1b允许表底部所示的三阶多项式对比模型1.请注意,由于与QA解决方案相关的调整,多项式模型中相互作用项比连续变量的主效应少包含一个级别(表2)1).
混合模型,最大似然和REML
目前,既有固定效应又有随机效应的模型都使用混合模型程序,最大似然(ML)或限制最大似然(REML) (Zuur等人)进行分析。2009).大多数执行混合模型分析的软件程序现在都将REML估计作为默认选项(Gurka2006).虽然在执行这些分析时,一些统计包没有显示完整的SS表,但可以获得MS和df,并允许对误差项进行反向计算。例如,来自Gates (1991)是用R (R Core Team)的lme4包中的lmer函数开发的2021)可用于计算误差项的MS,方法是将任何固定效应的MS除以其f值。一旦通过交叉相乘确保了这些条款,就可以应用上面提出的QA解决方案。
不平衡设计
缺少数据的不平衡数据集提出了一个挑战,因为SS不能独立估计,并且不能像在平衡设计中那样与错误项相加到总SS。这种非正交性意味着I型SS受到模型中包含的项的顺序的影响。处理这种情况的一种方法是删除缺失的单元格,从数据集中随机删除样本,直到达到平衡,并应用QA解决方案。由于大多数研究人员不愿意丢弃数据,另一种方法是使用imputation技术来拟合缺失的细胞(在van Ginkel等人的评论中)。2007),然后应用QA解决方案。第三种方法是使用类型III SS应用QA解决方案,但如果两个处理表现出不同程度的不平衡(例如,如果对照比其他处理有更少的缺失数据),这将导致SS估计的偏差,并导致未调整线性模型和QA解决方案的总SS不同。最终,在处理丢失数据的策略之间的选择应该取决于手头的情况(见Graham的评论)2009).
三向方差分析和高阶模型
Quenouille提出的方法(1953)及阿德尔曼(1974)不适用于高阶模型,如三向、四向或五向线性模型。尽管随着模型阶数的增加,I型错误的膨胀率的可能性也在增加(Cohen2001),这些模型经常被应用,需要加以处理。
在有一个零水平定量变量和两个定性变量的三向线性模型的情况下,其解类似于上述双向固定效应线性模型。误差项和定量变量的SS照常检索,而两个定性变量和所有相互作用的SS仅计算定量因子的非零量。与主效应相关的自由度没有被修改,但与所有四个相互作用项相关的自由度被减少并转移到误差项。一个3-way ANOVA计算的例子显示在附加文件中3.: 3-way分析的数据和解决方案。用单一定量变量拟合四向高阶模型遵循相同的程序。
一个至少有一个定性变量的高阶线性模型也可以包括一个以上的零水平定量变量。这种情况的一个例子是研究耕作(即定性变量)、氮肥(即包括零水平的定量变量)和农药施用(即包括零水平的定量变量)对特定作物生物量的影响。然而,根据我们的知识,这种情况的数学解决方案还没有开发出来,不能使用这里讨论的QA解决方案来解决。
GLMs, GAMs和贝叶斯模型
QA解决方案还没有针对广义模型、可加性模型和贝叶斯模型开发。考虑到这些方法的有用性,我强调需要在不久的将来为这些模型开发一个等价的QA解决方案。然而,需要注意的是,在文献搜索中提出的附加文件1:回顾文献中Quenouille-Addelman解的使用频率,没有研究使用任何这些方法来处理数据,因此,这里的线性模型的解仍然相关。
讨论和结论
在本文中,重点主要放在QA解决方案的假设检验上,但许多当代分析的重点却放在估计与平均值或中位数相关的可变性上。由于应用QA解决方案时自由度的总和不同,最终的置信区间或误差估计的计算将受到影响。对于固定效应模型,这些计算可以很容易地按照标准统计教科书中描述的方法进行调整。另一方面,更复杂的模型(例如,REML)需要数学解决方案,这超出了本文的范围。
统计错误通常不是故意的。在大多数情况下,当需要时没有使用QA解决方案时,研究作者可能没有意识到他们犯了一个错误。缺乏统计知识也可能导致这种情况。同样,编辑们缺乏统计知识可能会加剧这个问题。作为同行审稿人,我曾向一些作者建议使用QA解决方案。然而,编辑委员会从未执行过建议的更改,可能是由于缺乏意识,不遵守QA解决方案会增加类型I和类型II的错误率。在他们的辩护中,QA解决方案自2010年以来实际上已经被遗忘为一篇评论文章(Moreau et al。2015)引用了Addelman (1974).Quenouille (1953)在同一时期被引用了27次,但不是因为本文讨论的解决方案的应用。我写这篇文章的目的是纠正这种情况,并减少这种重复错误在未来出版物中的发生率。
数据和材料的可用性
在这项研究中产生或分析的所有数据都包含在这篇发表的文章[及其附加文件信息文件]中。
参考文献
计算涉及定性因素和零数量定量因素的实验的方差分析表。Am Stat 1974; 28:21-2。
科恩黑洞。解释心理统计。第二版。威利;2001.
康拉德KM, Mast MG,麦克尼尔JH,鲍尔HR。真空蒸发液体蛋清的组成及成胶性能。中国食品科学,1993;58:1013-6。
Cushman LC, Pemberton HB, Miller JC, Kelly JW。花期、品种、运输温度和时间的相互作用影响盆栽玫瑰的性能。HortScience。1998; 33:736-40。
盖茨CE。错误分析计划实验的用户指南。HortScience。1991; 26:1261-5。
龚华,Lawrence AL, Gatlin DM,姜德华,张飞。半纯化日粮中添加不同类型和水平的商品大豆卵磷脂的比较方面对虾布恩。Aquac Nutr. 2001; 7:11-7。
格雷厄姆JW。缺失的数据分析:让它在现实世界中发挥作用。精神科学,2009;60:549-76。
格林JR,劳旺JT,卡特CM,马蒂尔KF。用油籽粉强化玉米饼的蛋白质。食品科学,1976;41:656-60。
格林JR,劳旺JT,卡特CM,马蒂尔KF。利用无脂无腺棉籽粒和大豆在玉米饼中的蛋白质强化。食品科学学报,1977;42:790-4。
Gurka乔丹。选择REML下的最佳线性混合模型。Am统计,2006;60:19-26。
霍金RR。线性模型的方法和应用:回归和方差分析。霍博肯:威利;2013.
吉宝设计与分析:研究人员手册。第二版:恩格尔伍德悬崖:普伦蒂斯-霍尔;1982.
吕德东,孙文杰。牛奶中天然纤溶酶原激活物的热失活研究。中国食品科学,1993;58:1010-2。
莫罗G, Bauce É。发育多态性:理解亚致死效应的主要因素芽孢杆菌苏云金.昆虫学报,2001;29(2):349 - 349。
莫罗G, Bauce É。云杉芽虫(鳞翅目:卷虫科)幼虫在多次暴露条件下的摄食行为芽孢杆菌苏云金各种kurstaki.中国昆虫学报,2003;26(2):366 - 366。
莫罗G,米肖德J-P,肖利KG。实验设计,推论统计和计算机建模。在:Tomberlin JK, Benbow ME,编辑。法医昆虫学:国际层面和前沿。CRC出版社,泰勒和弗朗西斯集团,2015;205 - 230页。
Olivier F, Tremblay R, Bourget E, Rittschof D.藤壶沉降:幼虫供给量、潮汐水位、生物膜质量和年龄对藤壶沉降影响的现场实验龟头mphitritecyprids。中国环境科学,2000;29(1):1 - 5。
实验的设计与分析。格里芬;1953.
R核心团队。R:统计计算的语言和环境。R统计计算基金会,维也纳,奥地利,2021。
范·金克尔,范·德·阿克,西茨马。当测试数据是阶乘复杂时,项目分数的多重归算。中国数学与心理学报。2007;30(4):366 - 366。
Zuur AF, Ieno EN, Walker NJ, Saveliev AA, Smith GM. R.施普林格在生态学中的混合效应模型和扩展;2009.
确认
作者感谢F. Horgan激发了讨论,促成了这篇手稿的写作,也感谢K. LeBlanc、D. Boudreau、L. tousnant、N. Hammami和两位匿名审稿人对这篇手稿早期版本的评论。
资金
不适用。
作者信息
作者及隶属关系
贡献
不适用。
相应的作者
道德声明
伦理批准并同意参与
不适用。
发表同意书
不适用。
相互竞争的利益
作者宣称他们之间没有利益冲突。
额外的信息
出版商的注意
伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。
权利和权限
开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。
关于本文
引用本文
在评估不同农药、污染物和化肥的影响时,一个反复出现的错误。农业生物科学3., 58(2022)。https://doi.org/10.1186/s43170-022-00128-0
收到了:
接受:
发表:
DOI:https://doi.org/10.1186/s43170-022-00128-0
关键字
- 阶乘的安排
- 不完全阶乘排列
- 定性的因素
- 零水平