使用microsoft excel电子表格的元分析和森林图:专注于描述性数据分析的逐步指南

BMC研究笔记体积5文章编号:52（2012）引用这篇文章

134 k访问
417引用
19Altmetric
指标细节

摘要

背景

综合从初步研究中获得的数据需要meta分析，在许多情况下，观察性研究的综述是唯一可用的选择。通用统计包可以元分析数据，但通常需要外部宏或编码。商业专家软件是可用的，但可能很贵，而且只专注于特定类型的原始数据。大多数可用的软件在处理描述性数据方面都有局限性，而且发病率和流行率等汇总统计数据的图形化显示也不能令人满意。可以使用Microsoft Excel进行分析，但之前没有可用的指南。

发现

我们构建了一个循序渐进的指南，在Microsoft Excel电子表格中执行元分析，使用固定效应或随机效应模型。我们还开发了第二个电子表格，能够生成定制的森林图。

结论

只使用Microsoft Excel进行元分析是可能的。更重要的是，据我们所知，这是第一次描述了一种方法，即使用广泛可用的软件，生成统计上充分但图形上有吸引力的森林图，总结描述性数据。

背景

综合从初级研究中获得的不断增长的数据需要meta分析和系统综述。在Pubmed上对文章类型进行搜索，网格术语“meta-analysis”仅在2010年将获得4223个结果。尽管介入研究的回顾，特别是临床试验，提供了最好的证据，但在一些情况下，观察性研究是唯一的选择。对这些研究的元分析正变得越来越普遍，特别是在MOOSE声明发表之后[1］．有些研究并不涉及相对风险或优势比的评估，而是侧重于发病率或患病率的汇总统计数据。

一般用途的统计包，如SPSS、Stata、SAS和R可以用来执行元分析，但这不是它们的主要功能，因此它们都需要外部宏或编码。这些文件可以下载，但研究人员并不总是容易理解或定制。此外，前三个程序不是免费访问的，根据版本和国家的不同，价格从250美元到3万多美元不等。R是一个资源丰富的开放源码包，但它在健康方面的使用仍然有限，主要是由于需要编程而不是指向-点击界面。

有一些专门为进行元分析而开发的软件包。RevMan [2是Cochrane协作网的一个免费软件程序，它要求研究人员完成系统审查的所有步骤。它只接受传统格式的效应大小。Metawin [3.]及综合元分析(CMA) [4]是具有用户友好界面的商业软件。前者只接受三种类型的原始数据，而后者有购买成本，但接受更多类型的数据。它可以执行高级分析，但在图形显示方面仍有限制，特别是描述性数据，因为CMA不允许定制生成的森林图。最后，还有一个Meta-Analysis makes Easy (MIX) [5，这是Excel的一个附加组件。它可以用于描述性数据的分析，选择输入类型为“连续”，但免费版本不允许原始数据的分析，只允许内置数据集。其他一些选项已不可用，如FAST*PRO [6]，其他仍在开发中，作为元分析[7］．

另一个选择是直接使用Microsoft Excel分析数据。虽然它需要购买费用，但它通常已经安装在大多数电脑上，与微软的Office软件包捆绑在一起。大多数研究人员都不愿意自己输入所有的公式，因为它们一开始看起来可能很复杂。然而，如果计算是分步骤进行的，像Q和I这样的统计数据²可以用基本的算术运算来计算。伯尔斯坦等[8]引用不可能生成森林图作为一个重要的限制，但我们已经开发了一种方法，将散点图变成统计上正确的森林图，允许研究人员利用所有的excel格式工具。我们的工作被分为两个电子表格，因此研究人员可以使用两个电子表格进行所有计算，如果他们已经在任何其他软件中分析了数据，但需要一种吸引人的图形方式来展示数据，则可以使用第二个电子表格1］．

发现

技术注释

本文描述的方法是在一台配备Intel酷睿2.2 GHz处理器、4gb RAM、运行Windows 7 64位和Microsoft Office Excel 2007的笔记本电脑上设计的。这些电子表格随后在Excel 2003上进行了测试，计算结果和图表都没有发现差异。

meta分析的结果是效果总结。然而，有些审查可能只着眼于综合比率或流行率;从技术上讲，这些不能被称为“效果”，因为没有什么东西“导致”它，正确的术语应该是单个组总结。为了避免混淆，我们将这两种估计简称为“结果”，并仅保留缩写为西文遵循教科书标准。

由于我们已经确定现有软件包的限制是处理描述性数据，所以我们将在示例中使用速率，以便最终森林图中的差异更明显。这些数据可以是一个国家的吸烟流行率，也可以是高危患者的心肌梗死发生率。我们选择使用理论数字，这样我们就可以公开分发电子表格，测试特定的公式，并将得到的结果与其他软件进行比较。所有公式均以传统公式和excel格式表示。

步骤1和步骤2总是需要根据研究类型和结果进行调整。电子表格1中浅灰色的列是需要调整的列，而深灰色的列不需要修改任何研究类型(这包括指南的所有进一步步骤)。必要的调整很容易在方法学书籍上找到[8- - - - - -10］．

单元格B14应填入被分析研究的数量。当鼠标指针放在选定的单元格上时，电子表格上会弹出注释，因此无需经常查阅全文，就可以使用下载的文件。不过，电子表格中没有对公式和步骤的详细说明。Schriger等人最近发表的一篇论文[11]回顾了300多篇系统综述，并强调了在开发这种方法时所考虑到的生产森林地块的重要方面。

分析数据和生成森林图的步骤

电子表格分析工作(图1）

1.计算结果(效应量，es)

在我们的例子中，我们在列B和C中有事件的数量和主题的数量，所以我们可以简单地计算列D中的速率为 $\frac{n_{e v e n t 年代}}{n_{t o t 一个 l}}$ 或D3 =B3 /C3在Excel中。从D3到D12都是一样的，复制粘贴会自动调整单元格的编号。这种复制和粘贴应该在步骤1到6和步骤9 B.1中完成。

2.计算标准误差(SE)

所有的SE都可以由这个公式推导出来 $SE ＝ \frac{\sum {（ \bar{x} - μ ）}^{2}}{\sqrt{n}}$ ，但对于不同类型的研究，有简化的推导方程。既然我们用的是速率，我们可以用 $SE ＝ \frac{西文}{\sqrt{es * n}}$ 或 $SE ＝ \frac{\sqrt{事件}}{n}$ ，与CMA所用的公式相同。在excel中这将是E3 =D3 /√D3 *C3)。

3.计算方差(Var)

这个公式很简单:Var = SE²。在Excel中,F3 =E3 ^ 2。

4.计算单个研究的权重(w)

我们必须用方差的倒数来衡量每项研究，所以 $w ＝ \frac{1}{年代 E^{2}}$ 或G3 = 1 /F3在Excel中。

5.计算每个加权效应大小(w * es)

这是用每个效应量乘以研究权重计算出来的。如果我们不对权重进行任何修正(即单一效应模型)，该方程将再次导致某些类型的研究的研究规模。在excel中，这将是H3 =G3 *D3.

6.其他必要变量(w*es²和w²）

我们需要另外两个变量来计算Q统计数据(电子表格1的列I和J)。在excel中这将是我3 =G3 * (D3 ^ 2)和J3 =G3 ^ 2。

现在我们需要对每个变量的所有值求和。在我们的电子表格中，它们在第14行，标记为“总和”:G14 =总和（G3：G12),H14 =总和（H3：H12),我14 =总和（我3：我12),J14 =总和（J3：J12)

7.计算问

Q检验衡量研究之间的异质性，其工作原理类似于t检验。它的计算方法是将单个研究效果与跨研究的汇总效果之间的差异平方和加权求和，权重为汇总方法中使用的权重。Q分布为卡方统计量，k(研究次数)减去1个自由度。零假设是所有研究都是平等的。为了验证这一点，我们需要计算Q并将其与临界值表进行比较。如果我们计算出的Q低于表中的Q，那么我们就不能拒绝零假设(因此研究是相似的)。

这个公式是 $问＝^{\sum} （ {w *西文}^{2} ） - \frac{{［^{\sum} （ w *西文）］}^{2}}{\sum^{} w}$ ，但在我们的电子表格中，它将是简单的B17 =我14 - ((H14 ^ 2) /G14)因为我们已经有了所有的和。

8.计算我²

我的²被提出作为一种量化异质性的方法，它表示为一组效应量中总变异率的百分比，这是由于真正的异质性，即研究间的变异。这个公式是 $我^{2} ＝ \frac{（问 - df ）}{问} ＊ One hundred.$ ，其中“df”代表“自由度”，简写为总研究次数(k)减1。在excel中,B18 = ((B17 -B15) /B17) * 100。

9.决定效果总结 $（ \bar{e} \bar{年代} ）$ 模型。

如果异质性较低，我们可以使用固定效应模型，即假设我们的参数种群中的效应大小相同，研究中的差异只是来自抽样误差。然而，如果我们认为我们的样本总体可能彼此不同，我们可以使用随机效应模型。即使异质性较低，许多研究者也会选择该模型。在我们的例子中，Q大于16.919，即卡方分布中9个自由度的临界值，而I²是49%，所以我们有适度的异质性[12］．我们必须决定数据是否可以进行元分析，如果可以，我们可以选择继续进行随机效应模型。

一个。
固定效应模型

我们的效果总结如下 $\bar{e} \bar{年代} ＝ \frac{\sum （ w *西文）}{\sum w}$ ,或B20 = (H14 /G14)。标准误差是 $年代 E_{\bar{e} \bar{年代}} ＝ \sqrt{\frac{1}{\sum w}}$ ,或B21 =RAIZ(1 /G14)。与 $年代 E_{\bar{e} \bar{年代}}$ 我们计算95%置信区间，为 $C 我 (\bar{e} \bar{年代}) ＝ \bar{e} \bar{年代} \mp 1 ， 96 ＊年代 E$ 。在Excel中,B22 =B20 - (1.96 *B21日),C22 =B20 - (1.96 *B21)。在我们的示例中，我们将不使用这些结果。

B。
随机效应模型

由于我们假设可变性不仅是由于抽样误差，而且是由于效应总体的可变性，因此在这个模型中，每个研究的权重将用一个常数(v)表示这个。

B1。这个公式是 $v ＝ \frac{问 - （ k - 1 ）}{\sum w - (\frac{{\sum w}^{2}}{\sum w})}$ 。我们有所有的信息，除了 $\sum w^{2}$ 。我们可以计算w²在J列中J3 =G3 ^ 2，然后它和J14的和等于SOMA（J3：J12)。现在，应用这个公式，米16 = (B17 -B15) / (G14 - (J14 /G14))。

B2。一旦我们有了这个常数，我们就可以计算每个研究的新权重，使用 $w_{v} ＝ \frac{1}{（年代 E^{2} + v ）}$ 。在excel中,l3 = 1 / ((E3 ^ 2) + $米16美元)。我们需要$来固定单元格M16，否则当我们将方程复制到单元格L4到L12时，它将发生变化。

B3。现在我们重复步骤5到8，但是使用新的权重W_v。结果在M, N和o列²公式我们现在有一个可接受的Q和低异质性。我们计算我们的效果总结为 $\bar{e} {\bar{年代}}_{v} ＝ \frac{\sum （ w_{v} *西文）}{{\sum w}_{v}}$ ，标准误差为 $年代 E_{\bar{e} {\bar{年代}}_{v}} ＝ \sqrt{\frac{1}{{\sum w}_{v}}}$ 。

在excel中:F20 =米14 /l14日,F21 =√6(1 /l14),F22 =F20 - (1.96 *F21日),G22 =F20 + (1.96 *F21)。与固定效应模型相比，该模型的置信区间较宽，但预期效应汇总变化不大。

分析CMA中的这些数据，我们得到了完全相同的结果。——(附加文件2而且3.］．

电子表格2-森林图(图2）

A-G列是研究信息。如果用户有数据，可以将每个研究效果大小和置信区间直接插入到列D, F和G。在我们的例子中，我们复制了电子表格1中的计算结果，以及随机效应模型的效果总结值。

1.确保信息以我们想要的方式显示。在我们的示例中，我们希望以百分比表示速率，因此列I =列D*100。

2.我们通常将上下置信区间视为一个值，但excel将其理解为均值之差。这是获得一个适当的森林地块的关键。这些值J2 =我2 - (100 *F2)和K2 =我2 + (100 *F2).我们再乘以100得到百分比。

3.为了使每个研究在不同的行中，我们将给研究分配序号。我们的效果总结必须排在第1，如果我们想让它在图表的底部。这是在电子表格的H列手动完成的。

4.我们已经准备好构建图形了。插入>图>散点图。X值在第I列第2-12行，Y值在第H列第2-12行。

5.现在我们必须添加错误条。在Excel 2007中，这是在布局选项卡中完成的，点击右侧的“错误栏”按钮。在Excel 2003中，我们必须右击数据序列(图表上的点)，然后点击“格式化数据序列”，然后选择“X错误栏”选项卡。在这个窗口中，我们将选项标记为“个性化值”，然后将列J和K、第2行到第12行分配为上值和下值。

6.为了插入标记汇总效果值的线，我们将添加另一个数据系列。首先，我们在电子表格中手动构建这个数据集。然后右键单击图>选择数据。单击“add”，选择X值作为C列，第15至26行，Y值作为B列，第15至26行。一组新的点将出现在图上。右键单击任何新的圆点并选择“格式化数据系列”。然后我们将选择“无标记”和“实线”在标记选项和线颜色选项卡上。

7.我们现在可以格式化X轴，右键单击它。在我们的例子中，我们希望它从10开始，到28结束，间隔为2个单位。这不是我们的情况，但如果研究人员处理的是相关数据，那么“对数尺度”必须被标记。

8.图表已经准备好了。用户可以格式化颜色，轮廓，阴影和大小。在我们的示例中，我们将汇总效果更改为菱形。这是通过只选择一个点(双击)，然后右键单击它来完成的。

9.为了便于展示，我们建议将图表复制并粘贴到有研究信息的表格上3.）.

结论

我们构建了一个指南，以帮助对使用电子表格进行元分析数据感兴趣的研究人员。据我们所知，并没有事先的循序渐进的方法，但应该注意的是，所有的公式和方法之前都是公开的。

在电子表格中分析数据的主要限制是输入不正确的公式可能导致错误。我们相信，本文中所介绍的循序渐进的方法，以及excel格式中已经包含的所有公式，可以帮助最小化这种可能性。该指南也不处理高级分析，如多元回归。然而，这在总结描述性数据时并不常用。所有的敏感性分析都必须手工完成，包括和不包括每个研究的效果总结计算，但这种限制也存在于其他软件中。

Microsoft Excel是Microsoft Office软件包的一部分，因此它不是免费的。然而，对于那些已经有了这个包的人来说，使用Excel可以增强它的效用，为定制森林图的图形表示提供了另一种选择。

森林图的主要局限性在于，所有研究都用相同大小的正方形表示，而不是与研究权重成比例。我们不认为这可以掩盖所有其他格式的可能性，因为研究权重也可以通过置信区间宽度估计。

总之，可以使用Microsoft Excel电子表格，使用固定效应或随机效应模型对数据进行元分析。这种方法的主要优点是理解完整的过程和公式，并使用广泛可用的软件。使用excel制作森林图也很简单。因为对大多数研究人员来说，以图形化的方式显示结果，而且在统计上正确，通常是一个问题，我们相信这里提出的方法可以有很大的用处。数字3.比较了用本方法和CMA软件得到的图。

可用性和需求

项目名称:使用Microsoft Excel电子表格的元分析和森林图:专注于描述性数据分析的逐步指南;

项目首页:无;

操作系统:支持Microsoft Excel的任何操作系统;

编程语言:不适用;

其他要求:Microsoft Excel 2003或更高版本;

许可:创作共用属性3.0 unport (CC BY 3.0);

非学者使用的限制:没有

支持数据的可用性

上述电子表格和用于统计比较的CMA文件可作为补充材料提供。

参考文献

Stroup DF, Berlin JA, Morton SC等人:流行病学观察性研究的元分析:报告的建议。流行病学观察性研究(MOOSE)组元分析。《美国医学协会杂志》上。2000年,283:2008 - 12所示。10.1001 / jama.283.15.2008。
PubMed 中科院文章谷歌学者
哥本哈根:北欧Cochrane中心，The Cochrane协作网，2011。评审经理(RevMan)[计算机程序]。5.1版。［http://ims.cochrane.org/revman］
MetaWin: meta分析的统计软件版本2。2000年，马萨诸塞州桑德兰:Sinauer Associates， [http://www.metawinsoft.com］
谷歌学者
Borenstein M, Hedges L, Higgins J, Rothstein H:综合荟萃分析版本2。2005, Biostat, Englewood NJ， [http://www.meta-analysis.com］
谷歌学者
Bax L, Yu L- m, Ikeda N，等:MIX:因果研究数据元分析综合免费软件的开发与验证。中华医学杂志。2006,6:50-10.1186/1471-2288-6-50。
PubMed 公共医学中心文章谷歌学者
Eddy DM: FAST*PRO:用置信度剖面法进行元分析的软件。1992年,学术出版社
谷歌学者
Wallace BC, Schmid CH, Lau J等:元分析:用于二进制、连续和诊断数据的元分析软件。中华医学杂志。2009,9:80-10.1186/1471-2288-9-80。
PubMed 公共医学中心文章谷歌学者
Borenstein M, Hedges LV, Higgins JPT，等:元分析导论。2009年,威利,1
书谷歌学者
威尔逊·利普西，《实用元分析》。2000年，Sage出版公司，1
谷歌学者
埃格·M，史密斯·GD，阿尔特曼D:医疗保健系统评论:背景下的元分析。2001，英国医学杂志，第2期
书谷歌学者
Schriger DL, Altman DG, Vetter JA，等:系统综述报告中的森林地块:回顾当前实践的横断面研究。国际流行病学杂志，2010,39:421-9。10.1093 / ije / dyp370。
PubMed 文章谷歌学者
Higgins JPT, Thompson SG, Deeks JJ，等:测量元分析中的不一致性。BMJ。2003年,327:557 - 60。10.1136 / bmj.327.7414.557。
PubMed 公共医学中心文章谷歌学者

下载参考

确认

本研究由国家Pesquisa协会(CNPq)和奖励基金à阿雷格里港Pesquisa do医院Clínicas (FIPE-HCPA)资助。

作者信息

作者和联系

巴西阿雷格里港，大南联邦大学心脏病学研究生项目
Jeruza L Neyeloff, Sandra C Fuchs和Leila B Moreira
阿雷格里港Clínicas医院，巴西阿雷格里港大南联邦大学
桑德拉·C·福克斯和莱拉·B·莫雷拉

作者

Jeruza L Neyeloff

看来作者出版物

您也可以在中搜索这个作者PubMed谷歌学者
桑德拉·C福克斯

看来作者出版物

您也可以在中搜索这个作者PubMed谷歌学者
莱拉B Moreira

看来作者出版物

您也可以在中搜索这个作者PubMed谷歌学者

相应的作者

对应到Jeruza L Neyeloff。

额外的信息

相互竞争的利益

作者声明他们没有竞争利益。

作者的贡献

JLN构思了文章，设计了电子表格，并起草了手稿。LBM和SCF对手稿进行了修改，批准了最终版本。

电子辅料

13104 _2011_1382_moesm1_esm.xlsx

附加文件1:MS Excel中的元分析和森林图。此文件包含开发的两个电子表格。(XLSX 26 KB)

13104 _2011_1382_moesm2_esm.pdf

附加文件2:CMA计算固定效果。这是使用固定效应模型计算效果总结时，综合meta分析软件进行的计算的便携文档格式(pdf)。提供它是为了让读者可以比较使用Microsoft Excel电子表格和商业软件获得的计算和结果。(PDF 822 KB)

13104 _2011_1382_moesm3_esm.pdf

附加文件3:CMA计算随机效果。这是一个可移植的文档格式(pdf)的计算软件综合元分析所执行的计算，使用随机效应模型计算效果总结。提供它是为了让读者可以比较使用Microsoft Excel电子表格和商业软件获得的计算和结果。(PDF 862 KB)

作者提交的图片原始文件

下面是作者提交的原始图片文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇开放获取文章，根据创作共用授权协议(http://creativecommons.org/licenses/by/2.0)，它允许在任何媒体上不受限制地使用、分发和复制，只要原著被恰当地引用。

再版和权限

关于这篇文章

引用这篇文章

Neyeloff, j.l.， Fuchs, S.C. & Moreira, L.B.使用microsoft excel电子表格进行元分析和森林图:专注于描述性数据分析的逐步指南。BMC Res笔记552(2012)。https://doi.org/10.1186/1756-0500-5-52

下载引用

收到了：2011年8月04
接受：2012年1月20
发表：2012年1月20
DOI：https://doi.org/10.1186/1756-0500-5-52

关键字

随机效应模型
森林的阴谋
效果总结
研究重
加权效应大小

查看存档意见(2)