同行评议对随机试验报告中研究局限性和主张强度讨论的影响:一项前后研究

研究诚信与同行评审体积4，文章号:19（2019）引用本文

5970访问
2引用
86Altmetric
指标细节

摘要

背景

在他们的研究报告中，科学家应该讨论他们的研究存在的局限性。之前的研究表明，这种讨论通常是不存在的。此外，许多期刊强调避免夸大声明的重要性。我们想看看编辑处理和同行评议在多大程度上影响了自我承认的局限性和索赔的对冲。

方法

使用自动检测限制承认语句并计算语句中套期的软件，我们比较了提交的手稿及其2015年在27个BioMed Central (BMC)期刊和BMJ Open上发表的所有随机试验的最终出版物。我们使用混合线性和逻辑回归模型，对期刊内的手稿-发表对进行聚类，以量化承认限制的平均句子数量的前后变化，以及一篇自我承认限制为零的手稿最终成为至少有一个限制的出版物的概率。

结果

分析了446对手稿-出版对。每期期刊的中位数稿件数为10.5篇(四分位数范围6-18)。不同限制句的平均数量从手稿中的2.48句增加到出版物中的3.87句，增加了1.39句(95% CI 1.09-1.76)。202篇(45.3%)未提及任何限制。其中63个(31%，95% CI 25-38)在同行评审后至少提到了一个。对冲平均得分的变化可以忽略不计。

结论

我们的研究结果支持这样的观点，即编辑处理和同行评议导致更多地自我承认研究的局限性，但不会导致语言细微差别的变化。

同行评审报告

背景

几乎所有严肃的科学期刊都采用编辑过程(同行评议和编辑处理)的主要功能之一是确保发表的研究文章是准确、透明和完整的研究报告。自旋是一个术语，用来描述扭曲研究结果解释的报告实践[1］．不提及(所有重要的)研究局限性是一种误导读者的方式，例如，一种实验性治疗的有益效果大于试验结果所保证的。

在一项对科学家的调查中，对研究局限性的不充分报告在有害的研究实践中排名靠前[2］．Goodman等人在《内科医学年鉴》编辑部进行的一项蒙面前后研究中发现，手稿中关于研究局限性的报告相当差，但在同行评审和编辑后有所改善[3.］．Ter Riet等人证明，超过四分之一的生物医学研究文章没有提到任何限制[4］．最后，霍顿在对十篇《柳叶刀》论文的所有作者的调查中发现，“重要的弱点经常在直接提问时被承认，但没有包括在发表的文章中”[5］．其他形式的自旋在研究设计不允许的情况下，对结果进行不恰当的外推和推断因果关系[1］．

同行评审员应该发现并建议修改夸大和过于强烈的声明，并指出未被提及的重要研究弱点。因此，同行评议过程可以被视为“作者和期刊之间关于最终将出现在印刷品上的知识主张范围的谈判”[6］．特定的词语可以用来增加语句的细微差别，防止潜在的夸大，这就是所谓的“套语”;这些词包括" might "、" could "、" suggest "、" appear "等。7一篇文章的作者可以说处于指出他们研究的弱点的最佳位置，但他们可能会觉得指出太多或讨论太广泛可能会损害他们发表的机会。在这个贡献中，我们假设，与随后的出版物相比，所提交的手稿的讨论部分包含较少的承认局限性，并且没有那么强烈的限制。

方法

在这项研究中，我们考虑了发表在27个BioMed Central (BMC)期刊和BMJ Open上的随机临床试验(RCT)报告的讨论部分。使用两种软件工具，我们确定了在同行评议(手稿)之前和在同行评议(出版物)之后，用于承认特定研究局限性和使用语言限制的句子数。限制检测工具依赖于讨论部分的结构和语言线索来识别限制句[8］．在正式评价中，其准确性为91.5% (95% CI 90.1-92.9)。套期保值检测工具使用包含190个加权套期保值的词汇表。系统根据文本中套期的数量和强度计算整体套期得分。套期权重范围从1(套期强度低，例如“大部分”)到5(套期强度高，例如“可能”)。然后将总体对冲值除以讨论部分的字数(归一化)。我们还计算了“未加权”得分，其中所有对冲的权重均为1。该软件工具在正式评估中识别模糊句子的准确率达到93% [9］．这些手稿是从期刊网站上下载的，然后进行人工预处理，以恢复句子和段落结构。我们的软件自动从PubMed Central提取出版物中的讨论部分。

我们还分别对对冲得分上升和下降幅度最大的两篇论文进行了定性分析。对于这两篇论文，KK比较了之前和之后的讨论部分，以了解实际的变化。分析审稿人报告，包括审稿人的评论和作者的回应。

我们以期刊为随机截距，对每对论文发表对的限制句数和归一化对冲得分的平均变化进行了混合线性回归分析。我们重复了这些分析，调整了期刊的影响因子(连续)、编辑团队规模(连续)和作者在英语熟练程度方面的构成(三个虚拟变量代表四个类别)。英语水平是根据英国政府在申请英国国籍时对大部分以英语为母语的国家的分类而来[10］．英语水平分类如下:(i)所有作者均为英语原籍国居民;(ii)第一作者是英国本土人，但至少有一名共同作者不是;(iii)第一作者不是英国本土人，但至少有一名共同作者是英国本土人;(iv)所有作者都不是英国本地人。我们进行了敏感性分析，排除了BMJ Open (n= 69)和BMC医学(n= 14名)，这是因为他们的编辑人数(84名，182名)非常多。最后，使用散点图和分数多项式函数，我们直观地探索了限制承认句数变化的影响是否受到手稿中限制承认句数的影响，以使用Goodman等人建议的中位数分裂控制回归到平均值。[3.］．我们将粗分析和调整分析的结果列于表中2敏感性分析附录1．

我们使用混合效应逻辑回归分析来评估上述因素对那些在手稿中没有提到至少一个限制的人在发表中提到的可能性的影响。敏感性分析包括将数据集限制在编辑团队成员少于20人的期刊，至少10个手稿-发表对，并分别同时进行这两种限制。

结果

选取了446篇研究文章。表格1显示了几个关键的期刊特征。每期期刊的中位数稿件数为10.5篇(四分位区间(IQR) 6.5 ~ 18.5;范围2 - 69)。表格2显示结果。不同限制句的平均数量增加了1.39句，从2.48句(手稿)增加到3.87句(出版物)。202篇(45.3%)未提及任何限制。其中63个(31%，95% CI 25-38)在同行评审后至少提到了一个。在244篇提到至少一种限制的论文中，有8篇(3%，95% CI 2-6)在论文中没有提到任何限制。在进行的(敏感性)分析中，在那些手稿中没有限制的出版物中提到至少一个限制的概率与评估的三个协变量中的任何一个都不一致，尽管较高的影响因子往往与较低的概率弱相关，而编辑团队的规模与较高的概率弱相关(数据未显示)。从视觉上评估承认限制句的变化数量与手稿中承认限制句数量的关系，结果显示出反比关系，即承认限制句数量少的手稿变化更大(图2)。1）.

表1期刊特征

全尺寸表

表2粗分析和调整分析结果

全尺寸表

与对冲相关的差异都非常接近于零。一项事后分析的灵感来自于承认限制的句子本身可能会影响对冲平均得分的假设，证实了主要的分析。

对冲得分的最大涨幅为+ 1.67(从3.33升至5.00)。在手稿中检测到的15个句子中加权对冲得分为50，在发表的论文中检测到的29个句子中加权对冲得分为145。对冲评分的最大降幅为−2.55(从6.85降至4.30)。在手稿的28句话中加权对冲得分为192，在发表的论文的33句话中加权对冲得分为142附录3对于文本更改)。

讨论

在发表在28种开放获取期刊上的446份随机试验报告样本中，我们发现同行评议后用于研究局限性的句子数量增加了56%，尽管有人可能会说，从绝对数量上看，增加的句子数量并不多(增加了1.39句)。我们的自动化方法显示，33%的研究报告在同行评议后没有包含限制句。这与Ter Riet等人用手工方法确定的27%的结果是相当的。Goodman等人发现，提及研究局限性是同行评议前评分最低的项目之一，而同行评议后评分最高的因素之一[3.］．和Goodman等人一样，我们发现有证据表明，同行评议和编辑处理对没有或非常少的限制承认句子的手稿有更大的影响。在附录2，我们强调在七个主要报告指南中提及研究局限性的注意。

我们的研究结果并不支持这样一种假设，即编辑过程通过使用更微妙的语言来提高声明的资格。对两对手稿-出版的小规模定性分析表明，作者都被要求淡化陈述，即更强烈地套期保值，并使陈述更少的推测性，即套期保值。这些现象可能会相互抵消，导致套期保值的总体使用发生极小的变化(见附录3对于实际的文本更改)。虽然套期保值术语及其强度评分是在对该主题的语言学文献进行仔细分析的基础上选择的，但有可能作者使用了表示不同确定性程度的术语(例如，可以vs。五月)在某种程度上可以互换。这可能解释了我们的发现，对冲得分的净变化非常小。

为了更好地理解同行评议对出版前手稿修改的影响，对编辑委员会或出版商档案中可用的同行评议报告和通信进行更广泛的定性分析可能是有趣的。另一个有趣的研究途径可能是比较被拒绝的手稿和被接受的手稿，以评估承认限制和对冲程度是否会影响接受率。将这种分析限制在对例如泛化性提出特殊要求的句子中可能是有用的。

可以说，我们的软件工具可能会被编委会(或提交作者)使用，以标记出可能值得更多(编辑)关注的特定段落。例如，限制句识别软件可以用来提醒编辑没有自我承认限制的稿件，以查看这种遗漏是否合理。如果存在代表大量论文中对冲得分范围的参考值，对冲检测软件可以帮助通知审稿人(甚至作者)，手稿具有不寻常的(加权)对冲得分，并让他们重新审视论文中的一些公式。我们认为，目前不应仅从数字中得出直接结论。人工解读在未来一段时间内仍将至关重要，但目前看来，软件的路标作用是可行的。

我们研究的一个局限性是我们只纳入了发表的报告或随机试验。所有提交的报告，包括观察性研究，对局限性的承认可能与我们在这里报告的不同。另一个限制是我们只纳入了高于平均编辑团队质量的开放同行评审期刊。盲目的同行评审可能会导致不同的结果，对于编辑团队质量较低的期刊也是如此。还要注意，赋予套期保值的权重有些主观。然而，我们的结果在加权和非加权套期保值中是稳定的。最后，有人可能会说，我们对夸大声明的兴趣与我们实际测量的结果之间存在差异，即对冲得分所有讨论部分的句子。更严格的目标操作化要求我们首先检测“索赔语句”，然后仅测量这些语句中的套期保值水平。另一方面，我们只关注讨论部分的方法比分析完整的论文更好，因为主张通常是在讨论部分提出的。我们研究的一个优势是对限制句和限制语的自动评估，限制了分析或观察偏差的可能性。这种自动化评估也可以帮助期刊编辑和同行审稿人完成他们的审稿任务。我们的研究结果表明，审稿人和/或编辑要求讨论作者没有意识到或不愿意讨论的研究局限性。由于良好的科学意味着充分披露可能(部分)否定研究结果的问题，限制句数量的增加是同行和编辑评审过程的积极影响。

结论

我们的研究结果支持这样的观点，即编辑处理和同行评议平均而言会导致自我承认的研究局限性数量适度增加，而在报告零限制或很少限制的稿件中，这些影响更大。这一发现在关于同行评议价值和有害研究实践的争论中很重要。作者、审稿人和编辑可能会使用本研究中使用的软件工具来标记可能存在问题的手稿或其中的部分。需要更多的研究来更精确地评估同行评议和编辑处理对言论语言细微差别的影响(如果有的话)。

数据和材料的可用性

在当前研究中使用和/或分析的数据集，以及用于检测限制承认句和限制语的软件工具，可根据合理要求从通信作者处获得。

缩写

BMC:: 生物医学中心
置信区间:: 置信区间
差:: 四分位范围
个随机对照试验:: 随机临床试验
SD:: 标准偏差
英国:: 联合王国

参考文献

Chiu K, Grundy Q, Bero L.发表的生物医学文献中的“Spin”:一项方法学系统综述。公共科学图书馆。2017;15(9):e2002173。
文章谷歌学者
Bouter LM, Tijdink J, Axelsen N, Martinson BC, Ter Riet G.主要和次要研究不端行为排名:来自四次世界研究诚信会议参与者的调查结果。Res Integr Peer Rev. 2016;1:17。
文章谷歌学者
Goodman SN, Berlin J, Fletcher SW, Fletcher RH。在《内科医学年鉴》进行同行评审和编辑之前和之后的手稿质量。中华外科杂志，1994;21(1):11-21。
文章谷歌学者
谭丽娟，张志强，张志强，等。闪光的不一定都是金子:一项关于承认生物医学研究局限性的调查。公共科学图书馆，2013;8(11):e73623。
文章谷歌学者
霍顿·r·隐藏的研究论文。《美国医学协会杂志》上。2002; 287(21): 2775 - 8。
文章谷歌学者
王晓明，王晓明。基于质量和可靠性的期刊同行审稿人分层系统的实现。中华急诊医学杂志2011;57(2):149-52 e4。
文章谷歌学者
科学研究文章中的套期保值。费城:约翰·本杰明出版公司;1998.
书谷歌学者
李国强，李国强，李国强。临床研究文献中自我认知局限性的自动识别。中国医学杂志。2018;25(7):855-61。
文章谷歌学者
识别生物医学研究文章中的推测性语言:一个语言学动机的视角。BMC bioinf。2008; 9 (11): S10。
文章谷歌学者
证明您的英语知识，以获得公民身份和定居[可从:https://www.gov.uk/english-language/exemptions．2018年6月访问。

下载参考

确认

我们非常感谢BMC和BMJ Open的编辑们为我们提供手稿的帮助，我们特别感谢Elizabeth Moylan在此提供的广泛帮助。

资金

香港大学获美国国立卫生研究院美国国家医学图书馆的校内研究计划资助。

作者信息

作者及隶属关系

荷兰阿姆斯特丹1105AZ Meibergdreef 9，阿姆斯特丹UMC阿姆斯特丹公共卫生研究所全科科室
Kerem Keserlioglu
利斯特希尔国家生物医学通信中心，美国国家医学图书馆，贝塞斯达，MD，美国
哈利勒·Kilicoglu
阿姆斯特丹联合医疗中心，阿姆斯特丹大学，Meibergdreef 9,1105az，阿姆斯特丹，荷兰
Gerben ter Riet
阿姆斯特丹应用科学大学ACHIEVE应用研究中心，Tafelbergweg 51, 1105 BD，阿姆斯特丹，荷兰
Gerben ter Riet

作者

Kerem Keserlioglu

查看作者出版物

您也可以在PubMed谷歌学者
哈利勒·Kilicoglu

查看作者出版物

您也可以在PubMed谷歌学者
Gerben ter Riet

查看作者出版物

您也可以在PubMed谷歌学者

贡献

GtR提出了主要的研究思路。HK开发了检测限制句和限制语的软件工具，并使用这些工具处理数据。HK和KK提取数据并检查这些错误。KK收集数据并进行定性分析。GtR负责监督该项目。GtR和KK起草了当前的手稿并分析了数据。所有作者都为最终的手稿贡献了智慧。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到Gerben ter Riet．

道德声明

伦理批准并同意参与

这是一项基于文献的研究，没有寻求伦理批准。

发表同意书

不适用

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

附录

附录1

表3敏感性分析

全尺寸表

附录2

表4七个主要报告准则关于需要提到限制的说明的例子

全尺寸表

附录3

定性分析

对编辑过程后讨论部分对冲得分增加和减少最多的两篇文章进行了评估。我们分析了之前和之后的讨论部分，以及审稿人和作者之间的通信。

讨论部分对冲得分的最大增长是+ 1.67(从3.33上升到5.00)。

有一个增加树篱的明显例子。

手稿:目前的研究表明，没有证据表明完成标准的知情同意程序对……

出版:目前的研究表明确实有没有强大的完成标准知情同意程序对…产生影响的证据。其他句子没有调整。但增加了三段，主要是研究局限性和研究结果的细微差别:

出版:如果我们假设的类型的影响确实存在，我们建议，尽管有整体的发现，这项研究可以提供一些试探性的证据，证明它们确实存在，我们可以预计，它们的大小会有所不同……评论者评论:“作者在他们的回复中提到，他们无法获得时间。虽然我很欣赏这一点，但在手稿中这个更广泛的观点应该有更好的讨论。例如，作者会怎么做不同的事情?一种可能是向接受干预的参与者提出一个问题，也许是间接地评估他们是否阅读了信息表。在讨论中，作者有机会在他们的建议中发挥一点创造性。”

作者的回答是:“这是非常有用的，现在正在讨论部分的最后进行讨论。”

出版:这项研究的另一个局限性是，我们无法确定分配到干预组的参与者是否真正阅读了信息……尽管我们本可以采取诸如……本研究中缺乏任何暴露增强措施，也意味着一定程度的实验操作失败，因为并非所有随机参与者都可能完全暴露于我们正在寻求测量的可能影响。在解释本研究结果时，应牢记这一点讨论部分对冲得分的最大降幅为−2.55(从6.85降至4.30)。

手稿:我们的结果与之前的动物数据形成对比，表明RIC似乎是STEMI患者pPCI的有效辅助，而不考虑大多数心血管危险因素……审稿人评论:“在我看来，讨论中有一些过度的解释。在STEMI患者中，RIC似乎是pPCI的有效辅助，这一开篇陈述是基于下限为0的置信区间。这在统计意义上具有边缘性。”

作者的回应是:“我们已经按照建议修改了开场白，并降低了等级。此外，我们已经明确指出，统计力量是有限的，我们的研究应该被认为是探索性的。”

出版:我们的分析没有证明心血管危险因素及其药物对接受pPCI的STEMI患者的RIC疗效有显著的改变。由于统计力量有限，我们的研究应该被认为是探索性的。审稿人评论:“在讨论中的每个子组中，由于没有进行相互作用测试，因此对于子组之间RIC效果是否存在差异的解释有些主观。我觉得有些地方的解释过于强烈，这部分的讨论也太长了。”

手稿:在我们的临床随机研究中，我们没有发现RIC对糖尿病患者或高血糖或HbA1c水平患者的影响减弱。相反，点估计倾向于支持相反的效果。降糖药可能调节对RIC的反应，但由于本研究中糖尿病患者数量有限，我们无法根据降糖药治疗类型对分析进行分层。

出版:糖尿病患者的数量有限，我们的分析不能得出关于RIC对糖尿病患者疗效的改变的结论。

手稿:我们的分析表明，RIC的效果在他汀类药物使用者中得到了保留。我们的数据甚至可能表明，他汀类药物的使用增加了RIC的疗效，正如他汀类药物使用者中显著较高的估计值所表明的那样，尽管置信区间很宽。此外，我们发现RIC的疗效与入院时的血脂水平无关。

出版:他汀类药物对RIC的影响尚不清楚。因此，我们是第一个指出他汀类药物使用者RIC的潜在增加作用。RIC在他汀类药物使用者中是否有更明显的作用值得进一步研究。

手稿:研究RIC和急性β受体阻滞剂治疗是否具有附加的心脏保护作用将具有指导意义。在动物模型中，ACE抑制剂和arb已被证明可以防止再灌注损伤。然而，血管紧张素II也可能参与缺血预处理的信号级联。在兔子模型中，氯沙坦抑制血管紧张素II受体(AT1亚型)消除了局部缺血调节的作用。尚无研究研究ACE抑制剂和ARB治疗与RIC的相互作用，可能通过局部缺血预处理以外的途径起作用。在我们的分析中，ACE抑制剂和ARB似乎都没有降低RIC的作用，但需要进一步的动物和临床研究来阐明ACE抑制剂和ARB治疗对RIC的任何潜在的修饰作用。

出版:这一段被完全删除。

权利和权限

开放获取本文根据创作共用属性4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/)，允许在任何媒介上不受限制地使用、分发和复制，前提是您对原作者和来源给予适当的赞扬，提供到创作共用许可证的链接，并注明是否进行了更改。创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)除另有说明外，适用于本条所提供的资料。

转载及权限

关于本文

引用本文

Keserlioglu, K.， Kilicoglu, H. & ter Riet, G.同行评议对随机试验报告中研究局限性和声明强度讨论的影响:一项前后研究。Res integral Peer Rev4， 19(2019)。https://doi.org/10.1186/s41073-019-0078-2

下载引用

收到了：2019年2月9日
接受：8月14日
发表：2019年9月16日
DOI：https://doi.org/10.1186/s41073-019-0078-2

关键字

同行评审
研究的局限性
之后的研究
语言自旋
套期保值
透明度
科学报告
随机试验

同行评议对随机试验报告中研究局限性和主张强度讨论的影响:一项前后研究

摘要

背景

方法

结果

结论

背景

方法

结果

讨论

结论

数据和材料的可用性

缩写

参考文献

确认

资金

作者信息

作者及隶属关系

贡献

相应的作者

道德声明

伦理批准并同意参与

发表同意书

相互竞争的利益

额外的信息

出版商的注意

附录

附录1

附录2

附录3

定性分析

权利和权限

关于本文

引用本文

分享本文

关键字

研究诚信与同行评审

联系我们