跳到主要内容

研究人员对研究不当行为的看法:阿姆斯特丹学术研究人员的混合方法研究

摘要

背景

越来越多的证据表明,研究不当行为很常见,尤其是轻微的形式。以前关于研究不当行为的研究主要集中在生物医学和社会科学,来自自然科学和人文科学的证据很少。我们调查了阿姆斯特丹的学术研究人员在各自学科领域中认为有害的研究不当行为。

方法

我们采用解释性的顺序混合方法设计。首先,来自四个学科领域的调查参与者从一份60人的清单中评估了研究不当行为的感知频率和影响。然后,我们将这些组合成最有害的研究不当行为的前五名排名,按学科领域分层。其次,在焦点小组访谈中,来自每个学术级别和学科领域的参与者被要求反思与其学科领域最相关的研究不当行为。我们采用参与式排名方法,诱导参与者就哪些研究不当行为最有害达成共识。

结果

共有1080名研究人员完成了调查(回复率:15%),61名研究人员参与了焦点小组(每组3 - 8名研究人员)。无论在哪个学科领域,监管不力一直是调查中排名最高的问题,焦点小组也证实了这一点。焦点小组的重要主题是监督不足、草率的科学和草率的同行评审。生物医学研究人员和社会科学研究人员主要关注的是草率的科学和监管不足。自然科学和人文科学的研究人员讨论了审稿人草率的审稿和窃取想法的问题,这是一种抄袭。焦点小组参与者进一步提供了他们所面临的特定研究不当行为的例子,以及这些行为如何影响他们作为研究人员的工作。

结论

我们发现,监管不足和各种形式的马虎科学,在所有学科领域的总体有害影响中得分很高。自然科学和人文科学的研究人员也认为裙带关系对总体水平有重大影响。自然科学也认为伪造数据具有重大影响。焦点小组访谈有助于理解研究人员如何解释“监管不足”。此外,焦点小组参与者在实践中增加了对草率科学的洞察。自然科学和人文科学的研究人员在名单上增加了与其学科领域相关的新研究不当行为,比如在发表前窃取想法。这提高了我们对社会和生物医学领域之外的研究不当行为的理解。

同行评审报告

背景

大多数研究人员认为自己是诚实的,并认为他们的工作是正直的。123.].尽管如此,越来越多的证据表明,研究人员在工作中经常行为不端。456].除了被广泛认可的伪造、捏造和抄袭等不当行为(以下简称FFP),几乎没有证据表明什么是被认为是最有害的研究不当行为[789].此外,越来越明显的是,与FFP相比,看似微不足道的研究不当行为可能会产生巨大的总体影响,因为它们比“致命的罪”发生得更频繁[10111213].

一项对调查研究不当行为的21项调查的元分析发现,约2%的研究人员承认伪造或捏造。约34%的受访者承认曾有可疑的研究行为[4].qrp体现了大量的研究不当行为,比如在没有披露的情况下删除异常值。然而,由于荟萃分析中包含的21项研究中有14项集中在生物医学研究人员身上,目前尚不清楚这些比例是否可以推广到其他学科领域。

同样地,在汇总17项调查抄袭的研究结果时,1.7%的参与者承认抄袭[14].然而,其中10项研究使用了生物医学样本。因此,这些结果可能不能代表所有的科学或人文学科。这也引出了一个问题,参与者被问及的研究不当行为是否实际上与他们自己的研究相关,因为一些qrp可能是特定领域或学科的。

我们调查了被认为有害的研究不当行为是否在不同学科领域有所不同。在我们的研究中,我们区分了四个主要的学科领域:生物医学、自然科学、社会科学和人文科学。由于FFP相对罕见,我们专注于研究在总体水平上有害的不当行为。为了了解哪些研究不当行为在总体水平上是最有害的,我们还考虑了研究不当行为的频率。因此,我们的研究旨在评估阿姆斯特丹的学术研究人员在各自学科领域的总体水平上认为是有害的研究不当行为。

方法

设计

我们使用了混合方法,顺序解释,定量优先设计[15].这意味着我们的研究有两个阶段:(1)收集调查数据的定量阶段;(2)进行焦点小组访谈以加深对调查反应的理解的定性阶段(见图2)。1).

图1
图1

研究设计和分析概述

道德的声明

阿姆斯特丹自由大学行为与运动科学学院科学与伦理审查委员会审查并批准了我们的研究(批准号:VCWE-2017-017R1)。

参与者

参与者包括在阿姆斯特丹自由大学、阿姆斯特丹大学或阿姆斯特丹大学医学中心至少有0.2个全日制研究职位的学术研究人员,包括博士生。

材料

我们向参与者展示了由Bouter等人组成的60个主要和次要不当行为列表中的研究不当行为。[11].对于列表发展的详细描述,读者可以参考Bouter等人。[11].该列表可以在附加文件中找到1

简而言之,他们根据现有的研究不当行为文献,编制了一份包含100多个研究不当行为的广泛清单。去除重复后,剩下60个条目,15名研究人员对这些条目进行了可理解性测试。然后,这60个项目被分发给世界研究诚信大会的主旨发言人和口头发言人进行审查。最后,这份60人的名单被用于4th世界研究诚信大会(2015年),为项目措辞和相关响应量表提供了最终投入。这份清单是用英语编写的,我们也在使用。

我们分别使用了初始列表中的两个响应量表:频率和影响。我们通过指定受访者在阅读项目时必须牢记的时间框架或单位,略微改变了这些反应量表。影响反应量表,“这种不当行为发生的频率?”,变成了(斜体强调我们的变化):“你多久观察一次上述行为?在过去三年里?”。这个问题必须参考受访者的主要学科领域来回答。答案选项为1(“从未”),2(“一次或两次”)和3(“三次或以上”)。影响反应量表,如果它发生了,它对知识有效性的影响有多大?,变成了“如果你要观察这种行为,它会对……的有效性产生多大的影响?有争议的研究结果?”。回答范围从1(“微不足道”)到5(“巨大”)。

定量数据收集程序

我们联系了参与机构的院长和校长,要求联系他们的学术研究人员。这些机构在正式数据共享协议的基础上共享了其研究人员的详细联系方式。为了解释这项研究的目的,我们派了所有阿姆斯特丹的学术研究人员(n= 7548)一封介绍信。这封信还包括我们项目网站上的隐私政策和研究协议的超链接(见附加文件)2而且3.).一周后,我们向所有研究人员发送了邀请邮件。在调查开始时,参与者必须给予知情同意,并确认他们平均每周至少有一天参与研究(纳入检查)。我们使用Qualtrics (Qualtrics, Provo, UT, USA)来构建调查。

为缩短调查的总时长及减少参与者疲劳的风险[16],参与者被随机展示了Bouter等人列出的60个项目中的20个。[11].为了排除顺序效应,20个项目的呈现顺序也是随机的。

调查以三个人口统计项目结束:参与者的学术级别(博士生、博士后、助理教授、副教授或正教授)、学科领域(生物医学、自然科学、社会科学和人文科学)和性别(男性或女性)。在本文的其余部分,我们区分了三个主要的学术等级群体:博士研究生;博士后、助理教授;副教授和正教授。

调查由三部分组成,其中一部分是这里描述的60种研究不当行为。其余部分包括两份文书,其中一份是关于诚信的研究气氛[17]和另一项关于对出版压力的感知程度[18].这里描述的数据扩展了我们之前的发现[17通过识别被认为对研究气氛影响最大的研究不当行为。

定量数据分析

我们在开放科学框架上预先注册了我们的分析,见https://osf.io/x6t2q/register/565fb3678c5e4a66b5582f67.在这里,我们简要地解释一下主要的分析。首先,我们按学术等级和学科领域计算了五种最常见和最具影响力的研究不当行为。第二,虽然伪造数据、捏造数据或剽窃是对科学最不利的,但它们相对较少,因此过分强调FFP的重要性是没有用的。为了了解哪些研究不当行为在总体水平上最有害,我们跟踪了布特等人。[11],并将每个研究不当行为的影响评分与感知频率相乘。特别是,我们使用影响和频率的乘积得分(乘法)作为整个手稿的总影响的代理。这个指标的范围从1(影响微不足道/从未观察到)到15(影响巨大/观察到超过三次)。我们在下面的总水平上列出了这些有害的研究不当行为的前5个分层排名。

最后,我们进行了探索性分析,以统计评估前5名是否实际上很好地代表了总体水平上有影响力的研究不当行为。这些分析没有预先登记,应被视为探索性研究。我们的推理如下:如果一个研究不当行为可以排在排名的第1位,这意味着研究不当行为具有实质性的影响。因此,我们评估了平均估计值周围的偏差校正自举95%置信区间。如果置信区间之间有任何重叠,我们得出的结论是,这种研究不当行为也可以排在第一位。如果是这样的话,我们调整了排名。其次,我们使用这些新的排名来检查学科领域之间是否存在差异,看看围绕平均估计值的置信区间在学科领域之间是否重叠。

定性数据收集

我们通过焦点小组访谈扩展了调查结果。我们的目标是双重的。首先,我们想知道研究人员是否认识到我们根据调查确定的前5种研究不当行为与他们的学科领域相关。其次,如果他们没有认识到(一些)研究不当行为,我们给焦点小组访谈的参与者提供了展示和讨论他们认为(更)与他们的学科领域相关的其他研究不当行为的机会。

我们组织了由来自三个学术级别和四个学科领域的研究人员组成的焦点小组。这些焦点小组在自由大学进行;因此,我们只邀请了来自自由大学和阿姆斯特丹UMC (location VUmc)的研究人员,因为他们的位置最方便。

我们通过三种方式招募研究人员。首先,我们写信给各部门负责人,要求他们提供可能感兴趣的研究人员的电子邮件地址。其次,我们利用我们在不相关领域工作的同事网络。第三,我们从不同的学术级别和学科领域随机选择研究人员,通过电子邮件邀请他们,并说明焦点小组的目的并邀请他们参与。当被邀请者放弃参与(放弃参与主要是由于冲突的日程安排,缺乏时间或其他原因),我们邀请一个新的研究员,直到我们达到每个焦点小组至少4个确认。请注意,焦点小组参与者可能也参与了在焦点小组开始前9个月传播的调查。然而,我们没有信息来量化这一点,因为我们没有具体询问。

在2018年3月至2018年5月期间,我们总共对61名研究人员进行了12次焦点小组访谈。为了鼓励参与者畅所欲言,这些小组在学术等级和学科领域上是同质的(见表1).

表1阿姆斯特丹自由大学和阿姆斯特丹UMC各焦点组VUmc的学术研究人员概况

一名主持人(TH或JT)领导焦点小组,由一名观察员陪同,后者做了笔记并确保录音。我们构建了一个主题指南来指导焦点小组访谈(见附加文件)4),我们向参与者展示了我们在调查中发现的来自各自学科领域的研究人员的研究不当行为的汇总影响前5名。然后,我们要求参与者添加新的研究不当行为,在他们看来,这些行为至少与他们的学科领域相关。作为限制,我们要求所有研究人员关注他们实际经历或观察到的事情,而不是他们只是听说过或读过的事情。

我们使用了一个参与式排名方法来组织关于研究不当行为的焦点小组讨论。参与式排名法的过程包括三个步骤。首先,研究人员向参与者展示了五种对便利贴总影响最高的研究不当行为。其次,他们被要求反思这些行为与他们的学科领域的相关性,并被要求添加我们可能错过但参与者认为与他们的学科领域更相关的新行为。所有研究中的不当行为都写在便利贴上。最后,参与者被要求就所有研究不当行为的排名达成共识。为此,我们创建了一个从“轻微”到“严重”的临时严重连续体/刻度。当参与者就每个便利贴的位置达成一致后,我们就结束了测试。这总共花费了20到35分钟。焦点小组的其余结果将作为另一份报告的一部分。对于参与式排名方法的详细描述,读者可以参考Ager, Stark和Potts的指南[19].

定性数据分析

我们阅读了文本,并开始使用Atlas TI©Version 8.3.0进行开放编码。如果成绩单是荷兰语,我们会指定英文代码以保持一致性并翻译报价。我们使用归纳内容分析来分析抄本,因为它是系统描述和理解复杂现象的好方法[20.]它有助于将丰富的数据简化为有意义的概念,捕捉感兴趣的现象[21].

下面报告的主题是基于根据严重程度对研究不当行为进行定性排名以及焦点小组对话的记录。具体的研究不当行为,例如“没有反馈的审查,苛刻的审查,审稿人不符合发展要求”,被集中到更广泛的问题中,例如“草率的审查”。要将问题确定为新兴主题,该问题必须与所涉及的研究问题相关研究不当行为。因此,一些关注政治复杂性或个人诚信的问题被忽视了。此外,它应该被多次提及,或者在谈话中被讨论为重要和强大的。

团队成员(JT、TH、GW和RP)独立确定主题,并通过讨论达成共识,从而提高可靠性。参见附加文件5我们的代码树。最后,我们确定了适当的引用来说明每个主题。

结果

定量结果

92个电子邮件地址不再使用,146名研究人员填写了无应答问卷。因此,剩下7310名潜在受访者,其中1080名研究人员完成了60个项目。调查完成率为15%。2).首先,我们在每个学科领域的总水平上给出了有害研究不当行为的定量前5名。其次,我们从焦点小组中提供了相关主题,这些主题更多地阐明了这些研究不当行为的含义,并用引用来说明这些主题。

图2
图2

调查回复率概况

学科领域

每个学科领域最常见和最具影响力的5个研究不当行为的详细描述可以在附加文件中找到6而且7.排名前5位的有害研究不当行为在每个等级分层的总水平上可以在附加文件中找到8.最后,所有60个项目的分层排名可以在附加文件中找到9

简而言之,在所有学科领域中,“捏造数据”的不当行为对研究的有效性影响最大。大多数常见的研究不当行为有所不同。生物医学研究人员认为列出一个不符合作者资格的作者是最常见的。根据自然科学研究人员和社会科学研究人员的说法监管不足最为常见。人文学科的研究人员认为选择性引用是最常见的。人文学科研究人员还认为,在拨款申请中呈现严重误导性的信息具有重大影响。

在这篇论文中,我们关注的是在每个学科领域的总体水平上最有害的5个研究不当行为(见表2).

表2各学科领域综合水平的5大有害科研不端行为

探索性分析

以下分析没有预先登记,应被视为探索性分析。

我们想在表中评估我们的平均估计的精度2.在接下来的内容中,我们在平均估计值周围使用了偏差校正自引导的95%置信区间。

在生物医学领域,“监管不足”排名第一,对置信区间的检查表明,没有其他不当行为可以排名最高。“监督不足”的平均估计值周围的置信区间与第二和第三项所列研究不当行为的置信区间之间没有重叠。对于自然科学,“监管不足”的置信区间与错误行为的置信区间重叠,排在第12位。自然科学的前12名可以在附加文件中找到10.除了草率的科学,自然科学的前12名还列出了数据伪造(#7)和裙带关系(#11)。在社会科学领域,围绕“监督不足”的置信区间与排名第六的不当行为的置信区间重叠,见补充文件10.人文学科中“监督不足”的置信区间与排名第12位的研究不当行为重叠。因此,人文学科的前12名可以在附加文件中找到10.除了草率的科学,人文学科的前12名研究人员还包括裙带关系(第6名)。

为了看看更新后的排名在不同学科领域之间是否有所不同,我们再次检查了平均估计周围的置信区间。生物医学科学认为“监管不足”对总体水平的影响最大,但这与其他领域并无不同。在自然科学方面,“没有明确报告研究方法的相关细节”排名第二(CI 5.93 ~ 7.93)。然而,这一排名与其他两个主要学科领域有显著差异,即自然科学认为这对总体水平的影响大于生物医学研究人员(#12,CI 4.69-5.43)和人文科学研究人员(#51,CI 2.88-3.97)。此外,对开展研究的专业知识关注不足(#5,CI 5.23-7.36),与人文科学(#36,CI 3.03-4.9)相比,自然科学的总体影响更高。最后,在拨款申请中提出严重误导信息(#9,CI 4.54-6.5)的影响比社会科学(#47,CI 3.11-4.00)和生物医学科学(#36,CI 3.76-4.22)的研究人员更大。

对于社会科学,不发表负面研究排名第二(CI 5.71-7.29),社会科学研究人员明显比人文学科的同事更关注这一点(#25,CI 3.5-5.00)。此外,对开展研究的专业知识关注不足(#5,CI 5.06-6.42),与人文科学(#36,CI 3.03-4.9)相比,社会科学的总体影响更高。此外,与自然科学(#34,CI 3.24-4.83)和生物医学科学(#17,CI 4.28-4.92)的研究人员相比,“从一开始就报告一个意想不到的发现”(#6,CI 4.94-6.25)被认为对总体水平有更大的影响。

人文学科的研究人员表示,选择性引用是为了取悦编辑、审稿人和同事(#5,CI 5.13-7.03),与生物医学研究人员(#23,CI 4.11-4.78)相比,对总体水平有更大的影响。最后,人文学科的研究人员认为,使用他人发表的思想或短语(#12)比生物医学研究人员(#49,CI 3.29-3.85)和自然科学研究人员(#36,CI 3.09-5)具有更大的影响力。字段之间的所有其他比较都不显著(参见附加文件11).

定性结果

从我们的定性分析来看,大多数研究不当行为可以归为三大类之一:围绕同行评审的问题、草率的研究行为和监管不足。为了更好地理解来自特定学科领域的研究人员面临什么样的研究不当行为,以及这些行为如何影响他们的研究,我们放大了对某个学科领域更具体或在讨论中受到更多关注的主题。我们在每个学科领域展示了这些主题,并且在可能的情况下,我们确定了引用作为插图(见表3.下文)。每个焦点组的研究不当行为排名可以在附加文件中找到12

表3每个学科领域的引文以说明研究不当行为主题的内容

生物医学:审稿人拖延,报告草率,监管不足

生物医学研究人员对不灵活的审稿人感到恼火,这些审稿人要么推迟发表他们的发现,要么在反驳信中对质疑该领域主流观点的有效反驳意见不予回应。这使得发表消极的研究结果尤其困难,而焦点小组参与者一致认为,这对知识的进步至关重要。

知识进步的另一个障碍是,作者在缺乏可靠论证的基础上得出(错误的)结论,或者似乎是根据自己的需要来解释数据。当只有最积极的发现被报道时,这尤其相关,然后导致了复制问题,因为积极的结果很可能是偶然获得的。

监管不足是参与者认识到的一个问题,但他们也表示,博士生在需要帮助时应该寻求帮助。此外,导师可以让博士生意识到现有的时间压力,但这应该是现实的,并不是说博士生不允许休假。最后,大家普遍认为,缺乏监督不是不负责任研究的充分条件,但却会增加博士生进行不负责任研究的机会。

自然科学:审查不当行为,没有团队精神

自然科学家们提出了评审不当的话题。这种不当行为的表现形式是编辑或审稿人在发表或在拨款提案中窃取想法。审稿人或编辑可以推迟出版,自己迅速发表观点,也可以拒绝手稿,在其他地方发表观点。拨款申请也有类似的情况。

自然科学研究人员还指出,缺乏沟通和监督可能会损害团队关系,一些研究人员可能无法把他们的成功放在实际情况下,声称这只是他们的成功。

社会科学:审查草率,设计和统计草率,监督不足

社会科学研究人员经常遇到要求被引用的审稿人,这显然不是审稿的目的。此外,他们还遇到了不符合该领域发展要求的审稿人。最后,一些人曾与审稿人有过利益冲突的经历,因为他们与作者有过关系,暴露了出版审查中的裙带关系。

另一个令人担忧的问题是草率的方法,研究人员提到进行了一项力量不足的研究,或者没有报告非复制。与此相关的是“HARKing”(在结果已知后进行假设)的使用,导师鼓励他们的博士生从一开始就提出一个意想不到的发现[22].其他的例子包括收集更多的数据,当结果几乎是显著的,或者只是迫使博士生“寻找”数据中的影响,即使可能没有实际的影响存在。

最后,对博士生监管不足表示担忧。更多资深研究人员指出,博士生在职业生涯的早期阶段就被要求对他们的学术项目负责,当时博士生还在学习学术研究的内容。有时导师会利用他们的博士生,要么在没有正当理由的情况下要求他们合作,要么在精神上恐吓他们的博士生。

人文:不加批判的评论,平庸的研究和稀缺的监督

不加批判的评论是人文学科研究者关心的问题。这可能包括审稿人在没有具体评论的情况下进行审稿,或者审稿人只是因为作者的权威而接受论文。这可能是因为科学界对同行评议的重视程度不够高。另一种形式的不加批判的审查是未能过滤出明显是骗局的假论文。与会者认为这与一些领域缺乏明确的发表标准有关,审稿人可以使用这些标准来判断稿件的潜力。

第二个担忧是平庸的研究,这可能意味着研究不是价值自由的、不透明的或匆忙撰写的、重复的和夸大的小发现。一个相关的研究不当行为是窃取同事的原创想法,但也窃取博士或硕士学生的想法,并在(甚至)不承认的情况下发表。

最后,人文学科研究人员指出,缺乏监管可能会导致欺诈。“稀缺”可以指数量;博士后非常少,因此对博士生的日常监督很少。“稀缺”也可以指监督的质量,比如当导师不认真对待他们的责任,或者当导师实际上不是博士生课题的专家被指派为他们的导师。

讨论

这项混合方法的研究,包括焦点小组之后的调查,旨在深入了解阿姆斯特丹来自不同学科领域的学术研究人员认为最有害的研究不当行为。从我们的研究中有一些重要的收获。首先,根据调查结果,我们发现监管不足,各种形式的马虎科学在所有学科领域的综合影响中得分很高。自然科学和人文科学的研究人员也认为裙带关系对总体水平有重大影响。自然科学也认为伪造数据具有重大影响。焦点小组访谈帮助我们理解研究人员如何理解“监管不足”。此外,焦点小组参与者在实践中增加了对草率科学的洞察。其次,来自自然科学和人文科学的研究人员在名单上增加了与其学科领域有关的新的研究不当行为,例如在发表前窃取想法。这提高了我们对社会和生物医学领域之外的研究不当行为或“有问题的研究实践”的理解。

在将我们的发现与文献进行比较时,重要的是要记住,我们的发现不是患病率估计。将研究不当行为的自我报告比例与其流行程度等同已经受到了批评,参见Fielder和Schwarz [23].此外,在我们的调查中,我们要求受访者报告他们多久吃一次见证了一个特别的研究不当行为,而不是他们自己有多少次这样的行为。然后,我们将其与分配给该项目的受访者的影响程度相结合,以获得“总体影响”。因为我们的综合影响力指标是影响力(1-5)和频率(1-3)的乘积,有人可能会怀疑我们是否故意赋予影响力更大的权重。虽然绝对得分是如此,但排名总影响产品得分并非如此,因为在重新记录影响量表后,特定研究不当行为的排名并没有改变。

有些令人惊讶的是,他们一致承认监督和指导不足。我们想重申,我们认为监管不足本身就是一种研究不端行为。像许多其他研究不当行为一样,监督不足描述了不遵守学术研究的专业规范之一(充分的指导)。

然而,在某些情况下,监管不足可能导致被监管者无意中从事草率的科学,因为他们没有很好地社会化,进行负责任的研究[24].但我们认为,监管不足的影响可能会更大。如果导师未能创造一个安全的学习氛围,这可能会导致博士生没有信心分享他们对错误的担忧(例如在数据分析中)或反对导师的解释。同样,罗伯茨和他的同事[25他提出了这样一种推测:当监管者创造了一个只重视惊人成果的环境时,被监管者可能会从事草率的科学研究,因为这会产生预期的结果。然而,在我们的研究中,我们没有调查研究不当行为的可能原因,调查这一点需要不同的研究设计。

关于监督和指导的文献数量在不同的学科领域有所不同。辅导在医学界受到广泛关注[2627]以及对心理学的大量关注[28].通过鼓励少数族裔留在科学和工程领域,指导和监督主要被用作促进多样性的工具[2930.,但他们自己却很少受到关注。一个例外是格林和鲍尔[31将指导与理科生的学业成功联系起来。在人文学科中,指导被认为是改善职场文化的一种方式。32].有趣的是,在我们的研究中,来自人文学科的参与者表达了对完全缺乏监督的担忧,或者监督实际上不是该领域的专家。自然科学研究人员认识到这一点,但补充说,糟糕的指导或导师指导太多博士生会使团队关系恶化,最终减缓研究。

的优势

我们的研究可能是第一个调查研究不当行为的研究,包括来自不同学科领域和所有学术级别的研究人员。值得注意的是,我们使用的不同方法(定量调查和定性焦点小组)导致了相似的结果,因为调查和焦点小组参与者都认为科学草率和监督不足是相关的。

此外,我们的定量结果在很大程度上证实了Bouter和同事的发现[11].他们的研究对象包括世界研究诚信大会的参观者,但显然,这两个群体都认为监管不足和马虎是当代学术界的问题。

限制

要记住一些研究的局限性。我们几乎没有反应。然而,只要应答者对人群具有代表性,应答偏差就不是低应答率的必然结果[33].我们用两种方法评估样本的代表性。首先,我们研究了阿姆斯特丹两所大学和两所大学医学中心的学术研究人员。这两个大学医疗中心占人口的53%。生物医学研究人员占我们样本的56%,这表明比例略高。其次,我们将我们的样本与荷兰研究人员的国家统计数据进行了比较。由于没有关于生物医学学术研究人员的全国统计数据,我们将生物医学研究人员从样本中筛选出来进行比较。国家统计数据显示,32%的研究人员在自然科学领域工作,41%在社会科学领域工作,27%在人文科学领域工作。在我们的样本中,我们发现25%的研究人员从事自然科学,51%从事社会科学,23%从事人文科学。这表明社会科学研究人员的比例适度过高,而自然科学和人文科学研究人员的比例略低。

此外,大量开始回答调查问题的受访者在完成20个项目之前就停止了。在向受访者提供随机选择的20个随机项目之前,他们完成了组织研究氛围调查(从今往后:来源[34])。“开始”调查的参与者包括所有开始调查的研究人员,甚至包括那些决定不参与的研究人员。我们总共有18%的受邀者完成了SOuRCe,而调查问卷中3%的退出率属于正常范围[35].

进一步的限制是,我们向参与者随机选择了20种研究不当行为,因为我们担心向他们出示完整的60种不当行为清单会太费时。这种类型的设计有时被称为设计缺失,因为所有参与者都有一些项目的缺失值。根据该领域的类似调查,我们估计我们的回复率至少为15%。由于我们的人群由7548名研究人员组成,其中15%的人回答了我们项目的三分之一,这意味着每个项目至少有300个回答。最初,我们预计超过300个响应就足以计算可靠的标准偏差、标准误差和置信区间。

不幸的是,快速浏览一下表中标准差的宽度2说明我们的分数分布不正常。事实上,超过90%的聚合影响变量具有偏态分布。因此,我们必须谨慎地解释前5个。排名完全基于分数估算。事实上,将排名标注为前五可能是危险的,因为“顶级”意味着排名第一的不当行为绝对高于排名第二的不当行为。根据我们的探索性分析,可以得出结论,这只适用于生物医学(见附加文件)11).前5名见表2简单地列出了五种对总体水平有影响的研究不当行为,人们不应该过度解释列表上地方的差异。

另一个限制是关于总影响的解释。参与者没有评价研究不当行为对总体水平有重大影响,但我们使用研究不当行为的感知频率和对有效性的潜在影响的乘积作为总体影响的代理。因此,我们将这些分数称为“总影响”分数。该指标的有效性没有确切的(数学)证明,但直观上类似于著名的QALY(质量调整寿命年)指标,该指标将生活状态的主观质量分数乘以在该状态下花费的时间[36].在焦点小组中,我们明确询问了研究不当行为是否具有实际影响。由于焦点小组总体上证实了调查结果,我们的“总体影响”概念得到了定性结果的支持。

此外,由于60项研究不当行为的清单没有得到正式验证,参与者仍然可能不清楚调查项目。尽管如此,通过讲习班和其他形式的非正式审查,已对该清单进行了详细的试验。然而,来自自然科学和人文科学的研究人员尤其提到了一些研究不当行为,这些行为似乎与60个名单不符,或者至少有本质上的不同,比如裁判或编辑滥用权力窃取原创想法。要适当评估这些新项目的相关性,就需要将定性数据转化为项目和来自所有学科领域的代表性样本。为了促进这种尝试,我们提供了一份最新的研究不当行为列表(附加文件)13),其中的项目被重新表述,包括作为解释性例子或作为新的研究不当行为添加。对这一列表的验证可能是进一步研究的途径。

最后,请注意,我们明确要求受访者关注他们亲眼目睹的研究不当行为,因此这可能会降低我们发现的普遍性,以至于它们甚至可能不适用于阿姆斯特丹的学者群体。然而,由于学科领域的学术研究人员都认识到科学草率和监督不足,这些研究不当行为似乎也引起了阿姆斯特丹以外的研究人员的关注。

影响

由于我们发现在各个领域都存在监管不足的问题,因此探索促进负责任监管和指导的干预措施可能是值得的。指导和负责任的研究之间的联系似乎很新颖。然而,惠特贝克[37]描述了一种创新类型的小组指导,旨在加强主管讨论研究诚信,并支持研究小组理解他们可能遇到的各种诚信挑战情况。最近,Kalichman和Plemmons [3839]描述了导师和教师在实际研究环境中传达负责任的研究的研讨会课程。像这样的培训项目是朝着使负责任的监督成为规范迈出的一步。

结论

我们发现,监管不足和各种形式的草率科学在跨学科领域的总体影响上得分很高。自然科学和人文科学的研究人员也认为裙带关系对总体水平有重大影响。自然科学也认为伪造数据具有重大影响。焦点小组访谈帮助我们理解研究人员如何解释“监管不足”。自然科学和人文科学的研究人员在名单上增加了与其学科领域相关的新研究不当行为,比如在发表前窃取想法。这提高了我们对社会和生物医学领域之外的研究不当行为的理解。

数据和材料的可用性

在当前研究中生成和/或分析的定量数据集由于参与者的隐私而不能公开,但根据数据共享协议的合理要求,通信作者可以以伪匿名版本提供。面试记录不会提供给第三方。

缩写

FFP:

伪造、捏造和剽窃

FTE:

全职工作

OSF:

开放科学框架

QRP:

可疑的研究实践

参考文献

  1. Veldkamp CLS, Hartgerink CHJ, van Assen MALM, Wicherts JM。谁相信故事书里的科学家形象?帐目决议2017;24(3):127-51。

    文章谷歌学者

  2. Mahoney乔丹。科学家心理学:评价性评论。科学通报,1979;9(3):349-75。

    文章谷歌学者

  3. Mahoney乔丹。作为主体的科学家:心理需求。剑桥:巴林杰出版公司;1976.

    谷歌学者

  4. 有多少科学家捏造和伪造研究?调查数据的系统回顾和元分析。公共科学学报,2009;4(5):e5738。

    文章谷歌学者

  5. 马丁森BC,安德森MS,德弗里斯R.科学家行为恶劣。大自然。2005;435(7043):737 - 8。

    文章谷歌学者

  6. Kornfeld DS。观点:研究不端行为:寻求补救。中华医学杂志,2012;37(7):877 - 882。

    文章谷歌学者

  7. 高德哈勒,李国强,李国强。科研诚信指南:欧洲无联盟。柳叶刀》。2013;381(9872):1097 - 8。

    文章谷歌学者

  8. Bedeian A, Taylor S, Miller A.关于可信度泡沫的管理科学:主要罪行和各种不端行为。中国管理科学,2010;9(4):715-25。

    谷歌学者

  9. 国家科学院,工程院和M.促进研究的诚信。2017.

    谷歌学者

  10. 布特LM。评论:不正当的激励还是烂苹果?帐目决议2015;22(3):148-61。

    文章谷歌学者

  11. Bouter LM, Tijdink J, Axelsen N, Martinson BC, ter Riet G.主要和次要研究不端行为排名:来自四次世界研究诚信会议参与者的调查结果。Res Integr Peer Rev. 2016;1(17):1 - 8。

    谷歌学者

  12. 在研究中培养诚信:定义、当前知识和未来方向。科学与工程。2006;12(1):53-74。

    文章谷歌学者

  13. 弗里斯D,雷蒙德,安德森M,马丁森B.正常的不当行为:科学家谈论研究的伦理。《帝国伦理》,2006;1(1):43-50。

    文章谷歌学者

  14. Pupovac V, Fanelli D.科学家承认抄袭:调查的元分析。科学与工程学报。2015;21(5):1331-52。

    文章谷歌学者

  15. 整版JW。研究设计:定性、定量和混合方法。第四版。洛杉矶:Sage;2014.

    谷歌学者

  16. Graham JW, Taylor BJ, Olchowski AE, Cumsille PE。心理学研究中的计划性缺失数据设计。心理方法。2006;11(4):323-43。

    文章谷歌学者

  17. Haven TL, Tijdink JK, Martinson BC, bulter LM。学术等级和学科领域对研究诚信氛围的看法不同:来自阿姆斯特丹学术研究人员的一项调查结果。科学通报。2019;14(1):e0210599。

    文章谷歌学者

  18. Haven TL, bulter LM, Smulders YM, Tijdink JK。阿姆斯特丹感知的出版压力:所有学科领域和学术排名的调查。PLoS One. 2018;14(6):e0217931。

    文章谷歌学者

  19. Ager A, Stark S, Potts A.参与式排名方法:简要指南。梅尔曼公共卫生学院,2010年。

  20. 内容分析:其方法论介绍。比弗利山庄SE: Sage Publications;1980.

    谷歌学者

  21. Elo S, Kyngäs H.定性内容分析过程。中华流行病学杂志,2008;29(1):1 - 7。

    文章谷歌学者

  22. 克尔问。哈金:在结果已知后进行假设。心理学报,1998;2(3):196-217。

    文章谷歌学者

  23. 菲德勒K,施瓦茨N.可疑的研究实践重新审视。心理与个人科学学报。2016;7(1):45-52。

    文章谷歌学者

  24. Anderson MS, Horn AS, Risbey KR, Ronning EA, De Vries R, Martinson BC。负责任的研究指导和培训与科学家的不当行为有什么关系?来自美国国家卫生研究院资助的科学家的一项全国性调查的结果。中国医学杂志,2007;32(9):853-60。

    文章谷歌学者

  25. Roberts GC, Kavussanu M, Sprague RL。指导和研究氛围的影响。科学与工程。2001;7(4):525-37。

    文章谷歌学者

  26. 孙文杰,张志刚,马鲁契克。学术医学指导:系统综述。中华医学杂志,2006;29(9):1103-15。

    文章谷歌学者

  27. Liénard JF, Achakulvisut T, Acuna DE, David SV。师承中的智力综合决定了学术生涯的成功。地理学报。2018;9(1):4840。

    文章谷歌学者

  28. 心理学中指导的艺术和科学:确保我们未来的必要实践。心理学报。2008;63(8):744-55。

    文章谷歌学者

  29. Kendricks KD, Nedunuri KV, Arment AR.少数民族学生对指导对提高STEM学科学习成绩影响的看法。科学通报,2013;14(2):38-46。

    谷歌学者

  30. 张志强,李志强,李志强,等。分层指导:提高本科STEM学科多样性和保留的变革性策略。科学技术学报,2012;21(1):148-56。

    文章谷歌学者

  31. Green SG, Bauer TN.导师的监督指导:与博士生潜力、生产力和承诺的关系。精神病学杂志,1995;48(3):537-62。

    文章谷歌学者

  32. Metzger AM, Petit A, Sieber S.指导是改变人文学科学术欺凌和围攻文化的一种方式。高等教育展望。2015;2(2):139-50。

    文章谷歌学者

  33. 库克C,希思F,汤普森R.在网络或基于互联网的调查回复率的元分析。教育心理学报。2000;60(6):821-36。

    文章谷歌学者

  34. 马丁森BC,画眉CR,克雷恩AL.组织研究氛围调查的发展与验证。科学通报。2013;19(3):813-134。

    文章谷歌学者

  35. 曼弗雷达·柯琳,巴塔格尔杰·兹,维霍瓦。网络调查问卷设计:三个基本实验。计算机学报。2002;7(3)。

    文章谷歌学者

  36. 计算质量aly,比较质量aly和DALY计算。《卫生政策计划》,2006;21(5):402-8。

    文章谷歌学者

  37. 小组指导,以促进负责任的研究行为。科学与工程。2001;7(4):541-58。

    文章谷歌学者

  38. Plemmons DK, Kalichman MW。指导负责任的研究:为教师创建课程,在研究环境中教授RCR。科学与工程。2018;24(1):207-26。

    文章谷歌学者

  39. Kalichman MW, Plemmons DK。促进负责任的研究指导行为的干预。科学通报。2018;24(2):699-725。

    谷歌学者

下载参考

确认

我们要感谢学术研究气候阿姆斯特丹项目指导委员会的所有成员(F. Oort教授,Y. Smulders教授,H. de Haes教授和R. van Woudenberg教授)在研究设计报告或关于研究或数据解释的通信草稿期间提出的批评意见。此外,我们还要感谢Peter van de Ven和Birgit Lissenberg-Witte在统计学上的支持。此外,Michiel de Boer对探索性分析的讨论也是不可或缺的。最后,娜塔莉·埃文斯(Natalie Evans)对这篇手稿的优秀校对显著提高了其整体质量。

资金

LB、JT及TH获邓普顿世界慈善基金会(https://www.templetonworldcharity.org/),拨款#TWCF0163/AB106。阿姆斯特丹大学、自由大学和阿姆斯特丹大学医学中心还提供了其他支助。资助者在研究设计、数据收集、分析和解释以及撰写手稿方面没有任何作用。

作者信息

作者及隶属关系

作者

贡献

LB、GW、JT、GtR、RP和TH设计了研究。TH和JT收集并分析了数据。他写了草稿。LB, GW, JT, GtR和RP多次发表评论,作者团队会面讨论了核心问题。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到Tamarinde L. Haven

道德声明

伦理批准并同意参与

我们的研究得到了行为与运动科学学院科学与伦理委员会的伦理批准,批准号:VCWE-2017-017R1。

发表同意书

不适用。

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

补充信息

附加文件1。

完整的60项清单。

附加文件2。

隐私政策。

附加文件3。

研究协议。

附加文件4。

焦点小组话题指南。

附加文件5。

代码树。焦点小组的主题以颜色编码,其中粉红色是社会科学,紫色是人文科学,蓝色是自然科学,绿色是生物医学科学。高阶主题是深紫色,并连接到整体主题,这是浅绿色。线表示关系(例如:is one example of/is part of)。

附加文件6。

学科领域和学术排名前5位最常见的科研不端行为。M =每亚组平均得分,SD =标准差。频率响应范围从1(“从未”),2(“一次或两次”)到3(“三次或更多”)。平均值为2.03(“对初级同事的指导或监督不足”)意味着,我们的受访者表示,在过去三年里,他们平均看到过一两次这种研究不当行为。

附加文件7。

按学科领域和学术排名排名前5位最具影响力的研究不当行为。M =每亚组平均得分,SD =标准差。影响程度分为1 =“微不足道”,5 =“重大”。平均得分越高,不当行为对研究结果的有效性的影响就越大。

附加文件8。

按学术排名,在总体水平上排名前5位最有害的研究不当行为。M =每亚组平均得分,SD =标准差。对总体水平的有害影响计算为频率(1-3)和影响(1-5)的乘积分数,因此范围为1至15。平均分越高,总体影响就越明显。

附加文件9。

每个学科领域和学术排名的综合影响力排名为60个项目。=每个子组的平均分数,SD=标准差,N=响应数。教授=博士后和助理教授。副教授和正教授=副教授和正教授。Biomed =生物医学研究者,Nat =自然科学研究者,Soc =社会科学研究者,Hum =人文学科研究者。请注意,我们使用了设计缺失,因此来自特定子组的实际受访者数量应该乘以3。总影响计算为频率(1-3)和影响(1-5)的乘积分数,因此范围为1至15。在总体水平上排名前5位的研究不当行为以粗体打印。

附加文件10。

按学科领域调整了最有害的研究不当行为在总水平上的排名。

附加文件11。

大多数有害的研究不当行为的平均估计值在总体水平上,由学科领域引导95%置信区间。

附加文件12。

根据焦点小组参与者对研究不当行为进行定性排名。*斜体表示来自定量调查的研究不当行为。焦点小组在3个学术级别(见行,博士生,博士后和助理教授,副教授和正教授)和4个学术级别(见专栏,生物医学科学,自然科学,社会科学和人文科学)进行。行为不端的人排得越高;焦点小组参与者表示,这种研究不当行为是有害的。

附加文件13。

列出60个错误行为与替代公式和新增项目从焦点小组访谈打印斜体。现有项目的新增和首选配方用斜体粗体打印,前一种配方划掉。

权利和权限

开放获取本文根据创作共用属性4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/),允许在任何媒介上不受限制地使用、分发和复制,前提是您对原作者和来源给予适当的赞扬,提供到创作共用许可证的链接,并注明是否进行了更改。创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)除另有说明外,适用于本条所提供的资料。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

Haven, T., Tijdink, J., Pasman, hret al。研究人员对研究不当行为的看法:阿姆斯特丹学术研究人员的混合方法研究。Res integral Peer Rev4, 25(2019)。https://doi.org/10.1186/s41073-019-0081-7

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s41073-019-0081-7

关键字

  • 科研不端行为
  • 科研诚信
  • 学科领域
  • 学术队伍
  • 科研不端行为
  • 调查
  • 焦点小组
Baidu
map