摘要
背景
对同行审稿人的需求通常被认为与审稿人的供应和可用性不成比例。考虑到与同行评审行为相关的特征,可以开发解决方案来管理对同行评审人员日益增长的需求。本研究的目的是比较在Publons上注册的两组审稿人的特征。
方法
采用描述性横断面研究设计,比较(1)2018年1月至2018年12月期间完成至少100次同行评审的个体(“大型同行评审员”)和(2)同期完成1至18次同行评审的对照组之间的特征。数据由Publons提供,它除了跟踪同行评审的出版物和研究指标外,还提供了同行评审活动的存储库。通过Mann Whitney检验和卡方检验,比较超级审稿人与对照组审稿人的特征(如发表论文数、被引次数、同行评议字数)。
结果
共有1596名同行审稿人获得了Publons提供的数据。共纳入396万同行审稿人和随机抽样的1200名对照组审稿人。与对照审稿人(58%)相比,大型同行审稿人中男性的比例更高(74%)。与对照组的审稿人相比,Mega同行审稿人表现出显著更高的平均总出版物数量、引用量、Publons奖励的接收量以及更高的平均h指数(所有p<措施)。我们发现两组之间的字数没有统计学上的显著差异(p> .428)。
结论
在Publons数据库中注册的大型同行审稿人与对照组审稿人相比,也有更高的发表量和引用量。应进行其他考虑与同行评审行为相关动机的研究,以帮助为同行评审活动提供信息。
同行评议涉及对研究进行评估的手稿,评议者包括同一领域的专家或早期职业研究人员、有实际经验的个人和政策顾问[1].当同行审稿人意识到并同意审稿的期望和责任,编辑及时纳入反馈时,同行审稿有可能为作者带来有价值的反馈,并提高研究结果的质量和可用性[2].
同行评议的可持续性依赖于同行评议人员的可用性和专业知识。对许多期刊编辑来说,获得高质量的同行评议是很困难的。3.,4,5,6,7,8].由Publons与Clarivate合作开发的首份全球同行评审状况报告报告了(1)同行评审人员的特征,(2)同行评审过程的效率,(3)同行评审的质量,以及(4)同行评审的未来考虑。重要的是,该报告描述了“同行评审的需求正在增加,审稿人对评审邀请的响应越来越少”[2].研究发现,某些特征与完成同行评审活动有关。例如,同行评审活动在不同地区之间存在差异,来自美国和中国的个人贡献了最多的同行评审[2].激励结构的区域差异被认为是部分造成这些差异的因素之一。Publons的2018年全球评审调查包括超过11,800名研究人员,并发现绝大多数人(85%的参与者)一致认为,对同行评审的更高认可和正式激励将增加担任同行评审人员的意愿,并将对同行评审过程的效率产生积极影响[2].传统的奖励是存在的,比如期刊订阅、开放获取出版的折扣,以及通过公开的“感谢”列表来确认。然而,这些奖励在期刊之间的应用并不一致,并且不符合研究人员所寻求的首选奖励和激励(例如,免除出版费用)和认可(例如,作为资助申请评估标准的一部分)[2,9,10,11].此外,《全球同行评议状况》报告的调查结果包括对大量同行评议样本中发现的趋势的总结,以及当前同行评议系统的压力。在了解同意担任同行评审人员的特征和同行评审的质量方面仍存在很大差距[2].
Publons提供了一个存储库,同行评审人员可以记录他们的同行评审活动,除了跟踪出版物和研究指标[12].有趣的是,我们在Publons网站上观察到一些在同行评审方面非常活跃的研究人员(即,每年至少完成100次同行评审的个人——我们将这些人称为“超级同行评审员”)。最近的一项研究也强调了同行评审任务在小小组研究人员中的不平等分配[13].识别大型同行审稿人的相关特征可能是制定策略以跟上同行审稿人任务日益增长的需求的第一步。例如,这可以为编辑提供有经验处理更多同行评审的研究人员的信息,这是编辑的一个持续问题。因此,这项研究的目的是比较两组审稿人,特别是在特定年份高度活跃的同行审稿人与对照组的同行审稿人。由于缺乏对大型同行审稿人的研究,这是一个探索性的项目,我们没有形成假设。
方法
本研究的方案已在开放科学框架数据库(https://osf.io/vxdhf/?view_only=313fd05399664b94bc7a9042aa225be3),才开始收集资料。这是一项描述性的横断面研究,回顾性检查了与大型同行评审员相关的因素,并与对照组同行评审员进行了比较。超级审稿人是指在2018年1月至2018年12月期间完成了100篇或更多独特文章的同行评审的个人。本研究的所有方面都按照最初的加强(STROBE)报告指南进行了报告,以促进这项工作的完整和透明报告[14].
横断面数据
参与者
我们从Publons数据库中收集了信息。Publons跟踪和公布个人的同行评审活动,创建一个帐户,并将他们的研究活动与他们的个人资料联系起来。个人可以下载他们的同行评审、作者和编辑指标,这些信息也可以公开。使用Publons数据库,本研究对两组个体感兴趣,包括[1大型同行评审员:所有在2018年1月至2018年12月期间完成100篇或以上独特文章同行评审的个人,包括(即每周完成大约两次同行评审的个人)和[2对照组是在同一时期内完成至少一次同行评审和少于18次同行评审的个体(即每3周完成最多1次同行评审的个体)。采用Pandas抽样法从Publons数据库中随机抽取对照样本(https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.htmal).
数据收集
来自Publons的数据科学家将以下变量导出到微软excel csv文件中:同行审稿人特征[即,名称、出版物ID、机构、机构国家、基于publons数据的出版物数量、Web of Science上的出版物、2018年的出版物、2018年的引用、总引用数、h指数、publons审稿人奖的存在(22个研究领域的前1%的审稿人,基于编辑评级评价的最高质量评论)],基于publons数据的审稿人特征(即,2018年同行评议的独特手稿数量,每月审稿数量,每次审稿字数)。Publons网站不提供性服务。因此,性别是通过使用Genderize数据库来估计的,该数据库使用从各国收集的数据来评估性别与某个名字联系在一起的概率(https://genderize.io/).对于任何不能以超过80%的确定性估计的性别,这被标记为缺失数据。
样本量计算
在我们注册的方案中,样本量计算不正确(见附录1).我们使用所有大型评审员的数据进行研究,并随机抽样1200名评审员,每年进行1至18次评审。
数据分析
初步数据分析计算了两个审稿人样本的描述性特征。二级数据分析包括进行逻辑回归,将大型同行审稿人的特征与对照组进行比较,将大型审稿人视为二元结果。考虑到本研究的探索性,在回归模型中比较了两组审稿人(超级审稿人组和对照审稿人组)的同行审稿人特征(即性别、机构国家、Web of Science发表论文数、2018年发表论文数、2018年被引数、总被引数、h指数、Publons审稿人奖存在度)与审稿特征(即每篇审稿字数)(自变量)之间的相关性。在进行回归分析之前,进行了初步测试,以确定基于任何违反回归假设的分析的适当性。进行了多重共线性检验,并审查了自变量公差值。四个变量未达到共线性统计的推荐临界值[15],表明变量之间高度相关[基于Publons的出版物(0.04)、基于Web of Science的出版物(0.04)、2018年引用数(0.06)、总引用数(0.06)的容忍值小于0.1]。在标准化残差图和散点图检验的基础上,通过检验残差的正态概率图和残差的独立性来检验变量的分布。纳入分析的变量并非正态分布。因此,Mann-Whitney u检验用于连续数据,卡方分析用于分类数据。采用SPSS 27.0版本进行分析,统计学检验采用双侧,显著性值为P< . 05。
结果
偏离协议
对大型审稿人和受控审稿人进行调查,以更好地了解是什么驱动同行审稿人行为,是当前项目计划的一部分。由于第一作者的可用性降低,该调查尚未进行。同一机构的审稿人、超级审稿人和对照审稿人的平均字数被从包含的变量中删除,因为这个变量是该机构的特征,而不是单个审稿人的特征。
人口特征
总共完成了3.96亿审阅者>2018年共纳入100项同行评审。随机抽取1200名对照组审稿人,在同一时间段内完成18次同行评审。对于能够以至少80%的确定性估计性别的审稿人(n= 1315), 74%的超级同行审稿人为男性,而对照组的男性审稿人为58%。mega同行审稿人和对照组的特征见table1而且2.
曼-惠特尼和卡方分析
对大型审稿人和对照组审稿人进行了一系列Mann-Whitney u检验(见表2)1).与对照组审稿人相比,大型同行审稿人的中位数(总数)、2018年的出版物、被引次数(总数)、2018年的被引次数均显著增加,平均h指数也显著增加p< . 05)。在比较两组间同行评议字数时,中位数没有统计学上的显著差异(p> .05)(见表1).
审稿人的大洲差异很大。大多数超级同行审稿人来自亚洲(33%)、欧洲(37%)和北美(19%)。在同行评议的对照组中,41%来自欧洲,26%来自北美,21%来自亚洲。其余的审稿人来自澳大利亚(超级审稿人= 4%;对照同行审稿人= 6%),南美(大型同行审稿人= 1%;对照同行审稿人= 3%),以及非洲(大型同行审稿人= 6%;对照同行审稿人= 3%)。Publons的奖项在大型同行审稿人中明显更多,88%的大型同行审稿人获得了Publons的奖项,而对照组审稿人的这一比例不到1%(见表)2).
讨论
我们的研究发现,在12个月内同行评议了至少100篇论文的审稿人,在一年内发表了更多的论文,被引用了更多的论文,h指数更高,与对照组的审稿人相比,他们在Publons数据库中检索了1到18篇论文,并获得了更多的Publons奖项。我们的研究并不是为了探究这些差异的原因。例如,超级审稿人可能会被编辑更频繁地邀请进行审稿,或者他们可能会因为同行审稿而获得报酬,然而,这些发现与之前进行的关于同行审稿人学术影响的研究一致[16].
许多大型同行审稿人来自亚洲或欧洲,而对照组中超过一半的人来自欧洲或北美,来自亚洲的人较少。对照组审稿人的地理区域与Publons 2018年全球审稿人调查的结果更接近,其中很大一部分审稿人来自欧洲或北美[2].值得注意的是,大型同行评审员绝大多数是男性。然而,这个发现是复杂的。这可能至少在一定程度上反映了许多女性学者在工作和家庭中肩负着多重责任,导致几乎没有额外的带宽来承担与大型同行评审员一样巨大的同行评审负荷[17,18].计划对大型审稿人和控制审稿人进行调查,以更好地了解是什么驱动审稿人的行为,然而,由于第一作者的可用性降低,这项调查尚未完成。我们的研究提供了可能愿意完成大量同行评审活动的审稿人的特征信息。我们的结果表明,超级同行审稿人可能更成熟[例如,更多的引用;高h指数]。那些努力为文章寻找同行审稿人的编辑们可能会考虑邀请他们研究领域的超级同行审稿人。
我们的研究结果表明,大型同行评审员在完成一项通常被认为是繁重的任务时投入了大量的时间。13].仅在2020年,同行评审的估计成本就超过1亿小时[19].Mega同行审稿人对同行审稿的利他主义和奉献精神应该得到承认。2018年,超级同行评审员评审的文章总数超过5.4万篇。这些文章被396人同行评议,这是对照组1200人同行评议的11倍。当考虑到大型审稿人完成的同行评审数量时,与对照组同行审稿人相比,提供给作者的详细程度可能不太全面,然而,这一变量没有发现显著差异。无论每年完成的评审数量如何,同行评审的长度都是有限的。最近的一项研究评估了超过1400组审稿人评论,发现19%的评论提供了肤浅的评论,对作者几乎没有有用的指导[5].进行一个类似的研究,重点是由大型审稿人完成的评审,这对于更好地理解完成大量同行评审活动的影响很重要。
这两种类型的同行评审员提供每篇文章大约三分之二页的同行评审员反馈,大型同行评审员使用更少的词汇。在这项研究中,两组审稿人提供了不到一页的文本进行审查,这可能不足以为整个手稿提供建设性的反馈。假设有一个简短的开头段落来概括同行评议下的研究论文(即,为作者提供同行评议者对研究报告理解的表面有效性测量),然后在报告指南的帮助下进行最佳评审[18],以及任何具体的期刊评审指南,目前尚不清楚所有这些信息能否用如此寥寥数语传达。此外,当同行评议是基于证据的时候,对作者最有帮助。20.],往往需要引用,使单词的长度更长。然而,有可能一些大型同行评议者并不是有意提供帮助,而是试图影响他们所在领域发表的文章。21].例如,他们可能会以“拒绝”的决定完成许多评论,而几乎没有为作者提供反馈。
Publons Academy模块为所有接受培训的同行评审人员提供相关知识,这可能会影响同行评审的质量和完整性。在培训审稿人时,可能需要在这些模块中进一步强调将深度优先于完成的同行评审的数量。这种对深度的强调也可能与激励结构有关。学术界的激励机制往往缺乏同行评议[13],然而,某些院校已开始将同行评议活动纳入职业晋升的范畴[11].目前尚不清楚大型同行审稿人在其所在机构是否会因同行审稿而获得奖励,以及是否有其他激励因素促进大型同行审稿人的行为。未来的研究将确定与同行评审行为相关的定性和定量障碍和促成因素,可以为跟上同行评审日益增长的需求提供基础。它还可以识别产生高质量同行评审的促进因素和障碍。与大型审稿人和对照审稿人一起进行调查以更好地理解当前的研究结果是这项工作的计划部分,但尚未完成。为了告知变化,调查编辑和相关编辑也可以更全面地了解大型同行审稿人是如何接收正在进行的同行审稿请求的,以及为什么编辑会频繁地邀请特定的审稿人。
在解释我们的结果时,应该考虑一些局限性。首先,所使用的数据是从拥有Publons数据库账户的研究人员那里收集的,这可能会导致选择偏差。其次,这项工作收集的数据来自Publons,这限制了可用的变量。例如,Publons数据库中不会收集同行审稿人的性别。因此,我们使用在以前的研究中使用过的在线算法来估计性别[22].之前已经有研究表明,估计性别的准确性可能会导致对英语名字的偏见;它还将性别简化为一个二元变量[23].我们对审稿人中男性和女性人数的调查结果应基于这一理解加以考虑,不应过度解读。第三,不可能根据现有数据来评估同行评议的质量。评审员提供的建议也无法获得。这就排除了我们在研究中对每次综述所提供字数的客观解释,因为之前的研究发现,综述所提供的字数与审稿人的建议有关(即接受、修改、拒绝)[24]和文章的栏位[25].与此相关,我们的样本量计算假设各学科的平均字数是相似的。虽然小组之间存在的差异可能会抵消,但这种假设可能掩盖了对照组和大型同行评审员之间的差异。最后,考虑同行评审活动的地理差异是有限的,因为两组中很少有审稿人位于澳大利亚、南美或非洲。最后,由于我们发起了这项研究,Clarivate Analytics收购了Publons。由Publons Academy提供的同行评议培训现在以Web of Science Academy的形式存在。[https://clarivate.com/webofsciencegroup/solutions/web-of-science-academy/].
结论
同行审稿人的需求持续增长。同行评审可以为作者提供有价值的反馈,并提高研究成果的质量和可用性。然而,对于许多期刊来说,获得高质量的同行评议是很困难的。目前的研究发现,超级同行评审员每年完成大量的同行评审活动,并表现出与对照组同行评审员显著不同的特征。为了提高同行审稿人的可用性和可用性,了解这些特征是很重要的。未来的研究应该确定与同行评议行为相关的因素,以帮助设计策略和干预措施,以促进同行评议活动的系统和个人层面的改变。
数据和材料的可用性
支持本文结论的数据集可在以下站点获得https://osf.io/6awzr/?view_only=eeb8ccc0c3a7468095f0b7ef67b71508
改变历史
7月13日
缩写
- 斯:
-
加强流行病学观察性研究报告
- SD:
-
标准偏差
参考文献
爱思唯尔。什么是同行评议?2020.可以从:https://www.elsevier.com/reviewers/what-is-peer-review.2020年3月1日访问。
2018年全球同行评议状况。可以从:https://publons.com/community/gspr#open-elq-form-slider-DLGSPR.2020年12月20日访问。
博蒙特LJ。同行评审员也需要一套行为准则。大自然。2019;572(7770):439 - 40。https://doi.org/10.1038/d41586-019-02492-w.
博汉南·j,害怕同行评议的人。科学。2013;342(6154):60-5。https://doi.org/10.1126/science.2013.342.6154.342_60.
葛荣TG,葛荣AMA,艾弗里-戈姆S,崔志勇,克莱门茨JC,拉什JA。量化同行评议中的专业性。Res Integr Peer Rev. 2020;5(1):1 - 8。https://doi.org/10.1186/s41073-020-00096-x.
葛荣TG,葛荣AMA,崔昌勇,艾弗里-戈姆S,克莱门茨JC,拉什JA。重新评价同行评议不专业问题的解决方案。Res Integr Peer Rev. 2021; 5:1-5。
海兰,姜芳芳。“这项工作与研究精神背道而驰”:对苛刻的同行评议的剖析。《高等教育学报》,2020;46:1-13。https://doi.org/10.1016/j.jeap.2020.100867.
Mulligan A, Hall L, Raphael E.《变化世界中的同行评审:一项衡量研究人员态度的国际研究》。中国机械工程,2013;26(1):1 - 6。https://doi.org/10.1002/asi.22798.
张志刚,张志刚,张志刚,等。多学科视角下的同行评审的新兴和未来创新。F1000Research。2017; 6:1151。
Nicholson J, Alperin JP。学术交流中同行评议的研究概况。除尘器,2016:1-8。
李文杰,李志强,李志强,等。香港评估科研人员的原则:培养科研诚信。公共科学图书馆。2020;18(7):e3000737。https://doi.org/10.1371/journal.pbio.3000737.
Publons》2020。可以从:https://publons.com/about/mission.2020年3月7日访问。
塞弗林A,查塔韦J.同行评审人员负担过重。对原因、影响和潜在政策影响的多学科和多利益相关者视角。bioRxiv。2021:1-19。https://doi.org/10.1101/2021.01.14.426539.
冯·埃尔姆,郭志刚,等。加强流行病学中观察性研究的报告(STROBE)声明:报告观察性研究的指南。临床流行病学杂志,2008;61(4):344-9。https://doi.org/10.1016/j.jclinepi.2007.11.008.
Tabachnick B, Fidell LS。使用多元统计:国际版。皮尔森》2013。
雷。期刊排名与审稿人的学术影响力有关吗?(基于Publons的实证研究)。学术出版,2021:1-14。https://doi.org/10.1002/leap.1431.
Matulevicius SA, Kho KA, Reisch J, Yin H.学术医学教师对COVID-19大流行前后工作生活平衡的看法。美国医学会网络公开赛。2021;4(6):e2113539。https://doi.org/10.1001/jamanetworkopen.2021.13539.
阿尔多萨里,乔杜里S.大流行背景下的妇女和倦怠。性别,工作与组织。2021;28(2):826-34。https://doi.org/10.1111/gwao.12567.
Aczel B, Szaszi B, Holcombe AO。数十亿美元的捐款:估算研究人员花在同行评议上的时间成本。Res Integr Peer Rev. 2021;6(1):1 - 8。https://doi.org/10.1186/s41073-021-00118-2.
赤道网络。提高卫生研究的质量和透明度。2021可从:https://www.equator-network.org/.2021年2月10日访问。
莫赫,贾达德。如何对手稿进行同行评审。英国医学杂志,2003:183-90。
Kelly J, Sadeghieh T, Adeli K.科学出版物中的同行评议:益处、批评和生存指南。EJIFCC。2014; 25(3): 227 - 43。
Santamaría L, mihaljeviic H.名字-性别推断服务的比较和基准。计算科学,2018;4:e156。https://doi.org/10.7717/peerj-cs.156.
王晓明,王晓明,王晓明。多学科期刊中裁判员态度的实证分析。中国机械工程学报,2017;29(7):344 - 344。https://doi.org/10.1002/asi.23665.
霍尔巴赫SP,哈尔夫曼W.同行评审的形式和期望的变化。Res integral Peer Rev. 2018; 3:1-15。
确认
我们要感谢Julia Vilstrup Mouatt为这项工作提供的意见。我们还要感谢科睿唯安(Clarivate)的数据分析人员协助编制数据。
资金
这个项目没有收到具体的资金。DM由渥太华大学研究主席支持。DBR由加拿大卫生研究院Vanier研究生奖学金资助。ACT由加拿大知识综合二级研究主席资助。所有作者都证实他们的工作独立于资助者。
作者信息
作者及隶属关系
贡献
(来源:https://www.casrai.org/credit.html方法:DBR, BP, JP, ACT, DM。项目管理:DBR。调查(数据收集):DBR。写作-初稿:DBR, DM。写作-审稿和编辑:所有作者阅读并批准最终稿。监督:DM。
相应的作者
道德声明
伦理批准并同意参与
由于这项研究不涉及人类参与者,因此不需要伦理批准。
发表同意书
N/A
相互竞争的利益
David Moher是Publons Academy的顾问。所有其他作者声明没有利益冲突。
额外的信息
出版商的注意
伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。
本文对原文进行了修改:修正了摘要、正文和致谢中的错误。
附录1
附录1
估计对照组随机样本的样本量。
在我们注册的方案中,样本量计算不正确。大型同行评审的样本量是基于Publons网站上符合我们纳入标准的同行评审人数(即2018年同行评审人数超过100人)。对于对照组,根据符合对照组要求的审稿人总数(即,在2018年完成至少一篇评审且同行评审少于18篇),使用平均字数的标准差进行样本量计算,平均字数是使用Publons的初步数据估计的。在R包(pwr)中进行样本量计算,对大型同行审稿人和对照组进行两样本t检验。计算合并标准差,并估计最小样本量为1167(见附录1).为了确定对照组需要的同行审稿人人数,我们选取了1:1的随机样本,并确定了审稿报告平均字数的标准差。这个样本量计算假设评论的平均字数是一个均匀分布的变量,然而,考虑到各学科使用的平均字数的已知差异,这个变量在评论中可能不是均匀分布的。这一假设可能掩盖了各学科字数的相关差异。
数据
平均字数 | 大型评审员(n= 396) | 1:1匹配控制(n= 396) |
---|---|---|
中位数 | 228 | 254 |
的意思是 | 272 | 326 |
标准偏差 | 220 | 333 |
均值的标准误差 | 11 | 17 |
假设
在样本量为> 800名审稿人的情况下,t检验适用于比较两组审稿人。
使用当前的一组控件(n= 396),在假设每句话的平均字数为20个单词的情况下,超级审稿人组和对照组之间的平均字数的平均差异为54个单词,或大约3个句子(平均60个单词)。
对于当前的控制组,合并的标准偏差是282个单词(或略多于一页的一半(平均每页500个单词)。
考虑到186,184个对照的“总体”大小,我们估计对照的标准偏差可能从333个单词(396个对照)增加到500个单词(186,184个对照)。
样本大小使用R包“pwr”进行t检验(如下)。
推荐:随机抽样1200个对照。
合并标准差的计算
大型评论者 | 控制 | 池 | 大型 | 控制 | |||
---|---|---|---|---|---|---|---|
n1 | sd1 | n2 | sd2 | SD | mean1 | 非常刻薄 | Diff |
396 | 220 | 396 | 333 | 282 | 272 | 326 | 54 |
396 | 220 | 800 | 500 | 428 | |||
396 | 220 | 1200 | 500 | 447 |
权利和权限
开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。
关于本文
引用本文
赖斯,D.B.范,B.普莱斯索,J。et al。“超级”同行审稿人的特点。Res integral Peer Rev7, 1(2022)。https://doi.org/10.1186/s41073-022-00121-1
收到了:
接受:
发表:
DOI:https://doi.org/10.1186/s41073-022-00121-1
关键字
- 同行评审
- 审稿人特点
- Publons