尝试更好的方法来评估研究人员

2014年,剑桥大学的计算机科学家尼尔•劳伦斯被要求把椅子一年一度的机器学习和计算神经科学会议上被称为EuroNIPS(神经信息处理系统)。不到四分之一的论文提交评审了现货,这是典型的这种类型的著名的会议,在会议论文集出版的共模的结果。主席,谷歌研究副总裁科琳娜议会,建议他们把机会与同行评审过程的实验,看看它提供一致性水平。同行评审科学被认为是“黄金标准”,通常从研究人员获得广泛的支持,但有证据表明,它可能并不总是公正的仲裁者的品质。EuroNIPS会议提供了一个机会来进一步研究这个问题。

劳伦斯和议会召开两个评估板和10%的论文提交由两组- 166篇论文进行了综述。最终43的论文收到每个面板的不同决定,委员会不同意57%的38个论文最终表示接受。结果略好于随机(您所期望的分歧在接受论文的77.5%),但这是不够好,可能是一个媒体宣传的决定对于一个年轻的研究人员?

其他研究显示类似的矛盾。2018年,43个评论者给出相同的25个匿名美国国立卫生研究所拨款申请审查并没有显露任何协议的定量或定性评估。这项研究得出的结论是,两个随机选择的评级相同的应用程序平均一样类似的不同的应用程序的两个随机选择的评级。1

也许这是不合理的期望从同行评审高水平的一致性。正如劳伦斯州,“你是抽样从三个不客观的人…他们有特殊的意见”。曾经也许不是一个问题,但目前学术界的竞争本性使得每个同行评议的决策非常重要。”如果你有资金率达到5%,或10%,你将会有很少的赢家和输家,很多不值得失败者和一些不值得的赢家,”说约翰勃伦复杂系统专家从印第安纳大学布卢明顿,我们一直在调查替代模型分配资金。

通过整个出版过程差异堆积

艾琳天,皇家化学学会的必威手机登陆

劳伦斯认为问题的根源在于媒体宣传可以同行评审决定。”(学生)是否设法让[他们的]论文[到EuroNIPS会议]不应该你所有…不幸的是,它往往是”。

格兰特分配有添加问题被浪费的时间写作和同行审查最终未备基金的建议。估计基于澳大利亚研究人员建议准备一年3700年提议他们集体提交代表价值五个世纪的研究时间。2但博伦说这并不是批评资助机构。涉及到很多很好的人…但系统基金只有15%的申请者,留下85%和0钱,不能有效。”

无意识的偏见

另一个负责征收在同行评审是它深受无意识偏见无疑评论者随身携带。这些刻板印象是无意的,但根深蒂固的和能够影响决策。2019年皇家化学学会的必威手机登陆(RSC)产生看性别差距报告提交成功的期刊2014 - 2018年。RSC数据科学家艾琳天发现差异存在于各个阶段,包括同行评审。3它很小,但它是重要的,”说。例如,在相应的作者提交论文的23.9%是女性,只有22.9%的论文发表有女性相应的作者。“最重要的是通过整个出版过程差异堆积,“天解释道。

研究还发现,男性和女性的行为不同的评论家;“如果你是一个女人你更有可能说重大修改,如果你是一个男人,拒绝,“说一天。评论家也优待自己的性别。

一个图像显示一个拇指向下的迹象

战斗无意识偏见RSC发布了一个行动框架在科学出版社出版,它提供了可以采取的步骤,董事会成员和员工的编辑出版更具包容性。今年7月,其他出版商,包括美国化学学会爱思唯尔,同意加入的RSC致力于监控和减少偏见在科学出版社出版。集团,代表超过7000个期刊,已同意池资源和数据,和努力的一个适当的表示作者、审稿人和编辑的决策者。工作组将对政策发展合作,好的实践多样性相关数据收集和共享试验新工艺的经验教训。

期刊显然是试图确保更好的性别平衡的评论家和许多机构为员工提供培训和评论家克服无意识的偏见,但也有不同意见这些措施的有效性。专业人力资源机构最近的一份报告的英国特许人事和发展协会强调了极其有限的证据表明,训练可以改变员工的行为。

我想,为什么我们不只是给每个人写张支票?

约翰勃伦,美国印第安纳大学布卢明顿

防止偏见的一个想法是隐藏该论文的作者之一的身份或提议,一些工程和物理科学研究委员会(EPSRC)看了。我们一些新方法进行同行审查多年来包括涉及匿名或双盲的同行评审,“商业改善路易丝•蒂尔曼的头说。但许多评论者说在相对较小的学术社区很难确保匿名性。

在另一端的频谱一些出版物已经开放同行审查。例如,在二月自然宣布提供的选项来自裁判的报告(仍然可以选择保持匿名)发表与作者的回应。“在一个理想世界中,您可能希望评论家的名字是开放的,但这里有一个挑战,”劳伦斯说,“(裁判)可能不愿意共享一个坦率的意见。劳伦斯的机器学习期刊编辑出版同行评审和论文。这可能是我最喜欢的创新来自EuroNIPS实验,”他说。

一些科目似乎比别人缓慢改变。很少有开放审查化学期刊的例子,例如,尽管最近有迹象表明这里的运动——RSC的两个最新期刊提供作者的选择透明的同行评审(出版他们的论文的同行评审报告)。劳伦斯说,缓慢可能与化学社会占主导地位的大型出版商出版。社区,一直是那些拥有专业机构管理审查,“表明劳伦斯,他认为这些类型的组织缓慢变化。

彩票资金

如果同行评审是一个彩票,为什么不把它换成一个彩票呢?一些机构已经试用过这种系统。从2013年新西兰健康研究委员会授予其“explorer赠款”价值150000新西兰元(£76000)使用一个随机数字生成器选择从所有应用程序验证,以满足其标准。其他资助者已经测试了这个想法:瑞士国家科学基金会尝试用随机选择2019年,抽签选择博士后奖学金,和德国的大众基金会自2017年以来也用彩票来分配拨款。另一个或许不残酷的模型,虽然还没有测试,表明应用程序不资助回到锅——创建一个系统更像溢价债券。4

新西兰最近审查方案,整体通过率达14%,一项调查显示,63%的申请者回答的彩票,和25%的反对。也许并不奇怪,支持更高的那些赢了!但受访者还报道,系统并没有减少他们花的时间准备他们的应用程序仍然需要通过一个初始质量阈值输入彩票。5

这种系统的独特体现最糟糕的所有可能的世界,”博伦说。这就是资助机构和科学家说我们不能做体面的(同行)审查其几乎恶意的…。”

博伦资助研究人员想出了另一个想法:“我想,为什么我们不把大家支票吗?”2019年,受数学模型用于互联网搜索引擎,他发表他的想法“自我组织基金分配的系统,每一个科学家定期接收到相同的情况下,无条件的资助。问题是,他们必须匿名捐赠给其他科学家不是分数的合作者或来自同一机构。6那些科学家将re-distribute部分。博伦说模型收敛的分布和分配资金,总体来说,反映了每个人的偏好在那个社区集体的——也许最终的同行评审。的结果可以一样好,一样公平的我们现在的系统,但没有所有的开销,”他补充道。

调整模型可以帮助解决当前问题的偏见,例如,要求研究人员给予一定比例的资金帮助弱势团体。当然这样一个系统可能支持的学者谈一个好游戏,劣势那些模糊的领域,但这已经在目前的系统中,博伦说。到目前为止他的模型却无人问津,但已经收到了很多同事及机构的兴趣。他希望,在当前的动荡时期可能会有一个偏好的变化。

劳伦斯认为我们只需要接受同行审查总是有缺陷;的想法,有一个完美的,无噪声系统是最严重的错误。最近的一些广为人知的论文,包括《柳叶刀》的一篇论文在Covid-19羟氯喹治疗,表明不error-proof同行审查。根据网站收缩观察至少118化学论文于2019年收回。最终我们可能需要现实地看待我们所说的“黄金标准”。(同行评审)可能是最好的系统验证研究,但(这并不总是)意味着,拒绝是有缺陷的研究或者研究接受聪明,”劳伦斯说。

这篇文章在2020年8月26日更新。早期版本比较的出版数据来自不同国家,没有验证,艾琳天的引用使用“偏见”这个词已经澄清了“差异”。