信/观察者论坛bdapp官网下载

对我们这个领域的声誉负责

坦率地说,学习心理学的公众声誉似乎在自由落体。

当“复现性危机”的新闻报道在《心理科学》开始几年前,记者通常提出主题,以相互尊重,精致时尚,暗示问题但不是鼓吹。

改变明显在过去的一两年。科学记者曾假设同行审查是“科学素养”的标志现在公开声称同行审查是不可靠的,不仅在心理科学,在科学学科。

和公众获取信息,如果在线科学新闻的评论部分是任何指示。

新闻报道领域的复制活动说明一些令人不安的情绪。一些典型的言论:“心理学不是科学,我重复不是一门科学。它类似于信仰宗教。”1(心理学家)和“令人惊讶的是,这些生产垃圾他们声称科学。”2

《心理科学认为比其他领域更有复制问题的困扰可能完全无根据的(例如,早期癌症的结果重现性项目建议至少大问题)。和毫无疑问,心理研究人员(APS)所做的远远超过他们的分享正面解决这些问题。半岛体育官方网址入口但尽管如此,我们的信誉是需要搭车。

回头看前进

所以我们能做些什么呢?讨论在这一领域已经几乎完全集中在如何提高研究的质量的问题展望未来。过去几年里已经看到创新的进步研究模型如抢注的复制和许多实验室项目。

这很棒,但我们唯一依据科学被任何人除了重视自己的信誉是我们的文学——我们的累积工作产品,而不是我们对未来的良好意图。

无数失败的尝试复制结果——包括一些,而具有里程碑意义的结果——意味着我们要求我们的学生购买教科书和讲座我们交付可能描述尽可能多的虚假的发现真实的。虽然暂时的和不完整的科学理论的理解是一个正常的步骤过程,文学布满了实证基础,部分拙劣的研究和错误的同行评审完全是另一回事。未来几年,情况可能会陷入思想的科学教育公众和破坏我们的名声。

所以我们能做什么来提高我们的信誉吗?

我们认为我们的声誉问题可以是固定的,而迅速和果断吗如果我们接受积极的(和痛苦彻底)承诺诚实的标签。我们看到这一承诺看做两个变化在我们的实践,我们可以粗略的标签真理在包装侦探问责

真理在包装

作为一个关键的第一步,所有评论或总结产生的心理科学家,无论是在教科书或review-oriented期刊或书籍(包括大众书),需要bd体育在线app下载安卓明确和保守标签的支持程度所享有的任何研究发现。可信度最高的那一类,称之为“一级”——必须留给发现已在一个或多个抢注的复制、发表偏倚,追溯(假设后结果是已知的),和p黑客都可以自信地排除在外。

几年前,大多数人会认为被证实的概念上的复制高是一个令人钦佩的,彻底的放心程度的确认(确认与普遍性的证据扔在良好的措施,(我们)。然而,我们现在看到,这是不正确的。一门学科概念的依赖而不是直接复制与文献发表偏倚损害其更有效地比其他的我们知道(Pashler &哈里斯,2013)。一次又一次,我们看到文献华丽的多样和富有想象力的概念性的复制,然而,不知何故没有结果特别是曾经似乎直接复制时进行复制。聪明的新整合工具将不救我们。例如,预知能力研究,声称支持的想法,将违反物理定律,得到健康的一项法案”p曲线”技术(Simonsohn纳尔逊,Simmons & 2014;本、Tressoldi Rabeyron &达根,2015)。

这个诚实的标签建议诚然充满引不起食欲的后果。我们中的许多人——包括目前的作者——相信有大面积的研究在大心理学的一些地方,统计力量是好的(通常是由于一般依赖重复措施和试设计)。在这些领域,我们怀疑,大多数研究报告可能站起来。不过一个字段,意味着认真对待自己需要任何结果缺乏品牌抢注的复制(包括许多我们自己的)二班(强烈建议在文献中但不是科学证实)。所有研究都是基于单一研究和/或低功率设计我们称之为3班的证据,或者借用哈罗德·杰弗里斯的经典概率论,“价值不超过一个光秃秃的提及。”

具有讽刺意味的是,我们的建议分类一个实验,达到了传统水平的意义作为一个初步找到对应英语统计学家罗纳德·a·费舍尔本人如何,在他1935年的书实验的设计建议人们应该把这个测试,忽略结果不能够跳过这个低杆。

他说:
“这是平时和方便实验者5%作为标准的意义,在某种意义上,他们准备忽略所有的结果未能达到这一标准,通过这种方式,消除从进一步讨论的大部分机会造成的波动引入他们的实验结果”(我们p。13日,斜体)。

所以在费舍尔看来,5%的意义远不是一个充分条件接受一个假设是真实的。严重的信誉,他需要的可复制性,说:“在关系到测试的意义,我们可以说实验现象是显而易见的,我们知道如何进行实验,很少会失败给我们一个具有统计学意义的结果。“与我们密切相对应提出类1。

采用这种纪律自制的积极后果将直接:结果贴上只有第二,甚至三等实证的支持将是一个明显的邀请研究人员着手复制这些发现。半岛体育官方网址入口我们可能会发现很多结果是真实的,这可能会产生一系列的好消息。这些可以自信地引用在教科书和新闻稿。但是我们也会发现许多结果比我们怀疑有问题(见,例如,最近确认失败的巴甫洛夫条件反射的著名的“屏蔽效应”;梅斯et al ., 2016)。

我们相信,开放标签将创建一个广泛采用的激励资源专注于发现我们认为我们知道的是真实的,什么是不真实的。和它实质上停止心理研究的公众声誉急剧下降。

个人责任

我们这个领域还需要说服个别科学家更积极的回应,所做的,当其他研究人员无法复制原来的结果。半岛体育官方网址入口复制失败归咎于未知缓和因素不应接受响应。如果原始调查人员知道如何得到效果,让他们进步,重复一遍,告诉我们如何做。

我们提出一个标准的问责在许多专业领域的常见。专业工程师的行为准则,例如,他们负责结构设计。并在2010年之前,(罕见)发表失败似乎复制繁殖的一种责任感原始调查人员试图重建他们的现象。然而,在过去的几年中,这种责任似乎已经减弱。

个人的道德责任,在我们看来,被认为是一个基本的道德标准心理科学家。因此,它应该被包括在现在成为一个标准的伦理学课程研究生教学的一部分。这里的目标不是让那些结果是不攻自破或窄而不是怀疑。相反,它是允许该领域有效地确定故障反映方法的变化复制尝试或错误的原始研究。迅速判断,显然是工作。如果我们真的关心作为一个领域做了正确的事情。

总而言之,我们相信通过接受和编纂两个明确的新标准真理在标签责任作者,我们可以做很多事来支撑心理学的学术声誉。当然,具体的力学需要实现这样的承诺是实质性的,和科学界需要广泛讨论,但提出的承诺在我们的个人和机构的资源。我们希望看到这一领域,我们喜欢以这种方式合作,抓住其声誉作为一个受人尊敬的科学事业。

这真的是必要的吗?

一些著名的和直言不讳的同事似乎相信这里的完全自我批评的措施我们提倡很不必要的——我们可以让这一切消失几快速和简单的防御部署。“前进,没有看到,”似乎是一个首选的方法。事实上,普遍的证据问题并不局限于著名的再现性项目的报告(开放科学合作,2015),发现,不到三分之一的发现可以被复制和标准的统计方法。更复杂的分析这些数据备份坏消息(Etz & Vandekerckhove, 2016;莫雷& Lakens, 2016),独立复制的大片出现在《华尔街日报》的特刊社会心理学(Marsman et al ., 2017)发现“轶事”水平以上的证据只有7 60重大发现原来的文章。

人哀叹建立坚实的心理研究的难度和属性的失败我们假想的复制广告,posthoc“主持人”变量。

这些参数没有分量的原因。一个是致命的发表偏倚和低功率的结合,无疑是行为研究。在串联操作,这些双胞胎本身缺陷完全足以保证我们的文学将充满想象的结果,统计学家约翰在他著名的埃尼迪斯显示2005条(参见Szucz & Ioaniddis提交)。第二,情况远比埃尼迪斯认为,因为我们现在知道,我们的领域有许多损坏数据分析实践(例如,p黑客)大大加剧发表偏倚的影响和低功率(西蒙斯,尼尔森,& Simonsohn, 2011)。

任何人意见的问题夸张需要解释(最好是由说服模拟)我们如何能得到可靠的一次性发现低功率的恶性结合,发表偏倚,p黑客,显然我们酒吧的传统阈值低5%的意义。继续沿着这条路努力只会让我们看起来防御和欺骗性。

相比之下,接受开放的自我批评和责任调查员和作为一个领域,我们在这里提出,将使我们获得最终享受我们所寻求的声誉。

- - - - - -哈尔Pashler
加州大学圣地亚哥分校
- j。德·鲁伊特p .
塔夫斯大学

笔记
1smithsonianmag.com/science nature/scientists -复制- 100心理学研究- - - -少一半- 180956426 -得到了相同的结果
2theatlantic.com/science/archive/2016/03/psychologys-replication-crisis-cant-be-wished-away/472272/ #评论- 2557372082

引用和进一步阅读

巴特利特,t(2013年1月30日)。建议的力量。高等教育纪事报》。从www.chronicle.com/article/Power-of-Suggestion/136907/获取

本,D。Tressoldi, P。Rabeyron, T。,& Duggan, m (2015)。90年感觉未来:一个荟萃分析实验随机异常期待的未来事件。F1000Research, 4:1188

Etz,。& Vandekerckhove j . (2016)。贝叶斯的角度再现性项目:心理学。《公共科学图书馆•综合》,11,e0149794。

弗格森c J。、棕色、j . M。和托雷斯,a . v . (2016)。教育或教育?介绍心理学教科书覆盖的准确性有争议的话题和城市传说心理学。当代心理学,1 - 9。

费舍尔,r . a (1935)。实验的设计。纽约:麦克米伦。

头,m . L。霍尔曼,L。Lanfear, R。卡恩,a . T。& Jennions,医学博士(2015)。的程度和后果p科学黑客。《公共科学图书馆·生物学》上,13,e1002106。

埃尼迪斯,j . p . (2005)。为什么大多数发表的研究成果都是虚假的。《公共科学图书馆·医学》杂志上,2,e124。

杰弗雷,h (1961)。概率论。英国牛津大学:克拉伦登出版社。

梅斯,E。亚尼克,B。Matias, J。Palloni,。Krypotos, a . M。,D 'Hooge, R。,…贝克斯,t (2016)。难以捉摸的阻塞效应的本质:15失败复制。实验心理学杂志:将军,145年,e49-e71。

Marsman, M。Schonbrodt F。莫雷,r D。,姚明,Y。>,。、& Wagenmakers E.-J。(2017)。的贝叶斯鸟瞰复制的社会心理学的重要成果。皇家学会开放科学,4:160426。

莫雷,r D。& Lakens d (2016)。为什么大多数心理学统计证伪。手稿提交出版。可以在:github.com/richarddmorey/psychology_resolution/blob/master/paper/response.pdf

开放的科学合作。(2015)。估计心理科学的再现性。科学,349,aac4716。

Pashler, H。&哈里斯,c . r . (2012)。可复制性危机夸大了吗?三个参数检查。心理科学观点,7,531 - 536。

西蒙斯,j . P。纳尔逊,l D。& Simonsohn,美国(2011年)。假阳性心理学:未披露的数据收集和分析的灵活性允许展示什么是重要的。心理科学,22岁,1359 - 1366。

Simonsohn U。纳尔逊,l D。Simmons &, j . p . (2014)。压力曲线和影响大小:纠正出版偏见只使用显著的结果。心理科学观点,9,666 - 681。

Szucs D。&埃尼迪斯,j . p . a .(提交)。当零假设测试不适合研究意义:重新评估。可以在www.biorxiv.org/content/biorxiv/early/2016/12/20/095570.full.pdf