总统列

预注册、复制和非实验研究

这是APS主席苏珊·戈尔丁-梅多的肖像。在上个月的专栏中,我担心鼓励我们在进行研究之前预先注册我们的假设和分析计划是否会扼杀发现。我得出的结论是,不需要这样做——但我们需要防止让这种做法自生自弃。在本专栏中,我提出了关于预注册的第二个问题:它似乎只适用于某些类型的研究,因此有可能使预注册不太适合的研究边缘化。

预注册的目的是确保如果我们收集的数据证实了我们的假设,这些假设是我们在研究开始前打算测试的,而不是我们根据观察产生的新假设。如果我们是第一次看到模式,我们需要让自己和读者清楚,这项研究正在产生新的假设,而不是测试旧的假设。从某种意义上说,预注册需要复制(如果不是精确复制,至少是概念复制);Crandall & Sherman, 2015),因为预先注册的假设检验研究建立在早期假设生成研究的基础上。

预注册和复制很适合于对容易找到的参与者进行短期实验研究。但是,在一个样本上产生假设并在另一个样本上测试它们太昂贵或太笨拙,例如,当我们进行大型实地研究或测试难以找到的参与者时。我们是否必须放弃对这类研究的可重复性和稳健性的希望?有两个理由让我们不要绝望。

首先,某些类型的研究,就其性质而言,可能比其他研究更可靠。正如Jon K. Maner(2015)所指出的,与实验室研究相比,在该领域进行的研究有两个优势。第一个优势是显而易见的:实地研究的结果与现实世界有明显的相关性。第二个优点不太明显:在实地研究中很难控制所有甚至许多变量。为什么缺乏控制是一件好事呢?如果在这些混乱的条件下发现了某种现象,那么它很可能是一个值得解释的强健现象。皮亚杰(Jean Piaget)在家对他的三个婴儿所做的发现就是一个很好的例子。虽然他的样本很小,因此显然不具有代表性,但皮亚杰进行观察的条件在不同的试验中差异很大。对少数参与者进行大量的自然观察可以导致鲁棒性。1973年,罗杰·布朗也通过研究三个孩子在家里随意谈论的话题,初步发现了语言学习。 Piaget’s observations have stood the test of time, in part because he was a brilliant observer who could zero in on invariances that mattered, and in part because his observations came from a range of situations and thus were less likely to depend on the details of any one of those situations. Happily, this means that in areas where it is difficult to repeat a study, exact replication may not be essential in ensuring a phenomenon’s robustness.

不要绝望的第二个原因是,观察性研究可以,而且经常是复制的——只是没有这样的报道。例如,我们可以在数据子集的基础上开发一个编码系统,建立编码系统的可靠性,然后将该系统应用于其余数据(例如,Goldin-Meadow & Mylander, 1991, pp. 322-324)。这一过程使我们能够在数据的一部分上发现假设,并在另一部分上测试它们,这是一种复制,可以在罕见的人群中进行,或者在难以重现的条件下存在。

发现正确的编码系统(即,捕捉数据有趣之处的编码系统)类似于引导一项实验研究,以找到揭示该现象的正确参数。这两个过程都不是作弊——这是科学发现的一部分。但也许应该鼓励研究人员在半岛体育官方网址入口补充材料中报告这些步骤,以及观察性研究(这通常是这类研究的核心)中编码系统的细节。这样做可以为其他人节省大量时间,更重要的是,可以初步了解这种现象是否成立的边界条件。

目前正在努力提高实验研究中复制的地位,并投入一些宝贵的期刊空间来确保一种现象在实验室中是稳健的(例如,Nosek & Lakens, 2014)。在我看来,这些努力似乎是合理的,只要它们不成为挑毛病的练习,而是被视为它们本来的样子——测试一种现象的稳健性和普遍性的方法。除了故意欺诈,每一个发现都是对样本的准确描述。问题——一个重要的问题——是这些发现是否超出了样本及其特定的实验条件。如果我们要认真对待实验研究中的复制,那么我建议我们对使用其他方法的研究也要认真对待。例如,当使用观察方法时,可以鼓励研究人员不仅报告在单个样本上对编码系统的迭代测试,而且要认识到半岛体育官方网址入口这些测试是重复的。

我们不想做的是要求用于确保实验研究的稳健性和普遍性的程序(例如,预登记,单一研究的多组重复)适用于所有类型的心理学研究,然后贬低或边缘化预登记程序不适合的研究。相反,我们需要创造性地思考如何实现构成丰富心理学研究的广泛方法的稳健性。œ

参考文献

布朗,R.(1973)。第一语言。剑桥,马萨诸塞州:哈佛大学出版社。

克兰德尔,c.s.,谢尔曼,j.w.(2015)。论概念复制对科学进步的科学优越性。实验社会心理学杂志,66, 93 - 99。doi: 10.1016 / j.jesp.2015.10.002

Goldin-Meadow, S.和Mylander, C.(1991)。在没有语言模型的情况下开发的通信系统中的结构层次。在K. R.吉布森和A. C.彼得森(编),脑成熟和认知发展:比较和跨文化视角(页315 - 344)。纽约:Aldine de Gruyter。

Maner, J. K.(2015)。进入野外:实地研究可以增加可复制性和现实世界的影响。实验社会心理学杂志,66, 100 - 106。doi: 10.1016 / j.jesp.2015.09.018

Nosek, b.a, & Lakens, D.(2014)。注册报告:一种增加已发表结果可信度的方法。社会心理学,45, 137 - 141。

皮亚杰(1952)。儿童智力的起源(由库克翻译)。纽约:国际大学出版社,Inc。

评论

我很高兴APS主席戈尔丁-梅多把预先登记的问题提上了日程。但在我看来,她所表达的一些担忧与已注册报告有关,而与预注册本身无关。有关克里斯钱伯斯和其他人对注册报告的非常详细和彻底的处理,请参阅https://osf.io/8mpji/wiki/home/

简而言之,在注册报告中,作者在进行拟议的研究之前提交一份基本原理和方法供审查,编辑在结果已知之前决定是否发表该工作(但通常带有某些标准,例如通过操纵检查和避免下限/上限)。rr是一条令人兴奋的科学新途径,我相信它们具有巨大的潜力,特别是对于旨在测试明确假设的研究。但是,为一项探索性研究提交RR可能没有多大意义,因为审稿人和编辑评估提案的依据太少了。

然而,预先登记一项探索性研究是完全有意义的,我认为这确实是一件好事。我为《心理科学》写的关于预注册的简短声明,请看//m.obsidohoteles.com/index.php/publications/bd体育在线app下载安卓journals/psychological_science/preregistration

预注册仅仅意味着在开始收集数据之前(或者至少在看到数据之前),将您的计划和预测以书面形式记录在无法编辑的存储库中。你预先明确地说明,你计划收集什么样的观察,你计划进行什么样的分析,你计划测试什么样的假设(如果有的话)。这并不能阻止你以后改变主意,它只是阻止你在不知情的情况下改变主意。这是一件好事。

史蒂夫林赛

如果我完全诚实的话,第二篇文章中的论点比第一篇更让我无语。

有几点。

1.作者提出了一个老生常谈的观点,即预先注册可能会使不适合的研究领域边缘化。这就像认为癌症治疗使肝炎治疗“边缘化”一样合乎逻辑。

2.挑选皮亚杰作为观察研究的杰出之处的某种证明。有多少验证性研究跟随皮亚杰来验证他的理论?有多少基于N(3)的可比观察性研究一无所获?整个论点都是后见之明的偏见。

3.对于没有人提出的预先登记应该是强制性的这一主张,通常是稻草人式的反对。

4.交叉验证是一个有趣的论证,这是一个有用的工具,但当然不能代替独立的复制——没有理由为什么任何这样的复制在观察研究中不能预先登记。

5.这是一份非同寻常的声明,“除非有意欺诈,否则每一项发现都是对样本的准确描述”。这相当于否认存在无意识的窃听、窃听和其他形式的偏见,APS主席发表这样的声明确实令人瞩目。

6.最后,“预注册和复制适用于对容易找到的参与者进行的短期实验研究”的论点。这相当具有讽刺意味地犯下了它所警告的罪恶,因为它将预注册和复制边缘化了。没有科学理由说明为什么长期研究不能独立地重复或预先登记。想象一下,如果其他科学也是这样运作的——一旦科学面临挑战,复制就会被淘汰,因为它太难了。想象一下我们会有什么样的物理、化学或工程学。你敢搭飞机吗?

纵向研究不能或不应该预先注册的概念与大规模国际大规模研究的实践完全不一致,例如国际学生评估项目(PISA)。

诚然,PISA并未将其研究计划预先登记在当前辩论中经常宣传的平台上(osf)。(或AsPredicted.org),有一个严格的长期数据收集和分析计划,所有联盟成员都遵守(加上一些国家可以订阅的“可选评估”)。这是有充分理由的:与小规模的实验室研究相比,像PISA这样的大型研究相对昂贵。严格管理是绝对必要的,这样才能使我们的研究值得投入时间,并产生有意义的政策影响。

政府当然不希望在这方面花费过多,因此每一个规模,每一个项目都是在计划研究的专家之间进行彻底的谈判和讨论的。一般来说,预先登记实验室研究可能“更容易”,但这是研究规模的固有功能(即小规模实验室研究比大规模纵向研究需要更少的资源)。

如果有任何一种研究能从预注册中获利(就资源消耗而言),那就是纵向研究。幸运的是,相当多的纵向研究项目早就发现了这一点。

亲爱的苏珊·戈尔丁-梅多:

在Bem(2011)关于时间逆转心理过程的令人难以置信的证据之后,心理学中出现了“可复制性危机”,你的评论已经在一个致力于讨论研究实践的Facebook小组中进行了讨论。我想分享我自己的评论,重点是一个具体的报价。

“在我看来,这些努力似乎是合理的,只要它们不成为挑毛病的练习,而是被视为它们本来的样子——测试一种现象的稳健性和普遍性的方法。”

我认为这反映了原创研究者的作者普遍存在的一种焦虑,即有人可能会对他们的一项原创研究进行重复研究,并报告无法复制原始结果。半岛体育官方网址入口当然,我们都希望自己一直都是对的,但当我们在做原创性研究时,尤其是在探索新领域时,这是不可能的。因此,我认为我们需要对错误采取一种新的态度。即使是世界级的网球运动员也会犯错误,有时他们会犯非受迫性错误。错误是生活的一部分。作为心理学家,我们应该第一个知道忽略错误和压抑矛盾的信息只是处理负面情绪的临时解决方案,从长远来看会产生更多的负面后果。科学的全部意义在于纠正错误,在纠正错误的过程中,还会犯更多需要纠正的错误。只有当我们对自己经常犯错误的想法持开放态度时,我们才能做到这一点。发现错误是我们的工作。爱因斯坦发现了牛顿理论中的错误。 This did not mean Newton was a bad guy, it just was part of the scientific process to notice them and to correct them.

在心理学中,我们使用显著性检验。而且显著性检验已经表明,我们有时可能会犯错误。每个声明都有一个固定的i型错误概率。

不幸的是,心理学家并不擅长考虑另一个错误。每项研究也有没有显示出效果的风险,如果效果存在,但在低功率的研究中太小而无法检测到。这是ii类错误。长期以来,心理学家忽略了这个错误,因为这些错误在文献中没有报道,因为期刊只发表重要的结果。bd体育在线app下载安卓因此,我们通常只会犯ii型错误,无法复制我们自己的发现,但我们并不担心,因为这些结果没有被报道。

简而言之,科学是一种“寻找错误”的练习,当著名的原创研究者对精心进行的重复研究的结果不屑一顾时,这是没有帮助的(见鲍迈斯特和斯特拉克对失败的RRR的回应)。半岛体育官方网址入口

不幸的是,你的评论可能会被误解为暗示你也相信原始结果总是值得信赖的,复制研究只是测试一种现象的稳健性和普遍性。我认为重复性研究还提供了重要的信息,即原始发现是否可能是假阳性结果,或者产生比小型原始研究更准确的总体效应大小估计。

我们需要知道,一个小样本的单一原始研究,p < 0.05的显著结果只告诉我们,总体效应大小很可能不为零,并且与原始研究的小样本中的效应方向一致。如果p值接近0.05,则95%CI的下限接近于0,种群效应大小可能接近于零。此外,当我们对每年发表的数千项研究一次又一次地使用这个程序时,一些发表的结果将是假阳性结果的研究(没有相反方向的影响)。重复性研究,尤其是那些样本量大得多的研究,可以告诉我们一些原始研究无法告诉我们的事情。结果是假阳性结果吗?总体效应是接近于零还是小、中等还是大?

在这方面,我不同意你的说法,即“除非故意欺诈,每个发现都是对其运行的样本的准确描述。”问题——一个重要的问题——是这些发现是否超出了样本及其特定的实验条件。”

是的,如果我只报告样本中获得的均值或相关性,那么结果就是该样本中相关性的准确描述。但这还不足以发表。在我的20个参与者,correlaiton amonng两个变量r = 5时删除7参与者是一个准确的描述所选样本的相关性N = 13,但这样的结果只是发表时伴随着p < . 05(单侧),这意味着声称结果并不局限于N = 13的样品,但这关系将复制的符号与其他样品和推广到其他人群。

我们不只是发布样本的描述性统计数据。我们用p值来发表这些结果,用来拒绝零假设,即我们的样本均值和效应大小只是抽样误差,这意味着原始研究中的每个结论都带有警告标签。X导致Y, p < 0.05,这意味着这个说法只适用于精确的复制研究,即参与者从相同的人群中抽样,错误率只有5%,错误率意味着不超过5%的统计测试,心理学家按下按钮在电脑屏幕上获得p值,结果显示p值小于0.05,而没有相应的群体效应大小与样本中的效应大小相匹配。

现在不难看出,心理学家进行的统计显著性测试比他们在出版物中报告的要多。这意味着,我们不知道发表在原创文章中的显著性检验的最大错误率(见Sterling et al., 1995)。预注册的一个优点是它减少了可以进行的显著性检验的比率。如果研究人员只能报告一个统计检验的结果,并且报告的结果p < 0.05,则假阳性的最大概率为5%。如果没有预登记,假阳性的最大概率为100%。因此,我们从预配准中获得的是更好的误差控制。

这种更好的误差控制的优势并不局限于实验研究或测试定向假设的研究。如果我们使用双尾检验,我们已经允许两个方向的显著性,而不需要一个方向假设。以我自己的研究为例,我可以预先注册一项研究,在那里我将探索外向性和生活满意度之间的关系,并指定样本量(理想情况下是功率分析),我将使用的测量方法和测试它的统计方法。我将收集N = 1000名参与者的数据,用自我评价和朋友提供的信息评价来测量BFI的外向性,并使用Diener's SWLS的自我评价作为幸福感的衡量标准。我将拟合一个结构方程模型,并将潜在生活满意度测量回归到潜在外向性因素上,该因素捕获了作为外向性测量的自我评价和被调查者评价之间的共同方差。我还将考虑生活满意度自我评价和外向性之间的额外关系,以允许共享方法方差。我可以预先登记这一点,即使它不是一个实验,我没有对关系的方向做出预测。作为做这项工作的回报,我可以声称只有最大5%的概率p < 0.05的显著正或负关系是假阳性结果。如果我不预先登记它,我就不能以固定的错误概率做出断言,因为最大错误概率取决于我可能使用的度量的数量、参与者的停止规则以及我分析数据的方式中的其他自由度。甚至有人会争辩说,进行统计测试并报告显著性是毫无意义的,因为p < 0.05只会被误解为i型错误的最大概率只有5%,而真正的最大i型错误概率是100%。
我希望你发现这些在过去五年中反复出现的论点很有趣,并在你对预注册和可复制性的思考中考虑它们。

真诚的,乌尔里希·施马克

相关信息可以在这里找到

Discusison集团
https://www.facebook.com/groups/853552931365745/

关于可复制性和权力的博客
https://replicationindex.wordpress.com/

心理学期刊的可复制性排名
https://replicationindex.wordpress.com/2016/01/26/2015-replicability-ranking-of-100-psychology-bd体育在线app下载安卓journals/

亲爱的苏珊·戈尔丁-梅多:

在Bem(2011)关于时间逆转心理过程的令人难以置信的证据之后,心理学中出现了“可复制性危机”,你的评论已经在一个致力于讨论研究实践的Facebook小组中进行了讨论。我想分享我自己的评论,重点是一个具体的报价。

“在我看来,这些努力似乎是合理的,只要它们不成为挑毛病的练习,而是被视为它们本来的样子——测试一种现象的稳健性和普遍性的方法。”

我认为这反映了原创研究者的作者普遍存在的一种焦虑,即有人可能会对他们的一项原创研究进行重复研究,并报告无法复制原始结果。半岛体育官方网址入口当然,我们都希望自己一直都是对的,但当我们在做原创性研究时,尤其是在探索新领域时,这是不可能的。因此,我认为我们需要对错误采取一种新的态度。即使是世界级的网球运动员也会犯错误,有时他们会犯非受迫性错误。错误是生活的一部分。作为心理学家,我们应该第一个知道忽略错误和压抑矛盾的信息只是处理负面情绪的临时解决方案,从长远来看会产生更多的负面后果。科学的全部意义在于纠正错误,在纠正错误的过程中,还会犯更多需要纠正的错误。只有当我们对自己经常犯错误的想法持开放态度时,我们才能做到这一点。发现错误是我们的工作。爱因斯坦发现了牛顿理论中的错误。 This did not mean Newton was a bad guy, it just was part of the scientific process to notice them and to correct them.

在心理学中,我们使用显著性检验。而且显著性检验已经表明,我们有时可能会犯错误。每个声明都有一个固定的i型错误概率。

不幸的是,心理学家并不擅长考虑另一个错误。每项研究也有没有显示出效果的风险,如果效果存在,但在低功率的研究中太小而无法检测到。这是ii类错误。长期以来,心理学家忽略了这个错误,因为这些错误在文献中没有报道,因为期刊只发表重要的结果。bd体育在线app下载安卓所以,我们经常犯ii型错误,但我们并不担心,因为这些结果没有被报告。最终,当其他人测试相同的假设并得到重要结果时,这些错误就会得到纠正。因此,我们主要担心的是i型错误,因为一些原始结果将无法复制。这就是为什么我们需要复制研究。在原始研究必须报告重要结果的科学中,这是纠正错误的唯一方法。

简而言之,科学是一种“寻找错误”的练习,当著名的原创研究者对精心进行的重复研究的结果不屑一顾时,这是没有帮助的(见鲍迈斯特和斯特拉克对失败的RRR的回应)。半岛体育官方网址入口

因此,不幸的是,你的评论可能会被误解为暗示你也相信原始结果总是值得信赖的,而复制研究只是测试一种现象的稳健性和普遍性。我认为重复性研究还提供了重要的信息,即原始发现是否可能是假阳性结果,或者产生比小型原始研究更准确的总体效应大小估计。

因此,我礼貌地对您的声明提出异议,即“除非故意欺诈,否则每个发现都是对其运行的样本的准确描述。”问题——一个重要的问题——是这些发现是否超出了样本及其特定的实验条件。”

是的,这是真的,但我们不只是发布方法,只对特定的样本做出声明。大多数出版物还报告了推断统计和p值。这些p值使研究人员能够提出超出其样本范围的半岛体育官方网址入口结论,并可以推广到其他样本;至少是从同一人群中抽取的其他样本。预登记很重要,因为预登记数据分析计划的研究与未预登记其设计和分析计划的研究之间p值的意义是不同的。如果研究人员按照预先注册的分析计划进行单次显著性检验,p值小于半岛体育官方网址入口0.05,则可以得出超出样本的结论,最大错误率为5%。如果没有这个计划,最大错误率可能是100% (Sterling et al. 1995)。

因此,预注册可以帮助降低已发表期刊的错误率,我希望您和我都相信,避免发现错误的最佳方法是首先降低正在发生的错误率。bd体育在线app下载安卓因此,通过鼓励成本低得多的预注册实践,可以减少昂贵的复制需求。

真诚的,乌尔里希·施马克

大家好:作为APS杂志《临床心理科学》的新主编,对于APS编辑Steve Lindsay的精彩评论,我没有什么要补充的。

预登记体现了已故物理学家理查德·费曼(Richard Feynman)的敏锐观点,即科学,在最好的情况下,是一种最小化(当然,不是消除)我们被愚弄的可能性的方法。预注册根本没有什么好担心的(除了可能需要在前端投入一点时间,在后端就更好的研究而言,这比它自己付出的代价要大得多)。这个过程简单地明确了验证性研究和探索性研究之间经常隐含的区别,并最大限度地减少了研究人员——即使是那些相当正直的研究人员——在不经意间通过检测数据中的特定模式来欺骗自己和他人,并说服自己他们已经提前预测了这些模式(我毫不怀疑我自己也曾成为这个错误的牺牲品)。半岛体育官方网址入口因为预注册完全允许探索性研究,所以没有哪种类型的研究不适合这种模式。

可以理解的是,我们做生意的标准方式的所有变化都让我们有点紧张,因为它们肯定需要一些时间来适应。但是预先登记一个人的假设和数据分析计划(如果有的话);如果没有,也没关系,只要一开始就说清楚这一点,这对研究人员和整个心理科学来说都是双赢的。半岛体育官方网址入口从长远来看,这样做将减少我们都容易犯的推理错误,并使我们的结论更加可靠,理想情况下更容易复制和推广。

斯科特·利连菲尔德,埃默里大学

我觉得苏珊·戈尔丁-梅多需要辩护。当我读到她的文章时,我点头表示同意,并想着我希望她能走得更远。让我感到困扰的是,最近关于研究可信度的讨论都集中在复制和预登记上,把其他在我看来同样重要的因素推到了次要位置,比如一个结果是否具有理论意义,以及数据分析是否在一开始就做得正确。

我还担心预注册会阻碍(但当然不会阻止)作者进行通常是明智的初步分析,例如查看误差分布以决定非参数测试或转换是否合适。

作为一份期刊的编辑和其他期刊的偶尔读者,我认为可信度问题的主要来源往往从论文提交的一开始就很明显。提交完整的数据(不排除)可能导致发现p-hacking。对论文本身的检查可能会暴露出薄弱的推论(比如基于低强度研究的发现,这些研究结果“令人惊讶”,因为它们没有理论意义)或薄弱的统计数据(比如解释可移动的相互作用,或者将“语言作为固定效应谬误”)。

这些问题可以通过检查注册研究的方案来发现,也可以通过阅读论文本身来发现。但是,使用预注册让编辑对一篇甚至可能没有提交的论文做出决定(取决于结果),这对编辑和可能的审稿人来说是一个额外的负担。

在我看来,当作者想要进行一项有风险的研究而不担心结果是否可以发表时,以及当作者无论结果如何都愿意发表研究时,预注册是最有用的。这种情况时有发生,而且在某些领域比其他领域更常见,但这只是提高已发表研究可信度的众多方法之一。虽然预注册可以防止黑客入侵,但这并不是唯一的方法。

是的,我同意许多重要的研究,比如皮亚杰和罗杰·布朗的研究,都是新的观察,阐明了有意义的新理论。这两个例子被广泛复制,但这并不奇怪。在我熟悉的领域里,我还能说出无数其他的问题:四张牌问题;亚洲疾病问题;额外成本效应(丢失机票);埃尔斯伯格悖论;等等......

乔恩·巴伦(宾夕法尼亚大学,《判断与决策》编辑)


APS定期在我们的网站上开放某些在线文章供讨论。自2021年2月起,您必须是登录的APS会员才能发表评论。发表评论即表示您同意我们的社区指导原则并显示您的个人资料信息,包括您的姓名和所属机构。文章评论中的任何观点、发现、结论或建议都是作者的观点,并不一定反映APS或文章作者的观点。欲了解更多信息,请参阅我们的社区指导原则

请以您的APS帐户登入进行评论。