有生命超越. 05
全面推动良好的心理科学研究实践,该领域领先的杂志介绍了新的创新指南作者提交文章,他们的研究结果。
新指南心理科学旨在提高报告的研究方法和促进强劲的研究实践,主编说埃里克•艾奇的英属哥伦比亚大学的。提交作者现在需要国家,他们披露所有重要的方法论的细节,包括排除变量和额外的操作和措施,来鼓励方法论的透明度。
帮助燃料的健壮性科学,《华尔街日报》已经邀请作者使用的“新统计”效应大小,置信区间,荟萃分析,以避免问题通常与零假设意义测试(NHST)相关联。《华尔街日报》发表了一篇统计教程在澳大利亚拉筹伯大学的杰夫·卡明。“新统计:“为什么以及如何在线免费。这里,Cumming详细解释了“新统计”方法,数据分析正在进行的讨论的重点。
在1950年代,心理学开始采用零假设意义测试(NHST),可能是因为它似乎提供了一个科学、客观的从数据得出结论的方式。NHST流行在很大程度上,现在几乎所有的实证研究是指导下p值——这实际上是棘手的条件概率,很少理解正确。
为什么NHST变得如此根深蒂固呢?我怀疑这是诱人的,但误导的重要性和必然性——甚至真理——在一份声明中,我们发现一个“统计上显著的影响。“NHST决策可以是错误的,每一个像样的教科书警告说,可能是小而琐碎的显著影响。但我们渴望确定性,以统计学意义为相当接近。
50多年来,然而,学者保罗•米尔-雅各布·科恩和许多其他解释的深层缺陷NHST并描述了它如何损害研究进展。大多数改革者主张估计——这意味着效应大小和置信区间(CIs)——作为一种更丰富的方式来分析数据。
科恩曾说,他怀疑“他们(CIs)的主要原因是没有报告是他们是如此尴尬的大。“是的,这是令人沮丧的报告,平均改善响应时间是34女士,95%可信区间[61],这意味着真正的改进也不是不可能女士7到61 ms。但CI给准确信息的不确定性,我们需要接受——这比仅仅宣称更丰富的显著改善。
NHST在其他学科受到攻击。由于流行病学家肯•罗斯曼等医学在1980年代开始期待CIs经常报道。此后大多数实证医学文章报道CIs,尽管解释仍然是通常基于NHST。
1990年Rothman创立了杂志流行病学,声称它不会发布NHST。十年的编辑,它繁荣并没有公布p价值观,科学不需要NHST证明成功。在心理学中,APS的Geoff Loftus编辑记忆与认知从1993年到1997年,强烈建议数据误差——如独联体——而不是NHST。他取得了一些成功,但后续编辑回到NHST照常营业。
心理学与其他学科使用NHST在一个奇怪的情况。NHST被反复证明漏洞百出:几乎没有防御的出版,但依然存在。开创性的编辑罗斯曼和Loftus可以喋喋不休的笼子里,但无法释放自己的学科p价值。统计教学、教材、软件,美国心理协会出版手册、期刊指南和所有主要集中在NHST普遍实践。我们自称是一门科学,但不能改变我们的方法在面对证据和有说服力的观点:有更好的方法。
与此同时,荟萃分析已经被广泛使用。荟萃分析需要从所有研究估计信息,和p值是无关紧要的。许多希望荟萃分析的崛起可能给我们集体的洞察力和放松NHST的持有。但它没有。
随后报道说,一些广为接受的结果不能被复制。从癌症研究社会心理学,似乎一个不知名的比例在好杂志上发表的结果仅仅是不正确的。bd体育在线app下载安卓这是毁灭性的——科学成果我们可以信任吗?
零假设意义测试(NHST)
使用NHST,选择一个零假设,通常这样的声明“没有效果。“计算p值,像我们这样的结果的概率,甚至更极端的结果,如果零假设是正确的。如果p很小,通常小于0。,说,“如果没有效果,我们会观察到的结果不太可能像我们的极端。因此我们拒绝零假设,得出影响非零!我们发现了一个显著的效果!”
NHST向后依靠奇怪的逻辑,不能直接给我们我们想知道的信息,效果本身。的概率p值不是我们的结果是由于机会。NHST被雷克斯克莱恩的深层缺陷www.tiny.cc klinechap3。
2005年,斯坦福大学的医学教授约翰·埃尼迪斯连接这些点发表的一篇题为“为什么大多数著名研究成果都是虚假的。”他发现绝大必须达到统计学意义的核心问题。这是必要的,因为它是出版的关键,因此就业和资金。这有三个可怕的效果。首先,它导致选择性出版——期刊很少发现空间的结果没有达到统计学意义。bd体育在线app下载安卓因此,其次,研究人员寻求方法来选择和调半岛体育官方网址入口整在数据分析过程中,寻找一些结果,可以宣布具有统计学意义。第三,一旦得到的任何结果p< . 05和发表被认为是成立的,所以复制是罕见的。
埃尼迪斯令人信服地指出这三个的组合的影响依赖NHST可能确实导致了大多数发表的发现是假的。突然,这是严重的——我们的科学是摇摇欲坠的基础。令人高兴的是,一系列富有想象力的反应已经出现并快速发展,一些在这个问题的描述bdapp官网下载。
最激动人心的是,NHST,终于被重新审查。美国心理协会的2010年版出版手册包括明确声明,研究者应该“只要有可能,基地讨论点和区间估计的结果和解释。半岛体育官方网址入口“这包括许多指南首次报告CIs。
我指的尺度效应、独联体和荟萃分析为“新的统计数字。“技术本身并不是新的,但是使用它们会为许多研究者非常新,以及一个巨大的进步。半岛体育官方网址入口我的文章在心理科学目的是解释为什么我们需要从NHST转移,以及如何在实践中使用估计——这意味着新的统计数据——在一系列常见的情况。有更多的在我的书中,理解新的统计数字:效应大小,置信区间和荟萃分析。
NHST之外,估计可能是最立即可用的策略,但是其他有价值的方法,特别是贝叶斯技术,还应蓬勃发展。再也不会任何东西,甚至CIs,一样普遍依赖p值——这是个好消息!
为什么的大胆的政策心理科学改善研究实践和接受新的统计数据是比过去更成功改革的尝试吗?这里有几个乐观的理由:
- 复现性危机和埃尼迪斯参数显著强大的动机——我们必须做得更好;
- 现在有许多的资源我们可以利用来帮助我们留下的安全毛毯p;
- 有相应的其他学科的发展;和
- 主编埃里克•艾奇和他的编辑团队。
仍有巨大的挑战:我们需要更好的教科书,更好的统计课程,更好的软件,和更多的良好实践的例子。但这些都是未来。如果我需要提醒我们在正确的轨道上,我考虑一下之舞p值,这说明任何不可靠p价值是多少。它只是坚果依赖p!
置信区间的不确定性——美丽的照片
你读:“调查发现支持首相为53%,误差为2%。“误差线左边图中显示范围(51岁,55),95%可信区间(CI)。我们可以说我们有95%信心的真实人口水平支持总理在于,间隔。值的时间间隔似是而非的支持的真实水平和价值观在CI相对难以置信。
比NHST CI告诉我们更多,但我们可以使用CI NHST:任何价值躺在CI是令人难以置信的真实价值,可以拒绝。因为50%是CI以外,我们拒绝50%的假设,得出结论,支持统计上显著大于50%。零假设的进一步CI值,越低p价值。我们的CI是足够的50%以上p< . 01。但最好的策略是专注于CI和不考虑NHST或p在所有。
猫眼的照片在图中显示正确的合理性如何变化。图形越胖,越有可能是真正的价值水平的支持。我们最好的真正价值约为52%至54%,在图形是胖的,可能性和合理性或减少低和高值的顺利。看到一个词,猫的眼睛,这是一个美丽的照片在我们的数据不确定性的程度。
引用
美国心理协会。(2010)。美国心理协会出版手册(6日ed)。华盛顿特区:美国心理协会。
科恩,j . (1994)。地球是圆的(p< . 05)。49岁的美国心理学家997 - 1003。
Cumming, g (2012)。理解新的统计数字:效应大小,置信区间和荟萃分析。纽约:劳特利奇。
Cumming, g (2013)。新的统计数字:为什么和如何。心理科学,27岁,第七至第二十九页。从www.tiny.cc tnswhyhow检索
j·p·a·埃尼迪斯(2005)。为什么大多数发表的研究成果都是虚假的。《公共科学图书馆·医学》杂志2e124。doi: 10.1371 / journal.pmed.0020124
评论
优秀的发人深省的文章,尤其是之前我要教我实验心理学:应用统计学课程!
刺激Cumming p值的随机性的讨论,我进行了一个简单的公式p在一个简单的分布,一个示例,情况。这让我快速重复但非常有趣的普遍关系概率(p < x) =权力(x)之间的分布p和实验各种关键值x的力量。我希望我有这个公式在处理教学统计数据的时候,我将感激如果读者直接在文献中讨论的公式。
谢谢你那些前两个评论,尤其是温暖的话!我正在写一个介绍新的统计数据目前教科书,我希望从一开始就会有用的。(我2012年出版的假设非常少量的以前的统计数据。)
我的工作在p值的分布:
Cumming, g (2008)。复制和p间隔:p值预测未来只隐约,但置信区间做得更好。心理科学观点,286 - 300。
是的,它包括模拟,而且两种分析方法,和图片和Excel公式。是的,权力是至关重要的,尽管我没有遇到之前那个公式。对我来说,真的很惊人,不是说惊人,是非常大的方差的分布p,无论权力。这使得它特别奇怪,每个统计教科书认为抽样可变性的意思是伟大的细节也许应该而且CI。但是没有提到,抽样可变性的p是如此之大。奇怪!
我想画出猫眼置信区间。任何提示一些软件来做?
在我看来,猫的眼睛是中间的直方图——箱线图频谱;更详细的直方图与许多的箱子,和盒子情节不太详细。
我来自工程、分析化学领域。我想鼓励我们所有人包括在任何全面的出版物:
*什么是足够的定义被测变量(正是我们试图量化;包括是否平均,如果是这样,有多少的;平均不健壮的离群值;鼓励个人的(平均))
*测量不确定性概念包括重复性、再现性、中间精密度
* rational method /分析和实证方法分析
*可信区间和预测区间(PI)与CI vs容许区间(TI)
*直方图
*箱线图
*妥善考虑离群值
*多变量问题
*协方差是什么意思,它是如何工作的,它看起来像什么,它是如何估计,它是如何用于模拟/建模
*在Excel VBA描述如何使用举4、5、6的维度
凯文·汉。谢谢你的评论,和通过电子邮件提醒我。
唷,你覆盖大量的地面!我同意,这是至关重要的任何报告数据非常清楚衡量(s)被使用,以及总结和推论统计。
关于你的第一个评论,我认为关键的问题是区分描述性和推论统计。描述性统计,如直方图和箱线图,告诉我们关于数据的数据集。推论统计,特别是CI,当然从数据计算,但是是为了给我们信息估计的总体参数。非常不同的。例如,考虑使用一个更大的样本N,与其他相同。我们预计的传播直方图,箱线图,大致相似,而CI(和猫眼)将大大缩短。
问候,杰夫
对不起,迟来的回复Josh Lee更早的回复似乎已经由系统吞噬。谢谢你的评论。猫眼星云照片*大*恕我直言,和揭示。
我让所有在Excel中:在我所有的数据在ESCI Excel和大多数页面,图表几乎总是点阴谋,所以每个数据系列要求我指定为每个点X和Y。这给了极大的灵活性。每个曲线的猫眼星云是一个数据系列。
ESCI都是开放的:你可以从任何表删除保护(不需要密码),那么所有公式,等等,是可见的。你可以改变任何事情,复制、改编、或使用。
介绍统计教科书我工作的目前,占据是添加一些新的统计数据图形,特别是猫眼和浮动轴的区别。我也希望为这些提供R的例程。为未来…
杰夫
APS定期打开特定的在线文章讨论在我们的网站上。有效的2021年2月,你必须登录APS成员发表评论。通过发布评论,你同意我们社区指导原则和显示您的个人信息,包括你的名字和联系。任何意见、发现、结论或建议在文章评论的作家和不一定反映APS的观点或文章的作者。有关更多信息,请参阅我们的社区指导原则。
请登录你的APS账户置评。