BayesMed和statcheck

许多心理科学家指责字段复制危机——照亮了过量的文献的统计上显著的结果,是基于一个事实,大多数的结论p值(Wagenmakers,吉姆,Borsboom & van der马斯河,2011)。批评人士说p值往往错误地解释,不能量化统计证据,甚至会导致空效应成为重要的样本大小增加(霍克斯特拉,芬奇,漂煮锅,& Johnson, 2006;Wagenmakers, 2007)。也有证据表明,p值往往不一致报告,这可能导致错误的结论(见,例如,Nuijten Hartgerink,范阿森,Epskamp, &则2016)。

周围是企图开始解决问题p值,我和我的同事们开发了两个看似截然不同的R包:BayesMed,包默认贝叶斯假设检验中介(Nuijten,吉姆,Matzke多兰,& Wagenmakers 2014;2015),statcheck包从文章中提取统计结果和验算p值(Epskamp & Nuijten, 2014;Nuijten et al ., 2016)。在这篇文章中,我将解释背后的基本原理和使用的每个两个R包,都希望能提高心理学的科学实践。

BayesMed

有一个简单的方法来解决这个问题p价值观:停止使用它们。相反,可以基于贝叶斯统计的结论。贝叶斯统计的主要原则是你有之前的信仰产生影响,根据观测数据之前你“更新”信仰后的信念。这个信念是量化后的概率你的假设是正确的,考虑到数据。你也可以计算贝叶斯因子,(大约)表明一个假设在多大程度上比另一个更有可能。

利用贝叶斯统计有几个优势p值。例如,贝叶斯因子可以量化的证据支持或反对一个假设。如果你计算贝叶斯因子为零假设与备择假设,你找到一个贝叶斯10倍,它告诉你,零假设是10倍的选择。如果你发现一个贝叶斯因子的1/10,替代将是10倍。此外,贝叶斯因子接近1告诉你,没有足够的信息数据来得出结论。这种方法提供了一个很好的优势p价值观:贝叶斯统计,你可以区分情况下,零假设很可能和你的数据的情况下是模棱两可的。一个不重要的p价值,另一方面,不能用来区分这些情况。此外,在贝叶斯框架,你可以收集更多的数据,直到一个清晰的故事出现,因为贝叶斯因素最终收敛到正确的决定。相比之下,p值收敛到意义当样本容量增加——不管真正的影响导致增加假阳性发现率。

虽然贝叶斯统计的基本理论更新你的信念基于数据可以很直观,实现通常是复杂的,尤其是对于应用研究人员几乎没有数学背景。半岛体育官方网址入口使贝叶斯统计更加方便,我们开发了BayesMed: R包执行默认为相关贝叶斯假设测试,偏相关和中介(Nuijten et al ., 2015;Nuijten et al ., 2014)。

BayesMed不需要先进的编程技能。例如,测试的影响x在Y是由M,你只需要一行代码:“jzs_med(独立= X = Y的依赖,中介= M)。”生理改变“在”jzs_med”代表默认,不提供信息的“Jeffreys-Zellner-Siow”之前,用于计算。也有类似的相关功能测试(jzs_cor)和偏相关(jzs_partcor)。这些函数返回后验概率和贝叶斯每个关系的独立因素,整体关系,中介变量和一个贝叶斯因子中介(详情,请参阅Nuijten et al ., 2015)。

我们选择把重点放在测试相关,偏相关和中介,因为这些都是最常见的心理学测试使用。贝叶斯方法的额外测试,等t测试或方差分析,您可以使用新开发的(现在仍然发展)软件JASP (JASP团队,2016)。JASP提供了一个易于使用的“贝叶斯SPSS”常见的统计测试。有打算BayesMed代码合并到JASP,。

软件包BayesMed和JASP等提供了一个简单的替代使用p价值观和希望能帮助将注意力从意义重大p值对力量的证据。

BayesMed R包可以下载在这里

statcheck

不管你是否同意,应优先于贝叶斯统计频率论的统计,大多数心理学仍基于结果p值,所以重要的是,这些结果至少正确计算和报告。然而,有证据表明,多达一半的心理学文章发表包含至少一个结果的p值不匹配报告检验统计量和自由度;此外,在大约一个八发表文章,报道p值会导致一个不同的统计结论重新计算p值(&他则2014;Caperos & Pardo, 2013;Nuijten et al ., 2016;则,他& Molenaar, 2011)。这些不一致的结果可能导致错误的实质性的结论和影响荟萃分析。

检查所需的计算结果的一致性相当简单。然而,手工搜索文章提取统计结果,然后再计算p价值观是耗时且容易出错。为了解决这个问题,我们开发了R包statcheck (Epskamp & Nuijten, 2014)。Statcheck自动从文章中提取统计结果和验算p值。目前,statcheck承认t,Fχ2,r(相关性),Z测试报告在APA风格,当验算p它考虑舍入值的检验统计量和单侧测试报告。1

statcheck的主要优点之一是,研究人员可以很容易地使用它来检查他们的日记手稿提交前偶然的不半岛体育官方网址入口一致。除了检测统计数据的不一致,statcheck还提供了一个简单的工具来快速提取发表为其他分析统计数据。与statcheck数据,例如,你可以估计文学的力量选择或确定效应值分布p值分布(见,例如,Hartgerink Van Aert Nuijten,则& Van阿森,2016)。

有一个详细的手册statcheck可用指令在其安装和使用。半岛体育官方网址入口研究人员不熟悉R可以使用新的Web应用程序,其中包括statcheck的基本功能。

Statcheck也可以使用在评审过程中,两个正式出版前的(见细节飞行员与statcheck测试心理科学和postpublication (Hartgerink, 2016)。

所有statcheck数据从我们的2016条(Nuijten et al ., 2016)是免费的在线

米歇尔·b·Nuijten将会在2017年APS年会,可能25 - 28,2017年,在马萨诸塞州的波士顿。

1注意,当一个人的三个组件NHST结果(检验统计量、自由度或p调整值)为多个测试正确,事后测试,或违反假设,结果变成内部不一致和statcheck将国旗。

引用

赞美上帝,M。,& Wicherts, J. M. (2014). Outlier removal and the relation with reporting errors and quality of research.《公共科学图书馆•综合》9,e103360。doi: 10.1371 / journal.pone.0103360

Caperos, j . M。,& Pardo, A. (2013). Consistency errors in p-values reported in Spanish psychology journals.Psicothema, 25,408 - 414。

Epskamp, S。,& Nuijten, M. B. (2014). statcheck: Extract statistics from articles and recompute p values. R package version 1.0.0. Computer software. Retrieved from http://CRAN.R-project.org/package=statcheck

Hartgerink, c·h·j . (2016)。688112年的统计结果:内容挖掘心理学文章统计测试结果。预印本,2016080191条。doi: 10.20944 /预印s201608.0191.v1

Hartgerink, c·h·J。范Aert, r . c . M。、Nuijten m B。,则,j . M。,& Van Assen, M. A. L. M. (2016). Distributions ofp值小于0。心理学:什么是怎么回事?Peerj 4,e1935。doi: 10.7717 / peerj.1935

霍克斯特拉,R。雀,S。,Kiers, H. A. L., & Johnson, A. (2006). Probability as certainty: Dichotomous thinking and the misuse ofp值。心理环境通报与评论,13岁,1033 - 1037。

JASP团队。(2016)。JASP 0.8.0.0(版本)。计算机软件。

Nuijten, m . B。,Hartgerink, c·h·J。,Van Assen, M. A. L. M., Epskamp, S., & Wicherts, J. M. (2016). The prevalence of statistical reporting errors in psychology (1985–2013).行为研究方法,48,1205 - 1226。doi: 10.3758 / s13428 - 015 - 0664 - 2

Nuijten, m . B。吉姆,R。Matzke D。,Dolan, C. V., & Wagenmakers, E.-J. (2015). A default Bayesian hypothesis test for mediation.行为研究方法,47岁,85 - 97。doi: 10.3758 / s13428 - 014 - 0470 - 2

Nuijten, m . B。吉姆,R。Matzke D。,Dolan, C. V., & Wagenmakers, E.-J. (2014). BayesMed: Default Bayesian hypothesis tests for correlation, partial correlation, and mediation. R package version 1.0.1. Computer software. Retrieved from https://cran.r-project.org/web/packages/BayesMed/index.html.

Wagenmakers E.-J。(2007)。一个实际的解决普遍问题的p值。心理环境通报与评论,14,779 - 804。doi: 10.3758 / BF03194105

Wagenmakers E.-J。吉姆,R。,Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011).人格与社会心理学杂志》,100年版,426 - 432。

则,j . M。赞美上帝,M。,& Molenaar, D. (2011). Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results.PLoS One, 6,e26828。doi: 10.1371 / journal.pone.0026828