等价测试和烤面包

任何想要认真对待的科学需要能够提供支持零假设。我经常看到人们从频率论的切换统计时效果很重要,使用贝叶斯因子能够提供支持零假设。但是可以测试如果缺乏使用产生影响p值。(为什么没有人告诉我这11年,我在科学已经超出我)。就像做一个那么简单t测试,或者,更准确地说,是做两个t测试。

我已经创建了第一个R包,烤面包(如两个单边测试等价R)。别担心,也有一个老式的电子表格可用(参见下面的“烤面包的材料,”)。

有时你执行一项研究,你可能期望效应为零或很小。所以我们如何订立“零或非常小”的效果是什么?

一种方法是指定效应大小我们不考虑“小。“例如,我们可能比决定的影响d= 0.3(或小于d在一个双边= -0.3t测试)是“不小。“现在,如果我们观察一个效果介于两个等价的d= -0.3,d= 0.3,我们可以行动(老式Neyman-Pearson统计推断方法)的效果是“零或非常小。“这可能不是完全为零,但它足够小。

我们可以使用两个片面的测试统计拒绝影响≤-0.3和≥0.3。这是烤面包的基本思想(两个片面的测试)等价的程序。

想法很简单,它在概念上类似传统的零假设测试您可能已经在使用拒绝零产生影响。但是所有统计程序将允许您执行正常t测试中,它不是那么简单执行一个烤面包等价测试。

心理科学真的需要一种方法来显示效果太小问题(见莫雷& Lakens, 2016)。所以我做了一个电子表格和R包执行烤面包的过程。全面的免费的烤面包包R档案网络(凹口),这意味着您可以安装使用install.packages(“烤面包”)

让我们尝试一个实际的例子使用的装饰图案随着R包。

Eskine(2013)表明,参与者接触到有机食品大大更严厉的道德判断相对于其在控制条件(d= 0.81,95%置信区间:[0.19,1.45])。一个复制Moery和Calin-Jageman(2016年,研究2)没有观察到显著的影响(控制:n= 95,= 5.25,SD= 0.95;有机食品:n= 89,= 5.22,SD= 0.83)。乌里作者使用权力的建议他们的研究,他们有80%功率检测的影响,最初的研究检测了33%力量。这是一样的说:我们认为效果是“小”当它小于原文效果研究检测了33%力量。

n每个条件= 21,Eskine 33%功率检测的作用d= 0.48。这是影响复制研究的作者设计实验来检测。最初的研究显示的效果d= 0.81,执行复制的作者决定的大小产生影响d= 0.48将是最小的效果,他们将目标检测80%的力量。所以我们可以使用这个效果作为等价。我们可以使用R来执行一个等价测试:

install.packages(烤面包)库(烤面包)TOSTtwo (m1 = 5.25平方米= 5.22,sd1 = 0.95, sd2 = 0.83, n1 = 95, n2 = 89, low_eqbound_d = -0.43, high_eqbound_d = 0.43,α= 0.05)#给了我们以下输出:使用非标准α= 0.05的学生的学习任务是t (182) = 0.2274761, p = 0.8203089使用α= 0.05等效测试基于学生的学习任务是显著的,t (182) = -3.026311, p = 0.001417168烤面包结果:t值假定值1 t值2假定值2 df 1 3.481263 0.0003123764 -3.026311 0.001417168 182等效边界(科恩的d):低绑定d高绑定d 1 -0.48 - 0.48等效边界(原始分数):低绑定生高绑定生1 -0.4291159 0.4291159烤面包置信区间:90%可信区间下限生上限90%可信区间生1 -0.1880364 - 0.2480364

你看,我们只是使用R的计算器,输入所有的数字在一个单一的函数。但是我可以理解,如果你有点吓倒r .所以,您也可以填写电子表格中的信息是相同的。

使用烤面包等效过程与α= . 05,没有假设等于方差(因为当样本大小是不平等的,你应当韦尔奇的报告t测试默认情况下),我们可以拒绝比的影响d= 0.48,t(182)= -3.03,p=措施。

R包还提供了一个图,显示观察平均差(生规模单位),等效边界在原始分数(也),和独联体90%和95%。如果90%可信区间不包括等效边界,我们可以声明等价。

Moery和Calin-Jageman从这项研究中得出结论:“我们再次发现食品接触几乎没有对道德判断的影响。“但什么是“几乎没有”?等价测试告诉我们作者成功地拒绝影响大小的原始研究权力拒绝了33%。而不是说“不”,我们可以把一些效果我们拒绝通过执行一个等价测试。

如果你想阅读更多关于等价测试,包括如何执行一个示例t测试中,依赖t测试、相关性或荟萃分析,您可以查看实际底漆使用TOSTprocedure我写等价测试。它可以作为预印本PsyArXiv。可以在GitHub的R代码。

丹尼尔Lakens说在2017年的APS年会,可能25 - 28,2017年,在马萨诸塞州的波士顿。他还会讲心理科学的国际公约,即将于3月23日至25日,2017年,在奥地利的维也纳。

烤面包的材料

烤面包的电子表格在这里

烤面包R包可以安装使用install.packages从凹口(“烤面包”)

实际底漆等价测试使用烤面包程序是可用的在这里

R代码可用在这里

详细的例子小品文是可用的在这里

引用

Eskine, k . j . (2013)。健康的食物和健康的道德?有机食品减少亲社会行为,使粗糙道德判断。社会心理和人格科学》上,4,251 - 254。doi: 10.1177 / 1948550612447114

Lakens, d . (2015)。总是使用韦尔奇的t检验,而不是学生的学习任务。从http://daniellakens.blogspot.nl/2015/01/always-use-welchs-t-test-instead-of.html获取

Lakens d (2016 a)。介绍等价测试和烤面包。从https://cran.rstudio.com/web/packages/TOSTER/vignettes/IntroductionToTOSTER.html获取

Lakens d (2016 b)。烤面包R等价测试包(烤面包)和电子表格。从http://daniellakens.blogspot.com/2016/12/tost-equivalence-testing-r-package.html获取

Lakens, d .(新闻)。t等效测试:一种实用的底漆,相关性和荟萃分析。社会心理和人格科学》上。

Moery E。,& Calin-Jageman, R. J. (2016). Direct and conceptual Replications of Eskine (2013): Organic food exposure has little to no effect on moral judgments and prosocial behavior.社会心理和人格科学》上,7,312 - 319。doi: 10.1177 / 1948550616639649

莫雷,r D。,& Lakens, D. (2016). Why most of psychology is statistically unfalsifiable. Retrieved from https://raw.githubusercontent.com/richarddmorey/psychology_resolution/master/paper/response.pdf