测量问题

经过长时间的和寒冷的旅程286天,火星气候轨道器1999年9月23日到达目的地了。而不是它的使命开始,然而,卫星解体进入大气中因为一个软件模块计算在美国常用单位和美联储成第二个模块假定公制单位。四年后,两半的桥被建造在莱茵河一起连接德国和瑞士。工程师们惊讶的是,有54厘米的高度差(21)双方:不同的测量海平面已经使用(北海与地中海)。

测量问题(做)——有时发生灾难性的后果——即使是最重大的科学努力的一部分,比如把一颗卫星送入太空。我们在不不同的心理学情况我们在我们研究文化的转变为一个更加开放和严格的科学。到目前为止,这些变化在很大程度上忽略了测量的主题,一个不幸的情况,因为测量的质量是更基本的统计实践。高性能,非常吝啬的统计模型不能拯救我们来自贫困测量。

在心理学、测量尤其困难,因为我们想测量通常不允许直接观察。我们可以直接观察到一个人的高度我们在公共汽车上,但我们往往难以洞察潜在的,心理属性,如智力、外向性、或抑郁。构建验证,表明乐器实际上意味着测量构造措施的构建问题,并非易事。不仅是心理结构难以观察,他们也复杂。它相对容易解决海应该为计算基准的海拔高度,但显然定义智力、外向性、抑郁是具有挑战性的。有不同的方法去理解和衡量这些构造,因为他们包含不同的行为观念,主观经验,环境影响,生物倾向。

本文强调了心理测量的忽视,解释了为什么这构成严重和underrecognized威胁在心理科学最近的可复制性的努力,和总结一些建议关于如何前进。

存在的问题:忽视了测量

测量心理外向性等构造,心理学家经常使用调查问卷与多个项目。项加起来的分数,它假定这个分数代表一个人的构造。从“保罗在外向性量表得分高,“我们认为保罗是非常外向。这个推理不是免费的心理午餐;有效性的证据[1]需要支持的说法。你想要(1)一个好的理论支持的项目你包含在你的规模;(2)规模表现出可接受的心理属性(例如,可靠性和维度);和(3)规模与其他结构假设的方式(例如,收敛和区分效度),捕获组或因果过程将存在差异。只有你的规模满足这些标准可以遵循实质性的推断。

不幸的是,在许多地区缺乏有效证据的心理研究。作为一个例子,抑郁是评估每年在1000多个研究和作为一个结果,预测,主持人,或者协变量众多学科(如心理学、精神病学、流行病学)。280多个不同尺度评估抑郁严重程度已经开发出来,用于研究在上个世纪。常用的抑郁量表特性50多个不同的症状,和内容之间的重叠尺度低。例如,三分之一的最常被引用的症状量表- 20的流行病学研究中心抑郁量表(Radloff, 1977;大约41300引用),不会出现在其他的最常用的工具。结果是不同尺度会导致不同的结论,已在临床试验中多次记载。例如,查询最近的临床试验病人在四个不同的尺度上检查是否全身高热是一个有效的抑郁症治疗。高热组显示明显改善了安慰剂的只有一个四个尺度。不幸的是,作者报道了三个零发现辅料没有提及。 This is an important lesson: Although comparing results of multiple measures offers more robust insights, it also opens the door top黑客、钓鱼、和其他可疑的研究实践。

还有更多。抑郁症有一个最低的评分者间信中所有精神障碍评估的可靠性第五版田间试验,系数0.28,和抑郁量表一般往往没有考虑到他们的多重空间建模和缺乏时间测量不变性。类似的情况飞行器,这些理论和统计测量问题有极大的后果,偏置的结论研究和引入错误的推论,推断影响现实世界的行为科学家在科学和资源分配。

抑郁症不是一个孤立的贫困测量实践心理学研究的例子。评论在特定域引用类似的问题(例如,情感;韦德曼、Steckler &特蕾西,2016),和我们最近的工作表明,可怜的实践主题和分支。在系统回顾的代表性样本35经验发表的文章人格与社会心理学杂志》上在2014年,我们发现433年尺度旨在衡量心理结构。其中,大约一半没有引用任何验证研究。对于许多量表,量表的阿尔法是唯一的心理属性,五分之一天平,没有任何心理信息。简化,有效性的证据,在实践中,形成了一个层次结构:(1),(2)α,(3)引用,大概是为了另一篇论文,其中包含有效性的证据,和(4)更多的证据,有各种各样的形式。进一步,我们看到研究员自由度的迹象,类似于大萧条时期文学:作者用多尺度来衡量一个构造没有证明他们使用一个特定的规模。我们还指出,大规模修改(添加或删除条目)是常见的,是结合多尺度单一指数没有透明的基本原理。

可怜的测量复杂复制

这些研究的结果在一起,很难忽视贫困之间的联系测量实践和当前的可复制性的讨论。例如,Monin,索耶和马尔克斯(2008)使用多种尺度在他们的研究中,也在复制管理研究作为一个“再现性项目:心理学的一部分。“然而,复制研究确定不同因素的解决方案的主要措施,表明不同的项目不同的因素形成的。我们如何解释本研究的结果?是理论失败,复制失败,或测量失败?再一次,这些问题广泛。例如,抑郁的因素结构给定规模往往在不同样本,跨越时间在相同的示例中,甚至在相同的样本子集。

如果规模缺乏有效性或措施不同构造样本,进行复制研究几乎没有好处。我们必须退一步,辨别如何定义和测量变量的兴趣。在这种情况下,我们需要的是有效性的研究,而不是复制研究。我们的工作促进复现性心理学将阻碍没有改善我们的测量实践。使复制主流必须伴随使测量理论的主流。

的方式前进

心理学规范也在不断变化,最近的文章和出版商政策推动心理科学家对更严格的和开放的实践。然而,贡献关注测量和复现性之间的联系仍然不足。因此我们靠近一些非技术性的建议,我们希望将从所有相关人员心理学的分支学科。半岛体育官方网址入口

明确沟通构建你的目标来衡量,如何定义构造,如何测量它,和测量的来源。

提供一个理由时使用特定的规模在他人或修改。如果可能的话,使用多个措施展示强劲的证据发现或找到特定尺度的灵敏度。

注册你的研究。这个计数器有利的选择性报告结果,探索性的修改措施,获得想要的结果,和overinterpretation不确定结果的措施。

在你的研究考虑您所使用的措施。什么类别的有效性证据(没有,α、引用或更多)认为他们吗?如果你的措施分为前两类,考虑进行验证研究(以下示例)。如果你不能这样做,承认你研究测量的限制。

停止使用量表的阿尔法作为唯一的有效性的证据来源。α的相当大的局限性多次被承认并明确描述(如Sijtsma, 2009)。Alpha不能独自站在描述量表的有效性。

考虑上述分当回顾手稿的杂志或者作为一个编辑器。bd体育在线app下载安卓确保作者报告与测量有关的必要信息,以便读者可以评估和复制的测量在后续的研究中,并帮助改变你工作的测量标准的期刊。bd体育在线app下载安卓

我们认识到,测量研究是很困难的。测量需要理论和方法论上的专业知识。良好的心理实践不能弥补一个定义糟糕的构造,和一个定义良好的构建不能弥补可怜的心理测验学。由于这些理由,很难想出几个快速修复改善测量。相反,我们认识到,许多心理学家可能没有培训有效性理论或心理测验学和提供的资源列表对于那些对学习更感兴趣。这些包括一组重要材料测量和验证,以及一些访问的例子

最后,我们想要分享的截图维基百科文章心理测量(见图1),auto-directs心理评估页面。

我们完全同意:测量更值得关注。

图1所示。这张截图的维基百科文章心理测量auto-directs页面心理评估。

作者要感谢Jolynn油漆,伊恩·戴维森和奥克塔维亚Wong持续工作形成提出的一些观点。

1我们承认旧的和正在进行的哲学讨论如何最好地定义有效性和心理学测量。有效性理论的详细讨论超出了本文的范围和在别处描述(例如,美国教育研究协会,美国心理协会,和全国委员会在教育测量,2014;Borsboom、Mellenbergh &范,2004;凯恩,2013)。在这里,我们讨论有效性符合Loevinger(1957)的开创性工作构建验证。

引用和进一步阅读

艾肯,l·S。,West, S. G., & Millsap, R. E. (2008). Doctoral training in statistics, measurement, and methodology in psychology: Replication and extension of Aiken, West, Sechrest, and Reno’s (1990) survey of PhD programs in North America.美国心理学家,63,32-50。0003 - 066 - x.63.1.32 doi: 10.1037 /

美国教育研究协会,美国心理协会、国家教育委员会测量。(2014)。教育和心理测试标准。华盛顿特区:标准联合委员会教育和心理测试。

Borsboom D。,Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity.心理评估,111年,1061 - 1071。0033 - 295 - x.111.4.1061 doi: 10.1037 /

片,j·K。油漆,J。,& Hehman, E. (2017). Construct validation in social and personality research: Current practice and recommendations.社会心理与人格科学》,8,370 - 378。

炸,依(2017)。52抑郁症的症状。情感性精神障碍杂志》,208年版,191 - 197。doi: 10.1016 / j.jad.2016.10.019

炸,大肠。,& Nesse, R. M. (2015). Depression is not a consistent syndrome: An investigation of unique symptom patterns in the STAR*D study.情感性精神障碍杂志》,172年版,96 - 102。doi: 10.1016 / j.jad.2014.10.010

炸,大肠。,van Borkulo, C. D., Epskamp, S., Schoevers, R. A., Tuerlinckx, F., & Borsboom, D. (2016). Measuring depression over time . . . or not? Lack of unidimensionality and longitudinal measurement invariance in four common rating scales of depression.心理评估,28岁,1354 - 1367。doi: 10.1037 / pas0000275

詹森,c W。,洛瑞,c。梅尔,m R。,Allen, J. J. B., Kelly, K. L., Gartner, D. E., … Raison, C. L. (2016). Whole-body hyperthermia for the treatment of Major Depressive Disorder.JAMA精神病学,53706,1 - 7。doi10.1001 / jamapsychiatry.2016.1031

凯恩,m . t . (2013)。验证测试分数的解释和使用。《教育测量,50,1 - 73。doi: 10.1111 / jedm.12000

Loevinger j ., (1957)。客观测试作为心理学理论的工具。心理上的报告,3,635 - 694。

Monin B。,Sawyer, P. J., & Marquez, M. J. (2008). The rejection of moral rebels: Resenting those who do the right thing.人格与社会心理学杂志》,95年版,76 - 93。0022 - 3514.95.1.76 doi: 10.1037 /

开放的科学合作。(2015)。估计心理科学的再现性。科学,349年,aac4716-aac4716。doi: 10.1126 / science.aac4716

Radloff l . s . (1977)。鉴定规模:一个自我评定抑郁量表在普通人群的研究。运用心理测量,1,385 - 401。doi: 10.1177 / 014662167700100306

Regier, d . A。,Narrow, W. E., Clarke, D. E., Kraemer, H. C., Kuramoto, S. J., Kuhl, E. A., & Kupfer, D. J. (2013). DSM-5 field trials in the United States and Canada, part II: Test-retest reliability of selected categorical diagnoses.《美国精神病学杂志》,170年版59 - 70。doi: 10.1176 / appi.ajp.2012.12070999

桑,d . A。Gregus, M。,& Welch, A. (2006). Eight decades of measurement in depression.测量4,135 - 155。doi: 10.1207 / s15366359mea0403

Sijtsma, k (2009)。使用、滥用和克伦巴赫的作用极为有限。心理测量学,74,107 - 120。doi: 10.1007 / s11336 - 008 - 9101 - 0

韦德曼,a . C。,Steckler, C. M., & Tracy, J. L. (2017). The jingle and jangle of emotion assessment: Imprecise measurement, casual scale usage, and conceptual fuzziness in emotion research.情感,17,267 - 295。

Zwaan, r。Etz,。,Lucas, R. E., & Donnellan, M. B. (2018). Making replication mainstream.行为和大脑科学。提前在线出版。doi: 10.1017 / S0140525X17001972

评论

就好了如果有一个列表的引用在本文引用。

嗨,玛丽,有一个参考列表末尾的文章(至少我认为这篇文章在我的浏览器)。bd手机版官方网站首页为进一步引用,看到我们的阅读列表:

https://docs.google.com/document/d/11jyoXtO0m2lUywpC04KjLvI5QcBUY4YtwEvw6cg2cMs/

评论对克伦巴赫α作为信息来源的有效性是令人费解:α是一个内部一致性信度的指标。

其他资源,克伦巴赫&米尔(1955)讨论了可靠性是建构效度的一个方面。

Denman效应

克里斯托弗Denman下降
准时一年一次,
然而,我总是感到惊讶
他早些时候。
这种异常现象及时
我的名字,“Denman效应”,
Denman显示我
流速度作为一个老!

Boghos l .阿廷

这不是一篇关于测量,而是套assumption-laden务实的“程序”,使一些非量化的心理属性的系统心理评估。

虽然我赞同作者的渴望解决测量问题在心理学中,特别是在复制和可复制性的环境中,忽略了现在实质性的文学在这些主题很难进行的方式。

有很多方法可以建立信度和效度的评估使用方法和推理可能会发现在任何科学的问题没有任何证据属性的定量结构。

也许仔细阅读:
巴雷特,p (2018)。的EFPA测试复查模型:当善意满足方法论的思想障碍。行为科学(https://www.mdpi.com/2076 - 328 x/8/1/51),8日,5,22页。(开放)可能会帮助这包含60左右的主要出版物的引用测量问题在过去的20年以上。现在还概述了微妙的法定情形的呈现心理指标/潜变量模型等法院,尽管这些是什么特别的“证据”。

更特别的乔尔·米歇尔,迈克Maraun Gunter Trendler写了广泛的组成特性测量,甘特解决复现性问题预计当心理学家假装测量属性数量。

和詹姆斯·格赖斯在俄勒冈州立大学已为心理学家提供了一种手段进行强有力的因果建模在心理学不需要虚幻和站不住脚的假设(他并且面向观察建模软件和方法)。

一些关键的参考

格赖斯,j . (2011)。面向观察建模:在行为科学分析原因。纽约:学术出版社。ISBN: 978-012-385194-9。
软件和其他信息,包括视频、手册等可以从下载:
http://www.idiogrid.com/OOM/

格赖斯,j . (2015)。从均值和方差和模式。心理学前沿:定量心理学和测量(http://dx.doi.org/10.3389/fpsyg.2015.01007)、6:1007,1 - 12。

格赖斯,J。,Barrett, P., Cota, L., Felix, C., Taylor, Z., Garner, S., Medellin, E., & Vest, A. (2017). Four bad habits of modern psychologists. Behavioural Sciences (http://www.mdpi.com/2076 - 328 x/7/3/53),7(3),53岁,1日到21日。

米歇尔,j . (1997)。定量科学和心理学测量的定义。英国心理学杂志上的,88,355 - 383。

米歇尔,j . (2008)。心理测验学病理科学?。测量:跨学科研究和观点6 1 7-24。

米歇尔,j . (2009)。无效的有效性。在Lissitz,公债(Eds)。有效性的概念:修订、新方向,和应用程序(第六章,第133 - 111页)。夏洛特,NC:信息时代出版社出版。ISBN: 9781-60752-227-0。

米歇尔,j . (2012)。阿尔弗雷德·比奈和异构订单的概念。下载链接:
http://www.frontiersin.org/quantitative_psychology_and_measurement/10.3389/fpsyg.2012.00261/abstract。前沿定量心理学和测量,261,1 - 8。

Maraun,医学博士(1998)。测量作为一个规范的实践:影响测量的维特根斯坦的哲学心理学。理论和心理学、8、4,435 - 461。

Maraun,医学博士(2007)。神话和困惑。http://www.sfu.ca/ ~ maraun / myths-and-confusions.html,,,0 - 0。(开放获取书的神话潜变量在心理学)

Trendler, g (2009)。测量理论,心理学和不可能发生的革命。理论和心理学,19岁,579 - 599。

Trendler, g (2013)。测量心理学:一个不学无术的人et ignorabimus吗?一个回答。理论和心理学,23岁,591 - 615。

Trendler, g (2018)。联合测量的。理论和心理学http://bd体育在线app下载安卓journals.sagepub.com/doi/abs/10.1177/0959354318788729),在出版社,1至29。

建构效度作为一个明智的概念死亡在2009年去世,连同其他老栗“法理学的网”:

Borsboom D。,Cramer, A.O.J., Kievit, R.A., Scholten, A.Z., & Franic, S. (2009). The end of construct validity. In Lissitz, R.W. (Eds.). The Concept of Validity: Revisions, New Directions, and Applications (Chapter 7, pp. 135-170). Charlotte, NC: Information Age Publishing. ISBN: 9781-60752-227-0.

我不能代表两位作者但也许回复中央点你可以在这里找到:https://vimeo.com/256145513;为39.30,谈论经典测量丹尼Borsboom说‘这是乔尔·米歇尔,实际上他是一个很好的人,伟大的学者虽然我完全不同意他,这是科学。他说米歇尔的立场是一个极端的人,这就是为什么他不同意他。你可以听,但是我担心你不会听到任何严重的论点/他不同意米歇尔的理由!


APS定期打开特定的在线文章讨论在我们的网站上。有效的2021年2月,你必须登录APS成员发表评论。通过发布评论,你同意我们社区指导原则和显示您的个人信息,包括你的名字和联系。任何意见、发现、结论或建议在文章评论的作家和不一定反映APS的观点或文章的作者。有关更多信息,请参阅我们的社区指导原则

请登录你的APS账户置评。