如何在看不到参与者的情况下保持数据质量

使用在线招聘收集你的第一个数据集可能是令人难以置信的,但同时也令人不安。经过数周(或数月,或数年)精心的实验设计和刺激准备,你点击“开始数据收集”按钮,然后出发去吃午饭。或者,如果你像我一样,你坐在那里痴迷地看着“完整数据集的数量”计数器无情地向上点击。与通常与实验室实验相关的许多小时等待参与者相比,这种新形式的远程实验似乎神奇地美妙。

然而,至少对我来说,它也感觉有些事情不太对。作为一名实验心理学家,行为数据是我们研究的基石,如果我们无法直接观察数据的生成过程,却把数据放到电脑上,我们会感到非常不安:我们在测试隔间的门上没有虚拟的监视孔,用来监控参与者的表现。

从广义上讲,在线数据收集的诸多优势可分为两类。首先,它减少了研究人员必须花费在招募和测试参与者上的时间:比如众半岛体育官方网址入口包平台多产的学术(www.prolific.ac)和土耳其机器人(www.mturk.com),只需点击一个按钮就可以招募到大量的参与者。其次,在我看来更重要的是,这种方法使我们能够摆脱对相对有限的大学本科生的测试,这些本科生最容易被招募到实验室进行实验。现在更容易招募人口结构更平衡的样本,并针对可能难以通过更传统的手段找到或招募的特定人群。

但这些明显的优势是有代价的。许多研究人半岛体育官方网址入口员对无法直接观察参与者的远程测试的方法学后果深感担忧。在传统的实验中,研究人员通常会在实验开始前与每个参与者见面,并进行面对面(尽管简短)的交谈。这使我们能够核实他们的一些基本人口统计信息。我们可以确认他们没有参加过我们的实验,并且能流利地说我们选择的语言。然后,实验通常在一个安静的房间里进行,所有参与者都使用同样精心挑选的设备,不受干扰地完成实验。

相比之下,当我们在网上进行实验时,我们必须放弃大部分实验控制,必须接受更高程度的不确定性,包括:(1)我们的参与者是谁,(2)实验进行的条件。

新的可能性

尽管明显缺乏控制,但我在网上收集数据的经历还是非常积极的。这种方法使我们能够进行不可能在实验室中实施的实验,要么是因为他们需要大量的参与者,要么是因为我们想招募非常特定的参与者,他们并不都住在伦敦市中心(见https://jennirodd.com/publications/)。尽管我们获得数据的方法很神奇,但在大多数情况下,我们的数据被证明是非常有用的。

此外,在过去的5年里,我们开发的方法大大提高了我们的数据质量。实验人员可以采取几个重要步骤来最大限度地提高数据质量。首先,在选择参与者的来源时,你应该非常小心——当使用众包平台时,检查他们招募和筛选参与者的过程是很重要的。如果通过更非正式的社交媒体途径招募,那么要仔细考虑这些参与者与通过更传统方式招募的参与者有何不同。

其次,确保适当地奖励参与者。如果他们觉得你不重视他们的时间,那么他们也不会重视你的实验,你的数据质量可能会受到影响。

虽然这两条一般性的建议是一个很好的起点,但我建议,要真正能够信任任何在线实验的数据质量,我们必须明确地调整我们的实验范式以适应在线世界。

重要的是,我明白了没有万能的灵丹妙药可以全面保护我们可能想要运行的每一个在线实验。每个实验都是不同的,我们需要根据我们具体的实验方法和正在测试的特定假设来调整我们所包括的保障措施。因此,我建议研究人员采取以下五个步骤半岛体育官方网址入口之前收集任何特定在线实验的数据。

1.指定您关注的数据质量问题

第一步,也许是最关键的一步,是明确地说明您可能对迁移到在线数据收集可能会破坏您的实验的任何担忧。有什么可能出错呢?一般来说,这些问题可以分为三类。

  • 参与者在哪里做实验?

你几乎肯定会担心参与者可能在一个嘈杂、分散注意力的环境中工作,他们可能无法正确地关注你的(无聊的?)实验。例如,他们可能会“多屏”查看自己的社交媒体。此外,参与者可能会使用低质量的硬件(网速慢、屏幕小、耳机质量差等)。

  • 参与者是他们所说的那个人吗?

你可能会担心参与者可能会在年龄、语言熟练程度、背景或其他一些重要的人口统计因素上撒谎。仔细考虑这些问题的可能性,特别注意任何可能加剧这些问题的奖励系统。例如,如果你给参与者的报酬相对较高,那么那些没有资格参加的人可能会撒谎来获得参与的机会。另外,如果你的实验是一个超级有趣的在线游戏,但只对18岁及以上的人开放,那么孩子们可能会谎报年龄来进入。

  • 他们是否在任务中作弊?

最后,你可能会关心参与者在实验过程中的行为。例如,他们可能会在谷歌上查找你问题的答案——如果你在实验室里看着他们,他们就做不到这一点。记忆实验可能会有特别大的问题:很难确保参与者没有写下或截取他们应该记住的信息。再一次,仔细考虑可能驱使参与者作弊的动机——他们的报酬或他们在参与者数据库中留下的能力以某种方式取决于他们的表现

2.指定最坏的情况

对于上述所有问题,考虑最坏的情况是至关重要的对于你的实验来说。虽然您在阶段1中确定的一些问题可能只是给您的数据增加了一点噪音——并且可以通过收集足够的数据或仔细分析来抵消——但其他问题可能是灾难性的。如果参与者很可能会写下正确的答案,那么没有期刊会发表你的工作记忆实验。没有期刊会发表你的实验,证明单语者和双语者在语言处理的一些关键测试中表现一样,除非你能可靠地证明参与者被正确地分配到这两组。在某些情况下,这可能是您放弃在线收集数据的计划并返回到基于实验室的协议的时候。但根据我的经验,绝大多数问题都是可以解决的。

3.增加新的实验内部保障措施

此时,您应该尽一切努力调整现有的实验设计,以提高数据质量。老实说,我们常常无能为力。但是对任务的不同阶段施加合理的时间限制可以帮助增加参与者(1)专注于任务(2)避免作弊的可能性。现在,在大多数实验平台上,根据参与者的硬件/软件筛选参与者也相对简单——这对于听觉实验尤其重要,因为你想确保他们按照指示使用耳机。

4.设计特定于实验的排除标准

下一个关键步骤是接受您将不可避免地收集到一些无法使用的数据——您根本无法确保这一点所有参加者将按照指示行事。因此,有必要设计一套特定于实验的标准,以便从分析中排除参与者的数据集。其中每一个都应该直接与第一阶段中提出的一个具体问题相关——牢记这一点至关重要为什么你包括了每一个标准。

  • 为现有任务设置性能标准

在许多情况下,您可以使用已经计划收集的数据来设置这些标准。例如,如果您的首要任务是确保参与者充分关注您的关键任务,那么收集准确的反应时间并排除长时间或可变反应的参与者通常就足够了。您可能还希望确保花足够的时间阅读说明。其他更复杂的方法来检查数据中预期的方差模式或熵也是可行的。对于新任务,试验数据可以让您描述参与者表现的典型范围——这通常最好在实验室中收集,在那里您可以观察参与者并获得更详细的反馈。

  • 为额外的任务/措施设定标准

在某些情况下,您将需要收集额外的数据,以了解应该合理地将谁包括在分析中。例如,如果您想要验证参与者对不同语言的熟练程度,那么您可能需要添加一个简短的定时词汇测试,并指定要包含参与者数据集所需的最低要求。有时,值得对关键人群进行多次测试或质疑,并排除给出不一致回答的参与者。

5.预先注册您的排除标准

最后,我认为在收集数据之前预先注册这些(有时很复杂的)排除标准非常重要。在某些情况下,比如涉及冗长而无聊的实验的研究,你可能需要排除大量的参与者,如果你没有预先登记这些标准,那么科学界就无法确认你没有“挑选”那些对统计结果有贡献的参与者。

当然,即使是最好的预注册文件也不可能预见到参与者搞砸实验的所有可能方式。我们有时会得到符合我们所有标准的参与者的数据,但大多数理性的研究人员都认为他们应该被排除在分析之外(例如,一个参与者在任务中表现得相当好,但后来告诉你他喝醉了,已经三天没睡觉了)。半岛体育官方网址入口在这种情况下,偏离你的预注册文件是合理的,只要你对你的行为和理由完全透明。

搬回实验室

重要的是要注意,在这个过程中没有什么是专门针对在线实验的。事实上,这种方法也可以帮助我们提高实验室实验的质量。虽然有些问题(例如硬件质量)不会在这种情况下出现,但绝大多数问题都可能出现——尤其是在参与者无人监督的情况下。我们真的能确定我们的实验参与者在完成任务的同时没有在手机上看可爱猫的照片吗?

转向在线实验提高了我实验室实验的质量,因为我现在比以前更详细地考虑这个过程,通过这个过程,我向自己和我的同行保证我收集的数据的质量。

观看罗德最近关于这个话题的演讲视频在这里

参考资料及进一步阅读

Clifford, S., & Jerit, J.(2014)。便利有代价吗?实验室和在线研究数据质量的实验比较。实验政治学报,1(02) 120 - 131。doi.org/10.1017/xps.2014.5

Crump, M. J. C., McDonnell, J. V., & Gureckis, T. M.(2013)。评估亚马逊的土耳其机器人作为实验行为研究的工具。PLoS ONE, 8(3) e57410。doi.org/10.1371/journal.pone.0057410

Munafò, m.r ., Nosek, b.a., Bishop, d.v.m, Button, k.s., Chambers, c.d., Percie du Sert, N.,…Ioannidis, j.p.a.(2017)。可再生科学的宣言。自然-人类行为,1(1), 0021。doi.org/10.1038/s41562 - 016 - 0021

Reimers, S.和Stewart, N.(2015)。Adobe Flash和HTML5/JavaScript Web实验中的呈现和响应时间准确性。行为研究方法,47(2) doi.org/10.3758/s13428 - 014 - 0471 - 1

Rodd, J. M.,蔡志刚,Betts, H. N., Hanby, B., Hutchinson, C., & Adler, A.(2016)。近期和长期经验对获取词义的影响:来自大规模互联网实验的证据。记忆与语言杂志,1987, 16-37。https://doi.org/10.1016/j.jml.2015.10.006

斯图尔特,N.,钱德勒,J.,和保拉奇,G.(2017)。认知科学中的众包样本。认知科学趋势,21(10) 736 - 748。doi.org/10.1016/J.TICS.2017.06.007

Woods, a.t., Velasco, C, Levitan, C. A, Wan, X., & Spence, C.(2015)。在互联网上进行感知研究:教程回顾。PeerJ 3, e1058。doi.org/10.7717/peerj.1058

伍兹,K. J. P.,西格尔,M. H.,特雷,J.,和麦克德莫特,J. H.(2017)。耳机筛选,便于基于网络的听觉实验。注意、知觉和心理物理学。doi.org/10.3758/s13414 - 017 - 1361 - 2

评论

对于那些对在线研究更感兴趣的人,我们在biorxiv上发表了一篇关于大猩猩的预印本。作为一个实验构建者,我们还概述了构建在线研究的其他工具(https://www.biorxiv.org/content/10.1101/438242v4

虽然预先注册排除标准可以作为防止挑三拣四的安全防护措施,但我不同意在数据收集之前注册它,原因有几个。

1.它在方法上不实用。如果你有时间和机会进行调查,那就太棒了!然而,如果你不这样做,你可能会发现你没有预料到的数据的奇怪的细微差别。也许你的主要DV是准确的,但是你选择的项目太难了。如果您设置了最低性能阈值,则必须排除所有数据。

2.通常情况下,即使你做了试点,你也可能会发现参与者有办法欺骗系统,或者仍然提供不太合理的不规则反应模式(例如自杀行为,但没有自杀念头或抑郁)。你是否会包括这些反应取决于很多事情,从你的假设是否针对更典型的抑郁形式。

3.有更好的(更系统的)方法,不需要建立你自己的界限。例如,有很多技术,如使用IRT来检测异常的响应模式(参见RR Meijer最近的工作),或者进行中位数分割和平均值修剪,这可能有意义,也可能没有意义,这取决于您选择的项目类型和您在数据中看到的分布。在某种程度上,您可以指定可能使用的一般技术,但在数据收集之前这样做甚至很困难。

4.这在逻辑上是不实际的。这将给提交拨款的人增加大量时间,他们必须提前冲洗并确定他们的排除标准。我并不是说这意味着我们不应该这样做,只是说如果你想让人们接受这个建议,这将是一个需要克服的巨大障碍。

5.从人员配置的角度来看,这并不总是可行的。在收集数据之前定义验证规则是人们应该做的事情,因为这有助于确保他们的调查设计良好(有点像确保你在实验中有操作检查)。然而,实验室经常雇佣外部人员来管理数据,有时甚至进行分析。你可能会说,他们可以在数据收集之前雇佣数据经理来建立系统和数据库,但这通常意味着必须从其他工作中抽调一些人来做粗略的设置,并帮助定义甚至可能无法获得资助的拨款规则。

在一个理想的世界里,你的建议很好,但我只是觉得在实践中,它不适用于许多现有的系统。

这篇文章非常有帮助——我遇到过很多研究人员因为数据质量问题而避免在网上进行研究。半岛体育官方网址入口

我们最近更新了我们的预印本“我们中间的大猩猩:一个在线行为实验构建者”(doi.org/10.1101/438242),比较了运行研究和讨论控制数据质量的工具。


APS定期在我们的网站上开放某些在线文章供讨论。自2021年2月起,您必须是登录的APS会员才能发表评论。发表评论即表示您同意我们的社区指导原则并显示您的个人资料信息,包括您的姓名和所属机构。文章评论中的任何观点、发现、结论或建议都是作者的观点,并不一定反映APS或文章作者的观点。欲了解更多信息,请参阅我们的社区指导原则

请以您的APS帐户登入进行评论。