大数据和社交媒体的世界

Eichstaedt_Johannes_web

约翰内斯Eichstaedt

“大数据”炒作周期的最终将下降,但现在,它无处不在。在一个高调的宣言科学,社会科学家们被要求加大和“杠杆的能力,收集和分析数据以前所未有的广度和深度,“通过推特、Facebook状态,或者手机记录。通过成千上万的数据点,我们可以理解个人和society-scale过程通过数以百万计的个人、机构审查委员会批准。的哈佛商业评论名言“数据科学家”是21世纪的最性感的工作,表明数据科学是未来的方式。

我们的研究小组无疑促成了炒作;在去年年底,我们所示人格与社会心理学杂志》上论文基于语言的预测人格从社交媒体一样准确的朋友性格的报告。今年1月,我们发表的证据心理科学表明Twitter语言可以预测社区的心脏病,甚至发现洋葱注意到。在四年的工作与计算机科学家,我们了解了过程?和心理学家还需要在这个世界上的大数据?

世界福利项目

谷歌在2009年的一个研究小组证明互联半岛体育官方网址入口网搜索查询可以用来估计流感的流行:人们寻找有限数量的有关流感症状和疗法不仅追踪流感在时间和空间的变化由美国疾病控制中心的报道,但瞬间,没有报告滞后与聚合医院相关报告。Martin Seligman演讲后在谷歌2010年,许多研究人员在宾夕法尼亚大学积极心理学中心和Google.org决定是否类似半岛体育官方网址入口的方法可以帮助他们估计幸福在时间和空间的变化。一个合作后,我们-宾夕法尼亚大学研究小组的成员决定开发的基础设施来解决自己的问题。我们成立了雄心勃勃地名为世界福利项目(WWBP) 2011年衡量大规模人群的心理状态通过自然语言处理和机器学习在大型社交媒体数据集。

一开始,我们侧重于建立自己的基础设施代码库和校准方法。我们第一次出版在使用Twitter来衡量幸福的地理变异出现在2013年,研究识别特征的语言一样年龄,性别,和个性在75000用户在Facebook上。都收到了大量的媒体关注,超过我们的预期。

我们在,2014年,我们收到了380万美元的赠款邓普顿宗教信任进一步研究这条线。我们三年给予使用社交媒体来开发目标是身心健康的测量,了解其决定因素和关联,并分享我们的方法与社会科学研究社区,使其广泛的访问。

此后,WWBP已发展到目前的11个全职团队成员,其中包括两名计算机科学博士后和两个心理学博士后。

算法与人类

多年来,我们已经学到了很多关于工作的乐趣和困难在一个高度跨学科项目。说它,工作在计算机科学和心理科学的界限是具有挑战性的。两个字段有一个非常不同的意义的研究。我们有不同的价值;我们发表不同。

我们想说,我们花了我们合作的第一个2年学习交流,在很多方面,这不是夸张。一些心理科学家理解为什么你会关心交叉验证图谱结果或为什么你会锁定你的数据从开始测试你的方法。计算语言学家有时写的句子像“心理学家研究作者属性”,因为对他们来说这就是人类:文本的制造商。

在计算机科学中,有人类参与的任何部分的研究结果(一组特定的结果作为策展人)经常违背专业代码:如果你需要人类,你未能开发正确的算法;数据应该告诉自己的故事。方法导致洞察应采用自底向上,不像之前理论的结果。如果人类干预过程中,计算机科学家不相信结果。更好的给读者一个没有排序的相关性,得出自己的结论(以免干预)。

解释时,心理学家往往倾向于做计算机科学家感到不安。例如,使用单词“显然”和“实际”相关神经质得分越高。思考一下——如果你和作者一样,你只是在你的脑海中形成了一个理论关于为什么,也许没有意义你知道的人。你可能没有考虑词语的模糊性以及他们可以扮演许多角色在语言。我们经常发现心理学家,当面对这样的相关性,是渴望产生丰富而完全事后欠定的假设——原因有很多使用的任何一个词可能与一些相关结果,包括词义含糊不清或更广泛的语言使用混淆与第三变量。通常计算机科学家不愿解释单一语言的结果被证明是明智的建议。

当然,心理科学家还抓我们的头在计算机科学的方法。计算机科学家发表论文做的事情我们非常关心,像预测抑郁的人在社交媒体上写字。在计算机科学出版物,这样的结果被认为是重要的在一个快开段,世界卫生组织统计,然后对预测模型精度。抑郁的人写什么有时只能得到最粗略的提到。流程所涉及的语言使用,我们怎样才能更好地了解抑郁症的表现在现代,数字世界吗?简而言之,我们能了解抑郁症本身?你通常不会读到写的计算机科学家,在一份报告中这些问题来说,单词和短语往往只是饲料为机器学习模型;这些模型的精度提供肉这样的一篇文章。然而,越来越多的计算机科学家在不同的研究小组有接触与领域专家(如心理学家)来帮助说明和解释数据驱动的结果。语义结构(如主题)推广超越单个词,可以接受单位解释手中的心理学家。 Seeing these different perspectives and skill sets, you can understand why collaboration between psychological scientists and computer scientists might be a game changer.

学习新方法

心理学家也发表不同于我们的同事在计算机科学。以计算机科学会议为例。在自然语言处理中,我们的学术附近一带,最著名的媒体对于这个工作不是期刊但是会议,如计算语言学协会的年度会议(ACL)或其北美章(NAACL),其中一些心理科学家听过。bd体育在线app下载安卓会议提交的最后期限,这意味着你不能等到提交新的研究你感觉就完成了,你可以在心理学——除非你想等待一年,直到下次会议到来。同行评议过程快,它遵循一个严格的时间表。所有论文出版后立即和在线公开;其他研究人员半岛体育官方网址入口快速响应。数据公开共享,共享往往是在验收会议。没有分享你的数据被认为是贫穷的形式。心理学有很大的教训,结果往往是传播速度非常缓慢。

在我们的合作研究,我们一般都形成了一个自然出版程序:我们的计算机科学家带头发表论文关于方法和预测精度,引入计算机科学的新问题。我们心理科学家应用开发洞察心理问题的方法和过程。跨学科论文时,我们写在一起纠缠不休。

学习从一个另一个

在一起工作,我们学到了很多。我们作为心理科学家们学会更多的主动避免“过度拟合”——利用机会的危险不仅当变量的数量超过数量的观察,同时还当许多假设测试。我们开始了解一个好的聚类算法的力量将大自然的关节——最好的,好像魔术。

科学家继续充当心理建构效度的大师——综合一个微妙的解释性构造出我们生活的东西,发散和收敛效度跨语言,行为,和真实的结果。我们不介意,绝对的真理是高不可攀。对于计算机科学家,绝对的真理是不言自明,它一般不超出一个“MTurker”标签的崛起给一段文字(指示,说,多少“乐观”给定的推特表达了)。心理科学家们正在训练来解决人类的讨厌的复杂性;聚类算法不能发展微妙的理论。但算法可以退出集群可以映射到理论的语言,和算法可以建议一些可能缺少一个理论。心理科学家具备理论和数据之间的中间人。

一个世界的数据

在某种程度上,心理科学家一直数据科学家:与回归,t测试,方差分析,我们的方法适合我们的数据。但当我们使用越来越大的数据集,我们的方法也需要成长,。今天的数据,SPSS不是一个选择。SQL,最受欢迎的数据库语言,需要一个下午的学习。一旦你学会了一个Python(两个下午),你会发现它可以尽两个人类可读的行——除了让你咖啡。一旦你找到了这些基本Big-Data-handling技能,您可以开始界面的工具和基础设施的计算机科学家已经开发出用于文本分析。真的不是很难开始。我们,作为一个研究实验室,想帮助把心理科学大数据文本分析的方法,所以,我们的字段可以受益于一个共同的理解如何应用这些方法。我们很快就会开始制造工具,介绍资源和演示快速探索可用lexhub.org。在一个安静的下午,看看。

如果我们想在今天和明天的大数据,我们必须继续数据科学家提供符合数据的方法。心理学、学科致力于那些讨厌的“作者属性”需要有一个声音都决定人们用数据——而不仅仅是市场营销。作为数据成为我国经济的支柱,甚至我们的民主通过越来越多的有针对性的运动和预测个体的行为,心理科学家需要表达自己的心声。最后,一些心理学家和计算机科学家的最大挑战将需要解决共同伦理:随着我们的方法给越来越多的细粒度的见解人群的私人生活——即使只是用“公共”Twitter数据——我们如何在有所为、有所不为方面给自己设定界限?我们如何尊重原则的“知情同意”时代的巨大,公共数据集?心理学家在这些对话扮演着相当重要的角色。

心理科学,生物学是在10年前,当它从单基因的研究网站整个基因组数据驱动的发现,生物信息学和从简单的统计数据。心理学也走向psychoinformatics,数码流行病学,或infodemiology。字段是新生的足够的,你仍然会选择你最喜欢的词——或者你自己的。

确认

作者欣然承认他尊敬同事Greg公园,安迪·施瓦茨和大卫美国为他们的反馈和深思熟虑的建议。


APS定期打开特定的在线文章讨论在我们的网站上。有效的2021年2月,你必须登录APS成员发表评论。通过发布评论,你同意我们社区指导原则和显示您的个人信息,包括你的名字和联系。任何意见、发现、结论或建议在文章评论的作家和不一定反映APS的观点或文章的作者。有关更多信息,请参阅我们的社区指导原则

请登录你的APS账户置评。