总统列
对未来数据共享的思考
正在发生的一些政策变化可能会以意想不到的方式深刻影响我们的科学。不幸的是,尽管这些政策的组成部分可能会威胁到隐私保护、数据质量、样本的性质,甚至可能威胁到研究的设计,但这些变化中的许多都是在没有心理科学家充分投入的情况下制定的。
关于数据共享的策略反映了一个例子。根据美国国会和白宫的指示,美国国家科学基金会(National Science Foundation)和美国国立卫生研究院(NIH)等联邦机构最近发布了有关数据共享的最新预期。请允许我强调,我支持在抽象和一些情况下共享数据;事实上,数据共享对于推进创新和科学发现是非常可取的。如果同事希望验证或重复已发表的发现,或以其他方式分析数据以回答科学问题,那么人们共享数据是很重要的。在涉及许多研究人员和研究参与者以及大量公共资金的大型项目中,利用非半岛体育官方网址入口参与科学家对数据的二次分析显然符合科学的最佳利益。如果研究参与者签署了一份允许一般使用数据的同意书,那么中等规模研究中的数据在足够的时间用于数据准备和初始关键出版物后可供公众使用也是非常合理的。
最新的大规模政策是NIH基因组数据共享(GDS)政策于2014年8月27日发布。在该政策适用的数据集示例中,但不限于,分别是:
- 超过1000名人类研究参与者的基因组中超过一个基因或区域的序列数据。
- 来自100多个人类研究参与者基因组中100多个基因或相当大小区域的序列数据。
- 来自一个或多个模式生物物种或菌株的超过100,000个单核苷酸多态性(snp)的目录。
新政策适用于在此类项目中收集的表型和行为数据;因此,一些行为科学家无疑已经参与了这项政策所涵盖的研究。此外,如果研究所或中心对数据感兴趣,NIH的各个研究所有权将该政策解释为包括样本量较小的数据集和不同数量和类型的基因组数据。也许最重要的是,这项政策是一个扩展数据共享工作的模式,处理非遗传/基因组数据的共享,就像NIH和国防部的FITBIR(联邦机构间创伤性脑损伤研究)数据库目前需要的创伤性脑损伤研究(可在fitbir.nih.gov上获得)。
在NIH基因组数据共享政策的补充信息中,概述了关于数据生产者提交数据和发布这些数据供其他科学家使用的具体期望。对于人类基因组数据,提交数据的期望是“特定于项目;清洗和质量控制后,一般为数据生成后3个月内”;预期发布时间为“数据提交开始后6个月或首次发表被接受时,以先发生者为准。”此外,与心理科学家特别相关的是,这些研究中的表型数据,包括我们大多数人收集的各种变量,将在“分析完成”时提交给人类数据(第3页)。
然而,该文件进一步指出,表型或临床数据预计将“尽早提交到nih指定的数据存储库,但不迟于2级基因组数据提交日期(或GWAS数据集的2级和3级),特别是对于所有表型数据已经收集的研究。”(2级和3级数据是指在数据生成后3个月内提交的各种形式的基因组数据。)
对于正在进行表型数据收集和/或可能定期更新的研究,考虑到确保数据准确性的实际需要,数据文件应尽早提交给nih指定的数据存储库;一般来说,这个时间不应超过数据清理开始后的3个月(第4页)。
期望表型数据,即使在正在进行的纵向研究中,应该在数据清理开始后3个月内提交,在许多情况下是完全不现实的,这反映了对行为/心理数据复杂性缺乏理解。需要注意的是,一旦数据被公布,即使只是在收集和清理几个月后,它们通常可以被其他研究人员用于出版物,而不需要设计和进行原始研究的研究人员的任何参与。半岛体育官方网址入口
这样的授权可能会产生问题。首先,对于许多类型的行为数据,在几个月的数据存储预期下,可能不可能生成高质量的数据,因为处理这些数据的现实可能意味着需要一年或更长时间来培训编码员,并实际编码和清理数据以供分析。在具有大量行为数据的纵向研究中,这一过程正在进行。此外,对于那些进行纵向研究(或一系列研究半岛体育官方网址入口)的研究人员来说,在研究人员完成数据收集、编码和数据清理之前,数据分析和发表通常无法快速进行(甚至无法开始)。因此,如果没有现实的封禁期,通过禁止其他科学家发表他们的数据来保护数据产生的科学家,其他人可以在他们自己有机会发表数据产生的科学家的大部分发现之前轻松地发表这些发现。简而言之,花了数年时间构思研究概念的人;为工作提供资助;进行研究;对数据进行编码、清理和分析可能会在发表自己的研究结果方面处于系统性劣势。
还有许多其他务实的担忧。对于许多行为测量(例如,亲子互动的编码),编码系统是复杂的,需要大量的训练。由于记录复杂度量的困难,归档数据的用户经常可能误解或缺乏对数据的充分理解,无法正确使用它们。此外,在分析出版数据的过程中,经常发现编码和数据输入错误;因此,在原始调查人员之前使用数据的人可能会基于不正确的数据进行分析。数据的用户也可能需要原始调查人员的协助,可能需要很长一段时间;对最初的研究人员来说,时间成本可能是巨大的,并且可能在获得资助后持半岛体育官方网址入口续数年。这些障碍并非不可克服,但需要引起重视并提供有针对性的资金。
还需要考虑额外的财务成本。数据存储所需的资源必须包含在用于开展研究的相同预算中,但在NIH获得资助后,通常会全面削减10%至24%的预算,因此预算往往不足以收集、清理和分析拟议的数据。为了获得资助,研究人员通常需要提交一份得到所在大学认可的数据共享计划;如果他们没有按时提交数据,大学和研究人员可能会遭受无法获得资助的后果。
最后,在最近的政策中固有的是一种期望,即研究参与者将同意参与超越当前研究的广泛的一般研究。因此,关于如何获得知情同意和参与者的可识别性的伦理问题出现了。在基因组学、神经成像、苹果手表、Fitbit、Facebook以及地理空间和其他人口统计数据的时代,研究人员很难仅仅通过删除HIPAA标识符来确保研究参与者的隐私和匿名性。半岛体育官方网址入口此外,很可能许多潜在的研究参与者,特别是那些弱势群体(例如,各种种族-民族群体;使用非法药物或具有污名性特征、污名性行为或罕见健康问题的人,在知道他们的数据将与政府和公众共享(即使数据已"去识别化")后,将不愿参与;这样的拒绝会给我们的样本带来系统性偏差。我相信在我自己的研究中,如果我们不能保证数据不会泄露给我们研究小组以外的人,很多家长是不会参与的。
如前所述,上述2014年的政策很可能会成为未来非基因组数据共享的模式。因此,在这一切发生之前,重要的是我们的科学界要教育那些希望快速分享我们研究性质数据的政策制定者,并积极与起草与心理科学相关政策细节的政府机构合作。
APS定期在我们的网站上开放某些在线文章供讨论。自2021年2月起,您必须是登录的APS会员才能发表评论。发表评论即表示您同意我们的社区指导原则并显示您的个人资料信息,包括您的姓名和所属机构。文章评论中的任何观点、发现、结论或建议都是作者的观点,并不一定反映APS或文章作者的观点。欲了解更多信息,请参阅我们的社区指导原则。
请以您的APS帐户登入进行评论。