成员的文章

教育科学研究的动力是什么?

100多年来,教育研究作为科学的努力一直在学术和政治辩论的中心。最近出现的“循证”教育和相关领域的政策和实践,讨论了提高重要性和政治色彩。在2000年的夏天,一项法案,批准联邦教育研究的主要机构包括立法、不科学,设计的定义什么是“基础科学研究”教育。这个动作表示该领域缺乏可信度与决策者和相关的高风险与高质量科学的阐明和维护标准。

的背景下,2001年的冬天,当一个国家研究委员会委员会开会地址三个相关的问题,以应对来自国家教育研究政策和优先级的请求:11)科学素质教育研究的原则是什么?2)联邦研究机构如何促进和保护科学的教育质量研究支持吗?3)如何研究型教育知识积累?大约一年以后,我们发表了这些问题的答案(Shavelson汤尼,2002),被小心翼翼地指出,我们的收费是探索科学依据教育研究,“…历史、哲学和文学奖学金可以而且应该通知重要的教育目标和方向的问题。”

NRC报告的发布以来,公共辩论愈演愈烈,一些国会和行政部门行动专注于把科学研究对教育政策和实践。强烈关注的这些努力一直在支撑当前奖学金的低质量(感知)通过使用随机田间试验-举行的“黄金”标准的教育研究。

研究问题与方法
在我们讨论的过程中,我们不可避免地拿起的设计教育研究的有争议的话题。在一个极端,我们发现了一些实验(和政策制定者)认为,除非研究涉及一个随机试验,这是不科学和不值得做。在另一个极端是后现代主义者,他们不看重任何形式的科学研究。委员会成员举行了一个广泛的意见,他们认为是科学。

委员会最大的贡献也许是认识到定义来说科学的研究方法。的问题,而不是促进教育研究的设计方法——或任何其他科学研究。,调查人员应该设计一个研究来回答这个问题,他们认为是很重要的,不适合的问题方便或受欢迎的设计。

事后看来,这种想法应该是明显的一次我们曾认为的结论是,在教育科学研究,一般来说,科学研究的社会和自然科学,而且应该:

  • 提出重要问题,可以调查经验
  • 联系相关的理论研究
  • 使用方法,允许直接调查的问题
  • 提供一个连贯的,显式的推理排除counter-interpretations链
  • 复制和推广的发现研究
  • 披露的研究,鼓励专业审查和批评

可以肯定的是,每个科学领域都有制作方法以适应其词形变化的问题和现象,科学哲学家托马斯·库恩指出几十年前的东西。这是正确的教育以及自然科学和社会科学。普遍的方法是,他们构建研究设计科学研究的特点,如排除计数器的解释和普遍性,上面列举。

类型的问题和相应的方法
方法应该遵循的洞察力的问题,现在很明显,一些研究生经常听到他们的教授,导致了另一个难题。有很多研究问题,我们如何说什么令人信服的方法呢?委员会认为,大多数科学研究问题的三个一般类型:1)发生了什么?2)有系统(因果)效果吗?和3)什么是因果机制或它是如何工作的呢?

发生什么事情了?
问题,发生了什么?——要求描述。我们可以问这个问题在材料科学实验室或在一所中学。我们可以描述多年的经验被小学老师在美国,科学指导学生接收的类型或改变学生的数学成就超过20年。在这些情况下,可以获得统计估计的总体参数可用的全国性调查。或者我们可以描述学校、家庭和社区的眼睛看起来虽然市中心青年使用民族志方法。或者我们可以描述不同的方法学习的评估高校被提名为“模范”使用案例研究方法。

荷兰和Eisenhart(1990)的研究是科学研究发生了什么,并且,正如我们将看到的,。他们担心解释为什么很少有女性追求事业等非传统专业科学:女性来学院之前没有做好充分的准备,在大学妇女被歧视,女性不想与男人竞争工作岗位。

他们开始研究通过描述,在深度几年通过民族志,23日志愿者从两个小女人的生活公共住宿学院。一半的女性追求传统事业和另一半非传统职业。他们匹配分数,大学专业,学院活动,大学同学。基于大量的、详细的收集的数据通过参与观察和访谈,荷兰和Eisenhart发现最好的描述了这些女性的学术追求是什么,与流行的猜测相反他们如何看待家庭作业的价值,他们的理由是做学校的工作,以及他们如何感知金融成本和机会成本。简单地说,这些女性的大学生活描绘的详细描述他们的职业轨迹在一个非常不同的光比远端猜想基于统计数据。

如果你在想,“嗯,这是特殊的描述和怀疑,”荷兰和Eisenhart是你。他们下一步,超越的进场描述和模型试验(见下文)与他们的描述性模型通过预测每一个23岁的女性会做什么毕业后:继续在学校,在她的领域找到一份工作,在她的领域找到一份工作,结婚,等。在四年的结束和另一个三年,他们遵循这些女人电话采访。在所有23例,根据他们的模型预测的作业被证实的承诺。在所有情况下,他们的模型提供了一个更好的预测比预科数据准备(成绩和课程),歧视妇女,或者感受与人竞争。

有系统(因果)效果吗?
问题的影响,最终,问题因果效应。x原因吗?也许最广为人知的研究系统的影响在田纳西州的教育是在课堂随机试验。田纳西州议会提出的问题是减少班级人数是否会提高学生的成绩(芬恩&阿基里斯,1990,1999)。为此,在遍布全国的79所学校,共有11600名学生被随机分配给一个普通班(22日至26日进行的学生),一个类和一个助手(减少学生/成人比经济)或减少班级人数(在13 - 17的学生)。三发现脱颖而出:1)小班的学生比其他学生类,2)少数民族学生尤其是中受益,3)效果持续当学生回到常规班级规模。这里的方法,随机试验,然后直接从立法的问题是可行的和道德的实现。在这种情况下,随机试验的首选方法是寻找因果效应。

在许多情况下,然而,当随机化可能不是可行的。这种情况下包括吸烟对健康和长寿的影响,和饥饿的影响,饮酒、吸毒或虐待儿童学生的学业表现。对于这些研究问题,需要使用其他方法,可用,并包括准试验(实验组和对照组没有随机分配),相关研究使用大规模probability-sampled数据集(选择性偏差,调整),以及各种时间序列的设计。可以肯定的是,在某些情况下当你远离随机不确定性增加;然而,因果的解释是可能的和复制增加解释的信心是很重要的。

罗卜和页面的教师工资(2000)研究了相关(结构)建模的应用程序在一个随机分配的情况是不可能的。他们问,“如果教师素质影响学生成绩,为什么研究,预测结果从老师的工资产生弱的结果?”也就是说,不该教师工资体现,至少在某种程度上,教师素质在控制了其他东西吗?

罗卜和页面测试的两种模式。一个是通常的生产函数模型,输入链接(工资)学生的结果(在这种情况下辍学)在控制了相关变量。第二个模型跟随他们的推理,有其他事情比薪水的生活老师,可能有意义,也有可能是当地就业市场在该地区教学提供有吸引力的替代品。第二,竞争模型合并机会成本生产功能:耐奖励和当地就业市场的竞争。他们与一般的生产函数模型,复制先前的研究显示弱的薪水对结果的影响。然而,一旦他们调整这个机会成本模型(耐和就业市场激励措施),他们发现,加薪10%减少了3 - 4%的高中辍学率。

三分学习因果效应似乎适当。首先,在处理因果断言我们总是试图排除所有可能的计数器假设我们知道的。作为一个研究项目沿着,新的挑战(计数器假说)出现,排除;这样信心增长因果关系解释。通常我们不知道所有的计数器假说;与小说counter-interpretations挑战出现,研究和辩论与田纳西州研究如斯。这种类型的辩论-假说/ counter-hypothesis是科学的基础,应该看积极而不是“诽谤”学者有不同的观点在解释的问题;这是诽谤人身攻击时。

第二个点与因果研究中描述的作用,发生了什么?在可行的情况下,应该使用描述性研究因果研究,以帮助我们理解,尽可能全面,实际上“治疗”是实现,揭示可能的因果机制是什么操作。

第三点是,建立一个尽可能因果效应可能是必要但不充分的政策和实践。机制和上下文的问题不可避免地要出现为了设计教育政策或实践(克伦巴赫、Ambron et al ., 1980)。我们需要了解干预是铰接和在不同环境中实现和谁,在什么情况下用什么资源来设计多肤浅的教育政策。

它是如何工作的呢?
第三类型的研究问题关注的是机制,创建一个因果效应。例如,减少班级人数似乎根据田纳西研究产生有益的影响。但机制导致的效果是什么和为什么它坚持即使学生回到常规班级规模(Grissmer 1999) ?效果是由于增加的数量和个人自然师生联系人或少一下分派的学生的行为(Blatchford 2003)或学生的参与程度(芬恩,Pannozzo &跟腱(2003)?

实证研究的机制,研究建立了因果效应是最常见的。Bryk,李和荷兰(1993)试图理解因果机制(s)潜在的因果关系的证据表明天主教学校比公立学校在美国。这个纵向研究用定性(举例来说,案例研究有效的天主教学校)和定量数据来解决机制问题。三个潜在的解释性模型进行了测试:1)部门只影响(精神和私人天主教学校的特点),2)成分的影响(类型的学生参加天主教学校),和3)学校(学校操作导致上下文)的影响。的组合模型,描述“[T]他相干天主教学校的学校生活…最明显占这个地区相对成功”(Shavelson汤尼,2002)。

然而,还有另一个方法的问题机制——即建立工件基于因果理论,建立其因果效应。研究,如“设计实验”或“设计研究”假设理论与因果机制,和设计教育的工件(例如,一个课程,一个计算机应用程序)和迭代测试他们在复杂的真实世界的课堂环境,修改工件和理论。一旦证据积累因果机制,责任,当然,在设计研究人员然后建立可概括的因果效应(Shavelson、菲利普斯、城&封地,2003)。半岛体育官方网址入口

总结评论
如果我们留给你任何东西,从NRC委员会那就是:研究问题问题;研究设计必须遵循的问题。有很多重要的问题在教育科学研究人员解决。半岛体育官方网址入口这些问题可能是描述性的,他们可能是因果关系,或者他们可能机制。在程序的研究,应该包括所有三种类型的问题。在这种情况下,一个程序的研究将接受多个方法,每个配件具体描述性的,因果或机制问题。

如果我们的目标是评估系统的影响——通常是在项目评估和政策研究——逻辑上的随机试验应该是首选方法是否可行和伦理。他们不是,准实验、相关性和时间序列设计提供可行的替代方案。然而,无论研究设计(实验、准实验相关性),特别是在销售所谓的“黄金标准”(随机试验),困难出现。一个问题与治疗的忠诚的实现。你声称治疗T造成影响,但实际上它是T *,这并不是治疗,你以为是。另一个困难在于变化处理的实现。观察治疗的实现可能揭示变化,从T T * T * * T * * *(等);这种变化需要捕获并理解其因果效应。第三个困难是,对照组5月1日)执行以这样一种方式,它看起来像实验治疗,一些在实验中教师并不少见;或2)可能无法提供相关对比政策目的,例如,田纳西州的助理教师控制条件研究是无关紧要的加州的实现课堂的减排政策。 A fourth difficulty is that the outcome measure (e.g., broad-band achievement test with a single dimension) is inadequate – it does not measure all of the things or even many of the things that are important – what psychometricians call construct under-representation. Moreover, the selection of the outcome measure might privilege one treatment over another at the outset of the study. Yet such limited measures are commonplace in policy research. And finally, of course, there is always the issue of external validity – the extent to which the experimental treatment generalizes to real-world contexts. The trade off between randomized trials and in situ studies (e.g., quasi-experiments, correlational) needs to be weighed against the credibility and generalizability of findings.

作者注:本文基于演示车间的国家研究委员会的研究教育。

1。NERPPB是美国前的政策部门办公室教育研究和改善,这是所取代的教育科学研究所2002年教育科学改革法案的通过。

引用
Blatchford, p (2003)。系统的观察研究的教师和学生的行为或大或小类。学习和教学40 (6),569 - 595。

Bryk,。年代,李,退役军人,与荷兰,P.B. (1993)。天主教学校和公共利益。马萨诸塞州,剑桥:哈佛大学出版社。

克伦巴赫,剩下Ambron,狭义相对论。,Dornbusch,克里赫斯,进食Hornik,直,菲利普斯特区。沃克,测向&维纳,轮(1980)。对项目评价改革。旧金山:Jossey低音。

芬恩,J.D.&阿基里斯,蔡玫(1990)。答案和问题关于班级规模:一个全国范围内的实验。美国教育研究杂志27 (3),557 - 577。

芬恩,J.D.&阿基里斯,蔡玫(1999)。田纳西州的班级规模研究:发现,影响,误解。教育评价和政策分析21 (2)97 - 109。

芬恩,J.D.Pannozzo,通用&阿基里斯,蔡玫(2003)。班级规模:学生的“为什么”行为在小类。教育研究的回顾73 (3),321 - 368。

Grissmer, d . (1999)。班级规模效应:评估证据,其政策impoications和未来的研究议程。教育评价和政策分析21 (2)241 - 248。

荷兰特区。、& Eisenhart硕士(1990年)。在浪漫:受教育女性,成就,和大学文化。芝加哥:芝加哥大学出版社。

Shavelson,效力,菲利普斯特区。汤,L。&封地,M.J. (2003)。设计教育的科学研究。教育研究人员32 (1)25 - 28。

Shavelson,效力汤尼,l . (Eds) (2002)。教育科学研究。华盛顿特区:国家科学院出版社。

评论

我有点受够了这种“辩论”实验和后现代主义之间。

当然有一个广泛的证据和证据强度评估。

但我认为没有理由,后现代主义者之间的鸿沟和实验应该是有意义的。

例如,歧视可以实验评估。另一方面,实验至少应该承认,后现代主义者应该有人说什么话题可能是重要的学习。

这废话后现代主义根源两方面的争论。但是没有两边非理性行为的借口。


APS定期打开特定的在线文章讨论在我们的网站上。有效的2021年2月,你必须登录APS成员发表评论。通过发布评论,你同意我们社区指导原则和显示您的个人信息,包括你的名字和联系。任何意见、发现、结论或建议在文章评论的作家和不一定反映APS的观点或文章的作者。有关更多信息,请参阅我们的社区指导原则

请登录你的APS账户置评。