第一节 Multistage-CAT在GRE中的应用(1 / 1)

美国研究生入学考试(GRE)自开始使用至今,经历了一个漫长的进化过程。在这个过程中,考试形式越来越个性化,测验的测量精度越来越高,并且测验安全性也越来越高。新的测验形式如何实现以上所述的特性,本节将从GRE测验的选取、设计、测验规范以及测验评估几个方面进行介绍。

一、为什么选用MST

GRE是由美国教育考试服务处(Educational Testing Service,ETS)主办的,适用于除法律和商业以外各专业的考试。GRE考试分为两种,一种是能力倾向性测验(General Test),另一种是高级测验(Advanced Test)。本文中所述的GRE测验为第一种测验,不涉及第二种测验。GRE考试自从与世人见面开始,经历了由纸质测验过渡到基于计算机的测验(CBT),发展为计算机化自适应测验(CAT),直至现在转变为计算机化多阶段自适应测验(MST)的历程。在这个发展进化过程中,GRE逐渐开始采用自适应测验的形式,对于不同能力的被试匹配不同难度的题目,真正做到“因人而异”,体现了“量体裁衣”的思想。在GRE测验发展过程中,新的测验形式也逐步改进了题目曝光的问题,提升了被试能力估计的精确性,使测验更加安全、公平。

在最近一次大型测验修订中,测验总体设计提出了以下要求:新测验需要提高测验安全性,引入使测验变得更加友好的特性,同时也要提高测验的效度。

基于以上考虑,新测验设计的主要目标为:

第一,支持测验内容的转换,使被试无法进行预测,以此来确保测验安全性(由于网络便利性,增加了测验题目曝光的可能性,使被试可能预先接触到部分题目);

第二,提升测量精度;

第三,支持分数量尺的修订;

第四,维持测验总时长不超过4小时;

第五,测验形式更加灵活,在每一部分内允许被试浏览或检查题目,并且可以对答案进行修改。

由于MST 测验设计的独特性,能够满足以上新测验设计的所有要求,在保证测验安全性的同时,也可以保证测验时长,并且能够使被试自由作答,消除考试焦虑。因此,MST被研究者选定作为新的GRE测验形式。

二、GRE测验的MST设计

基于一系列预研究和模拟研究的结果,完整的GRE测验结构如下所述:主要包含三个独立的测验,分析性写作(Analytical Writing)(简称写作),语言推理(Verbal Reasoning)(也称语文)和数量推理(Quantitative Reasoning)(也称数学),以及一个不计分的部分。分析性写作部分包含两个作文,立论写作(Issue)和驳论写作(Argument),每个题目30分钟,分数区间为0~6分。语言推理包含两个部分,每个部分20个题目,30分钟完成,分数区间为130~170分。数量推理也包含两个部分,每个部分20个题目,35分钟完成,分数区间为130~170分(Educational Testing Service 2013a;Robin & Steffen,2014)。其中,语言推理和数量推理部分具有相同的MST设计。基于已有的研究结果表明,对于语言推理和数量推理的测量,一个简单的两阶段MST设计(图10-1-1)就可以满足预期的信度和效率(测验时间保持在4小时以内)。还有研究结果表明,使用更复杂的MST设计并不能提升测验的信度(Robin & Steffen,2014;Robin,Steffen & Liang,2014)。

图10-1-1 两阶段MST测验

GRE测验的MST设计应具备以下特征:

第一,两阶段三水平设计,由20个题目组成;

第二,使用两参数IRT的正确次数得分(NC)计分;

第三,设定路由划界分数,使分别有三分之一的被试被分配到简单、中等和困难的阶段二模块中,并且每一个分组的被试能力值能够与他们被分配到的阶段二模块的难度良好匹配。

当测验设计完成后,所有的目标规范都应该被实现。特别是,限制题目曝光率,模块和面板之间的重叠,以及大多数被试完成测验所需要的时间估计等(Hambleton,Swaminathan & Rogers,1991;Kolen & Brennan,2004;Meijer & Nering,1997;Stocking,1996;Stocking,Steffen & Eignor,2002;Thissen & Wainer,2001)。

三、GRE测验规范

GRE测验主要考虑三个方面的规范:内容,精度和测验安全性(Davey & Pitoniak,2006;van der Linden & Glas,2010)。

内容规范规定了题目应涉及的范围和数量以及题目类型,具体包括不同领域的题目及其特征。例如,生物科学或社会科学,理论知识或真实生活情境,图或表等。内容规范也规定,若题目之间相关度过高,使用过多相同的词汇,或者题目相互之间可以提供答题线索,这些题目则不允许出现在同一个测验中。

测量规范规定了每一个测验应该达到以下要求:

第一,避免性别和种族的偏见;

第二,非速度测试;

第三,对所有能力范围的被试都能良好的测量;

第四,精确计分。

安全性规范规定,考虑到过去的曝光率,在测验中应仅有很小的概率会出现被试可以预期的任何题目或者题组(Robin & Steffen,2014)。也就是说,在测验过程中,被试要完成的题目应是“新题”,而不是其事先接触过的题目。否则,不但无法考察该被试的真实能力,也会对其他被试造成不公平。

四、GRE测验MST设计的评估

GRE测验的测量结果是否精确,还需要更多研究结果的验证。图10-1-2所示为一个典型的计分结果报告图。图中显示了一次测验中简单、中等、困难模块的正确次数得分能获得的所有可能的报告分数。计分考虑了阶段二不同模块的特殊性。从图中可以看到同样是正确次数得分20,但是对于不同难度的模块会有146,149和153三个不同的报告分数。不同难度的模块对应不同的分数范围限制,在一次测验中只能将被试分配到简单、中等和困难其中的一个模块中。从图中还可以看出,错误作答1个题目会引起不超过2个报告量尺分数的变化。正确次数得分到报告分数的转换表明了计分过程稳健性的程度较好。

分数转换图也突出了测验设计和组卷时需要注意的潜在问题。一个问题是,得分差距。图10-1-2所示正确次数得分38和39分别对应报告量尺分数167和169,这里跳过了168。由于这个问题与量尺化有关,组卷蓝图与修订量尺同时开发以确保每一个测验的分数差距不会超过1,将这个准则设定为规范和量尺化的目标。另一个问题是,简单、中等和困难模块计分的显著重叠,这与路由决策的不确定性有关。当路由决策是由部分信息量来做出决定时,一些被试的真实能力与路由划界分数会非常靠近,这些被试将被分配到难度较为简单的模块中。由此可见,在分数转换的过程中,量尺的转换会引起一定的偏差,并且路由决策的结果也会对被试的能力值估计以及分数的转换带来一定的影响(Robin & Steffen,2014;Robin,Steffen & Liang,2014)。

图10-1-2 正确次数得分与报告量尺分数转换图

(摘自Robin & Steffen,2014)

图10-1-3所示为一个典型的测量结果报告图。该测量结果显示了图10-1-1中所示的MST测验被试可能被分配到阶段二中每一个模块的情况。除非被试得分低于138,则低能力或者高能力的被试将被分配到中等难度的模块,测量的标准误和计分错误保持在可接受的3.0±0.3范围内。路由划界分数设定在估计的量尺分数146和155之间,因此分别有接近30%,40%和30%的常模群体会被分配到简单、中等和困难的模块中。这符合了GRE测验MST设计的基本要求。顶部的实线表示每一个模块的测量标准误(SEM)。底部的实线表示每一个模块的计分误差(Robin & Steffen,2014;Robin,Steffen & Liang,2014)。

图10-1-3 两阶段GRE测验MST设计测量结果

(摘自Robin & Steffen,2014)

新的GRE测验在满足了所有设计目标要求的前提下,还能使被试有更好的测验体验。MST测验形式让考试充分保持了纸笔测验形式的优势,既可以在模块内对题目进行浏览和检查,还能够修改答案。其又结合了CAT测验自适应的特性,对不同被试匹配不同难度的模块,从而能够更加准确测量被试的能力值,也使得测验更加个性化。并且大量的研究也证明MST测验设计具有一个较为稳健的结果,测量误差较小。