第一节 可修改答案的计算机化自适应测验简介(1 / 1)

一、RCAT优势分析

计算机化自适应测验(CAT)研究始于20世纪七八十年代,并在过去的20年得到了快速的发展。现在,美国的许多大型考试,如学术能力测验(SAT)、托福等大型测验已经实行了计算机化自适应测验。CAT 大致可以分为两类,一类是以项目反应理论为基础的传统CAT,另一类是以认知诊断为基础的CD-CAT。相对于传统纸笔测验,CAT 的目的在于为每个被试建构一个最优测验,可以给出难易程度与被试能力水平相匹配的题目,既保证估计精确度的同时又能节省答题数。

然而,伴随着CAT的快速发展,CAT本身的一些弊端也逐渐暴露了出来。例如,从被试的角度出发,CAT较之纸笔测验的一个主要的区别就是:不允许被试修改答案。对于习惯了测验中可以修改答案的被试来说,不允许修改答案的CAT(简称传统CAT)是一个难以接受的测验形式。

可修改答案CAT(RCAT)的优点显而易见,首先,从被试的角度出发,允许修改答案的测验形式更符合他们的测验习惯。Stocking(1997)指出在传统的纸笔测验中考生可以任意修改答案,不允许修改答案无疑剥夺了考生犯错的权利。Vispoel,Henderickson和Bleiler(2000)调查发现有85%的被试表示希望在测验中拥有修改答案的机会,如果是高风险的测验这一比例会更高。尽管在测验中被试修改的题量是很有限的,但是提供可修改的机会本身就会减少被试的考试焦虑,人在高度的紧张焦虑状态中犯错的机会往往也更大。Olea,Revuelta,Ximénez和Abad(2000)比较了两组参加CAT的被试前后焦虑水平的变化,实验发现参加RCAT后被试平均焦虑水平下降了0.91。参加传统CAT后,被试平均焦虑水平上升了0.51。而且参加RCAT一组被试的答对比例显著高于另外一组。

其次,从主试的角度出发,检查并修改题目后的CAT更能够反映被试真实的能力水平(Steven & Wise,1999)。陈平和丁树良(2008)指出不允许被试修改答案将会增加测验的误差。例如,一些高水平的被试答错了本来完全有能力答对的题目,由于没有修改答案的机会他们的能力会被低估;相反,如果某个被试没有能力答对某个题目但却猜对了,又不允许修改,他的能力会被高估。最后从人类认知的角度来看,因为人类总是经过反复的观察和实践,才能最终认识到事物的本质,所以允许修改答案的测验更符合人类认识事物的习惯。

二、RCAT目前存在的问题

但是也有学者担心RCAT会带来一些不良的影响,首先,允许被试修改题目后一定程度上会降低CAT的效率,但增加了测验成本(Stocking,1997;Vispoel,Rocklin,Wang & Bleiler,1999)。Vispoel等人(2000)研究发现与传统的CAT相比RCAT平均测验时间增加了37%~61%。此外,传统的CAT根据被试的每次作答反应,按照信息最大化原则选出一系列“最优”的题目。但是如果增加可修改答案的选项,修改之后会导致被试一系列能力估计值发生改变,造成题目与能力估计值不能“最优”匹配,从而增加了能力估计的误差,降低了估计的精度。

其次,RCAT的另一个问题是担心被试会使用“作弊”策略,进而影响测验的公平性。“作弊”策略主要包括:Wainer策略和Kingsbury策略。Wainer策略:Wainer(1993)提出被试在自适应作答阶段,故意答错所有题目,计算机根据被试作答情况估计的能力值会越来越低,导致被试作答的题目越来越容易。然后在允许修改阶段被试全力答对所有题目,通过这种方法被试获得正偏的能力估计值。研究发现使用Wainer策略后造成被试真实能力水平和施测题目难度不匹配,不匹配程度越大,引起的测量误差也越大,特别对于中高能力水平的被试会有较大的能力估计正偏差(Bowles & Pommerich,2001;Stocking,1997;Vispoel Rocklin,Wang & Bleiler,1999)。Wainer策略表面看起来似乎是很诱人的,但是要通过Wainer策略来作弊却是一件十分冒险的事,Gershon和Bergstrom(1995)通过模拟研究发现只有当被试在修改阶段答对所有题目时,Wainer策略才是有效的,即使答错一个题目,考生的能力估计值也会被严重低估。

为了评估Wainer策略对被试能力估计产生的影响,Vispoel等人(1999)研究通过模拟和真实数据以及贝叶斯后验期望(EAP)和极大似然估计(MLE)来评估Wainer策略的有效性。结果发现Wainer策略的有效性取决于能力估计的方法,模拟实验表明:使用EAP估计后,能力分布在[-2,0.5]的被试能力估计值有小程度的提高,而中高能力被试被严重低估;而MLE的结果是使用Wainer策略后中高能力的被试能力被严重高估。通过真实的实验数据也得到了类似的结果。研究还发现MLE更易受到Wainer策略的不利影响。Vispoel等人(1999)的实验结论后来也得到Davey和Fan(2000)研究结果的验证。

Kingsbury策略(简称K策略)是由Kingsbury(1996)提出的一种“作弊”策略,指被试通过感知题目难度的变化来纠正错误。例如,被试根据当前题目的难度判断上一个题目是否答对,如果被试认为当前题目比前一题难度更大,就认为前一题答对了,相反,就会怀疑前一题答错了,并有针对性地修改之前的答案。

Kingsbury(1996)通过模拟数据检验了K策略对测验产生的影响,其研究基于两个前提假设:①假设题目难度高于真实能力1个单位时,被试会猜测答案。②假设被试认为当前题目的难度低于前一题,并超过0.5个单位时,将会修改前一题的答案。研究发现成功使用K策略的被试能力估计水平都得到了提高,但是不同水平的被试提高的程度不一样,从低能力到高能力,能力提高的程度依次降低,能力估计值平均提高了0.11。

成功应用K策略的关键在于被试能否识别出题目难度的变化。为了考察被试对成对题目难易的真实分辨能力,Wise,Finney,Enders,Freeman和Severance(1999)用真实的数据进行了研究。结果发现被试在辨别题目难易任务中整体表现较差,即使两题难度差异超过0.5个单位,也只有73%的被试能成功辨别。被试在成功使用K策略后平均能力估计值只有较小程度的提高,平均增幅只有0.01。由此可看出被试很难使用K策略来作弊。Davey和Fan(2000)后来通过模拟研究也发现被试通过K策略来作弊的机会是很小的。

除了以上所描述的RCAT可能导致的问题之外,事实上允许被试修改答案造成的影响涉及CAT的方方面面,包括题库的建设和维护、选题策略、能力估计方法、终止规则等。例如,通过检查并修改答案之后,被试就有更多的时间记住题目,也有可能损害题库的安全性。在选题策略方面传统的最大化信息选题可能会导致更多的误差,因此在RCAT的应用方面可能还需要做出一些调整。如果后面的题目对前面题目的答案有提示,通过修改答案被试就会答对一些本该答错的题目,也会带来额外的估计误差。修改答案后导致能力估计出现较大的偏差,部分被试可能要额外增加测验题目或者改变测验的终止规则。然而允许被试在CAT中返回修改答案符合被试一直以来形成的考试习惯,通过提供给被试一次改正错误的机会,有助于保证测验的公平公正性。