一、CAT的产生
假设需要测量三个物体的长度(如书本、桌子和树木),请问你会使用什么样的测量工具(直尺、米尺、皮尺……)?如果测量三个物体都使用同一个测量工具(如直尺或皮尺),请问该测量工具对这三个物体的测量误差是一样的吗?显然,测量误差不仅不是一样的还有可能差异较大。例如,用直尺测量树木的误差明显要大于测量书本的误差,而用皮尺测量书本的误差显然会大于测量树木的误差。因而在实践中,人们往往会根据物体(长度)本身的特征选择不同的测量工具。例如,用直尺测量书本长度、用米尺测量桌子长度、用皮尺测量树木的长度……以保证对每个物体的测量误差尽可能小。
同理,如果需要测量三个被试的能力(高、中、低),若使用同样的测量工具(如同一份试卷或量表),则该测量工具对该三个被试的测量误差可能不相同甚至差异很大,因而也需要根据不同被试能力的特点选择最适合他/她的测量工具。
传统的纸笔测验强调“千人一卷”,所有被试完全采用相同的测量工具(同一份试卷或量表),从而可以实现不同被试间分数的直接比较,这种做法表面上实现了“公平公正”,但实际上由于被试的测量误差各不相同且可能相差很大,反而影响了测验的“公平公正”。
计算机化自适应测验(CAT)的产生有望改善这一状况,它强调“因人施测”“量体裁衣”的自适应测量思想,从题库中为每个被试选择一份最适合他/她的测量工具(题目),即选择对每个被试具有最小测量误差(最大测量信度)的测量工具,从而真正实现了自适应的测量方式;同时,与传统纸笔测验相比,CAT不仅可以达到更高的测量精度,还有可以减少测验长度、减轻被试测试负担等优势。
二、CAT的原理
计算机化自适应测验的实现离不开相应的测量理论的支持,经典测量理论(CTT)由于无法实现项目参数间的等值从而不能支撑CAT的实现,而项目反应理论(IRT)的产生才使CAT的思想得以实现,因此一般认为项目反应理论是CAT的理论基础;同时CAT的实现还离不开具有相同量尺参数的大型题库(关于题库本章第三节有详细说明)。
CAT测试一般采用序贯测量方式,即根据被试的当前能力值,序贯从题库中选择与该被试当前能力相匹配的试题,被试每做完一道题都需要与前面所有做过的试题一并进行能力估计,并根据该被试新估计的当前能力估计值再从题库中挑选一道,依此循环,直至测试终止。参见图2-2-1。
图2-2-1 CAT过程
实现CAT的自适应选题,离不开相应的选题算法,当前测量学者们开发了多种自适应的选题算法,如难度匹配法、最大信息量法、按a分层法等。现以难度匹配法为例来说明CAT的基本原理(参见图2-2-2)。
图2-2-2中两位被试(A和B)参加CAT测试,由于一开始对两位被试的能力不清楚,CAT一般试探性从题库中随机选择一题(或几题)给被试作答。对于被试A,CAT随机选到一道偏容易的试题给被试作答,被试A答对该题,CAT接着挑选比上一题稍难的第2题给被试A做,答对第2题,CAT挑选比第2题更难的第3题供被试A作答,答对第3题,CAT接着挑选比第3题难的第4题,答错第4题,CAT再选择比第4题容易的第5题,依此循环。随着做题数量的不断增加,被试能答对/答错多大难度的题目倾向收敛(参见图2-2-2)。从图2-2-2可看出,被试A大概能答对难度约为1.2的题目,超过该难度倾向答错、低于该难度倾向答对,由此可判断被试A的能力值大约为1.2。从图2-2-2还可看出,被试B能答对难度约为-1.2的题目,超过该难度倾向答错、低于该难度倾向答对,由此可判断被试B的能力值大约为-1.2。当然CAT多半是根据被试在CAT上所有项目的作答情况综合对被试能力值进行更为精确的估计。
图2-2-2 CAT原理示意图
如果采用其他选题策略(如最大信息量法等),CAT的原理基本相似,这里不再详细展开。