计算机化自适应测验(CAT)是一种适应被试能力水平的测验(Chang & Ying,2007)。CAT根据被试已经作答题目上的表现,从题库中序贯选择适合被试潜在能力水平的题目给被试作答。避免能力高的被试作答太多容易的题目;能力低的被试作答太多难的题目。相对于纸笔或非自适应的机考,CAT具有很好的优势:第一,被试只需作答更少(一半)的题目,测试时间更短,就可以获得纸笔测验同样的精度;第二,在计算机自动评分技术的支持下,可以即时报告学生分数,并提供关于学生能力、知识和技能等丰富的诊断信息,有助于辅助教学;第三,多媒体技术甚至虚拟化技术让题型新颖,使测验情景更具真实性,能够测量纸笔测验难以测量的多个方面的能力;第四,建立在客观测量理论基础之上,结合最新的项目选择算法或试卷实时生成技术,使测验的质量和安全性更高。
在我国,计算机化自适应测验也运用到了军队入伍考试中,通过自适应考试淘汰一部分有心理缺陷的人,每年淘汰一个师左右的人员。承接此科研任务的中国人民解放军第四军医大学,获得了全军重大技术贡献奖,在2010年1月14日完成的“中国军人医学与心理选拔研究”成果,荣获国家科技进步一等奖。测评是建立在相应的测量理论、方法和技术之上,才能保证测评结果的客观性、全面性与有效性。
CAT必须以现代测量理论之项目反应理论为基础。与经典测量理论相比,项目反应理论具有以下优点(戴海琦,2010;丁树良,罗芬,涂冬波,等,2012;漆书青,戴海琦,丁树良,2002):项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并将其参数化、模型化,这是自适应测评客观化和量化的前提;IRT模型项目参数的估计独立于被试样本,这是为自适应测评建立大型题库的重要理论依据;项目难度参数与能力参数是定义在同一个量表上的,这一特点为自适应测评奠定了基础;Fisher局部信息量和相对熵(Kullback-Leibler,KL)全局信息量,可以度量被试能力点估计测量误差和区间信息量,这是自适应测评构建选题算法的理论基础。
在单维项目反应理论基础之上,下面给出一个用于分析0-1评分的单维项目反应理论模型:
其中Pj(θ)表示在能力θ条件下,被试在项目j上的正确作答概率,Qj(θ)=1-Pj(θ)表示错误作答概率,aj,bj和cj分别为项目j的区分度、难度和猜测参数。给定项目反应理论模型,本章主要介绍CAT实现过程中主要涉及的CAT选题策略算法、CAT参数估计方法、CAT曝光率控制技术和CAT终止策略等。
CAT根据被试已经作答题目上的反应,序贯从题库中选择适合被试能力水平的题目给被试。到底采用什么方法或准则进行选题,使得CAT的高效性得以发挥,这是CAT实现过程中要重点考虑的问题。本节主要介绍三类常用的选题算法,分别是:Fisher信息量选题方法、KL信息量选题方法和最大优先级指标选题方法。
一、Fisher信息量选题方法
二、KL信息量选题方法
当测验长度较长时,Fisher信息量才能用于度量较接近的能力真值的能力估计处的测量误差,因此Fisher信息量被称为局部信息量(Local Information)(Chang & Ying,1996)。而在测验初期,能力估计值与真值相差比较大时,能力估计值处Fisher信息量用处不大,并不能用于衡量能力真值处的测量误差。因此,Chang和Ying(1996)提出基于KL的全局信息量(Global Information)选题方法,该方法所选择的题目为
三、最大优先级指标选题方法
优先级指标(Priority Index)计算公式如下:
其中cjd为约束矩阵中的元素,cjd指示题目j所在的内容领域、答案选项、题型、选中状态(用于曝光控制)等约束指标;fjd=(Xk-xk)/Xk为缺额(Quota Left)比率;wd为权重。该选题方法如果还要考虑测验精度,则可与前面两种选题方法结合使用。还有研究(Su,2016;Yao,2013)将最大优先指标方法(Cheng & Chang,2009)应用于多维项目反应理论模型。