CAT终止策略主要可以分为两大类:一类是定长CAT,即当被试测试的题量达到某一固定题量(如20题)则终止测试;另一类是非定长CAT。非定长CAT一般分两类,一类是以测验的能力估计标准误的绝对度量标准;另一类是题库中剩余项目所能减少测量误差的边际标准,这两类方法各有优劣(毛秀珍,辛涛,2015)。在此主要介绍非定长CAT的终止策略。
一、绝对型终止策略
如果要使能力估计标准误小于0.2,可设置c=25。
二、相对型终止策略
因为CAT的长度与选题策略和题库有关,为了解决作答大多的项目而精度提高幅度很小的问题,有研究者提出了可用于单维或多维项目反应理论模型的预测标准误减少量(Predicted Standard Error Reduction,PSER)终止规则(Yao,2013)。该规则具有以下优势:在题库中的项目不能较大提高估计精度时,不再增加测验长度而直接终止测验;增加一个或更多项目,可以较大地提高估计精度;估计精度与预设精度差异不太大。
该规则根据当前能力估计标准误规定测验终止和继续的条件:①如果某个能力维度或领域的当前标准误与上一估计标准误减小量小于临界值α,则不再选择考察该维度或领域上的项目,即使预先设定的标准误未达到;②如果某个能力维度或领域的当前标准误与上一估计标准误减小量大于临界值β,即使预先设定的标准误已经达到,仍然继续选择考察该维度或领域上的项目(并调整相应权重);③如果某个能力维度或领域的当前标准误不小于上一估计标准误,并且当前标准误与预先设定的标准误之差小于临界值α,则不再选择考察该维度或领域上的项目;④如果某个能力维度或领域的当前标准误不小于上一估计标准误,并且当前标准误与预先设定的标准误之差大于2β,则继续选择考察该维度或领域上的项目(并调整相应权重)。常设置β>α,如β=0.05和α=0.03。
在本章结束之际,最后简要介绍CAT一般会用的其他方法或技术,如等值技术、组卷技术(方法)和在线标定方法。
(1)等值技术。测评离不开题库维护和建设,网上许多题库充其量只能算“题堆”,这些题库仅仅只是把题目累积起来。什么叫题库,题库中的项目参数必须具有可比性,否则测验结果就不可以比较。这就要求题库建立在项目反应理论基础之上,借助连接设计(Linking Design),将题库中的题目进行组卷、施测,然后估计项目参数,并通过等值方法(如项目特征曲线等值法)进行项目参数等值获得统一量尺上的项目参数,才能进行CAT施测。另外,为了进行年级增值评估,还需要垂直等值技术。
(2)组卷技术(方法)。在介绍等值技术时,涉及自动化生成试卷技术。比如,你有一张原始卷和一个题库,可能需要按照你的原始卷从题库中自动抽卷,并组成很多试卷,这些试卷要求与原始卷的质量及难易度一样。题库平台中必须开发相应的智能组卷算法,在各种各样约束条件下,快速生成满足要求的试卷。张华华团队已经成功开发了应用于汉语语言考试(HSK)的快速智能组卷算法和程序(Chen,2015;Wang,Zheng,Zheng,Su & Li,2016),以及能在测试时根据被试能力水平实时而动态生成试卷的算法(Zheng & Chang,2015)。这些算法或技术可很好地提高测验质量和安全性。
(3)在线标定方法。除了采用需要等值方式建立题库,还可以通过CAT方式获得项目参数和Q矩阵等。起初可以根据教师的认识,由教师来对试题进行标注试题参数和所考查的知识,标注好了之后,我们用结合数据和数学模型进行模拟,对试题参数进行修正并进行新题批量标注。在确定模型性能之后,开始进行新题标注以自动扩充题库。即在自适应测试中,在学生作题时不知不觉地把新题目放上去,学生做完之后,再把这些题收回来,不作为学生计分,而只是对那些题目的参数进行估计。有了这些数学模型和方法,自适应测验就可以智能化地运行,并进行题库增量扩充(Chen & Wang,2015;Makransky,2010)。
思考题:
1.CAT选题策略有哪些?各有什么特点?
2.CAT中常用的参数估计方法有哪些?各有什么特点?
3.CAT曝光率控制技术有哪些?
4.如何理解CAT的终止策略?