第三节 其他模型下的在线标定(1 / 1)

一、认知诊断考试的在线标定

与单维二级评分模型下的在线标定相比,对于CD-CAT情境下的在线标定的研究还比较稀少。套用认知诊断模型的考试,与套用单维IRT模型的考试相比,二者的不同是,后者只给出一个总体能力水平估计值,而前者则可以提供每位考生在不同被考量方面(Attribute,又常翻译为属性)的掌握情况(二项结果:掌握或未掌握)。与多维度IRT模型相比,二者都可以给出多个考量方面的测量结果,但多维度IRT给出的结果是各维度上的连续分数,而认知诊断模型给出的是二项结果。正因如此,多维度IRT的参数估计程序复杂,需要的考试题目较多,而认知诊断模型的参数估计程序简单,可以从非常短的考试中较准确地分析出结果。而把CAT技术应用在认知诊断考试中,更进一步缩短了考试的长度,使得CD-CAT成为信息化课堂内对短期学习内容得力的快速诊断工具。

Chen等人(2012)开创性地讨论了DINA模型题目参数(失误参数s和猜测参数g)的在线标定算法。文章重点提出了由Stocking-A,OEM,MEM三种方法衍生出的CD-Method A,CD-OEM和CD-MEM三种参数估计法。在其他的设计因素方面,他们使用了随机选题法和以考生能力值为中心的试测题选题法,将试测题随机嵌入全卷中,而他们并没有使用任何试测终止规则。他们的模拟研究发现,当题目中的真实猜测度参数和失误参数都较小时,CD-Method A对题目参数的估计比CD-OEM和CD-MEM更精准;当真实猜测度参数和失误参数都较大时,CD-Method A不如CD-OEM和CD-MEM精准。

上述研究假定Q矩阵是已知的,而Chen,Liu和Ying(2015)提出了将Q矩阵和题目参数一起在线标定的算法。具体来说,他们的算法分为两步,第一步先为每一种可能的Q矩阵算出使似然值最大化的题目参数,第二步再比较不同Q矩阵生成的最大似然值,找到使这个最大似然值最大化的Q矩阵。

二、多维IRT的在线标定

目前对多维CAT的在线标定的研究也非常稀少,主要可见的成果为Chen和Xin(2013),Chen和Wang(2015),Chen(2015)。在这一系列研究中,Chen和Xin(2013)最先将传统的Stocking-A,OEM,MEM延伸到MCAT中,提出了M-Method A,M-OEM,和M-MEM。而后,为了纠正M-Method A中将考生能力向量估计值当作真实值使用带来了误差,Chen和Wang(2015)提出了Full Functional MLE-M-Method-A(FFMLE-M-Method A)。最近Chen(2015)又提出了在M-OEM和M-MEM中加入贝叶斯先验成分的方法:M-OEM-BME和M-MEM-BME。

三、单维多项评分模型的在线标定

目前对单维多项评分的IRT模型的研究也处于起步阶段。Zheng(2015)将传统的Stocking-A,OEM,MEM延伸到Generalized Partial Credit Model(GPCM,Muraki,1992)中。模拟研究采用了随机选题法和以考生为中心的选题法,也比较了考试前部、考试中部、考试后部三种测试题嵌入位置。以上这些在线标定的新方向都有待未来的研究进一步充实。

综合全章所述,首先在线标定是一项拥有实践意义、价值和需求的技术。随着计算机化和自适应化考试的逐渐普及,对大型题库的应用将越来越大,而题库中题目的置换是一个实际需求。对于在线标定的研究,将对高效的、准确地完成新题的试测和标定起到至关重要的辅助作用。

如前文所述,对于在线标定的研究还处于起步阶段,有着很大的拓展空间。目前还没有一种设计是被普遍认可的,大型考试实践中也还尚未采用这一技术。要实现从理论到实践的推进,还需要此领域里更多的研究支持。

另外,正如前文提到的,除了在统计学上、技术上的研究和讨论之外,在线标定的应用还有不少实际的、概念上的障碍。比如,通过最优取样理论获取的样本很容易失去对总体的代表性,而这种样本从本质上来说是否有效?另外,如果嵌入试测题的难度与前后题目平衡过渡的难度趋势不符,考生是否真的能察觉到?如果能察觉到,是否会产生不必要的疑惑和焦虑,或者识别出试测题而影响作答动机等,这还需要更多的研究来探索和回答这些问题。

思考题:

1.什么是在线标定?它有什么特点?

2.在线标定测试题的选题方法有哪些?

3.简述在线标定的方法与特点。

4.谈谈在线标定未来可能的研究领域。