计算机化自适应测验的开发是一项庞大复杂的工程,它至少涉及以下五个基本过程:准备阶段、题库建设、CAT算法确定、信度与效度验证以及正式使用与题库维护更新等(图2-3-1)。
图2-3-1 CAT开发流程
一、准备阶段
为了更好地开发CAT系统,相关的先期准备与调研工作显得十分必要。
(一)技术团队准备
良好的技术团队是保障CAT开发工作顺利开展的前提条件。CAT开发的技术团队应包括:心理与教育测量专家、题目内容领域专家以及计算机专家等。心理与教育测量学家主要负责测量模型(IRT模型)的开发或选用、等值设计与组卷、参数估计与等值算法、CAT算法等;题目内容领域专家主要负责CAT拟测量的潜在特质及其结构、试题开发、测量结果的解释等;计算机专家负责数据库开发、CAT测试系统开发、题库的维护等。因此,开发一个CAT系统前,应保证具有以上相关技术团队。
(二)实验性预分析:可行性分析及IRT模型的选用
在CAT开发前,应对要开发的CAT的具体领域进行调查与实验性预分析,从而判断该CAT的可行性以及为具体IRT模型的选用提供基础。例如,要开发大学生英语能力的CAT系统,那么应先对现有大学英语能力测验数据进行相关分析,如测验维度分析、项目相依性分析、项目质量分析、计分方式分析、项目功能差异分析(DIF)、信度分析以及模型-资料拟合检验分析等,从而判断是否适合采用IRT模型来指导CAT开发?如果适合,那么结合实际情况,应具体采用哪种IRT模型(如单维模型VS多维模型、二级评分模型VS多级评分模型、题组反应模型VS项目反应模型、计时模型VS非计时模型等)。
二、题库建设
大型题库是CAT的基础,也是CAT开发的难点所在。CAT的题库不是简单地将试题拼凑在一块(这个称为“题集”或“题堆”)。CAT对题库的要求较高,它应具备以下特征:
·题库测量内容及其分布符合测量目标要求(如测量维度、内容分布等);
·每题具有明确的测量内容领域、考核的认知能力层次等;
·每题都有IRT模型参数(如难度参数、区分度参数等);
·每题的参数都定义在同一量尺上(入库前需进行等值设计与等值转换);
·每题的测量学特征符合测量学要求(如有高区分度,无DIF等);
·试题量大(如超过300题)。
高质量的大型题库是保证CAT的科学性以及CAT优点充分展现的基础,CAT题库的开发与传统CTT理论下的题库开发具有本质性的区别,它至少涉及以下环节(图2-3-2)。
图2-3-2 题库建设的基本步骤
(一)试题开发
试题开发离不开相关内容领域的专家,试题的开发一般有两条路径:一是对已有试题的修改或直接使用,二是根据测量要求由相关内容领域的专家开发编制新的试题。那么到底要开发多少道试题呢?如果计划最终CAT的题库要有300题,那么最初编制的试题数应该要远超过300题(如450题),因为内容领域的专家无法保证所编制的每道试题都符合测量学要求(如高区分度等),并符合相关测试标准(如教学大纲等)。
(二)等值设计与测验组卷
为了保证所有试题参数都建立在同一量尺上,需进行测验等值设计,并据此进行测验组卷。在实践领域中,目前采用较多的等值设计方案是基于IRT的锚测验(Anchor Test)非等组设计,即两份不同的测验中有部分相同的试题(锚测验),然后通过锚测验这个中间媒介实现两份测验间的项目参数等值。
(三)测试与参数估计
将经过等值设计并组好的多份试卷对被试进行测试,以获取测试数据。为了保证IRT分析的科学性,每份试卷测试的被试人数尽量不少于1000人。然后,采用IRT相关模型对测试数据进行参数估计及IRT分析。
(四)项目分析与筛选
根据上步估计的项目参数(如难度与区分度参数)以及IRT分析(如模型-资料拟合检验分析、DIF分析等),需对项目进行筛选,淘汰不符合测量学要求的试题,符合以下条件之一的试题应考虑淘汰。
·项目测量的维度不符合单维(如项目在多个维度上均具有高的负荷);
·项目区分度过低(如a<0.5);
·项目难度值奇异(如|b|>10);
·模型-资料不拟合;
·存在项目功能差异(DIF);
·其他考察因素。
(五)测验等值
采用IRT的等值方法(如项目特征曲线等值法)实现不同测验间的项目参数等值,从而保证项目参数定义在同一量尺上。
(六)形成正式题库
经以上五步,把最终符合测量学要求且项目参数等值在同一量尺上的试题组成题库。如果这时题库中的试题数量未达到要求,则应考虑再开发新试题,并经以上五步,直至题库题量符合要求;或者采用项目在线标定(On-line Item Calibration)技术,在实际使用过程中实现题库的自动扩充,关于在线标定技术,读者可参考本书第九章内容。
三、CAT算法确定
实现“因人施测”的自适应(Adaptive)需要相关的CAT算法为支撑,CAT算法主要包括以下内容。
(一)选题策略
CAT需根据被试特点选择适合被试的项目,在能力测量的CAT中,则需要根据被试能力的高低选择相应难度的题目测量被试,如能力高的被试可以选择难的项目,能力低的被试选择容易的项目,从而达到被试能力水平与难度相匹配的自适应。目前在CAT领域中,测量学者们开发了大量的选题策略供实际使用者使用。
(二)能力参数估计
由于事先不知道被试的能力水平,所以CAT一般先选择几道中等难度的题目给被试做,并根据被试对这几题的作答情况来估计被试当前的能力值,然后再根据当前估计能力值从题库中选择难度与该能力相匹配的题目给被试,每新做完一题都需要与原来做完的所有题放在一起重新估计被试的能力值,依此循环,直至达到CAT终止的规则。在这个循环过程中,需要不断估计被试的能力参数,目前使用较多的能力参数估计方法有极大似然估计(MLE)、极大后验估计(MAP)、贝叶斯期望后验估计(EAP)等。
(三)曝光率控制
由于CAT的库题数量有限,当被试越多时,项目被使用的次数就会越多(尤其是高区分度、质量较好的项目),即项目的曝光率也越高。曝光率越高,则测验的安全性越差,而且过度曝光的题目的测量性能(如难度参数)会发生改变,进而影响到CAT的测量精度。因此对于一些CAT来说(尤其是高利害的CAT),需要采取一些技术来降低曝光率,从而提高题库使用的均匀性,提升CAT测试的安全性及测量精度。
(四)终止策略
终止CAT测试的方法一般有两种,一种是定长(Fixed Length),即当被试完成了m题(如m=25)则结束测试;另一种是不定长(Variable Length),指固定测量误差(或测量信度),即如果某被试在CAT测试过程中达到某一设定的测量精度,则停止测试。这种策略的特点是被试的测量误差(或测量信度)相近,但每个被试使用的题量不等。
以上CAT算法的确定需综合考虑多种因素:已有实证数据的分析结果,Mont Carlo模拟实验结果,测试对象特征、测验目标要求甚至是相关法律、文件要求等,关于以上CAT各种算法的详细介绍,读者可参见本书第三章。
四、信度与效度验证
(一)CAT信度验证
CAT的信度验证,一方面可借鉴经典测量理论(CTT)的信度验证方法,如重测信度,考察同一批被试两次不同时间CAT测量结果的一致性程度;复本信度,将CAT题库随机分成两半(复本题库),考察同一批被试在两个CAT复本题库下测量结果的一致性程度。这种基于CTT方法下的信度,一般只能分析所有被试一个笼统的信度值,但无法具体分析CAT对不同被试的测量误差(测量信度)的不同。
CAT信度验证的另一种思路,是以IRT为基础的测验信息量(Information,I),通过信息的大小来考察测量误差及测量的信度。IRT中,信息量与测量误差的数学关系式为
而测量误差与测量信度成如下反比例函数关系(假定被试能力均值为0,标准差为1)
则由公式(2.3.1)和公式(2.3.2)可得CAT对能力为θi的被试的测量信度为
也即,可通过被试在CAT测试的信息量来计算该被试的测量误差和测量信度。例如,对能力为θi的被试的信息量为25,则CAT对其的测量误差为0.2,对其测量的信度为0.96,参见表2-3-1和图2-3-3。
表2-3-1 信息量与信度及测量误差的关系
图2-3-3 测验对不同能力被试的信息量及测量误差
与经典测量理论下的信度相比,基于IRT的信度可以具体分析CAT系统对不同能力被试(θi)的测量信度及测量误差,从而可以细致考察CAT对每个被试测量的准确性,这也为CAT的自适应选题提供了重要的技术支持(如挑选对被试具有最大信息量即最小测量误差、最大测量信度的试题给被试做)。
(二)CAT效度验证
CAT的效度验证多半采用经典测量理论的方法验证,如效标关联效度,即CAT测量结果与某一效标之间的关联程度。这方面内容读者可参考相关经典测量理论的文献。
五、正式使用与题库维护更新
在CAT系统建成之后,经大量试测、破坏性实验及用户体验和意见征求且效果良好之后,可以考虑正式使用CAT系统,并在使用过程中根据出现的问题及时修正与完善。
随着时间的推移,CAT题库中,有的试题可能内容陈旧或过时,有的试题被使用的次数过少或没有,而有的试题则被过度使用(曝光率高)等,这些都对题库的维护与更新提出了新要求:一方面需要对已有题库中的题目进行适度的调整、修改甚至删除;另一方面还需根据形式要求,不断向题库中增加新的、质量优秀的试题,从而使题库能不断适应新的环境及满足新的实际需求。
但我们知道,CAT题库中所有试题都必须具有IRT参数,更为重要的是这些参数还需等值到同一量尺上。然而,题库中修改前与修改后的试题的测量学特征(如难度)会发生改变;新增加的试题的参数未知等。因此这类试题不能简单地直接入库,需要经过测试及等值等过程,从而保证修改了的试题以及新增加的试题具有IRT参数并且与题库参数定义在同一量尺上。
随着测量技术的发展,目前学者们已提出了多种CAT中新题参数的在线标定技术,即在实际CAT使用过程中,自动实现对新增加的试题或题库中修改了的试题进行项目参数标定,从而省去了组卷测试以及等值等烦琐工作,大大节省了对题库维护更新的成本,本书第九章将对CAT项目参数在线标定作详细介绍。