第一节 概述(1 / 1)

一、在线标定的概念

近二十年来,随着电子信息技术的突飞猛进,与新型电子科技结合的考试越来越多,很多传统的考试也都正向计算机化与自适应化方向发展。随着考试设计越来越复杂、计算机自动化成分越来越多,考试的测量学模型也逐渐从传统的经典测量理论(CTT)转为了项目反应理论(IRT)。与CTT相比,IRT可以为题目质量分析提供更多的具体信息。更重要的是,IRT中估计考生能力水平的算法可以支持CAT中实时为每个考生选择不同考题的模式,而CTT无法支持这一模式。这使IRT成了现代计算机化考试的必需。

当使用IRT创建和分析考试时,题目参数标定(Item Calibration)是一个必不可少的环节。题目参数标定指的是将某一选定的IRT模型与考生作答数据拟合,随后通过统计上的算法估计出题目参数的值。现代考试很多都依赖大型题库,而题库中的每一道题,在使用和正式考试之前,都必须完成参数标定。参数标定的准确性直接影响着被试能力估计(Scoring)、等值(Equating)、项目功能差异分析的准确性,从而影响了考试的信度与效度。

对于长期施测的考试,随着时间的推移,题库中的一部分题目可能会出现过度曝光、内容过时陈旧或其他问题,而这部分题目需要被置换。每隔一段时间,考试开发方会开发一部分新题,用于补充题库,而这些新题也需要完成参数标定。那些大型的、高利害的考试对题库的质量要求相对较高,题库置换(Item Bank Replenishment)的需求也相应较高。对于这类考试,如何高效地、准确地完成参数标定,是一个重要的问题。

传统上,IRT参数估计需要通过专门的试测阶段完成。考试开发方组织专门的试测,潜在考生自愿参与,获得的考分与正式成绩无关,收集的作答数据仅用于标定题目参数。这种试测形式在开发一项新的考试时是必要的,然而在首轮考试正式启用后,后续的新题则可以嵌入正式考试中,用以收集数据。美国的SAT考试一直使用这种嵌入式的试测模式。每一次正式考试,都有一部分新题试测。这些新题被分为若干等分,每一等分则被嵌入一部分考生的考卷中,这些新题的分数不计入考生的总分。考生无法判断哪部分是试测题,因此收集的作答数据更接近于真实考试的数据。然而,这也并不是最高效的参数标定模式。

当这种嵌入模式被运用到CAT中时,这种测试模式则被称为在线标定(Stocking,1988)。在线标定的原理与CAT的原理相似:在CAT中,计算机以优化考生能力参数估计效率为目标,为每一位考生选择一组“最佳试题”;而在在线标定中,计算机以优化题目参数估计效率为目标,为每一道测试题选择一系列“最佳考生样本”。

二、在线标定的基本流程

图9-1-1说明了在线标定的基本流程。首先,一批试测题(可以是新写的题目,也可以是修改后需要标定的题目)形成试测题库。然后,在正式的CAT考试中,当考生到达预先指定的试测题嵌入位置时(考试中的第几题,可以是固定的位置,也可以是有规则的随机位置),计算机根据某种选题法从试测题库中选出一道题并呈现给考生。一次考试中可以安排多个试测题嵌入位置,在考生每一次达到嵌入位置时则重复第二步。在每个考生完成整个考试后,计算机对考试中嵌入的所有试测题进行参数估计。随着CAT考试的连续施测,试测题的参数值不断被更新,而取样的最佳值也随之自动调整。当一道试测题的题目达到取样终止条件时(如样本量足够大,或参数估计值足够准确),这道题则被从试测题库输出,即完成试测阶段。

图9-1-1 在线标定基本流程图

需要注意的是,在第二步选择试测题时,自适应选题法需要利用题目参数值的临时值,也就是不断被更新、精度不断提高的题目参数估计值。而在试测的初始期,试测题并没有任何参数值信息,这时有不同的解决方法。方法一,出题专家可以根据主观判断大致估计题目的初始参数(Wainer & Mislevy,1990);方法二,试测初期可不采用自适应选题法,而是随机选择测试题,在积累了一定样本量后,题目参数可以完成初步估计,估计值则可以用于下一阶段的自适应选题(Ban,Hanson,Wang,Yi & Harris,2001;Chen,Xin,Wang & Chang,2012;Kingsbury,2009)。相比之下,第二种方法更容易操作。

三、在线标定与最优设计

在线标定与最优设计(Optimal Design)存在一定的联系。最优设计是现代统计学中非常活跃的一个分支。这一分支的总研究目标是从统计学的角度寻找实验或取样设计的最佳方案,从而提高效率,降低成本。最优设计的一系列理论目前已经被应用在很多领域,如工程、化工、教育、生化药学、市场营销、环境科学等(Berger & Wong,2005)。

在教育测量领域中,最优设计的应用主要有两个方面:一方面,是选取最优的题目,用以优化考生能力水平的估计效率,也就是CAT;另一方面,则是选取最优的考生样本,用以优化题目参数的估计效率,也就是在线标定的目标之一。

目前最常用的试测取样方法是简单随机取样,这种方法的好处是所取得的样本对总体最具有代表性。这也是在纸笔测验的试测中最实际的一种方法。而在CAT环境下,当试测题可以被实时选用,考生的能力水平估计值也可知时,从理论上来说,前人通过计算机模拟研究得出结论,如根据考生能力水平和题目参数值来有规则地取样,参数标定的效率就可以提高(Berger,1991;Lord,1962)。这里参数标定的效率是通过同一样本量下的参数估计标准误来反映的。在样本量等同时,参数估计的标准误越小,效率越高。换个角度说,要达到同样的估计精度,最优设计需要的样本量较小,节约了成本。

然而在实践中,考生能力水平和题目参数的真实值都是不可知的。那么一个折中的方法则是利用在CAT中估计出的考生能力水平值,以及从已有数据中估计出的临时题目参数值。这些临时题目参数值将随着试测的进行、新样本的积累,不断地更新,而这种方法则称为“最优序贯设计”(Optimal Sequential Design)(Berger,1992;Jones & Jin,1994;Ying & Wu,1997)。前人(Chang,2011;Ying & Wu,1997)证明了在一系列正则条件下,这种最优序列设计将会收敛至最优设计。这些统计证明为在线标定的实践应用打下了理论基础。

需要注意的是,事实上,在线标定并不完全符合最优设计的情境。最优设计通过统计计算,为每一道测试题算出最佳样本的取样标准,然后通过这一标准去取样。在在线标定的情境下,这些样本也就是参加CAT考试的考生们,而符合最优设计的情境是所有的考生形成一个考生样本库,而我们可以任意选择某一考生来回答一道测试题。然而在真实的CAT情境下,我们无法控制哪些考生来参加考试。在某一特定时间点,正在参加CAT考试的考生是给定的,可以控制的只有选哪一道测试题给这位考生,如图9-1-1所示。这一情境与最优设计的情境有所偏差。

另外,这套统计理论只考虑了统计估计上的量化指标。有的学者会质疑这种基于统计估计效率的最优取样,因为这样获取的样本很容易失去对总体的代表性,从而成为偏置样本。那么通过这种样本估计出的参数值,尽管量化方面效率提高了,但从质性方面考虑,是否有效呢?这是一个值得探讨的争议。

四、在线标定的主要设计因素

从图9-1-1中可以归纳出在线标定程序中的四大设计因素:

第一,试测题嵌入位置。在正式的CAT考试过程中,哪些题目位置被安排为试测题?

第二,试测题选题法。如何根据题目临时参数和考生能力估计值将考生和试测题合理搭配?

第三,参数估计法。如何将已有常规参数估计方法改编成适合在线标定情境的参数估计方法?

第四,试测终止规则。在什么条件下终止一道试测题的试测过程?

测量学界对在线标定的探索始于20世纪80年代(Stocking,1988)。目前存在的研究可以归类为两大方向:一是对于在线标定情境下参数估计方法的开发(Ban,Hanson,Wang,Li & Harris,2001;Chen,Xin,Way & Chang,2012;Segall,2003;Stocking,1988)。二是对试测题选题的探索(Chang & Lu,2010;Chen,Xin,Way & Chang,2012;Kingsbury,2009;van der Linden & Ren,2015)。目前,研究试测题嵌入位置和试测终止规则的文献还较少。

另外,大多数可见文献都是关于单维二级评分模型下在线标定的讨论,而在其他模型下(如单维多项评分、多维度模型、认知诊断模型)的研究则仍处于起步状态。下文将先对文献资料比较成熟的单维二级评分模型下的在线标定进行详细的论述,之后再对其他模型下的研究情况进行概括。