第二节 单维二级评分模型下的在线标定(1 / 1)

一、试测题选题法

试测题选题法决定了如何将不同的考生和测试题搭配起来。目前文献中存在的试测题选题法可归为三大类:随机选题法、以考生能力值为中心的选题法、以试测题参数值为中心的选题法。

(一)随机选题法

随机选题法的定义是:在正式的CAT过程中,当一位考生前进到某个预先指定的试测题嵌入题目位置时,计算机随机从试测题库中抽取出一道测试题呈现给考生。这个选题法是最容易执行的,并且生成的样本最具多样性和对总体的代表性。当考生总体能力值呈正态分布时,这种选题法也将会为每道试测题生成一个大致呈正态分布的样本。

然而一个潜在的问题是,在CAT中试题的难度理论上一般会呈现逐渐升高或降低的平稳轨迹,而一道随机选出的测试题可能会在周围平稳过渡的题目之中表现出明显不同的难度,而这个情况有可能会给考生带来不必要的困惑或焦虑感(Kingsbury,2009),或者也可能会使考生察觉到这是一道不计入总分的试测题,于是不努力作答,从而影响到作答数据的质量。

(二)以考生能力值为中心的选题法

以考生能力值为中心的选题法的定义为:在正式的CAT过程中,当一位考生前进到某个预先指定的试测题嵌入题目位置时,计算机采用与正式CAT的选题法相同的方法选取试测题(Chen,Xin,Wang & Chang,2010;Kingsbury,2009)。由于正式CAT的选题法大多以优化考生能力值估计为目标,所以在这里我们将这种用同一方法选取试测题的设计称为以考生能力值为中心的选题法。然而正是因为这种选题以优化考生能力值估计为目标,所以它的缺点也在于,它并不是为优化试测题参数估计而设计的。

Kingbury(2009)讨论了在1PL模型下的用此选题法的在线标定设计。这种选题法在1PL模型下是比较合理的,因为根据1PL模型的特点,CAT最常用的最大信息量选题法,将通过选取其难度参数值最接近被试能力估计值的题目来优化考生能力值估计。而用这种方法选择测试题,也会达到将题目难度参数值与考生能力估计值相搭配的效果,从而优化试测题参数标定的效率。

然而在其他IRT模型下,情况就没有这么简单了,对于不同的题目参数(如区分度、难度、猜测度),能够优化参数估计的被试能力值分布是截然不同的。

例如,一道3PL模型下的测试题有三个题目参数:区分度(a)、难度(b)和猜测度(c)。其项目反应方程为

将这三个题目参数看作一个向量,估计这个向量的Fisher信息量矩阵可表达为:

其中

Fisher信息量代表了参数估计的效率,信息量越高,算法对于区别参数的真值与真值周围的其他值越敏感。图9-2-1举例说明了三个信息量的显著区别。图中三条曲线分别由上文中的Iaaij,Ibbij和Iccij的公式生成。对于不同的参数,提供高信息量的被试能力值区域截然不同:对于难度参数,与其真实难度参数值接近的考生能力值区域提供了最高信息量;对于区分度参数,与其真实难度参数值接近的考生能力值区域反而提供了接近于零的信息量,而两边相距一段距离的区域信息量最高;对于猜测度参数,考生能力值越低,信息量反而越高。

图9-2-1 一道3PL题目(a=1,b=0,c=0.2)中不同被试能力值为估计三个参数分别生成的Fisher信息量曲线

而对于3PL模型的CAT来说,常用的最大信息量选题法的目标是使考生能力值参数估计的Fisher信息量最大化,而从模型公式推得,这个选题法最终会将考生能力值与题目难度参数大致相配。而如用这种选题法来同样选取试测题,将会为估计难度参数提供很高的信息量,但却为估计区分度参数和猜测度参数提供几乎为零的信息。也就是说,以考生能力值为中心的选题法,对于3PL模型的题目来说,不仅不能优化效率,反而可能导致严重的估计不准。

同样的分析也适用于其他非1PL的模型。总而言之,试测题的选取必须综合考虑各参数的信息需求,取得总体上的优化。而如何整合不同参数各异的信息需求呢?下文中以测试题参数值为中心的选题法提供了几种不同的角度。

(三)以试测题参数值为中心的选题法

与以考生能力值为中心的选题法形成对比的是,以试测题参数值为中心的选题法的选题指标则是围绕优化试测题的参数估计而设计的。而在以优化试测题的参数估计为目标的统计指标中,使用最广泛的是D-optimal指标(Berger,1992;Berger,King & Wong,2000;Chang & Lu,2010;Jones & Jin,1994;Zhu,2006)。

也就是说,D-optimal指标值越高,题目参数估计的误差越小,题目标定的效率越高。

1.早期文献:作为一种取样设计的在线标定

部分早期的在线标定文献(Chang & Lu,2010;Jones & Jin,1994;Zhu,2006)将在线标定等同于取样设计来处理,即直接借用最优设计的理论架构:以优化试测题参数估计效率为目标,寻找最优考生能力值样本。他们考虑的情境与上文第一节第二部分描述的在线标定流程不同。

他们的设计是假设有一个“考生库”可供试测题取样任意选用。对于每一道试测题,最优样本标准的计算、样本的取得、题目参数的更新这三步循环进行。而常用的最优样本标准是如下的D-optimal标准:对于一道已经有k-1个样本的题目j,选取第k个样本时,选取合适的考生能力值(θk)使其最大化如下:

其中第一部分是之前所有取得的样本为题目j的参数向量估计提供的Fisher信息量矩阵总和,第二部分是由θk值提供的信息量矩阵。这里Fisher信息量的可加性是基于不同考生相互独立的假设。

有学者由上述原理延伸出更简单易行的一些指标(Berger,1992;Buyske,1998;Chang & Lu,2010;Zhu,2006)。例如,Berger(1992)将2PL模型中的D-optimal指标简化为了题目的Logistic曲线上的第17.6和第82.4两个百分位。基于这个设计,Chang和Lu(2010)的在线标定由两大步组成:

第一步,完成正式的CAT考试,为每一位考生估计能力值。

第二步,对于每一道试测题,选取第一步中能力估计值最接近于该题目临时参数值形成的Logistic曲线上的第17.6和第82.4两个百分位的考生,即和。随后更新题目参数值,再取两个新样本,直到参数向量估计的置信椭圆体的最长轴长度小于某域限值。

而Buyske(1998)提出了以最终考生能力估计精确度为优化目标的L-optimal设计。对于2PL模型,这等同于题目的Logistic曲线上的第25和第75两个百分位。对于3PL模型,Buyske(1998)也提出了“三点设计”。Zhu(2006)用计算机模拟的方式比较了基于D-optimal和L-optimal的“两点设计”,结果发现两种方法效果相似。

然而,如前文所述,以上这些直接基于最优设计理论的方法,在现实中是不可行的。这些方法假设所有的考生形成一个“考生库”,而库中的考生可以随时被任意选取作为题目标定的样本。然而在真实的CAT情境下,考生在不同的自选时间来参加考试,他们作答试测题的时间也可能各自不同,并且时间窗口非常有限,难以形成一个考生库。

2.van der Linden和Ren(2015)的贝叶斯D-optimal设计

van der Linden和Ren(2015)提出了另一种在线标定的设计,同样基于D-optimal的统计指标,但整个流程的设计考虑了现实可行性。他们的设计基本符合本章第一节第二部分中描述的流程。考生可以在不同的时间参加CAT考试,而当某一考生在考试过程中到达了预定的试测题嵌入位置时,计算机取得该考生的能力估计值,而后为试测题库中的每一道试测题j计算出如下贝叶斯D-optimal指标值:

其中前一项中第一部分和后一项是该测试题之前已获取的所有样本的Fisher信息量矩阵的总和,前一项中第二部分是用考生目前能力估计值算出的该考生可以对该测试题参数估计提供的信息量。请注意,在同一时间,测试题库中不同的题目已积累的样本量可以不同,因此公式中的k带有下标j。

这个设计,不再是在一个不现实的“考生库”中比较考生,而是在试测题库中的题目之间进行比较,因而变得可行。而被选取的试测题,也总是在所有试测题之中,可以生成上述贝叶斯D-optimal指标最大值的题目。

然而这种设计有一个潜在的问题:不同的试测题自身的统计质量是有高低之分的,质量较高的题目更容易生成较高的贝叶斯D-optimal指标值,而总被选取;质量较低的题目总是生成较低的贝叶斯D-optimal指标值,而一直不被选取。

图9-2-2举例说明了这种偏向优势。图中第1题的参数值为a=2,b=1,c=0.2,第2题的参数值为a=1,b=0,c=0.25。图中的曲线是61名考生为两道题分别生成的贝叶斯D-optimal指标值。前60名考生的能力值是从正态分布中随机抽取的值,组成了公式(9.2.11)中前一项中的第一部分和后一项。第61名考生的能力值形成了图9-2-2中的横坐标,也构成了公式(9.2.11)中前一项中的第二部分。很明显,对于这两道题,不论第61名考生的能力估计值在-3与3之间的什么水平,van der Linden和Ren(2015)的贝叶斯D-optimal方法都将选择第一道题。

图9-2-2 两道3PL题目的贝叶斯D-optimal指标值

在这种选题设计下,如果考试实施方在某一时间点统一终止所有试测,那么获取的试测题参数中可能会有一部分题因为取得很多样本而估计得非常精确,而另一部分题因为一直极少被选取而估计得非常不精确,甚至无法被标定。

另外,这种设计也可能导致试测题的难度与前后正式题目的难度存在唐突变化,而导致考生不必要的疑惑和焦虑,或者识别出试测题而影响作答动机。

3.Zheng(2014)的区间排序信息量优先权设计

针对上文所述的问题,Zheng(2014)提出了一个新的选题指标:区间排序信息量优先权指标(Ordered Informative Range Priority Index,OIRPI)。这一设计同样符合本章第一节第二部分中描述的在线标定基本流程:当某一考生在CAT考试过程中到达了预定的试测题嵌入位置时,计算机为试测题库中的每一道试测题计算出OIRPI指标的值,而后选取优先权最高的试测题呈现给考生。

这一指标衡量的是各试测题对当前考生的需求度,而该设计的核心思想在于对该需求度的定义:如果与其他考生可能提供的能力值相比,当前考生所拥有的能力值可以为某测试题的参数标定生成更大的信息量,那么说明这道试题对当前考生的需求量很高,因为如果这道试测错过了该考生的样本,那么之后出现的拥有其他能力值的考生只能提供相对较低的信息量。

OIRPI设计包含以下三大步骤。

第一步,将考生能力值合理范围划分为R个区间,取每个区间的中间值θr代表该区间。一种划分方法是在能力值量尺上取等长区间;另一种划分方法是在相应百分位量尺上取等长区间,然后再转化成对应的能力值,这种转化可依照假设的能力值分布进行,也可依照之前考试的能力估计经验分布进行。

第二步,当某一考生在CAT考试中到达预定的试测题嵌入位置时,对试测题库中的每一道题j分别完成以下步骤,以获取各题的OIRPI指标值。

第二(1)步,为每个区间计算如下D-optimal指标值:

其中第一部分是之前所有取得的样本为题目j的参数向量估计提供的Fisher信息量矩阵总和,第二部分是由θr值提供的信息量矩阵。

第二(2)步,将该题所有能力区间上的Djr值内部标准化:

这里Sjr代表了该区间与其他区间相比,提供的信息量的相对大小。

第二(3)步,将当前考生能力估计值所在区间的Sjr值指定为该题的OIRPI指标值。

第三步,在所有的试测题OIRPI计算完成后,选取OIRPI值最高的题目,呈现给考生。

与van der Linden and Ren(2015)的贝叶斯D-optimal指标相比,贝叶斯D-optimal指标是将所有试测题产生的信息量相比较,可理解成“基于价值的指标”;而OIRPI指标是将当前考生能力值与其他的能力值范围相比较,产生每一道试测题的需求度,可理解成“基于需求的指标”。与前者相同的是,OIRPI设计也同样存在试测题的难度与前后正式题目的难度有唐突变化的可能性。

4.Ali和Chang(2014)的适合度指标

Ali和Chang(2014)提出了另一种试测题选题法,命名为适合度指标(Suit-ability Index)。他们的方法并没有用基于信息量的统计指标(如D-optimal指标),而是重点考虑控制每一道测试题在不同的考生能力值上的样本量。他们的适合度指标定义如下:

其中

考生能力水平值范围被分为k个区间;对于测试题j,Tjk代表在区间k上的目标样本量,而tjk代表在区间k上的样本量,所以fjk代表了题目j在考生能力值区间k上的样本缺乏度。而公式(9.2.14)取得k个区间上样本缺乏度的加权整合值(wk为权重),并与考生能力值与题目难度参数的接近度整合,形成了适合度指标。

这种设计理论上可以平衡在任一时间点上各试测题获取的样本量,是解决van der Linden和Ren(2015)的贝叶斯D-optimal设计的潜在问题的方法之一。另外,将考生能力值与题目难度参数的相配度列入考虑范围,理论上可能可以缓解嵌入试测题的难度与前后题目的难度存在唐突变化的问题,但实际上是否有效果值得验证。

而它的缺陷则在于适合度指标定义的主观性。首先,Tjk和wk的选取完全由主观决定。其次,对于样本的缺乏度以及考生能力值与题目难度参数的相配度的整合,适合度参数采用了简单相乘的方法。这两种定义不同的量,取值的范围可能相差很大,但简单相乘的方法没有对不同的量级或两者间的重要性进行加权处理,可能过于简单化了。这也会使人对指标中前半部分是否能够有效缓解嵌入试测题的难度与前后题目的难度唐突变化的问题产生疑问。

(四)总结

综合以上可见,目前在单维二级评分模型下的试测题选题法的种类很多。以考生能力值为中心的选题法,对除1PL模型之外的模型,有思路上的问题;而对以试测题为中心的选题法的早期探索,实际上不可行。除此之外,其他选题法包括以试测题为中心的选题法以及随机选题法,策略各异,各有不同的优势。目前还没有哪一种试测题选题法像CAT中的最大Fisher信息量一样,获得学术界和应用界的一致公认和采用。未来还需要更多的研究来充实这一方面的科学认识。

除了在统计学上特点不同之外,在试测题选题法的考虑中也包括了质性问题以及现实中与考生交互作用的讨论。如第一节所说的,通过最优取样理论获取的样本很容易失去对总体的代表性,从而成为偏置样本。那么这种样本从本质上来说是否有效呢?假如从这个角度来看,也许唯一有效的选题法就是随机取样。另外,如果嵌入试测题的难度与前后题目的难度之间有所不同,考生是否真的能察觉到?例如,Vispoel,Clough,Bleiler,Hendrickson和Ihrig(2002)及Vispoel,Clough和Bleiler(2005)通过真人实验发现,考生对于题目难度的判断差别很大,这并不准确。而这又对考生的心理和行为到底有什么真正的影响?这些都是值得思考和讨论的问题。

二、在线标定情境下的参数估计方法

(一)概述

1.在线标定与传统试测

在线标定情境下的题目参数估计和传统情境下的题目参数估计有明显的区别。在传统情境下,首先进行完整的试测,获取所有的作答数据,随后一次性完成题目标定。而作答数据一般是完整矩阵(所有参加试测的考生完成所有试测题),或者完整模块式矩阵(每一组题有规律地分配给一组考生,从而作答矩阵形成一个个方形模块)。与之相比,在线标定情境下,每一道题将实时分配给完全不同的考生样本,同时每一个考生作答的题目(包括正式CAT题和测试题)可以完全无系统规律。另外,在在线标定情境下,作答数据的获取和参数的标定是交替循环进行的。

传统的题目参数估计可以将整齐的作答矩阵提供给参数标定软件,统一估计出题目参数。对于大型的模块式矩阵,有些软件也可能无法处理。而在线标定情境下的作答数据,既不能形成整齐的矩阵,也有很多缺失值(因为每一个考生只作答正式CAT题库中的一小部分题目,以及试测题库中的一小部分题目),并且需要在样本不断积累的过程中反复估计和更新题目参数。因而在这种情境下,想要应用传统的参数估计软件可能会面临较大的困难,而需要开发新的计算程序来进行实时的、逐题的参数标定。

2.参数量尺的锚定

另一个需要考虑的方面是参数量尺(Scale)的锚定。由于IRT有参数量尺不确定(Scale Indeterminacy)的性质,在参数估计之后,需要对参数量尺进行锚定即等值。

如果是对一个全新的题库进行参数标定,而没有任何已知的参数量尺,那么在参数估计之后,可以任意变动参数量尺,而不影响模型的拟合效果。一般的程序会按难度参数或者考生能力参数分布进行量尺标准化,从而将参数量尺锚定。

如果存在现有的题库和相应的参数量尺,在试测和标定新题时,需要将新题的参数锚定到已有的参数量尺上,那么可以有两种方法完成:一种是将新题单独估计,事后通过量尺链接(Linking)的方法将新题参数折换到已有量尺上。这种链接需要倚靠常规等值设计中的锚题(Anchor Items)或锚人(Anchor Persons)来提供新旧量尺间的桥梁。这种方法环节多,成本大,对于锚题或锚人的要求复杂。另一种是将旧题引入新题参数估计的过程中,使旧题参数固定在已知参数值上,而后估计新题参数,这样估计出的新题参数毋需经过量尺链接,已直接锚定在已有量尺上了。这种方法相当于隐含地利用了锚人设计,因为每位考生都既完成了部分旧题也完成了部分新题。

适合在线标定的方式是上述第二种情境的第二种方法:每一次估计新题参数,将利用完成这一题的所有考生的作答数据,其中包含了他们各自完成的正式CAT的题目数据,用于对新题参数量尺的锚定。Kim(2006)讨论了几种在传统试测模式下使用的固定参数标定法(Fixed Parameter Calibration),这与下文要介绍的几种在线标定文献里参数估计法主旨相同,不同点在于在线标定的作答数据更分散,计算流程更机动灵活。

3.计算流程

在考试进行过程中,不需要在考生完成试测题之后马上进行参数标定,因为其后呈现的正式CAT题目的作答数据,仍可以被包含在参数标定的计算之中,提高估计的精度。所以正确的做法是在每位考生完成整个考试之后,对考试中嵌入的所有试测题进行标定。

另一种可行的计算流程是,在一道试测题积累若干个(如10个)新的作答数据之后再进行标定。也就是说,不需要在每位考生完成考试之后都实施参数标定,而是如果这位考生完成的试测题中,有一道题刚好积累了10个新的作答数据,则只对该题进行参数标定;而其他试测题只记录作答数据,不标定,等到有其他考生作答了这些题,达到10个新数据时,再集合之前记录的所有相关数据,来标定那些题。这个方法可以节省计算机的计算量。

下文将介绍已有文献中的几种适用于在线标定的参数估计方法。

(二)Stocking-A

Stocking-A(Stocking,1988)是最早被提出的针对在线标定情境的参数估计方法。在这一设计下,当一位考生完成了整个考试后,先利用正式CAT题目来估计考生的能力水平值。而后,把估计出的考生能力值当作已知定量,应用条件极大似然估计法(Conditional Maximum Likelihood Estimation)来估计参数值。在具体实现条件极大似然估计时,目标是找到能够最大化对数条件似然值的题目参数,一般需要采用计算机循环近似的算法。常用的算法是将二分法(Bisection)和牛顿-拉夫逊(Newton-Raphson)循环结合使用。

这个方法是思路上最直接,计算上最容易的。但Stocking(1988)的研究中发现,由于这一方法使用的是考生能力估计值,而不是真实能力值,产生的试测题参数值可能存在量尺漂移(Scale Drift)。

(三)OEM

OEM方法由Wainer和Mislevy(1990)提出,全称为单循环EM方法(One-cycle Expectation-maximization Method)。它是由传统参数估计中最受认可、最常用的边际极大似然估计法(Marginal Maximum Likelihood)衍生出来的。

边际极大似然估计法的理念是当考生能力值未知,无法运用条件极大似然估计法时,基于从作答数据中算出的后验考生能力值分布,可以算出题目参数的边际似然值表达式,而后以最大化这一边际似然值为目标,算出题目参数值。

在Baker和Kim(2004)的详解中,这一算法的具体实现,利用了统计上EM算法的架构。EM算法包含了交替循环的E步骤(Expectation)和M步骤(Maximization):E步骤先根据当前题目参数临时值,算出所有考生能力的后验分布,再利用这些后验分布来算出题目参数的对数似然值表达式;M步骤以最大化前述表达式为目标,算出题目参数估计值。下一循环的E步骤则利用了新的题目参数估计值,更新完善考生能力的后验分布,算出新的对数似然值表达式,如此往复,不断更新完善题目参数估计值,直到算法收敛(如参数估计值在循环之间不再变动)。这种方法既无须知道考生能力值,又从作答数据中获取了考生能力值的信息,帮助题目参数的估计,是在统计上相对完善的设计,因而也是最受认可的参数估计法。

在在线标定的情境下,OEM的方法只包含了一个循环。在E步骤中,考生的后验能力分布是从所有该考生完成的正式CAT题目中获得的;而后的M步骤,利用前述考生能力后验分布算出的对数似然值,以最大化该值为目标,找到试测题参数估计值。

这一方法的理念是,在传统参数标定中,所有题目的参数都是未知的,因而考生能力后验分布的获取需要通过EM循环不断完善;然而在在线标定的情境下,正式CAT题目的参数值是已知的,理论上可以利用那些正式题目,仅一步就可以直接获取精准的考生能力后验分布,从而避免了反复循环,节省了计算时间。

(四)MEM

MEM方法由Ban等人(2001)提出,全称为多循环EM方法(Multiple-cycle Expectation-maximization Method)。它包含了正常的EM循环,直到参数收敛终止。在第一个E步骤中,考生的后验能力分布只从该考生完成的正式CAT题目中获得;而在之后所有的E步骤中,考生的后验能力分布的获得,既利用了所有该考生完成的正式CAT题目,也利用了试测题作答数据和其新估计的参数值。

(五)贝叶斯估计法

在上述三种估计法中,都可以在似然值表达式中加入贝叶斯先验值,形成对贝叶斯后验似然值的最大化,具体算法见 Baker,Kim(2004)及Zheng(2014)。贝叶斯成分的加入可以使参数估计中牛顿-拉夫逊(Newton-Raphson)循环更加稳定。尤其是对于3PL模型的题目,或样本量小的情况,普通的牛顿-拉夫逊循环有可能不收敛,而加入贝叶斯成分可以有效缓解这一问题。而在线标定的情境正好符合样本量小的情况,因为在试测题作答样本积累的过程中,题目参数不断被更新,而在样本积累的初期,样本量自然是小的。

(六)其他方法及方法间的比较

针对Stocking-A的量尺漂移问题,Stocking(1988)又提出了Stocking-B的方法。这一设计要求在考试中安排锚题(正式CAT题目,要求所有人作答)。在对试测题进行参数标定之后,利用锚题再完成一轮等值。这一方法并不太实际,因为它显著加长了考试长度,同时纠正效果也不一定显著,因为等值过程也引入了相应的不可忽略的误差。

Ban等人(2001)还讨论了一种利用在BILOG程序里加入强先验分布来锚定试测题参数的方法。另外,Segall(2003)提出了如何在在线标定情况下利用MCMC(Markov-chain Monte Carlo)算法估计参数。前者过于依赖特定程序,而后者MCMC的计算又用时极长,两者都不太实际。

Ban等人(2001)通过模拟研究对其他上述方法在3PL模型下进行了比较,得出的结论是MEM估计结果最精确,OEM第二,Stocking-A最不准。需要注意的是,在其文章中,OEM和MEM的方法中均提到了加入贝叶斯先验值,而在Stocking-A中并未提到。

Zheng(2014)对于Stocking-A,OEM,MEM以及这三种方法各加入贝叶斯先验值,共六种方法,在1PL,2PL,3PL模型下进行了比较。结论是:在三种模型下,加入贝叶斯先验值的三种方法都好于未加入贝叶斯先验值的三种方法;这个差别在3PL模型下最明显,远大于三种方法本身之间的差异;在2PL模型下,这个差别的程度有所缩减;而在1PL模型下,这个差别的程度更加缩小。而在未加入贝叶斯先验值的三种方法之间,在三种模型的b参数估计结果中都观测到了MEM好于OEM,且好于Stocking-A的模式。这个模式在其他参数中并未出现。Zheng(2014)对于各算法的具体步骤和表达式进行了详细描述。

三、试测题嵌入位置

试测题嵌入位置理论上会影响参数标定的精准度,因为随着嵌入位置从考试刚开始的题目位置逐渐向考试尾端移动,考生能力水平估计值越来越精准(前提是模型拟合较好),而实时最优选题算法中正用到了这个考生能力水平估计值。这个值中包含的测量误差越小,最优选题的计算越接近于真正的最优,理论上说估计效率也越高。当然我们用随机选题法选取试测题时,试测嵌入位置不影响参数标定的结果,因为随机选题法并没有利用考生能力水平估计值。

我们也可以利用这个理论来检验不同的试测题选题法,如果某最优选题法不符合这一规律,有可能说明这个选题法的机制里有一些不合理的地方。例如,Zheng(2014)的模拟研究中发现了在2PL和3PL模型下,以考生能力值为中心的选题法呈现出从考试前部的嵌入位置到考试中部,再到考试后部,试测题参数估计效率逐渐降低的趋势。而这也印证了前文中所分析的,以考生能力值为中心的选题法并不是为优化题目参数估计效率而设计的,它的机制是不合理的。

在理想情况下,在使用最优选题法时,试测题应被嵌入在考试最后的位置,以获得最好的参数标定效率。但是,如果这个信息被考生得知,并且他们也知道试测题不计入总分中,那么他们的答题动机将显著减小,从而影响了试测的效度。因此,更加实际的方法是将试测题随机嵌入考试中,可以是随机嵌入全卷,或者考试的某一部分。

已有文献中的研究尝试了不同的嵌入设计。例如,随机嵌入全卷(Chen et al.,2012),固定在全长52题的考试中的第22题和第28题(Kingsbury,2009),随机嵌入全长28题的考试中的最后6题中的3题(van der Linden & Ren,2015)。Kingsbury(2009)建议试测题不应连续呈现。Zheng(2014)在模拟研究中比较了随机嵌入全卷前三分之一、中三分之一及后三分之一的设计,结果发现这一因素与试测题选题法有明显的交互作用,即在不同的试测题选题法下,各嵌入位置呈现的模式很不一样。

四、试测终止规则

试测终止规则决定了在什么情况下结束一道试测题的试测。试测结束后,试题将面临审核,审核通过后即可进入正式题库,被用在正式考试中。当没有试测终止规则时,随着正式CAT考试的进行,试测题库中所有题目都可以任意被选择。在考试窗口的任一时间,试测题库中的各题将拥有各异的参数估计精准度。

最简单的试测终止规则是基于样本量的规则(Ali & Chang,2014;Kingsbury,2009;Zhu,2006):当一道测试题的样本量达到某一指定量时,即结束该题的试测。

然而,在同一样本量下,不同试题的参数估计的误差可以差异很大,因此试测终止规则也可以基于参数估计的标准误值:当一道试测题的参数估计标准误低于某一指定阈限时,即结束该题的试测。这一方法理论上比基于样本量的终止规则效率更高。在这种设计下,建议同时也叠加一个最大样本量规则,以避免某些试题长期不终止试测。

Kingsbury(2009)还提出另一种可能的终止规则:当一道试测题的参数估计值在前后两次估计之间不再变动时,终止该题的试测。终止规则是未来在线标定研究中很有价值的研究方向。