在MST中,当测验开发者设定好测验的基本要求如阶段数、模块数等时,如何将被试路由至下一阶段的模块中,以及如何组卷形成整个测验就成为其关注的重要问题。本节将分别从这两个方面来进行介绍。
一、路由规则
在MST测验中,当被试完成一个阶段的模块后,如何选择下一阶段的模块,这就要根据路由规则来进行选择了。根据阶段内不同模块的划界分数在测验开始之前是否预先设定好,可以将路由规则分为两种,静态路由规则和动态路由规则(Weissman,2014)。静态路由规则是在测验开始之前就已经划分好路由到不同模块的划界规则。当测验开始时,根据被试在前一阶段作答的情况,与下一阶段不同模块对应的划界区间进行比较,将该被试路由到与之相对应的模块。例如,正确次数得分(Number-correct,NC)和潜在特质(θ)。这种路由规则存在一定的缺陷,比如在划界分数附近的被试可能存在路由不准确的问题。动态路由规则是在测验进行的过程中动态决定的,而不是事先就决定好的。这种路由方式会考虑被试在阶段一模块中被试的表现情况,然后结合阶段二中不同模块的特性来做出路由决定,选择下一阶段中的模块。静态路由规则实现起来更为简单、方便,而动态路由规则却更加有效。
(一)静态路由规则
静态路由规则是在测验开始前已经预设好的,这种路由规则的关键在于划界分数的设定。如图4-1-1中所示的MST测验,假设被试i完成路由模块后的临时能力估计值为θ1,设定s1和s2(s1<s2)为阶段二的两个划界分数。若θ1<s1,则被试i被路由至模块1;若θ1>s2,则被试i被路由至模块3;否则,路由至模块2。
使用静态路由规则时,被试的能力估计值通常是基于NC值的,因此划界分数值也被表达为NC值。决定NC划界分数值,通常先标定θ量尺上相应的点,然后将该θ值映射到NC值。NC的划界分数的确定主要有以下两种方式,第一种是根据被试个体决定的,第二种是根据群体特征分布来决定的。
根据被试个体决定的路由规则可以使用近似极大信息量法(Approximate Maximum Information,AMI)。这种方法使用累积测验信息函数(Test Information Functions,TIFs),选择对被试产生最大信息量的模块,并且给出当前的临时分数,进而进行划界分数的确定和模块的选择。AMI方法对相邻的模块进行成对估计,其使用类似于CAT的最大信息量准则,在θ量尺上找到两个模块之间的最佳决策点。也就是说,根据TIFs的交叉点,作为选择决策点范围。例如,图4-1-1所示的一次测验中,需要找到阶段二的两个路由点:θ1,根据(路由测验+模块1)和(路由测验+模块2)TIFs曲线的交点;θ2,根据(路由测验+模块2)和(路由测验+模块3)TIFs曲线的交点。两个路由点一旦决定了,就可以根据路由模块的测验特征计算相应的估计分数,即计算
其中,P(θd;ζi)是某个特定IRT模型(如两参数IRT模型)的项目反应函数。值得注意的是,路由点θ1和θ2以及近似的NC点x1和x2对于不同的模块可能会不同,除非TIFs和相关的测验特征曲线对于重复的模块在多个面板中完全一样(Luecht,Brumfield & Breithaupt,2006)。
根据群体特征分布决定的路由规则可以使用定义人口间隔法(Defined Population Intervals,DPI)。这种方法可指定群体中相关被试的比例。例如,对于图4-1-1中所示的测验,如果需要群体中被试的比例近似相等的使用三种主要的路径(如路由模块+模块1+模块4,路由模块+模块2+模块5,路由模块+模块3+模块6),即通过每条路径的人数为33%。由此可以发现,能力分数θ与能力的累积分布的33%和67%是两个点相关。假设θ服从标准正态分布(μ=0,σ2=1),则路由点应该是θ1=-0.44和θ2=0.44,该值可以从标准正态分布表中查出。由此,近似NC路由分数随即也就可以得到(Luecht,Brumfield & Breithaupt,2006)。
(二)动态路由规则
动态路由规则在测验开始之前没有预先设定的划界分数点,而是在测验进行过程中,将被试的作答结果所得到的能力估计值与下一阶段的模块进行比较,选择最合适的模块继续进行测验。
一种典型的动态路由规则是Proximity方法。该方法是为了达到被试能力和模块的匹配,力求寻找该被试能力与模块平均难度差异最小的模块。首先需要计算待路由阶段各模块的平均难度,然后把该被试临时能力值与各模块平均难度相比较,哪一模块平均难度与被试能力估计值差异最小,就路由到哪一模块。这种方法的优势是,不需要事先设定路由划界分数点和路径数量,因而更加简单易行。
二、自动化组卷
自动化组卷(Automated Test Assembly,ATA)是使用数学最优化程序从题库中选择一个或者一组题目,服从多种与内容相关的约束以及其他的定性特征。以下介绍两种常用的ATA。
(一)0-1规划算法
0-1规划算法(0-1 programming)可用来同时组装多个平行测验,并且这种算法可以满足绝对的目标和相对的目标(van der Linden,2005)。共同目标函数包含测验信息函数,根据组卷的信息量与目标之间的离差,以及多种平行测验之间的差异。最优化问题可能包括一个定长测验信息量的最大化,期望测验时间,内容约束和互斥项目规范。这一系列问题可以按照以下方式来建模。
首先,最大化。
其次,满足以下约束条件。
内容范围:
测验长度:
测验期望时间:
互斥项目:
变量范围:
其中,θ1,θ2,…,θk是能力量尺上k个有代表性的值,xi表示项目i是否包含在测验里,i是题库中题目的总数,Vcr是属于内容R的题目集合,Ve是属于互斥项目集合(Luecht,1998;Luecht & Nungester,1998;Luecht,Brumfield & Breithaupt,2006)。
(二)启发式算法
启发式算法(Heuristic Methods)将测验组卷分解为一系列局部最优化问题,每次选择一个题目添加到测验当中,直到满足测验要求的题目数量为止。这种启发式也属于贪婪启发式(Greedy Heuristics)(van der Linden,1998)。判别函数通常是基于“中心”准则(如TIF),且受到各种“次要”条件约束(如内容范围)。因为启发式算法是顺序的选择题目,测验组卷早期有更多满足测验要求的题目,随着组卷过程的进行,题库大小逐渐缩减,测验组卷后期满足要求的题目数量也随之减少。因此,启发式算法必须包含其他策略来平衡组卷的质量。
策略一,为每一个测验迭代选择题目来代替立即组装整个测验。测验接收题目的顺序可能是螺旋式的、随机的,或者根据当前TIF(或其他指标)目标的误差范围决定的。策略二,这种策略允许初始组卷的时候可以“贪婪”,但是随后进行一个“交换”步骤在模块之间进行题目交换来获得更小的模块间差异。
基于启发式算法的ATA可以包含多方面的非统计约束。例如,加权离差模型(Weighted Deviation Model,WDM)和标准化加权绝对离差启发式(Normalized Weighted Absolute Deviation Heuristic,NWADH),可将所有的约束作为目标,并且将目标(标准化)离差的加权总和作为标准(Swanson & Stocking 1993;Luecht,1998;Zheng,Wang,Culbertson & Chang,2014)。
WDM方法,通过以下公式来实现最小化离差的加权总和:
其中,dUj是测验组卷和约束j上限之间的差异,dLj是测验组卷和约束j下限之间的差异,wj是对约束j的加权。
NWADH方法,也使用约束目标的加权离差,但是它将每一个约束的离差标准化,因此它们都在一个共同的量尺上。用ui表示与题目i相关属性的值(如项目信息量),用T表示相应的目标。当为测验选择第k个题目时,剩余题库中每一个待选题目T的局部标准化绝对离差计算如下:
其中Rk-1是测验已选择(k-1)个题目后题库中剩余题目的集合。离差dt计算了待选题目对目标T的贡献和每个剩余题目对达到目标平均贡献之间的绝对差异。et表示标准化绝对离差,其值最小的题目将被选中加入测验。
在对线性测验进行组卷的时候,满足多重约束以及算法的复杂性和灵活性之间存在一个权衡。0-1规划算法不能确保产生一个结果,但是能够获得的结果都严格满足所有约束。启发式算法通常可以用较少的计算强度产生一个结果,但是不确保所有的约束都可以满足。在实践中,通常有一些非统计特性(如内容分类)与题目难度有关,这使得每一个路径都满足所有规定的约束变得更加困难(Zheng,Wang,Culbertson & Chang,2014)。在这种情况下,有必要放宽部分路径的某些约束条件。启发式算法提供了这种灵活性,在约束条件不可全部满足的情况下产生较为合适的结果。
思考题:
1.CAT有哪些不足?
2.与CAT比,MST有哪些优势与不足?
3.MST设计包括哪些环节?
4.MST的路由规则有哪些?其特点如何?
5.MST自动化组卷有哪些算法?各有什么特点?