与传统CAT和MCAT一样,BCAT的实现也离不开特定的算法支持,它同样涉及参数估计、选题策略、曝光控制与终止策略等算法。上述算法中,BCAT与CAT和MCAT大体相似,但在选题策略上略有差异,因此本节重点探讨BCAT的选题算法。
在第二节关于BCAT基本过程的内容里已经提到了,双因子CAT中采用的选题策略主要包括两种:一种是Weiss和Gibbons等人所采用的基于单维的选题策略,另一种就是基于多维的选题策略来实现双因子CAT。但无论是基于单维的选题策略还是基于多维的选题策略,目前都是以Fisher信息量作为选题的依据的。
双因子IRT模型是多维IRT模型的一个特例,正如前面提到的,双因子模型下,不同维度之间为正交的关系,所以双因子CAT具有单维CAT的特点,基于这个特点,一些基于单维模型的选题策略也能够在双因子CAT中使用。同时,双因子模型中又包含多个维度,且存在题目内多维的情况,即一个题目同时属于一般因素维度和一个特殊因素维度,因此,适用于多维模型的选题策略也能够在双因子CAT中使用。在双因子CAT中,基于单维的选题策略与目前单维CAT中使用的选题方式完全一样,基于多维的选题策略也与多维CAT下的选题策略基本一致,所以本章主要是简要介绍目前双因子CAT中已经使用过的选题策略,如果读者对相关的选题策略感兴趣,可以参阅本书第三章和第五章或是查阅相关的文献。
一、基于单维的选题策略
(一)基于单维的最大Fisher信息量选题策略
因为在双因子模型下,所有的维度之间均为正交关系,即维度之间不存在相关关系,因此,双因子IRT模型不仅具有多维IRT模型的特性,同时还具有单维IRT模型的一些特质。基于这样的特征,尤其当题目在一般因素上的载荷显著高于在特殊因素上的载荷时,研究者更加偏好采用单维的CAT算法和基于单维的选题策略,因为采用单维的选题策略相较于多维的选题策略在计算上更为简单,在统计上也更容易实现。
基于单维的选题策略中,在双因子CAT中经常使用的就是基于单维的最大Fisher信息量选题。在Weiss和Gibbons(2007)所采用的双因子CAT算法中,研究者采用的选题策略就是基于单维的最大Fisher信息量选题策略。但正如了解CAT选题策略的人都知道的那样,最大Fisher信息量选题策略的弊端就是这种选题策略在选题过程中会更加偏好选择信息量更大,也就是区分度更高的题目,由此就会带来一些问题。
首先,导致题库使用不平衡,少数的好题过度曝光,而大多数的题目则使用率不足。
其次,施测的测验无法全面地覆盖研究者关心的领域。同一份测验下,有的维度题目在公共因子上的载荷整体都较低,而有的维度题目在公共因子上的整体载荷都较高,因为题目的IRT区分度与题目载荷有关,因此在对公共因子施测的过程中,如果采用最大Fisher信息量选题,可能会使得不同维度的题目选择不平衡,测验无法覆盖所有维度。
针对测验无法全面覆盖各个领域或维度的问题,Gibbons和Weiss在其双因子CAT中使用的策略就是在施测完一般因子的题目之后,再继续施测特殊因子的题目。对于每个特殊维度,只有那些属于这一维度的题目才会被选择施测,施测过程采用的依然是单维模型。在施测特殊因子维度时,所采用的题目难度参数与一般因子的难度参数是一样的,但是所采用的项目区分度则是双因子模型下特殊因子维度的区分度。
尽管Weiss和Gibbons的这种解决方法在一定程度上解决了内容覆盖不全面的问题,但又带来新的问题,虽然保证测量内容的全面性,但是测量问卷的长度也随之增加。
(二)基于单维的最大Fisher信息量选题,结合内容平衡的选题策略
因为基于单维的最大Fisher信息量在双因子CAT中使用时存在选题内容不均衡的问题,Zheng等人(2013)提出了在双因子CAT中使用基于单维的最大Fisher信息量选题,同时结合内容平衡策略的选题方法。在Yi Zheng等人的研究中,采用简明健康状况调查表(36-item Short Form Health Survey,SF-36)的作答数据进行了双因子CAT的模拟研究,比较了无内容平衡随机选题、内容平衡随机选题、无内容平衡最大Fisher信息量选题和内容平衡最大Fisher信息量选题这四种条件下测验的测量精度以及题库使用情况。在他们的研究中,采用的内容平衡策略为改良的约束性CAT(Modified Constrained CAT,MCCAT)。结果表明:相比于随机选题,最大Fisher信息量选题的测量精度更好,而在最大Fisher信息量选题中,在一般因子上没有内容平衡的选题策略测量精度略高于采用了内容平衡的选题策略的测量精度,但是这种差别并不是特别大。采用了内容平衡策略却能明显地改善最大Fisher信息量选题导致的不同维度之间选题不均衡的情况。
在双因子CAT中,很多时候会出现有的维度题目区分度较高,而有的维度区分度较低,在采用最大Fisher信息量选题的时候就会使得高区分度维度的题目更有可能被选出,而区分度小的维度的题目被选出的比例更少,通过内容平衡策略的限制,区分度较小的维度的题目也会被选出来,因为区分度的高低反映的是信息量的大小,因为内容平衡的限制,使得一些区分度相对较低的维度的题目也能被选入,从而使得整体的信息量(测量精度)稍有降低。尽管会存在这样的损失,但是带来的收益更高,如提高了题库中一部分题目的使用率,平衡了测验的内容等,因此,采用内容平衡策略还是能够带来一些好处的。
二、基于多维的最大Fisher信息量矩阵选题
上述两种选题策略都是基于单维信息量选题提出的,由于采用单维信息量选题,忽略了公共因子与特殊因子之间的重叠的信息,同时为了保证选题内容覆盖的全面,可能会使得测验的长度增加。基于这样的背景,Seo(2011)借鉴了Segall(1996)提出的使测验的Fisher信息量矩阵行列式达到最大的方法(也被称为“D-优化法”)进行双因子CAT的选题。研究者把Weiss和Gibbons的基于单维最大Fisher信息量选题的BICAT作为参照,以定长测验的形式,比较了以多维选题策略为基础的MBICAT和BICAT的测量精度。除此之外,研究者还采用了不定长测验的形式,研究了MBICAT下测验的长度。结果表明,采用多维双因子CAT(MBICAT)方法在测量精度上能够满足要求,测验的精度与采用单维双因子CAT(BICAT)方法下的测量精度比较接近。在特殊因子为4个、题库为400题的条件下,以OSE作为CAT的终止标准,结果表明:在OSE=0.5作为CAT终止条件时,测验的平均长度为20.97~36.24题;而在以OSE=0.55作为测验终止条件时,测验的平均长度为15.43~23.6题,总体来看,采用多维双因子CAT不仅能够保证测量的精度,同时还能够显著地减少施测的题目。但是在该研究者的研究中,并没有在不定长测验下同时比较BICAT和MBICAT的测量精度和测验长度,因此,相比于采用单维选题策略的BICAT,采用多维选题策略的MBICAT的测验是否会更有效率还有待新的研究发现。该研究使用的数据为模拟的二级计分数据,因此在等级数据以及非模拟的数据上采用以多维选题策略为基础的双因子CAT表现如何也亟待后续的研究。
因为双因子IRT模型本身是多维IRT模型的一个特例,因此,一些针对多维IRT模型提出的多维选题策略,应该也可以在双因子CAT中进行一些尝试,基于目前在这方面上的探索还不是很多,因此在未来相关的研究中,可以考虑进行一些尝试。例如,设置同样的条件比较BICAT和MBICAT的测验效率;在使用多维选题策略时,兼顾内容平衡,从而保证测验的全面;不仅采用模拟的数据进行研究,也需要收集实测数据,以实测数据来研究和比较用不同选题策略的双因子CAT等。