据统计,截至2007年,认知诊断模型发展超过了60种(Fu & Li,2007)。到了2012年,认知诊断模型发展已达100多种(辛涛,乐美玲,张佳慧,2012)。这里挑选一些在认知诊断发展史上较为重要的模型加以介绍。
一、具有认知诊断功能的IRT模型
在认知诊断发展早期,还没有发展出真正的认知诊断模型,此时学者们尝试用IRT模型来做认知诊断研究。
Fischer(1973)提出的线性逻辑特质模型(Linear Logistic Trait Model,LLTM),是最早用IRT模型来进行认知诊断尝试的模型,它是在IRT的拉希模型的基础上进行扩充、改造而成的。LLTM用认知属性复杂度的线性组合模型来刻画项目的难度;项目的难度取决于各认知属性的复杂度。通过这样的建模将认知的复杂度融入潜在特质模型中,把原来简单的概率模型转变成具有项目认知内容的潜在特质模型,从而实现了认知与测量的结合。但是,被试的能力还是用一个笼统的能力值来表示,没有对被试是否掌握各认知属性直接进行评价(涂冬波,蔡艳,戴海琦,漆书青,2008)。因此,LLTM模型不被看作真正的认知诊断模型。
此外,一些学者还用一些多维IRT模型进行认知诊断尝试。多维IRT模型将每个维度上的能力值看作相应属性的掌握水平。通过模型分析,可以确定被试在各个维度(属性)上的掌握水平。在这些多维IRT模型中,有一种比较出名的模型叫多成分逻辑特质模型(Multicomponent Logistic Trait Model,MLTM)(Whitely,1980),此后又有学者(Embretson & Yang,2013)在MLTM的基础上开发了“用于诊断的MLTM”(MLTM for diagnosis,MLTM-D)。
但也有学者(余娜,辛涛,2009)认为,这种建立诊断模型的方法是存在一定局限性的。一方面,不同的能力维度用属性进行概括时,属性的定义无法深入认知过程的细节;另一方面,模型中属性的数量是有限的,否则会造成模型参数估计的困难。为了克服这些问题,后续发展的诊断模型多采用二分的属性向量组表征知识结构。
二、规则空间模型
学者Tatsuoka(1983)应用统计的方法,将被试在测验项目上的作答反应类别划归为某种与认知技能相联系的KS,创建了规则空间模型(Rule Space Model,R**)。该模型的一个基本假设思想是:测验项目可以用特定的认知属性刻画,个体的某种知识结构也可用一组通常无法直接观察的KS来表征;而且还能用恰当的可观察的项目反应模式来表征不可观察的认知属性(涂冬波,蔡艳,戴海琦,2012)。这就是Q矩阵理论的最早提出。
规则空间模型根据项目反应模型计算出一组序偶{θ,ζ}。其中的θ就是IRT中的潜在能力变量;而ζ是一个基于IRT的警戒指标,它表示能力为θ的被试的实际测验项目反应模式偏离其能力水平相对应的项目反应模式的程度。由θ和ζ构成的二维空间称为规则空间,而根据理想反应模式所估出的各序偶点就称为纯规则点。然后,用马氏距离(Mahalanobis distance)判别分析或者贝叶斯判别分析,将被试判为这些纯规则点中的某一个,从而实现对被试的认知诊断。
规则空间模型是第一个真正意义上的认知诊断模型,它在认知诊断发展史上具有里程碑式的意义。所提出的Q矩阵,被后来提出的各种认知诊断模型一直沿用至今,为认知诊断走向实际研究做出了巨大贡献。比如,Tatsuoka等(1997)运用该模型对593名小学生进行了分数加法测验的认知诊断,根据学生们的KS估计值进行了补救;然后再次进行认知诊断测验,发现补救后的学生水平得到了有效提高。认知诊断在中国大陆的首次运用——余嘉元(1995)的研究,也是基于规则空间模型而进行的。同样基于规则空间模型的,还有北京语言大学针对语言测试而做的一系列研究。
然而,随着实际研究的增多,规则空间模型也受到了越来越多的批评。比如,有学者批评它的模型过于复杂、计算过于复杂(辛涛,焦丽亚,2006);也有学者批评它没有在编制测验之前事先标定Q矩阵和确定属性层级关系(Leighton Gierl & Hunka,2004)。但本书认为,规则空间模型的最大缺陷在于,有许多实际研究(如余嘉元,1995;张敏强,简小珠,陈秋梅,2011;徐式婧,2007,2010;刘启亮,2008;范士青,2008;李小兰,2008;张宠,2009)表明,总有3%~18%的被试不能被它归为任何一类理论上的KS。李小兰(2008)和张宠(2009)曾试图删除测验中的部分题目以提高能被归类的被试比例,却发现毫无效果。因此,学者们逐渐意识到,规则空间模型并不是一个十分理想的模型。为此学者们先后提出了一系列模型来对它进行改进,而规则空间模型在最近几年的应用研究已经越来越少。
三、统一模型
为了克服规则空间模型的一些不足之处,DiBello,Stout和Roussos(1995)提出了统一模型(Unified Model,UM)。统一模型是一个以基于能力的题目参数和被试参数为特征的认知诊断模型,它借鉴了先前的规则空间模型的Q矩阵和空间方法,并在此基础上采用参数估计的方法,提高了认知诊断的准确性(谢小庆,2010)。设一个测验有i个题,考查了k个属性。令j=1,2,…,j为被试编号;而Yji是被试j在第i题上的作答情况,答对就是1,答错就是0。令αj为一个长度为k的0-1向量,这表示了被试j的KS。若他掌握了属性k,该向量的第k个元素就是1;否则就是0。θj参数叫作潜在残余能力,用来解释Q矩阵以外所测的认知属性。Q矩阵描述了题目与属性之间的关系,qik表示第i题是否考查了属性k,若考查了就是1,否则就是0。统一模型的数学表达式为
其中,P(Yji=1|αj,θj)表示KS为αj、潜在残余能力为θj的被试答对第i题的概率。di是一个二分变量,表示被试是否选择专家界定的Q矩阵所描述的解题策略来解答第i题,这个变量用来刻画项目答题策略的多样性;πik表示被试掌握属性k并在第i题上正确运用该属性的概率,πik=p(Yjik=1|αji=1);rik为被试未掌握属性k但在第i题上正确运用该属性的概率,rik=p(Yjik=1|αji=0)。ci是拉希模型中Pci(θj)=0.5时θj的值,表示被试答对第i题所需残余能力的程度,用来刻画Q矩阵的完备性(Completeness),其值越大就说明Q矩阵所界定的第i题所测的属性就越完整;Pci(θj)表示被试正确应用其残余能力答对需要残余能力参与才能解答的第i题的概率。bi是拉希模型中Pbi(θj)=0.5时θj的值,Pbi(θj)表示被试应用其残余能力答对不需要残余能力参与就能解答的第i题的概率。由此可见,统一模型用一系列的参数对Q矩阵的完备性、项目答题策略的多样性、残余能力等进行刻画,这使得它成功克服了规则空间模型的诸多不足,是一个非常完备的模型(甘媛源,余嘉元,2009;简小珠,2011)。
但是,统一模型过于复杂,使得它并非所有参数都能在统计上被估计出(Jiang,1996;Hartz & Roussos,2008),因此它是一个“难以识别”的模型。查阅文献发现,在该模型的提出者将该模型运用于算术测验之后,就再未见到有学者在实际研究中使用过该模型。
四、融合模型
其中,(1)π*i是难度参数(又译为基线参数,Baseline Parameter)表示被试正确运用第i题所有属性的概率,是以Q矩阵为基础的项目难度参数,其值在[0,1]之间,π*i越大说明题目越容易,一道题只有一个难度参数。
(2)r*ik是区分度参数(又译为惩罚参数,Penalty Parameter),表示被试未掌握属性k却答对了第i题的概率与掌握了属性k并答对该题的概率之比,其值在[0,1]之间,r*ik越小说明第k个属性在第i题中越重要。一道题有多少个属性就有多少个区分度参数。
(3)ci是拉希模型中Pci(θj)=0.5时θj的值,它表示被试答对第i题所需残余能力的程度,用来刻画Q矩阵的完备性。一道题只有一个完备性参数。一道良好的试题应是高π*i值,低r*ik值,高ci值(涂冬波,蔡艳,戴海琦,2012)。
值得注意的是,融合模型里的难度参数与区分度参数,与IRT模型里的难度参数与区分度参数不是一回事。它们的含义不同、英文名称不同,但是被中国学者翻译成了相同的中文名称。本文认为,为了与IRT模型里的参数相区别,宜将Baseline Parameter译为基线参数,而将Penalty Parameter译为惩罚参数。但为了与其他学者的文章保持一致,本文对这两个参数名称依然沿用“难度参数”和“区分度参数”的译法。
经过以上化简,融合模型完成了对统一模型的再参数化,使得新模型不但是可识别的,而且还保留了统一模型的可解释性。融合模型已经有了一些实际应用研究,如Hartz(2002)首先将其应用于PSAT测验的评估,Jang(2009)将其用于阅读理解测验的研究。在国内,车芳芳(2010)最先将融合模型用于初中代数的认知诊断研究。
五、RRUM模型
Hartz(2002)在用融合模型分析PSAT测验的数据时发现,对于多数题目,融合模型的表达式里的最后一项Pci(θj)存在的意义并不大,于是可以将其去掉,以进一步简化模型。由此,他提出了“缩减的再参数化统一模型”(Reduced Reparameterized Unified Model,RRUM)。
RRUM模型将答对一道题的概率建模为被试的KS和题目参数的函数,那就是:题目的难度参数和区分度参数,其中后者描述了一个特定属性的掌握情况将在多大程度上影响答对这道题的概率。通过对每个题目的每个属性都分配一个区分度参数,融合模型和RRUM模型允许各种KS的被试答对题目的概率各不相同,因此它们比下文即将提到的DINA模型要有更大的灵活性,但它们也比DINA模型更复杂。RRUM模型的表达式是
这里的难度参数π*i是掌握了第i题所考查的全部属性的被试答对这个题目的概率。π*i较大的题目,说明它所考查的属性能有效解释被试对该题的反应。区分度参数r*ik指,被试未掌握αk却答对了第i题的概率与掌握了αk并答对该题的概率之比。在一道题中,某个属性的区分度参数越小,就说明该属性在该题目中越重要。
下面用一个例子说明RRUM模型中被试正确作答概率的计算。设第i个题目考了两个属性,π*i=0.8,r*i1=0.2,r*i2=0.3,那么根据公式(6.2.3)可以计算出:
若被试j对这2个属性都没有掌握,则答对该题的概率是
Pji=π*i·r*i1·r*i2=0.8×0.2×0.3=0.048。
若被试j只掌握了属性1,则答对该题的概率是
Pji=π*i·r*i2=0.8×0.3=0.24。
若被试j只掌握了属性2,则答对该题的概率是
Pji=π*i·r*i1=0.8×0.2=0.16。
若被试j对这2个属性都掌握了,则答对该题的概率是:Pji=π*i=0.8。
为了研究方便,令αl(l=1,2,…,L且L=2K)为被试j可能拥有的KS。于是,在RRUM模型下,KS为αl的被试,答对第i题的概率是
这样,全体j个被试在第i题上的正确作答概率就被归为L种情况,在实际计算中可以大大减少运算量。
Henson和Templin(2007)用MCMC算法实现了对RRUM模型的参数估计。Feng,Habing和Huebner(2014)则提出了相对简便一些的EM算法,并对ECPE测验的数据进行了分析。
六、DINA模型
根据心理计量学手册(DiBello,Roussos, & Stout,2007),决定性输入噪音“与”门模型(Deterministic Input,Noisy ‘And’ Gate,DINA)的历史可以追溯到Macready和Dayton(1977)的思想。Haertel(1984,1989)正式提出了这个模型,将其命名为限制性潜在类别模型(Restricted Latent Class Model,RLCM),而此后的Junker和Sijtsma(2001)将它的名字改为DINA模型。该模型因为仅涉及“失误”和“猜测”两参数,真正实现了对认知诊断模型的简化。
其中,ηji是一个二分变量,表示被试j是否掌握了第i题所考查的全部属性。gi表示第i题的猜测参数(Guess Parameter),指的是“未掌握该题所测全部属性”的被试答对这道题的概率。Maris(1999)对gi作了另一种解释:被试使用其他心理资源(Mental Resources)而答对题目的概率。si表示第i题的失误参数(Slip Parameter),指的是“掌握了该题所测全部属性”的被试答错这道题的概率。
在DINA模型中,所有被试答对第i题的概率只有两种情况:一种是“掌握了该题所测全部属性”的被试,他们答对该题的概率是1-si;另一种是“未掌握该题所测全部属性”的被试,他们答对该题的概率是gi。因此,DINA模型不允许属性间有补偿作用,故属于非补偿模型。而前文所提到的规则空间模型、统一模型、融合模型和下文即将提到的RRUM模型都是允许属性间有补偿作用的模型。
DINA模型是一个比较简单、直观的模型,较容易估计和解释,故当前在国内外使用最多。但DINA模型存在的局限性也正和它的优点一样鲜明:它的每个题目只把被试笼统地分为“掌握了该题所测全部属性”和“未掌握该题所测全部属性”两大类,并假设所有“未掌握该题所测全部属性”的被试答对该题的概率相等,但事实上这个假设有些牵强。
七、高阶DINA模型
de la Torre和Douglas(2004)认为在认知诊断中,作为知识状态的属性间可能存在相关,这跟心理学里一般智力(General Intelligence)或一般能力(General Ability)的概念相对应。在传统DINA 模型基础之上,他们又假设:认知属性之间相互独立,并从属于一个更高阶的能力θ;在给定认知属性的前提下,作答反应之间相互独立。由此,他们提出了高阶DINA模型(HO-DINA),并提出了具体的MCMC算法。
在HO-DINA模型中,α与θ之间存在如下关系:
其中,λ0k是属性k的截距,而λk是属性k在能力上的负荷。在属性较多时,HO-DINA模型较为简洁。
值得注意的是,HO-DINA模型里的θ,与IRT模型里的θ在概念上不是一回事。IRT模型里的θ是指整体能力,而HO-DINA模型里的θ是指整体能力中去掉了特殊能力之后而留下来的“一般能力”。不过也有研究表明,二者之间有较高的相关。
涂冬波、蔡艳、戴海琦和丁树良(2011)探讨了HO-DINA模型参数估计的实现及模型性能,他们发现:①对项目参数、属性参数和被试参数估计返真性较好、稳健性较强,HO-DINA模型具有较高的判断率,MCMC算法可行;②诊断的属性个数越多,诊断的模式正确率越低,建议实际使用该模型时,诊断的属性个数不宜达到7个;③用于诊断的项目数越多,诊断的模式正确率越高,在实际工作中,若要保证有80%以上的模式判准率,则4个属性的至少需要20题,5个、6个和7个属性的至少需要40题,8个属性的至少需60题。实际运用者应根据实际情况考虑适当的项目数及属性数。随后,赵顶位(2012)比较了不同属性结构和项目参数条件下HO-DINA模型的性能。结果发现,当猜测率g和失误率s都低的情况下,HO-DINA的属性判准率和模式判准率都较高;HO-DINA模型对无结构型和分支型的属性结构的判准率较高,对线型和收敛型的判准率较低。
HO-DINA模型已经应用于实际应用研究。如涂冬波(2009)基于HO-DINA 模型开发了小学儿童数学问题解决认知诊断CAT 系统,并实现了对小学儿童数学问题解决的认知诊断。
至此,一些重要的认知诊断模型已经介绍完毕。在这些模型中,没有哪个模型是全面优于其他模型的;在实际工作中,应该根据具体测验情境来选择在这种情境下最合适的模型。