第一节 计算机化自适应测验理论基础:项目反应理论(1 / 1)

一、项目反应理论

项目反应理论(IRT)也被称为潜在特质理论(Latent Trait Theory,LTT),它假设被试观察的项目反应结果由被试潜在特质(或潜在能力)与测验项目共同决定,被试在某项目上答对或答错是受被试潜在能力和项目特征(如项目难度)等共同影响;项目反应理论采用项目反应函数(Item Response Function,IRF)来模拟、解释、预测被试潜在能力及项目特征是如何影响被试在特定项目上的作答反应结果,同时综合被试在所有测验项目上的作答反应结果以及项目反应函数来估计被试的潜在能力和项目参数。

经典测量理论(Classic Testing Theory,CTT)中,测验总分常被用于估计被试的潜在能力,也即CTT一般把可观察的测验总分作为被试潜在能力的估计值,并根据测验总分的高低来判定被试能力水平的高低。CTT假设,被试观察分数(X)主要受两个因素影响,一个是被试的能力真值(T,即真分数,相当于被试的潜在能力),另一个是误差分数(E,即测量误差),它们之间的数学函数表达式为

从式(2.1.1)中可以看出:第一,CTT假设被试的观察分数与被试真分数及测量误差分数存在简单相加的函数关系。第二,CTT是在测验整体层面解释被试潜在能力是如何影响被试测验总分结果的。第三,CTT没有直接考察测验项目特征(如项目难度)是如何影响被试在项目以及测验上的得分的,即公式(2.1.1)没有项目参数。显然,测验总分即观察分数(X)作为被试潜在能力的估计值是比较粗糙的,它并没有深入分析不同测验/项目对观察分数的影响,并会导致不同测验下的分数无法比较。第四,CTT一般只能对所有被试计算一个笼统的测量误差(E),也即一个笼统的测量信度,从而无法深入分析测验对不同被试测量误差的不同。而项目反应理论则试图突破CTT的以上不足。

二、项目反应模型

与CTT一样,项目反应理论也采用数学函数来解释、预测被试的潜在能力与被试作答反应间的关系。但与CTT不同的是,IRT是基于更为细致的项目层面来进行建模,同时深入考察项目特征这一重要影响因素。在IRT中,这种用来描述、解释被试在测验项目上的作答反应的数学函数被称为项目反应模型(Item Response Model,IRM)。心理测量学者们根据测验项目记分方式、测量的维度等特征开发出了不同类型的项目反应模型,如二级评分模型、多级评分模型、多维模型等。

(一)二级评分IRT模型

二级评分项目是指被试在项目上的观察反应得分只有两种,答对或答错,即被试在该项目上要么得0分,要么得满分;而用于分析二级评分项目的数学模型(项目反应模型)则称为二级评分项目反应模型。这种模型适合分析单项选择题、填空题等二级评分的题型。较为常用的三参数Logistic模型(3PLM)如下:

其中Xij指被试i在项目j上的观察得分;

Pij指被试i在项目j上的答对概率;

θi指被试i的潜在能力值,即能力参数;

aj指项目j的区分度参数;

bj指项目j的难度参数;

cj指项目j的猜测度参数;

D是一常数,取值1.702。

若假设项目不存在猜测度,即cj=0,则3PLM可以简化为两参数Logistic模型(2PLM),即

若在2PLM基础上,假设所有项目区分度相等,则2PLM可以简化为单数Logistic模型(2PLM)或拉希模型(Rasch Model),即

根据3PLM,可得不同能力被试在项目j上的答对概率曲线,即项目特征曲线(Item Characteristic Curve,ICC),如图2-1-1所示。

图2-1-1 3PLM的项目特征曲线(ICC)

(二)多级评分IRT模型

多级评分项目是指被试在项目上的观察反应得分超过两种,即被试在该项目上的得分可以是0分或满分,也可以是介于0分和满分之间的分数,即被试在项目上的得分形式多于两种;而用于分析多级评分项目的数学模型(项目反应模型)称为多级评分项目反应模型。这种模型适合分析简答题、证明题、作文题、Likert型量表等多级评分的题型。IRT领域中常用的多级评分IRT模型主要有:

·等级反应模型(Graded Response Model,GRM)(Samejima,1968);

·分部评分模型(Partial Credit Model,PCM)(Masters,1982);

·拓广分部评分模型(Generalized Partial Credit Model,GPCM)(Muraki,1992);

·评定量表模型(Rating Scale Model<R**)(Andrich,1978);

·称名反应模型(Nominal Response Model,NRM)(Bock,1972)。

在IRT领域,基于多级评分IRT模型的开发主要有两大思路(Thissen & Steinberg,1986):一种是离差模式(Difference Model),另一种是除总模式(Divided-by-total Model)。

1.基于离差模式的多级评分IRT模型

离差模式中,被试得T分的概率表现为两个累积概率(Cumulative Probability)的离差,如Samejima(1968)的等级反应模型(GRM)属于离差模式。

在GRM中,被试得T分的概率被定义为被试得T分及T分以上的概率减去被试得T+1分及T+1分以上的概率,即

其中

bjt指被试在项目j上得T分的难度。显然GRM中,如果项目j满分值为mj,则该项目有mj个难度值。比如mj=3时,则该项目有3个难度,分别为得1分的难度bj1,得2分的难度bj2和得3分的难度bj3。GRM中的难度参数满足

即被试得越高分的难度是越大的,难度是单调递增的。

为了保证概率P(Xij=t)不为负,GRM限定

即被试得0分及0分以上的概率为1,以及限定

即被试得(满分+1)分以上的概率为0。这时,GRM满足

当mj=1时,则由公式(2.1.5)和(2.1.6)可得

即当项目满分为1分(或项目为二级评分)时,GRM可以简化为2PLM,也就是说2PLM是GRM的一个特例。

与Logistic模型一样,GRM也可在二维坐标轴上描述不同能力被试在项目各个分数上的概率曲线,即运算特征曲线(Operating Characteristic Curve,OCC),如图2-1-2所示。

图2-1-2是一个满分为3分的项目,被试在该项目上的得分有四种类型,即T=0、1、2和3分。图2-1-2可知,能力越高的被试得0分的概率越低,而得满分3分的概率越高;能力越低的被试得0分的概率越高,得满分3分的概率越低;而对于中间段能力的被试,得2分和3分的概率倾向越高。

图2-1-2 等级反应模型的运算特征曲线(OCC)

2.基于除总模式的多级评分IRT模型

除总模式中,被试得T分的概率被定义为部分除以总体的关系,如Masters(1982)的分部评分模型(PCM)属于除总模式。在PCM中,被试得T分的概率表现为部分与整体的比值,即

第一步,7.5/0.3=25

………1分

第二步,25-16=9

………2分

用δjt来表示项目第T步的难度,记住δjt的含义与GRM中的bjt的含义不同,bjt指得T分的难度。PCM中,δjt不一定满足单调递增性,因为有的项目第一步非常难,而最后一步可能非常容易,因此PCM强调的是项目每个步骤的难度,而GRM强调的是被试得各个分数的难度(满足bj1≤bj2≤bj3≤…≤bjmj),图2-1-3和图2-1-4为两个模型难度的区别。

图2-1-3 分步评分模型PCM项目步难度(Item Step Difficulties)参数

图2-1-4 等级反应模型GRM项目难度(Item Difficulties)参数

记被试从第(t-1)步正确跳到第T步的概率为Φ(t),记被试得T分的概率为P(t),则有

即被试答对第T步的概率Φ(t)只受到被试能力θ和项目第T步的难度δjt影响,而与其他步骤的难度δjk(k≠t)无关。

则根据公式(2.1.13)可得

求解上式方程组,可分别求解出P(0)、P(1)、P(2)和P(3)的数学表达式,即

上式即为分部评分模型的项目反应函数,同时限定∑0v=0(θ-δjv)≡0。

需要指出的是,分部评分模型只考虑了项目难度参数对被试反应概率的影响,并没有考虑区分度在项目反应过程的作用。鉴此,Muraki(1992)对分部评分模型进行拓广,把项目区分度也加入项目反应函数中,提出了拓广分部评分模型(GPCM),GPCM项目反应函数为

除了分部评分模型和拓广分部评分模型外,评定量表模型以及称名反应模型等也均属除总模式的多级评分IRT模型,限于篇幅,对这些模型的介绍不再一一展开,感兴趣的读者可参考相关文献。

三、项目反应理论假设

项目反应理论采用数学函数(项目反应模型)来解释被试在项目上的作答反应,而这些函数的建立是基于一定的假设之下。

(一)能力单维性假设

不论是Logistic模型,还是GRM或PCM等,这些项目反应模型中涉及的被试能力(θ)维度只有一个,即测验测量的维度为单维。如果测验测量为多维时,以上模型的项目反应模型都无法准确解释、预测被试不同维度的能力是如何影响被试在项目上的作答的,因此以上模型仅适用于测量单维情境。

但在实际中,被试要正常完成一个项目/任务往往会涉及多个能力(测验维度为多维),那如何进行IRT分析呢?随着测量技术的不断发展,学者们已提出了多维项目反应理论,从而使IRT模型从只能处理单维数据拓展到了多维数据,关于多维项目反应理论的介绍可参考本书第五章。

能力单维性假设只是针对单维IRT模型,而对于多维IRT模型则无须这条假设,因此读者需要辩证地看待IRT的这条假设。

(二)局部独立性假设

局部独立性假设在估计项目参数和被试参数时会涉及。我们知道,IRT模型中,能力参数(θ)和项目参数(a,b)都是未知参数,是需要进行估计的;而实际中能获取的是一群被试在测验每个项目上的得分情况或得分矩阵(该得分矩阵中行为被试,列为项目,中间的元素代表某被试在某题上的实际观察得分),因此IRT需要根据该已知的得分矩阵去估计未知的项目参数和被试参数。IRT在估计这些未知参数时,构建了似然函数(Likelihood Function),即被试具有这种观察到得分矩阵的联合概率。接下去以一个实例来说明似然函数的构造:

若3个被试在4个项目上的得分矩阵U为

记P为答对的概率,Q为答错的概率,则可以给出每个被试在每个项目上的反应概率,即

第1位被试在4个项目的得分矩阵U1·=(1100),该被试在每题上作答反应概率为P1·=(P11,P12,Q13,Q14),那么被试具有U1·=(1100)这样一种观察得分联合概率(似然L)为多少呢?如果假设被试在不同题目上的反应概率间相互独立(P11,P12,Q13,Q14彼此独立),则联合概率为

L1·=P11×P12×Q13×Q14。

延伸可得被试i在m个项目上的得分似然为

同理,如果假设不同被试间的得分相互独立,即与不同被试在测验上的得分模式无关,则可得N个被试在第j个项目上得分的似然函数为

根据公式(2.1.16)及公式(2.1.17)可得,所有被试在所有项目上的得分的似然函数为

公式(2.1.18)即为IRT模型的似然函数,IRT模型的参数估计基本上都是建立在似然函数的基础之上,如最大似然估计方法(Maximum Likelihood Estimation,MLE)是在令似然函数L最大的情况下来估计未知的被试能力参数与项目参数的。

综上,IRT模型对似然函数构建是建立在局部独立(Local Independence)的假设基础上,即在给定特定能力θ条件下:

·在给定被试i的能力条件下,被试i答对第j题与第j′(j≠j′)题的概率相互独立,即p(Xij=1|θi)与p(Xij′=1|θi)相互独立。

·被试i与被试i′(i≠i′)答对项目j的概率相互独立,即p(Xij=1|θi)与p(Xi′j=1|θi′)相互独立。

当然,在实际测量领域中,以上局部独立的假设有时难于满足,比如一道大题由几道小题构成,而若下一道小题的正确完成的前提是上一道小题也正确完成,那么这时被试答对这两道小题的概率就不再满足独立性假设;又比如英文阅读理解题,由于这些题共用一篇短文,而被试对短文材料越熟悉,那该被试在该短文中不同题目间的答对概率也难于满足独立性假设。

为了处理局部独立性假设违背的测量情境,学者们将有相依(Local Depen-dence,LD)的题目作为一个独立的题组,从而开发出可以处理项目相依的题组反应模型(Testlet Response Model,TRM),关于题组反应理论的介绍读者可参考相关文献。

独立性假设只是针对传统IRT模型,而对于题组反应模型则无须这条假设,因此读者同样需要辩证地看待IRT的这条假设。

(三)单调递增性假设

单调递增性假设是指随着被试能力的增加,被试答对项目的概率越大。这一点可以从Logistic模型的项目特征曲线中反映出来(详见图2-1-1),这种假设在能力测验中比较普遍,如智力测验、学业成就测验中一般都满足这种假设。这时,我们可以采用Logistic数学函数来解释或预测不同能力被试在项目上的答对概率。但在非能力测验(如态度测验、人格测验等)中,单调递增性假设难于满足。现以一个项目例子加以说明,有这样一道试题:

如果用θ代表被试的长相水平,θ越高代表被试长相越好,反之越差。那么长相水平为θi的被试在这个项目上选择“是的”选项的概率有大呢?如果采用类似图2-1-1中的Logistic模型来处理的话,则认为θi越高(长相水平越高)的人,选择“是的”选项的概率越高,这种解释显然与实际不符。我们知道,长相水平越高(θi越高)或长相越低(θi越低)的被试,选择“是的”选项的概率都偏低,而只有长相水平一般(θi为中间值)的被试选择“是的”选项的概率会比较高,参见图2-1-5。显然,这时被试在项目上的反应概率违背了单调递增性假设。针对这种情况,学者们开发了展开模型(Unfold Model,UM),展开模型中其项目特征曲线(ICC)可以不是单调递增曲线,感兴趣的读者可参考相关文献。

图2-1-5 ICC非单调性的例子

单调递增性假设只是针对传统IRT模型,而对于展开模型则无须这条假设,因此读者也需要辩证地看待IRT的这条假设。