尽管项目反应理论(IRT)实现了对被试潜在特质的精确估计,提高了测量的效率,解决了CTT模型的不足,但传统的单维IRT理论也存在一定的不足。传统的IRT模型对测量变量的维度有所限制,模型一般会假设欲测量的心理特质是单维的,但实际上大量研究表明,这种假设在一些情况下是难以保证的,在数据不满足单维的条件下,强行使用单维的模型,可能会造成很大的测量误差,这种误差不仅在使用IRT模型的纸质测验中存在,在CAT中也同样存在。Folk和Green(1989)把单维模型用在了两维数据上,比较了这种模型误用对CAT测验和传统测验造成的影响。结果表明:当次要因子对测验的影响不显著时,传统测验下可以通过假设测验单维,从而采用单维模型;两个潜在维度不相关,且都对数据有显著的影响,使用任何一个维度的参数,均会引起特质参数估计的巨大差异;将单维模型用于多维数据引起的偏差在CAT上更加明显,因为单维模型的参数不仅会用于选题过程中,还会用来进行特质水平估计。因此,建立被试反应与多种能力及项目特征之间的多维项目反应理论(MIRT)模型成了IRT 近40 年来研究较为活跃的领域之一(杜文久,肖涵敏,2012)。
正是基于上述的现状,在过去的几十年时间中,许多测量学研究者已经将IRT理论从单维的模型扩展到了多维的模型,并逐渐形成了多维项目反应理论。例如,Bock和Aitkin(1981)基于以往的研究,将EM算法(EM Algorithm)扩展到了多维情况中,形成了全息项目因素分析(FIIFA)的雏形。在接下来的研究中,Bock,Gibbons和Muraki(1988)在Bock和Aitkin的研究基础上正式地提出了全息项目因素分析的方法,从而将IRT模型扩展到了多维的数据中。与以往的基于单维的IRT模型不同的是,在MIRT模型下,对于被试的潜在特质定位并不是在一个一维的连续体上进行的,而是在多维的空间中进行的(Reckase,2009)。一方面,MIRT能同时估计被试在测验每个维度上的能力水平,实现测验的认知诊断功能;另一方面,MIRT比项目反应理论更适用于分析许多新形式的测验,如认知诊断测验、公务员考试、表现性评估以及写作测验的项目和被试特征(毛秀珍,辛涛,2015)。
虽然多维IRT能够实现对多个维度的测量与评估,但在维度之间存在相关时,人们除了希望了解被试在各个维度上的潜在特质上的水平外,还希望获得对被试整体水平的评估,在这种情况下,如果同时考虑所有维度的信息,就可能会使得测验的估计精度下降。为了解决这个问题,可以采用双因子模型拟合数据,在这个基础上,Gibbons等人进行了一系列的研究,并提出了全息项目双因子分析(Full-Information Item Bi-Factor Analysis,FIIBFA),用以解决二值计分、多级计分的双因子数据的参数估计问题(Gibbons & Hedeker,1992)。全息项目双因子分析将传统的因素分析与项目反应理论相结合,分析所采用的模型可以看成一种多维的IRT模型,或是多维IRT模型的一个特例。
与传统MCAT相比,基于双因子模型开发的计算机自适应测验(Bifactor Computerized Adaptive Testing,BCAT)具有一些天然优势:双因子IRT模型通过一般因素和特殊因素的设定,使得待估计参数大大减少,在一定程度上降低了参数估计的难度;同时由于模型本身的特点,不仅可以得到被试在某一具体维度上的表现,同时还能够获取被试在欲测心理品质上的总体水平。但是总体看来,目前对双因子IRT以及双因子CAT的研究还非常薄弱,当前研究主要是集中在模型的构建以及参数估计方面,部分的研究将双因子IRT的模型用到了CAT中,但这些研究大多是从单维视角来进行的,即一般因素和特殊因素的选题过程及其特质参数估计是分开进行,而不是同时考虑多个维度的信息选题和估计,从这个角度上来看,这一类的双因子CAT并不算是完全意义上的多维CAT。
一、基于探索性因素分析模型的研究现状
传统的项目因素分析方法是基于经典线性因素分析(Classical Linear Factor Analysis,CLFA)进行的,在这种模型下,是从观测变量间的线性相关矩阵或协方差矩阵出发来进行因素分析的。但是这种方法存在的问题是,当“项目—特质”回归线不一致,也就是难度、猜测度等项目参数不一致时,会产生虚假因素、高估维度数、低估因子负荷(俞宗火,戴海琦,唐小娟,2006)。但在实际的心理测验中,项目的难度不一致,往往是一个不可避免的问题,在线性因素分析方法下,可能会产生虚假因素,即使能够估计出恰当的因素,也会导致有偏的因子载荷;除此之外,基于经典线性因素分析在对数据的使用方面也存在不足,由于只采用相关矩阵或协方差矩阵,并没有充分使用到被试的所有作答数据信息,因此,数据信息使用不充分。
针对经典线性因素分析中存在的不足,Bock,Gibbons和Muraki(1988)在前人研究的基础上详细论述了一种基于IRT的题目因素分析方法,即前文提到的全息项目因素分析,这种方法是一种非线性的因素分析,相较于经典线性因素分析,这种方法的优势体现在以下三点。
第一,不需要计算题目之间的相关系数,并且不会受到题目数量的影响。
第二,作为一种非线性的因素分析方法,更符合心理研究中的实际数据非线性的情况。
第三,直接采用被试的作答结果进行估计,因此充分运用了被试作答的所有数据信息。
Bock和Aitkin(1981)在其论文中,根据Thurstone的群因素(Multiple-Factor)模型,假设,存在一个由m个因素组成的模型,即
Xji:表示的是一种没办法观测到的“反应过程”,也就是被试j在做第i题的过程中所需要的各种主要能力或潜在特质相互作用的过程;
θjk:表示的是被试j的第k种能力或是第k中潜在特质;
λik:表示的是第i题在第k种能力或是第k种潜在特质上的因子载荷;
εji:表示不能观测到的随机变量,服从正态分布均值为0,方差为σ2i的正态分布。
公式(8.1.1)反映的是一个补偿型的模型,即在一个维度上有较高的特质水平,能够对其他的特质水平低的维度起到补偿的作用。除了补偿型的模型,还有其他的模型。例如,存在交互作用的模型等,具体可以查阅文献。
根据上面的模型,可以得到二级计分题目的FIIFA模型。被试j答对第i题的概率为
其中τi是第i题的阈限。
这里以二级计分的题目作答为例,当Xji≥τi时,被试j在第i题上做出正确作答,记为uji=1;而当Xji<τi时,被试j在第i题上出现错误作答,记为uji=0。
σ2i的计算分两种情况:
如果特质不相关,则
如果特质相关,则
为了简化似然函数的表达式,可以将反应函数中的载荷和阈限转换为截距和斜率,即
根据公式(8.1.5),全息项目因素分析模型下的因子载荷(λi)和阈限值(τi)与两参数Logistic(2PL)模型下的区分度参数(ai)和截距参数(di)就被关联起来了,两套参数之间可以相互转化,以二级计分的数据为例,即
其中
因为在FIIFA模型中参数计算相对复杂一些,因此在一些实际应用中,会计算IRT模型下的ai参数和di参数,从而能够获得全息项目因素分析模型下的λi参数和τi参数。
相较于国内的研究,国外对FIIFA模型的研究要更多也更早一些。Bock和Aitkin(1981)最早对全息项目因素分析模型进行了描述。他们采用的数据为二值计分的数据,构建了全息项目因素分析的模型。除此之外,他们还探索和比较了极大似然估计、最大后验估计和期望后验估计三种估计潜在特质水平的方法。这个研究算是此类研究中比较早的种子研究,Bock和Mislevy(1982)也进行了后续的研究,并且表明了相对于其的估计方法——期望后验估计具有更好的特性。Muraki和Engelhard(1985)介绍了EAP算法在全息项目因素分析中的应用,并将全息项目因素分析用到了美国士兵职业倾向成套测验中(Armed Services Vocational Aptitude Battery,ASVAB);Bock,Gibbons和Muraki(1988)也进行了扩展性的研究,在他们的研究中,研究者采用了边际极大似然估计和EM算法并实现了该模型,丰富和扩展了全息项目因素分析模型。当然有关全息项目因素分析模型研究还不止于此。
国内也有学者对这个领域展开了探索。例如,王权和李金波(2002)就对全息项目因素分析模型进行了比较全面的介绍,从数学模型到相应的参数估计方法都有所涉及。除了王权以外,俞宗火等人也对这个模型进行了简要的介绍,并就其在心理学中的应用提出了一些思路。例如,在其后续的研究中,以EPQ为例,比较了传统法的经典线性因素分析和全息项目因素分析,为全息项目因素分析在心理学研究中的应用提供了实证支持(俞宗火,戴海琦,2005)。
二、基于验证性因素分析模型的研究现状
因子分析IRT将因素分析和IRT理论相结合,从而克服了测验结构单维性的假设,这是这一模型所具有的重要优势,然而大多数因子分析IRT都存在这样的不足。首先,这些模型都基于探索性因素分析。例如,全息项目因素分析并不使用先验信息来决定潜在特质的数量,这个模型也不能让我们指定题目和因子之间的一一对应关系。使用者在使用这个模型时,需要不断地探索,直到找到最理想的状态,从而得到与理想的因子结构相应的参数。其次,对探索出的因子结构的理解也是基于主观的,对于得到的因子结构,我们并没有办法根据理论构想来命名,而只能根据对题目类别的理解来提出对因子结构的命名。因此,一些基于验证性因素分析的IRT模型也开始被提出,其中,基于双因子模型的IRT模型就是这类模型中的一个典型代表。
(一)双因子模型
双因子模型(Bifactor Model)又被称为全局-局部因子模型(General-specific Factor Model)或是嵌套模型(Nested Model)(Chen,West & Sousa,2006;顾红磊,温忠麟,方杰,2014)。最早关于双因子模型的思想是由斯皮尔曼(Spearman)提出的。斯皮尔曼对智力成分进行分析的过程中,他明确提出了二因素说,即能力由一般能力和特殊能力构成,一般能力是人们从事大多数智力活动时,都会运用到的认知能力,而特殊能力则是指人们在从事某一种具体的工作、活动时所运用到的区别于一般性认知能力的认知能力。尽管斯皮尔曼在其智力的研究中提出了有关二因素的思想,但是其理论还是一种早期的思想体系。真正从统计测量学的角度提出双因子模型则是在 1937年,Holzinger和Swineford(1937)最早将“双因子(bifactor)”一词用到了测量心理特质的测验中。双因子模型和二因素说之间存在着紧密的联系,就如同 Holzinger和Swineford在其论文中说道:“双因子模型是在斯皮尔曼的二因素模型的基础上进行的拓展。”
Holzinger和Swineford对双因子模型的定义是:所有的变量都能由公共因子和特殊因子解释,并且两者都能作为一阶的因子,双因子模型假设特殊因子独立于公共因子,并且一个题目只能在多个特殊因子中的一个特殊因子上的载荷非零。例如,一个由9个题目、3个特殊因素组成的双因子载荷模式如下:
双因子结构如图8-1-1所示:
图8-1-1 双因子结构示意图
这里不得不提到的一个与双因子模型非常相似的模型,便是二阶因子模型。因为当研究者不仅关注一般因子,同时还关注特殊因子时,除了可以使用双因子模型外,还有学者会选择使用二阶因子模型。
二阶因子模型如图8-1-2所示:
图8-1-2 二阶因子结构示意图
尽管一些早期的研究表明,双因子模型与二阶因子模型之间在数学上等价,但是后来的研究却指出了二者之间的这种数学上的等价是需要具备一定的条件的,并不是在所有的情况下二者都能够等价。由此可见,尽管二者之间具有相似性,但二者并不是完全等同的。Reise,Morizot和Hays(2007)的研究表明:
第一,在双因子模型中,题目大部分的方差是由一般因子解释的,二阶因子解释的是一阶因子的共同变异,而不是观察变量(题目)的变异。
第二,双因子模型中的一般因子和特殊因子都是在同一概念水平上的(都是在题目水平上的变量),而在二阶因子模型中,二阶因子和一阶因子并不是定义在同一水平上,一阶因子定义在题目水平上,而二阶因子则定义在一阶因子上。
相比于二阶因子模型,双因子模型所具有的优势主要是:
第一,双因子模型的限制少于二阶因子模型。
第二,在双因子模型中,能够检验特殊因子的作用,并且能够识别出不显著的因子;但在二阶因子中,没有作用的特殊因子可能会因为二阶因子的掩盖,不能被识别出来。
第三,在双因子模型中能够检验特殊因子与题目之间的关系,而在二阶因子模型中,就没有办法进行检验,因为特殊因子在二阶因子模型中是用一阶因子的干扰项表示的。
第四,双因子模型能够检验特殊因子对外部指标的预测作用,因为双因子模型中,特殊因子是作为独立的因子存在的,而在二阶因子模型中也能够验证特殊领域对外部预测指标的作用,但是需要采用非标准化的结构方程模型,这种模型在很多软件中都没有提供,因此,对于大多数研究者而言不便于计算和分析。
第五,双因子模型除了能够检验一般因子在不同样本群体上的不变性外,还能够检验特殊因子在不同样本群体上的不变性,而在二阶因子模型中就只能检验二阶因子的样本不变性。
第六,在双因子模型中,研究者能够直接检验一般因素和特殊因素潜在特质水平在不同样本群体之间的均值差异,而在二阶因子模型中,就只能比较二阶因子在不同样本群体上的均值差异。
首先,尽管双因子和二阶因子模型均能很好地拟合数据,但是二阶因子并不能直接解释题目的变异,即二阶因子虽然与一般因子相似,但它不是直接建立在观测指标上,而是建立在一阶因子上的,二阶因子反映的也主要是一阶因子之间的一致性。
其次,二阶因子定义在一阶因子上,由于一阶因子本身存在误差,二阶因子上也存在误差,就可能会导致二阶因子测量误差较大。
最后,由于二阶因子模型的特点,在二阶因子模型中难以估计特殊因子,因此无法检验特殊因子的效应,难以比较不同样本下特殊因子的不变性和差异。
总之,相较于二阶因子模型,双因子模型在分析一般因子与特殊因子作用的过程中,具有明显的优势。
(二)全息项目双因子模型
在前文中已经提到,传统的因素分析均是基于经典的线性分析,以相关矩阵的计算为基础,所以可能会存在前文中所说的产生虚假因子、高估因子个数、数据信息使用不全之类的问题。同样地,传统的验证性因素分析也是基于相关矩阵进行的,因此也会存在数据信息使用不够充分的问题。同时,由于FIIFA模型仍然是基于探索性因素分析思路的模型,这种探索性因素分析的模型具有的不足在于无法根据先验的信息,指定题目和因子之间的关系,对于探索出的因子结构的理解相对主观,由于上述不足,基于验证性因素分析模型的IRT模型应运而生。这一模型既避免了线性分析存在的弊端,也弥补了探索性模型的不足。作为一种基于验证性因素分析的IRT模型,它的优势在于能够提供统计意义明确的心理结构,可以根据理论要求建构心理结构模型。双因子模型的IRT模型就是这样一种基于验证性因素分析的IRT模型。
1992年,Gibbons和Hedeker(1992)针对二值反应数据开发了一个双因子IRT模型,这个模型就是:全息项目双因子分析(FIIBFA)。这是第一个根据多维数据估计题目参数的验证性IRT模型。这个模型根据先验的理论结构,来研究观测变量和潜在变量之间的关系。在FIIBFA模型下,每一个题目都与一个一般因素和一个特殊因素相关联,相较于前面的FIIFA模型,无论模型中包含多少个维度,FIIBFA模型都只需要进行两重积分,极大地简化了运算的复杂程度(Gibbons & Hedeker,1992;Gibbons,Immekus & Bock,2007;Weiss & Gibbons,2007;Seo,2011;Zheng,Chang & Chang,2013)。通过将似然函数简化,FIIBFA模型的假设允许一个模型有许多特殊因素,但是这些因素之间是正交的,因此,FIIBFA相较于FIIFA就更容易处理。
从这个角度来看,双因子IRT模型是多维IRT模型的一个特例。为什么说双因子IRT模型是多维模型的一个特例呢?这里需要对测验的维度可能存在的情况进行一些说明。在一些量表或问卷中,测验测度的情况主要包括下面几种。
1.单维模型
一组题目只测量了一项内容,或是同一份测验下,有多个单维测验,各个测验测量的内容之间没有相关(如成套测验)。在这种情况下,就是典型的单维模型,如图8-1-3所示。
图8-1-3 单维模型
2.多维模型
(1)项目间多维。
项目间(Between-Item)多维是指在一份测试内,包含多个维度,维度之间存在相关,不同题目所属的维度可能是不一样的,但每个题目只属于一个维度。如图8-1-4所示的情况就是属于项目间多维的情况。
图8-1-4 项目间多维示意图
如图所示,上述6个题目所组成的问卷包含两个因素,并且两个因素之间存在相关,6个题目分别属于两个因素,但是每个因素下所属的题目并没有重叠,这样的测验结构就是一种项目间多维的情况。
(2)项目内多维。
项目内(Within-Item)多维是指在一份测试内,包含多个维度,每个题目所属的维度为两个或两个以上。如图8-1-5所示的情况就是属于典型的项目内多维的情况。
图8-1-5 项目内多维示意图
根据图示,我们可以看到,由6个题目组成的问卷包括两个维度,这6个题目都同时属于两个维度,即每一个题目都测量了两个维度的内容,我们说这种一个题目测量两个(以上)维度的情况就是项目内多维(关于测验多维的情况可以参考Wang,Chen和Cheng(2004)的研究)。
那么双因子IRT模型属于哪种情况呢?根据双因子的因子结构示意图,结合题目间多维和题目内多维的描述,我们认为双因子模型是一种既包含项目间多维,也包括项目内多维的模型(如图8-1-6)。
图8-1-6 双因子结构示意图
上图所示的双因子结构中,每个题目均测量了一个一般因子、一个特殊因子,所以每个题目都存在项目内多维的情况,同时因为双因子模型下存在的一般因子和特殊因子是正交的关系,因此,也可以看作是多个维度的模型。
在双因子模型下,我们允许一份问卷中测量了多个维度,这些维度之间没有相关,每个题目都只在两个维度上存在载荷。所以每个题目只需要计算两个维度,即公共因素(一般因素)和一个特殊因素的信息。
以二值计分的题目为例,被试j在第i题上正确作答的概率如下:
其中
公式中的变量解释与前文中关于FIIFA的变量解释相似。
λi1:表示第i题在一般因子上的载荷;
λik:表示第i题在特殊因子上的载荷;
τi:表示第i题的阈限;
当λi1θj1+λikθjk≥τi时,被试j对第i题反应正确,记为uij=1;当λi1θj1+λikθjk<τi时,反应错误,记为uij=0。
因为在Logistic MIRM中指数部分乘D=1.702 后与正态肩形MIRM所得正确作答概率之间的差小于0.01,所以在实践中,正态肩形模型和Logistic模型之间常常可以替换使用(毛秀珍,辛涛,2015)。双因子模型也是MIRT模型的一个特例,所以双因子模型除了可以用正态肩形模型之外,也可以用Logistic MIRT模型替换。
由于心理学的量表、问卷大多是多等级计分的题目,在这种情况下,采用二级计分的模型进行分析就具有一定的局限性。在这种情况下,Gibbons,Bock和Hedeker在二级计分的FIIBFA基础上开发出了针对等级数据使用的FIIBFA模型。
假设题目等级数为T=1,2,…,n;令被试得0分及0分以下的概率为0,即P*i0=0;被试得n分及n分以下的概率为1,即P*in=1;则被试作答恰为等级T的概率为
在Gibbons等人的模型中,将Samejima的等级反应模型(Graded Response Model,GRM)与双因子模型相结合,从而拓广了双因子IRT的应用范围,使双因子模型不只局限在0,1计分的数据中。
基于双因子的IRT模型在心理学的很多研究中都具有一定的适用性,总结起来体现在以下几个方面。
第一,是一种基于验证性的多维IRT模型,在这个模型当中,我们能够按照理论依据指定题目和因素之间的关系。
第二,作为多维IRT模型的一个特例,极大地简化了参数估计计算,因为相对于前面的全息项目因素分析而言,在双因子模型下无论因子的个数有多少,模型的使用者也只需要计算两重积分。
第三,基于IRT模型,能够与计算机自适应测验相结合,提高施测的效率。