第三节 CAT在心理健康评估中的应用(1 / 1)

Fliege等人(2005)采用模拟研究的方法,开发了基于IRT的抑郁症的CAT(Depression-CAT,D-CAT)来测量患者的抑郁症状。本节就以其研究为例,通过呈现其具体的研究过程,示例CAT在抑郁症中的应用。以下详细介绍Fliege等人(2005)的研究。[1]

一、研究目的

抑郁症是精神和行为障碍中最普遍的疾病。对于抑郁症的严重程度的评估对疾病分期和结果评估都非常重要。传统评估抑郁症状的方法主要依靠基于CTT编制的量表,如BDI、CES-D、PHQ、HADS、SDS等。这些量表有CTT固有的劣势,一个最主要的问题是想取得高测量精度,就必须使用大量的题目,而测验精度与被试负担之间的平衡难以协调。

已有的基于IRT编制的抑郁测验经研究显示:使用IRT理论可以揭示项目信息,这可以为提高测量工具的性能提供很多有用的信息(Baer et al.,2000;Olsen et al.,2003);而且,并不是每一个题目都与每个被试都有关系,CAT可以使“静止”的问卷变得因人而异而又具有“适应性”。例如,如果病人报告心情很好,自我感觉良好,那他就不太可能报告会有严重的自杀念头。在这种情况下,自杀的念头这道题目,几乎没有提供什么有用的信息;但是对一些重度抑郁的被试来说,涉及自杀的念头能提供很大的信息。最后,CAT测验已有一些尝试,它运用已答题目的信息,去挑选下一个合适的题目,为每个被试选择最合适的问题,实现了在完整测量结构中、在保证测验准确性的前提下,只需呈现更少的问题,减轻了被试负担。

正是出于这样的目的,Fliege等人希望开发出D-CAT,并在真正临床环境中发挥作用。

二、研究方法与过程

(一)样本

患者样本总体(n=3270)由两个子样本组成(n1=1581,n2=1689),这两个被试子样本接受了不同的测验内容(n1items=88,n2items=86)。其中有30道题目作为锚题来关联这两个题目子样本(nitems overall=144)。被试样本中有991名男性(30.3%)、2279名女性(69.7%),平均年龄为42.4岁(SD=14.5,年龄范围为16~87岁)。

(二)D-CAT开发

开发基于IRT的CAT用来诊断抑郁症状,需要以下三个步骤。

1.题库建设

美国精神病学D**-IV中诊断抑郁症的标准,主要包括:①抑郁心境;②愉快感和兴趣的缺失;③精神运动性激越或者迟滞;④食欲/体重明显下降或增加;⑤睡眠障碍;⑥疲倦或者缺乏精力;⑦自责或者内疚;⑧注意集中能力减退,或者犹豫不决;⑨反复出现自杀或死的想法。

运用德尔菲法(Delphi Method)来选择题目。首先,我们汇集了临床诊断中常用的11个有着固定题目数的抑郁问卷(这包括已经通过了心理测量学评估的6个德国本土抑郁量表——ALL、BSF、GBB、GT、LZI和NI90以及5个国际通用量表——CES-D、BDI、SF36、STAI和SES/LOT)中的320道作为可用的题目,让患者在计算机上作答了这些问卷中的题目。

因为这些题目来自多个测量工具,一些题目可能并不指示抑郁症状。因此在不告知这是抑郁量表中的题目的情况下,请三位研究小组的成员(两位分别有8年和10年临床经验的心理治疗师,一位有9年研究经验的医师)审查这些问卷中的题目,他们各自独立地评估问卷的各个题目是否指示抑郁症状。三位评估者的内部一致性系数需在可接受的范围内(配对kappa,k1-2=0.80,T=7.43,k1-3=0.83,T=7.71,k2-3=0.88,T=8.16;所有的p值均小于 0.001),如果评估者们就某道题目没有达成一致意见,他们将一起讨论,然后再重新评估该题。只有当三位评估者都认为一个题目测查到了抑郁症状,这个题目才会被放置在题库中。最终挑选出了144道题。

2.项目分析和筛选

两批题目子样本分别接受了单维性检验、局部独立性检验、项目特征曲线(Item Response Curves /Item Characteristic Curve)、项目功能差异(DIF)、测验等值、项目参数。

(1)单维性检验和局部独立性检验。

第一,单维性。尽管题库中题目的单维性并不是IRT-CAT的一个先决条件,但是大部分的IRT应用模型都含有单维性假设。这意味着在项目作答数据中,公共方差可归因为有单一的潜在特质变量。该研究中所采用的GPCM模型也是基于单维性假设的。为考察这组数据的单维性,使用Mplus软件做了验证性因子分析(CFA),并删除了因子载荷小于0.4的题目(Nunnally,1978)。

第二,局部独立性。这是IRT模型所固有的,这意味着,当被试的特质水平不变时,他在任何一道题目上的作答与在其他题目上的作答是独立的。为了检验局部独立性,研究者使用Mplus软件分析了单因子模型的残差相关。尽管局部独立性意味着残差相关为0,一些研究发现IRT模型的参数估计在轻微违反单维性假设时还是相当稳健的(Drasgow F,Parsons C,1983;Reckase M,1979)。当一个题目与其他题目残差相关大于0.25,且占比超过题目总数的15%,就删掉这道题。研究者也指出,选择相关系数0.25作为分界值,这个标准多少是有些主观的,毕竟就他们所知还没有一个被证实了的经验标准。正如Embretson和Reise(2000)所说,所有模型的局部独立性是可以与现实近似的,稍微偏离局部独立性假设对模型参数的估计是不受影响的。经CFA检验,剩余的64道题目符合单因素模型。

(2)项目特征曲线(项目反应曲线)。

应用非参数平滑技术,使用TestGraf软件计算出了项目特征曲线,以便题目更好地发挥功能,方便IRT模型分析。每个项目选项特征曲线均与潜在特质相关。

(3)项目功能差异(DIF)。

DIF检验用来识别因为群体的差异所造成的系统误差,如性别、年龄、取样等。使用有序多分类Logistic回归模型(Polytomous Logistic Regression Model)来实现DIF分析,其中题目的作答作为因变量,群组成员作为自变量。当控制住了量表分数,不同的群体成员在项目得分上有直接作用,则称为良性DIF,当量表分数与群体发生交互作用时,这称为不一致的DIF。鉴于本研究中的样本量较大,微弱DIF效应可能会统计显著,因此使用Nagelkerke(1991)的决定系数R2作为指标来评估DIF。决定系数R2被用来解释回归模型中变异的比率。当群体效应或群体与量表的交互效应使R2增加了0.03以上,则认为存在DIF。研究者解释道,应用这么一个相对严格的临界值是为了保证所有的项目对于不同年龄或性别的群体都是适用的。

(4)测验等值。

使用锚测验设计的方法进行等值处理。

(5)项目参数。

使用GPCM模型估计项目参数。GPCM是一个双参模型,允许项目之间有不同的区分度,双参模型比条件苛刻的单参数模型可能更拟合数据特征。区分度允许我们为每一道题估计项目信息函数。低区分度的试题被应用的可能性很低,因此,从题库中删除低区分度a<0.7的题目。先前的模拟研究发现,这类低区分度的项目在题库中被选中的概率不到0.05%,所以将这些项目舍去,测试也不受任何影响。

3.评估算法和测验特性

(1)评估算法。

CAT题库中最终包含62个题目,CAT开始时选择的第一个题目是根据特质分数θ为0时(中间值),信息量最大的题目。在研究中,这个题目是:“During the past week I felt depressed(过去的一周,我感到抑郁)”。程序运用期望后验算法EAP根据被试在此题上的作答估计其潜在特质分数。

接下来,程序根据当前的能力值基于最大信息量的原则挑选下一题。如果两道题的信息量相同(出现这种情况的概率很小),程序将在其中随机选择一题。θ在每次对新的题目作答反应后,都被估计一次,直到其精度达到标准。在CTT中,信度值R≥0.9被认为是极好的,根据公式ρ=1-SE2,这里我们采用这个标准,当标准差SE≤0.32时测验停止。

(2)测验特性。

为了评估D-CAT的特性,研究者做了两个模拟研究。

模拟研究A:模拟100种不同特质水平被试的θ值。在-3.5~3.5,以0.25为间隔,每个点上模拟100个被试,共模拟了2900个被试,被试的反应作答模式的生成采用Wang(1999)的方法。这可以使我们评估题库对于不同水平被试的区分能力。当标准误达到小于0.32的标准时,自适应测验的程序停止。

模拟研究B:使用在构建题库时已经收集到的真实患者的作答数据,在这个“真实数据的模拟研究”中,只有自适应测验的过程是模拟的。对于每个被试,模拟开始于同一个问题:“During the past week I felt depressed”,使用被试对于这道题目的真实的作答反应,程序使用自适应算法为被试挑选下一个题目,接下来的每一步都用这种同样的方式。同样,终止规则都为标准误小于或等于0.32。

三、研究结果

(一)单维性

根据删题标准:CFA中因子载荷低于0.4,样本1删除了5道题目,样本2删除了24个题目;残差相关大于或等于0.25,样本1删除了25个题目,样本2删除了25个题目。这样,样本1包含58个题目,样本2包含37个题目。其中有15道题目是重复的。误差相关在两个样本中的变化范围为0.00~0.24。对余下的题目再做一次CFA,样本1的RMSEA为0.07,样本2的RMSEA为0.08。RMSEA值在0.05及以下通常被认为指示模型是非常拟合的,其值在0.05~0.08被认为是可以接受的(MacCallum,Browne & Sugawara,1996;Browne,Cudeck,1993;Hu,Bentler,1999)。

(二)项目特征曲线和测验精度

大多数题目的项目特征曲线表现不错,不同类别得分轨迹曲线间的差异明显(参见图10-3-1(a)-(d))。

稍微差一点的题目,如图10-3-1(e)所示。选项2和选项3的作答曲线并没有很好地区分出来,为了获得一个比较明显的最大值,将这两个选项合并为一个,在这个例子中,结果非常成功,得到了图10-3-1(f)中的结果。因此研究者将这种策略用在了29道题目上。除此之外,有8道题目因为其他的原因删去了,其中的7道题目是因为不能使每个作答选项获得一个清晰的最大值曲线。

图10-3-1 θ值标准分数的项目特征曲线

(三)DIF

有4道题目在年龄上有DIF,则“blaming oneself”,年轻人的得分会高一些(Δχ2=1.041,R2=0.048);“losing libido”,年长的得分会高些(Δχ2=0.654,R2=0.061);“jaded”:年长的得分高一些(Δχ2=13.859,R2=0.036),“extreme mood changes”,年轻人的得分高一些(Δχ2=7.778,R2=0.035)),因此这4道题目被删去了。

(四)测验等值

在测验等值之前,项目分析都是在两个题目样本下独立进行的。题目样本1目前包含51道题目,题目样本2包含25道题目,其中两个样本中有12道题目是重叠的。将两个样本中的参数标准化后放在一个刻度上。在12道重叠的题目中,选出来自同一个量表中的9道作为锚题,这可以为后续使用相同锚题的等值研究提供便利。固定住样本1中θ的平均值和标准差为0±1,样本2中的平均数和标准差变为了-0.16±1.09。两样本中锚题的区分度的差值在0.01(“insecure”)至0.19(“depressed”)之间;难度参数的差值在0.00(“lethargic”)至0.10(“concerned”)之间。

(五)项目参数

在项目参数估计出来后,删去了区分度低于0.7的题目后,对剩下的题目重新进行了估计。题库中题目的选项数目在2~6不等:1道二分式选项的题目和63道多分类的选项的题目(34道题目有4个作答选项,24道题是5个,5道题目有6个)。最后CAT中剩下64道题目的截距参数(猜测参数)在-3.15~3.17变化,可以认为是题库中的题目均匀地覆盖了范围很广的抑郁症状,项目的区分度在0.71~2.25变化。

(六)入选题库题目概述

表10-3-1、表10-3-2呈现出了最终的CAT题库中的题目,涵盖了我们预先确定的抑郁症的九类症状:25个题目测量了抑郁情绪症状,从极端的水平“not able to cheer up”或“unbearably sad unhappy”到相反的一极表述“feeling happy”或“enjoying life”。与抑郁情绪相关联的焦虑和不安全感觉有8道,丧失个性的题目有2个。这些抑郁的症状被列在诊断标准D**-Ⅳ之下。其他的题目测量了机能障碍(8道题目),疲劳或者精力下降(7道题目),自我谴责或者内疚(4个题目),愉快感和兴趣的缺失(3道题目),注意力不集中或者犹豫不定(3道题目),死亡或自杀的病态想法(2道题目),睡眠障碍(1道题目)和体重下降或胃口不好(1道题目)。

总之,因为数据的原因,144道题目中的80道被排除在外。表10-3-1、表10-3-2列出了排除在外的题目和相应的排除理由。其中的28道题目问题集中在社会联系(13道题目),性(10道题目),或者工作和义务(5道题目)。这些被删去的题目最不可能来自准确通用的抑郁量表(CES-D,BDI)。比较被删去的题目和保留下来的题目在措辞上的差异,微弱地揭示了两者在语言上的复杂性。进一步检查题目内容中词数(词数在3~29,平均数为9.5,标准差为4.9)和从句个数(个数在0~5,平均个数为0.59,标准差为0.75)。被排除的题目包含更多的词(10.4 VS 8.3,T=2.55,df=141,p=0.01)和更多的从句(Mann-Whitney U=1919,p=0.007;53 VS 47%)。

表10-3-1 两次CFA分析结果以及删题理由(1)

续表

表10-3-2 最终D-CAT所挑选出来的64道题目(包括锚题)的项目参数(2)

续表1

续表2

(七)测验特性

1.模拟研究A

将模拟的被试数据应用到CAT算法当中。当潜在特质值在-2~2时,程序平均需要用到7.15道题目(标准差为1.39)来估计被试的潜在特质值,就可以达到之前设定的标准SE≤0.32。当潜在特质值在两个标准差之外时,需要的题目数明显更高(M=27.77,SD=10.75)。图10-3-2显示出了测量不同水平的潜在特质要达到预定的准备度所需要的平均题目数。

图10-3-2 D-CAT(终止规则SE≤0.32)中不同潜在特质所需的题目数(和标准差)

2.模拟研究B

当用真实的患者作答数据来运行算法的时候,θ在样本平均数±2个标准差附近的被试需要平均6.12个题目(SD=2.11)来估计就能达到测验精度标准。只有61个患者在这个范围之外,这些患者需要18.3±11.7 个题目(表10-3-3)。

基于IRT的θ值与题库中所有题目的总分高度相关(积差相关值r =0.95),而且令人满意的是与一些已编制的抑郁测量工具相关度也很高(BDI:R=0.79;CES-D:R=0.83)。为了与定长的CAT进行比较,Fliege等人也考查了基于IRT的θ值与CES-D 8道题目版本的总分之间的联系(R=0.76)。图10-3-3的散点图的形状较平缓呈S形,这说明了在潜在特质连续体的高低两端,CAT的区分能力比定长的量表好一些。

表10-3-3 最终D-CAT所挑选出来的64道题目(包括锚题)的项目参数

续表1

续表2

图10-3-3 模拟D-CAT得分的散点图

四、讨论

最后,研究者回顾了开发D-CAT的整个流程。目前对于基于IRT测验的开发在每一步中哪些可用的方法是最合适的,并没有一个统一的意见。研究者在本研究中所选择的方法都是基于最终CAT得以实际应用的角度来考虑的。

许多科学家质疑健康统计数据是否真的适用于IRT模型,Hambleton等人(1991)提出了对于基本模型假设的系统的组合检验。例如,单维性;模型固有的特性;依靠这个模型可能得到的预测结果。他们一共提出了22种不同的方法,本研究用到了其中的6种。

模拟研究结果显示,完整题库中64道题目得分与CAT中平均6道题目的得分几乎没有什么大的差异。节省了相当大部分的题目并且没有与之相对应的题目信息的损失,这与先前的研究是一致的。表示CAT得分与固定长度的抑郁量表之间相关的散点图呈平缓的S形曲线,说明了CAT在潜在特质低分和高分的两端有着更高的区分度。

我们CAT的测验信息曲线显示了信息量在潜在特质的最末端信息量会下降。然而,较之传统测量工具的优势是可以得到每个患者的测量精度,而且可以记录下潜在特质。结果表明,测量潜在特质值在最末端的被试需要数量更多的题目。然而,所需题目的平均数也并没有超过抑郁标准问卷,即使是对于Theta值在-2以下或者2以上的被试。

尽管本研究证明了基于IRT编制的测验优于基于CTT的测验,这里还有些待解决的问题。比如,我们不知道是否会有题目顺序效应;我们还不知道一个测验中这种变化的题目作答选项是否会影响到作答行为,这样可以防止自动作答模式,但是是否会耗费被试更多的精力?另外一个更实际的问题是关于CAT的实现,如技术要求、被试的接受度等,都是有待考证的。

总体上来说,Fliege等人坚信,这种与患者相关数据的研究必然会受益于已经测验出的IRT-CAT的技术优势,并且在文章中也提到,截至该研究的论文发表时,本研究中所开发出来的D-CAT已经惯常地应用在研究者的所在部门。感兴趣的读者还可以详见Fliege等人(2005)的原文。

五、展望

CAT是一种全新的测验形式,采取“因人施测”“量体裁衣”的自适应测量思想,为每个被试/个体选择一份最适合他/她的测验,即为每个被试/个体选择一份具有最小测量误差(最大测量信度)的测量工具,从而真正实现自适应的测量方式;与传统纸笔测验相比,CAT不仅可以达到更高的测量精度,还可以减少测验长度,减轻被试测试负担等优势;当前关于计算机化自适应测验的研究已受到国内外研究者和应用者的广泛关注。

计算机化自适应测验目前已引起国内外学者和应用者的广泛关注,对于计算机化自适应测验的研究与应用也如火如荼,涉及的领域包括题库建设、选题策略、参数估计、曝光控制、终止策略等。未来CAT在以下方面有待进一步完善:

(一)CAT的题库建设新技术研究

题库建设与开发需要大量的人、财、物投入,且非常耗时,这也是导致目前CAT使用不是十分广泛的重要原因之一。项目自动生成(Automated Item Generation,AIG)技术的出现有望改善这一状况,它强调题库试题由计算机自动即时生成(题库中只有组成试题的基本元素,试题均是在测验过程中由计算机根据这些基本元素即时自动生成),它不仅可以节省传统题库开发的人、财、物投入,还可以大大改善CAT题库的安全性。

(二)CAT项目曝光率与能力估计精度兼顾的选题策略研究

题库项目曝光率与被试能力估计精度对当前CAT选题策略是一对矛盾体,即若要保证有较好的能力估计精度,则会牺牲项目曝光率;若要保证有较均匀的项目曝光率,则会牺牲能力估计精度。因此,未来需要进一步探讨两者兼顾的新选题策略。

(三)多种CAT测量形式的优势互补

本文中我们提到多种形式的CAT,如多维CAT(MCAT)、多阶段CAT(Multistage CAT)、双因子CAT(BCAT)、可修改答案的CAT(RCAT)、认知诊断CAT(CD-CAT)等,这些不同形式的CAT适用于不同的测量情境,未来研究可以考虑这些不同形式CAT的统一与综合。

(四)CAT的效度研究

效度研究一向是测验理论非常关心的问题,而CAT由于需大量人、财、物的投入,这就使其效度研究显得更为迫切。

(五)CD-CAT的研究与开发

认知诊断(Cognitive Diagnosis)有助人们更好地了解个体内部心理活动规律及加工机制,实现对个体认知发展实况(含优点与缺陷)的诊断评估,以促进个体全面发展;它对于教学中的形成性评估特别有价值,对促进教育发展有举足轻重的作用。随着测量技术的不断发展,研究者们目前已初步成功将认知诊断技术与CAT结合起来,充分发挥认知诊断与CAT两者的优势,从而产生了一种全新的测量模式——认知诊断计算机化自适应测验(CD-CAT)。CD-CAT是将认知诊断基本理论、方法与计算机化自适应测验结合起来的产物,由计算机(或Internet)智能化且高效、快速和准确地实现对被试的认知诊断(还可实现在线学习、诊断、反馈及辅助教学以及E-learning等),从而有利于认知诊断更好地服务实践。CD-CAT因充分结合了认知诊断和计算化自适应测验的双重优点而深受国内外研究者推崇,它对于自适应学习具有重要价值。

任重而道远,CAT的进一步发展还需要更多研究者和应用者付出更多的智慧与汗水。本书也希望能起抛砖引玉的作用,让更多研究者加入进来,从而促进CAT的进一步发展并为我国实践服务。让我们展开双臂,拥抱未来!

思考题:

1.开发一个CAT系统有哪些具体过程/任务?

2.如何进行CAT的题库建设?

3.如何检验一个CAT系统的信度与效度?

[1] Fliege H,Becker J,Walter O B,Bjorner J B,Klapp B F,et al.Development of a computer-adaptive test for depression(D-CAT).Qual Life Res,2005,14(10):2277-2291.