第二节 CD-CAT在英语听力理解中的应用(1 / 1)

本节主要介绍具有CD-CAT技术在二级英语听力理解中的应用(Liu,You,Wang,Ding & Chang,2013),主要介绍题库建设、选题策略、参数估计、真实题库下模拟实验和真实测试效度验证等。

一、题库建设

一个成功的具有认识诊断功能的自适应测试,需要一个优质、大型的题库。建设一个题库需要做一系列工作。对于基于二级英语认知诊断的题库建设大约分以下几步来完成:第一,所有的试题命制基于课程标准,体现课程标准的基本理念和要求,注重考查学生对核心知识、技能的理解和掌握;第二,由学科专家确定测试考查的属性,界定属性,甚至给出属性层次结构,再由测量专家根据属性层次结构给出命题蓝图;第三,学科专家由命题蓝图命制试题,并给定每个项目属性,得到测验Q阵;第四,选取代表性学生样本进行预测;第五,数据分析和整理,进行参数估计、等值、模型拟合检验,甚至Q阵修正等;第六,题目入库。

对于二级英语测试,学科专家给出8个属性,分别是:A1~A8共8个属性,见表10-2-1。共编制了352道试题,其中包括听力对话、短文听力、语法词汇题和阅读理解题,题型均为选择题。共编制13份试卷,收集到38722个有效被试数据。采用3PLM和DINA模型进行参数估计,并进行了参数等值,从而得到统一在同一量表上的题库参数。

表10-2-1 二级英语听力属性

为验证专家指出的Q阵的结构效度(Construct Validity),本文采用属性对难度(3PLM的难度)的回归方法(Yang & Embretson,2007),或者说是属性对难度的预测或解释能力(决定系数R2=0.455,仅列出一份试卷的分析结果,其他试卷结果类似)。表10-2-2列出了线性回归模型的标准化和非标准化回归系数,除了A1,A4和A7,其他属性均显著。除了A1,其他属性的斜率参数都较大,表明属性预测难度的权重较大。从以上实验结果来看,一般来说,项目属性能够较好地预测项目难度。

表10-2-2 属性对难度的线性回归系数

二、选题策略

确定了认知诊断模型,接下来CD-CAT中最重要的一部分就是选择选题策略,选题策略的好坏直接影响到测试结果的精度。本应用中采用香农熵(Shannon Entropy,SHE)的方法进行选题,减少知识状态空间的期望后验分布的熵(不确定性),对被试进行序贯分类,当某个知识状态的后验分布达到0.80时引入终止测试(Tatsuoka,2002)。下面主要介绍SHE方法。

一个离散随机变量X的熵的定义为H(X)=-∑XP(x)log(P(x)),其中约定0log 0=0。熵是对随机变量的不确定性的度量,随机变量X的熵越大,说明它的不确定性也越大。熵具有非负性、存在最大值、凸性、连续性、对称性和扩展性等。

在CD-CAT中,知识状态的后验分布gt的熵为

对于待选的第t+1个项目j,在先验分布为gt时得分为X的概率为

将gt看成先验分布,则被试i对于项目j(做完t+1个项目,Xij=x)的条件后验分布gt+1(αc|Xij=x)为

则给定Xij=x时,gt+1的条件熵为

当X变化时,gt+1的期望熵为

采用SHE方法即选择下一个项目使得:

三、参数估计

诊断测验不像传统计算机化自适应测验只估出一个单独的能力,它还要得到所考察的每个属性的掌握水平,甚至还要给出每个属性的掌握程度和处于群体中的位置信息等反馈信息。本应用中采用最大后验估计,取先验分布为均匀分布时,即为极大似然估计(MLE),最大后验估计即使下式最大化。

其中P(αc|Xi)为后验概率,可仿照SHE方法中后验分布计算。

由于题库可能缺乏区分某几个知识状态的项目,估计结果中,就会出现后验分布众数集中在两个或两个以上的知识状态的情况,只要由后验概率P(αc|Xi)对每个属性边际求和即可,如属性k为1的边际概率为

边际后验概率方法不仅可以用于计算属性掌握水平,同时也可根据划界分数,得出属性掌握与未掌握的知识状态。

四、真实题库下模拟实验

采用预测得到的3PLM和DINA模型项目参数组合题库(共352道试题),模拟被试人数1000,模拟方法采用祝玉芳和丁树良(2009)提出的对数似然比方法,实验重复次数30次。选题策略中分别考虑无内容约束选题和内容约束选题(听力理解、语法词汇和阅读理解)。评价三种知识状态最终估计方法A方法(Leighton,Gierl & Hunka,2004),对数似然比方法(祝玉芳,丁树良,2009)和DINA模型极大似然估计方法(de la Torre,2009)的模式和边际判准率,并且给出测验结束时的3PLM的平均信息量。表10-2-3 给出了真实题库下CD-CAT分类结果,结果显示两种约束方式选题下,分类结果较为一致,极大似然估计方法好于其他两种分类方法。

表10-2-3 真实题库下CD-CAT分类结果(模拟研究)

五、真实测试效度验证

真实测试采用真实题库下模拟实验中内容限定的方法,既能保证较好的精度,又能使项目曝光控制相对好些。采用定长CD-CAT,题量为36题,限制总的时间,采用倒计时的方式。对CD-CAT应用中的效度进行全面的验证,主要评价CD-CAT结果和英语学业水平分类的一致性。

在北京选择三所学校,它们都参加过北京义务教育评估,具有英语学业水平结果。英语学业水平报告了学生的表现水平,如优秀、良好、合格和不合格。对于CD-CAT评估,可以得到每个考生掌握的属性数目。表10-2-4显示,在CD-CAT结果中,27位学生中有23位学生掌握了所有的8个属性,这23位学生的学业水平均为优秀,并且可以看出他们掌握的属性数越多,学业水平越高,这意味着CD-CAT结果的可靠性较好。

表10-2-4 CD-CAT结果与英语学业水平分类的一致性

本节简要叙述了二级英语CD-CAT的整个构建过程,主要是建立了认知诊断的题库,真实题库下模拟试验显示在DINA模型下,伴随内容约束的SHE选题策略,估计精度较高并且项目曝光控制较好,为保证实际测验的有效性做了铺垫,然后进行实测和效度验证,结果显示二级英语CD-CAT系统效果理想。