二、第三版效度验证研究(1 / 1)

(一)研究目的

本研究旨在获得广泛的实证性证据来检验《量表》第三版多个方面的测量学特性,包括评分者间一致性信度、内部一致性信度、校标关联效度(《量表》和儿童发展结果之间的关系)以及结构效度(《量表》因子结构的证据)。同时,在可能的情况下,本研究获得的证据将与《量表》第一版的有关结果进行比较和分析,以检验《量表》第三版在测量学性能上的变化。所获得的证据都将有助于检视《量表》第三版在测量中国托幼机构教育质量方面的有效性。

(二)研究方法

1.样本

基于分层随机抽样程序,从重庆、云南、安徽三个省(市)的四个县区(经济发展水平在本省处于中等水平)抽取了53所幼儿园。这些幼儿园的分布情况如下:(1)依据各省市现有的办园等级,2所高等级(省级示范园或省一级),9所中等级(市级示范园或省二级),42所低等级(县级幼儿园或准办园)。需要说明的是,之所以中、高等级园所样本量偏少,是因为这些地方中、高等级园所数量本身很少。(2)依据所在地,城区幼儿园3所,县城幼儿园15所,乡镇中心区域幼儿园16所,村幼儿园19所。(3)依据办园性质,公办园(包括教育部门办园、其他部门办园、集体办园)24所,民办园29所。每所幼儿园随机选取2~3个不同年龄段的班级进行质量观察评价;这样,共获取了125个样本班级的质量观察数据。年龄班分布情况如下:44个小班(3~4岁组),29个中班(4~5岁组),51个大班/学前班(5~6岁组)(其中7个为小学附设学前班),另外有1个混龄班(3~6岁)。每个样本班级随机抽取6名儿童(男女各半)进行儿童发展测试,内容主要包括语言、早期数学、社会认知和动作技能四个领域;最终,共获得538名儿童的发展结果测试数据。需要指出的是,本研究中的数据采集内容和过程是在地方教育行政部门、样本幼儿园、样本班级教师、儿童家长知情同意的基础上进行的。

2.工具

(1)《量表》第三版

《量表》第三版[14]是为中国的托幼机构教育质量评价而研发的班级观察量表,作为本次验证研究的目标工具,用于样本班级的质量观察数据采集。《量表》第三版包含7个子量表、53个评价项目、160个子项目、1127个精细指标。《量表》采用李克特式9点评分:1分=不适宜,3分=最低要求,5分=合格,7分=良好,9分=优秀。子项目得分依据精细指标评分结果由低到高进行推算,为1~9的自然数;项目得分为子项目得分的均值(保留两位小数);子量表得分是表下所有被评项目的均分;量表总分是所有被评项目的均分,用以代表该托幼机构班级的整体质量。

(2)CDCC量表

CDCC量表是一套用于评价3~6岁儿童总体发展水平的常模参照测验,包含四个分测验:(1)语言,25个测试题目,内容涉及词汇、理解、语言表达与使用。(2)早期数学,56个测试题目,涵盖分类、排序、图形、关系模式与推理、数数与计算。(3)社会认知,25个测试题目,涉及基本的社会常识、人物关系辨识、初步的道德判断。(4)动作技能,包括4个大肌肉动作测试项目和1个精细动作测试项目。根据研发者当时的研究报告,CDCC量表具有良好的评分者间一致性、内部一致性和重测信度;还具有良好的内容效度、同时效度和校标关联效度。[15]同样,为避免常模老化带来的偏差,本研究没有使用依据年龄常模计算的标准分,而是采用测验的原始分用于后面的数据分析。

3.数据采集过程

正式的数据采集之前,《量表》第一作者培训了30名学前教育专业硕士研究生成为《量表》第三版合格的评分员。培训包括4天量表内容学习和5天实地的班级观察评分练习。每天的班级观察培训中,一名培训者(熟练的评分员)带领三名学员组成一个小组进入同一个班级进行观察;各自独立的观察和评分结束后进行小组一致性讨论和评分,每位学员计算自己的评分与培训者评分之间的一致性百分比(在项目水平上);在每天的班级观察训练中,培训者与受训者的小组均进行重组,以避免固定趋势效应。整个培训结束时,每位受训者与培训者之间项目水平的一致性信度达到了0.85以上。

2014年6月至2015年4月,研究者组织评分员团队运用《量表》第三版分别调查了53所样本幼儿园,对125个样本班级进行了一日活动过程的观察和评分。每所幼儿园由评分员到达现场后随机选择2个不同年龄组的班级。每个班级一般安排2名评分员,各自独立进行观察和评分。每个班级的观察时间大约为6.5小时(一般为上午班级观察4小时,幼儿午休期间大约半小时对班级教师的访谈以便对无法直接观察的项目指标进行评分,下午班级观察2小时)。各自的评分结束后,再进行小组合议,对评分不一致的子项目和项目进行讨论,直至达成一致意见,给出小组评分。

同时,另一名经过CDCC量表培训的测试员从所观察的样本班级中随机抽取约6名儿童(男女各半),运用CDCC量表,采用一对一的方式逐个进行测试(内容包括语言、早期数学、社会认知、动作技能)。测试在幼儿熟悉、独立且不受干扰的房间进行。最终,共获取了538名3~6岁儿童发展测试的有效数据。

(三)研究结果

1.评分者间一致性信度

本研究采用同组(同一班级进行观察)的两位评分员的原始评分数据(合议之前各自的独立评分),在项目水平和子量表水平上分别计算了评分者间一致性信度估计系数。在项目水平上,53个评价项目的评分者间一致性信度估计系数(Kappa)均高于0.6,处于0.611~0.883,均值为0.778;在7个子量表上,评分者间一致性信度估计系数处于0.833~0.954,均值为0.89。对于这类复杂的观察性评价量表而言,这样的评分者间一致性信度可以认为处于较高水平。与《量表》第一版相比,《量表》第三版的评分者间一致性信度水平(尤其是在项目水平上)有所提升。

2.内部一致性信度

由表6-5可见,《量表》第三版7个子量表的内部一致性信度系数处于0.886~0.953,总量表为0.967,均处于较高的水平。这些证据表明,不仅《量表》总体上可以用于托幼机构的质量评价,每个子量表也可相对独立使用,用以测量托幼机构特定方面的教育质量。同时,与第一版、第二版相比,第三版《量表》的内部一致性信度水平也有所提升。

表6-5 《量表》第三版内部一致性系数

3.校标关联效度:与儿童发展结果的相关性

本研究中使用了CDCC量表对样本班级随机抽取的5~6名儿童进行了语言、早期数学、社会认知、动作技能方面的测试,共获取了538名3~6岁儿童的发展测试数据。研究者首先对数据进行了筛选,排除了18名入该园时长少于6个月的儿童(依据是时间过短,幼儿园教育环境对儿童发展难以产生可观测的影响作用);这样,用于最终分析的样本量为来自116个班级的520名儿童(M年龄=4.94岁,SD=0.82)。

表6-6的上半部分为《量表》各项得分(7个子量表得分与量表总分)与儿童发展结果(语言、早期数学、社会认知、动作技能)的零阶二元相关。分析结果表明,《量表》各项质量得分指标与儿童的语言、早期数学、社会认知这三个方面的测试得分存在一致且显著的相关性(r=0.16~0.50)。但儿童的动作技能与《量表》各项得分的关系不尽一致且相对较弱(仅与量表总分和4个子量表得分存在相关性,r=0.15~0.31)。这一关系模型与《量表》第一版的校标关联效度验证结果基本一致。

表6-6 《量表》得分与儿童发展结果的相关性(N儿童=520,来自于116个班级)

续表

由于儿童年龄、家庭社会经济地位、社区背景因素可能在《量表》得分和儿童发展结果之间产生一定的作用,研究者又进行了偏相关分析,以控制这些变量对《量表》得分与儿童发展之间关系的影响。依据已有相关研究的发现和变量选择,研究者采用母亲受教育年限来作为家庭社会经济地位的代表性指标。由表6-6的下半部分结果可见,在控制儿童年龄、母亲受教育程度、城乡三个变量后,大多数《量表》得分的质量指标与儿童的语言、社会认知,尤其是早期数学测试得分之间仍然存在显著相关,相关系数与上面的零阶相关相比略低但基本持平(r=0.23~0.41),这些结果略优于《量表》第一版所报告的相关系数水平;与以往的研究相一致,儿童的动作技能发展与所有的质量指标均不相关。[16]

总体而言,《量表》第三版的校标关联效度验证研究结果与《量表》第一版基本保持一致。与以前的研究结果有所不同的是,某些子量表得分与儿童的语言、早期数学、社会认知发展结果相关不显著,这些结果值得关注。

4.结构效度:验证性因素分析

《量表》第一版的探索性因素分析中发现了量表的两因子结构模型:因子一被命名为“学习条件”,包含21个项目,主要来自空间与设施、游戏活动两个子量表;因子二被命名为“教学与互动”,包含13个项目,主要来自集体教学、人际互动两个子量表;并且,这两个因子高度相关(r=0.76)[17]。为进一步探明《量表》第三版的结构效度,我们进行了多个模型的验证性因素分析(Confirmatory Factor Analysis,CFA)。

为了获得足够样本量的班级质量观察数据来支撑验证性因子分析,[18]研究者按照等值原则和数据的分布比率,对《量表》第二版采集的班级质量数据按照《量表》第三版的格式进行了转换,[19]即从7点评分转换成9点评分。经过转换与整理,最终350个样本班级的质量观察数据被用于本研究。

在参与分析的项目上,为了和《量表》第一版验证性因子分析的结果保持一致,最后一个子量表“家长与教师”的7个项目被去除,因为该子量表的项目评价内容与儿童发展并不直接相关;同时也去除了那些缺失值较多的项目(缺失比例达到10%以上)。这样,最终纳入验证性因子分析的是350个样本班级6个子量表的36个项目得分数据。[20]

研究者进行了三个模型的验证和探索。模型一(M1),按照原定义的一阶两因子模型(对《量表》第一版探索性因子分析结果的两因子模型进行验证);模型二(M2),调整后的一阶两因子模型(在原来的两因子模型基础上,允许部分项目归属另一个因子或者同时归属两个因子);模型三(M3),二阶两因子模型(第一阶是一个总因子,第二阶是两个质量因子),原定义未调整。这三个模型的验证性因子分析的结果见表6-7。

表6-7 三个模型的验证性因子分析结果

按照AIC选择模型,数值越小越好,则M2为最佳模型,即调整后的一阶两因子模型。该模型总体上确证并支持原有的两因子模型。这些证据表明,修订后的新版《量表》仍然具有两因子结构模型;经过仔细的项目内容综合分析,研究者认为,该两因子结构是有意义的。两个版本《量表》的因子结构分析结果的比较见表6-8。

表6-8 《量表》两因子结构模型的前后比较

续表

由表6-8可见,原来归属因子Ⅰ“学习条件”的所有项目,在验证性因子分析中,仍然归属因子Ⅰ;这些项目主要来自“空间与设施”“游戏活动”两个子量表,另外有几个项目分别来自“保育”“课程计划与实施”两个子量表;这一因子的评价内容主要涉及幼儿学习的外部环境条件,包括各类空间、设施及其管理、使用,对幼儿的生活照料,各类游戏活动的材料、空间及其管理维护,游戏活动的机会与时间以及指导。同样,原来归属因子Ⅱ“教学与互动”的绝大部分项目仍然归属该因子;这些项目全部来自“集体教学”“人际互动”两个子量表,主要涉及集体教学活动的目标、内容、过程、对幼儿语言学习与概念推理学习的支持质量,以及各类活动中的监护、指导,师幼互动、同伴互动的过程质量,以及日常活动中的言语交流等。一个细节变化是,“入园/离园”项目的归属从因子Ⅱ“教学与互动”变化到因子Ⅰ“学习条件”。分析结果表明,两个因子之间高度相关(r=0.89)。