二、基于多元概化理论的分析[16](1 / 1)

(一)研究目的

《量表》是在借鉴国际权威的托幼机构教育质量评价工具(如ECERS-R、CLASS等)的质量概念和框架结构的基础上,基于中国情境为测量中国托幼机构教育质量而研发的班级观察评价工具。在其被我国的学前教育研究者和实践者大规模应用之前,对该工具的测量学特性进行系统性评估是当务之急。作为整个研究项目的一部分,本研究致力于《量表》测量学特性的拓展性研究。具体说来,本研究试图在多元概化理论(MGT)框架下检验《量表》的测量信度。

(二)概念框架

多元概化理论包括了评分者间信度、内部一致性信度、组内相关等信度方法,并提供了全面统一的框架,[17]特别是针对复杂的测量情境。

1.相对决断与绝对决断

经典测验理论关注常模参照性分数的解释,也就是说,信度是关于分数相对排名的一致性,而不是实际分数的一致性。在多元概化理论的框架下,这种解释被称为“相对决断”。标准参照的分数解释是关于个体相对排名和实际得分的一致性,因此多元概化理论称其为“绝对决断”。这两种类型的概化(信度)系数相当于这两种类型的决断:相对决断概化系数ρ2和绝对决断概化系数φ [18]。我们通常对评分者间信度系数熟悉,它是一个“相对决断”的信度估计。但是在使用量表时,不仅要关注评分的相对一致性,也应该关注实际评分的一致性,因为这些分数代表托幼机构的质量差异。因此,最恰当的信度系数应该是“绝对决断”的概化系数φ。

2.制订最优化测评方案

传统的信度方法通常是进行事后检验,也就是测量信度依据事实基础进行计算。但是在制订最优化的测评方案上,多元概化理论可以充分发挥作用。多元概化理论包括两个阶段:G研究和D研究。G研究充当先行的研究用来提供信息(如不同来源的方差成分)并规划未来测量研究。在D研究中,来自G研究的信息被用于规划最佳测评方案的信息,这样可以实现最好的信度并平衡其他因素(如成本和效果)。这种便利性和预测能力在传统信度估计方法中一般无法实现。[19]

多元概化理论从单变量发展到拥有先进的多变量的方法。多元概化理论的应用适合于多维和复杂的测量情境。多元概化理论的应用提供了方法论上的优越性:在分析和评估过程中不仅考虑了方差(方差分量),而且也考虑了维度的协方差结构。所有维度的信度同时估计,而不是孤立地估计每个维度(单变量多元概化理论)。

显然,使用《量表》对托幼机构的班级教育质量进行观察评价是一个多维度的复杂测量过程。传统的信度计算方法不能同时处理多个维度。另外,传统的方法也不能处理不同测量情境的一致性信度,即不同数量的评分员嵌套在班级中——在学前教育质量评估中,这是一种常见情况。正如前面的讨论所指出的,G研究和D研究的过程为探索最佳测评方案提供了便利。基于这些考虑,多元概化理论更适合进行多维度的、涉及多个评分员的测量信度分析。[20]

(三)研究方法

1.样本

本研究在浙江省的6个地市(省内经济发展水平高、中、低各两个地市)选取了91所幼儿园。这91所幼儿园是根据目前浙江省的办园等级划分 (高、中和低)、所在地(城市、县、乡镇、村)和办园性质(公办、民办)进行分层取样。最后,从91所幼儿园中随机抽取176个幼儿班级(每所幼儿园大致选取两个不同的年龄班),其中小班45个(3~4岁),中班51个(4~5岁),大班74个(5~6岁),混龄班6个(3~6岁)。

2.工具

《量表》被用来观察和测量幼儿园班级的教育质量。《量表》包含8个子量表:(1)空间与设施;(2)保育;(3)课程计划与实施;(4)集体教学;(5)游戏活动;(6)语言推理;(7)人际互动;(8)家长与教师。该量表共包含51个评价项目,177个子项目,685个等级评分指标。该量表采用利克特7点评分:1分=不适宜,3分=合格,5分=良好,7分=优秀。子量表得分和量表总分为所评分项目得分的均值。

3.数据采集过程

两位评分员(r)使用《量表》对每个样本班级(c)进行了观察评价。评分员是学前教育专业的研究生,他们在使用《量表》评估幼儿园班级教育质量上接受了严格的培训,包括4天的讲座培训和5天的实践练习。在培训结束时,这些评分员的评分者间一致性信度系数达到0.85。在班级观察测量情境中,评分员是一个“侧面”,也就是说,一个潜在的测量误差来源:评分员可能在评估一个班级到另一个班级时出现不一致现象(评分员与班级的交互效应);同一个班级因不同评分员宽松或严格程度不同也可能出现不同的评分结果(评分员效应)。一般情况下,同一班级的评价在同一时间由2名评分员独立进行。我们把托幼机构班级作为评价目标,把评分员和《量表》作为测量侧面。其中,评价《量表》为固定侧面,评分员为随机侧面。考虑到该《量表》包含了8个子量表,即从8个方面进行评价,我们把测量设计看作单侧面的多元嵌套设计,即评分员嵌套于幼儿园班级(r∶c)。

(四)研究结果

1.G研究结果

如前所述,运用多元概化理论的研究包括G研究和D研究。作为第一步,G研究包括设计、数据收集以及在设计情境下评估相关的方差分量。[21]一旦所有数据来源的方差分量被估算出来,这些可以用于D研究中制订未来的测评方案。在本研究中,多元概化理论的分析采用的是mGENOVA软件。[22]

表5-1给出了G研究的结果,包括《量表》8个维度(子量表)所有方差分量(对角元素)和协方差分量(即子量表之间的协方差)。每个方差分量表示在托幼机构教育质量的特定维度上不同班级“真实得分”(σc2)之间的方差估计值。[23]研究结果显示,在第一个子量表“空间与设施”上,方差分量最大;其次是子量表“保育”和“家长与教师”。而方差分量最小的子量表是“语言推理”。这些信息表明,相对而言,幼儿园班级在空间与设施质量上差异最大,但在语言推理教育质量上差异最小。

子量表之间的相关系数最低为0.65,这表明《量表》的8个质量维度之间密切相关,构成一个复杂量表的基础。评分员嵌套于班级效应的方差分量(σ2rc,e)理论上由两部分组成:一部分是评分员效应的方差分量(σ2r),它使评分员和班级之间交互作用的方差变量模糊;第二部分是残差(σ2rc,e)。在G研究中,嵌套设计 (即评分员和班级的嵌套)使这两个成分相互混淆并且无法分离。

表5-1 G研究方差和协方差分量估计值

续表

2.D研究结果

一旦G研究结果的方差分量是可用的,那么它同样适用于D研究中如何设计一个更好的测评方案。[24]例如,可以通过增加或减少评分员的数量、增加或减少评价项目的数量等修改测评方案。这些修改能够影响测量的可靠性,这样,可以对“最佳”测评方案进行规划。接下来,我们将从两个方面讨论结果:(1)原来的测评方案;(2)在嵌套设计中,通过改变评分员的数量形成新的测评方案。

(1)测量情境条件不变的D研究结果

表5-2显示了在用于G研究的测量情境不变的情况下D研究结果,也就是说,每个班级都由两个评分员进行评分,将评分员嵌套在班级里。在《量表》中,每个子量表(维度)的评分代表了幼儿园班级的质量水平,高分的班级质量高于低分的班级质量。正因如此,在测量信度的估算中仅仅通过考虑评分员评分排序的相对一致性是不够的,与评分员在实际评估得分中的一致性也是相关的。基于这些考虑,对于绝对决断来说,概化系数(φ)是一种适当形式的信度系数:

在上面的公式中,正如接下来要讨论的,σ2r 是评分员效应的变异成分,σ2rc,e 是评分员和班级之间交互效应的方差分量以及残差。但是考虑到嵌套设计,不可能把评分员效应和评分员与班级的交互作用相分离,这两个效应和残差被混淆在σ2r:c之下。对于获得绝对决断概化系数φ这一目的而言,这种混淆是没问题的,因为这两种效应已经被σ2r:c包含。

表5-2 原测量情境下D研究结果

在表5-2中,每个φ系数是真值方差和总方差的比值。φ系数是每个量表的标准参照解释的信度估计系数(即“绝对决断”)。φ系数值越大,测量精度越高。[25]从表5-2中我们可以看到,当两个评分员处于一个班级时,所有子量表的最低信度为0.9172 (子量表人际互动),而子量表空间与设施信度最高(φ=0.9674)。在子量表水平上,这些数值显示了较高的评分者间一致性。此外,总的φ=0.9724(表5-2中没有显示),表明整个量表有非常高的测量信度。信噪比(S / N)是“真正的得分”方差 (σ2c)与错误方差(σ2r:c / nr)之比。例如,子量表课程计划与实施的S/N为15.8281,这意味着“真正的分数”方差比误差方差大约15倍。

(2)测量情境条件改变的D研究结果

托幼机构教育质量的测评是一个非常艰巨、耗时的过程。为了探索更好的测评方案,我们需要考虑一系列假设的情境,也就是说,在量表使用中,评分员的数量是如何影响测量信度的。这个过程让我们在测量要求(信度等)和实际考虑(评分员数量、成本/效率等)之间保持平衡。

在假设的场景中,我们为每个班级设置1~5名评分员。在D研究中,使用不同数量评分员的场景来判断评分员数量的变化对《量表》使用的信度影响。图5-1以图形方式呈现这些假设场景的结果,目的是检验使用不同数量的评分员对《量表》总体及其8个子量表的绝对测量信度估计值(φ)的影响。如图5-1所示,所有子量表的概化信度系数都在0.8以上,甚至仅使用一个评分员也如此。这表明,《量表》的信度在托幼机构教育质量评估中通常是良好的;当然,不同子量表的概化信度系数存在差异。

更多相关的模式如图5-1所示,理论上预期的信度估计随着评分员数量的增加而增加。然而,图中显示更有趣的信息是(同一个班级中)一位评分员与两位评分员之间的曲线最陡,信度水平增加幅度最大。多于两个评分员的场景中,φ系数值增加逐渐变得平缓,进一步增加评分员的数量反而导致“边际效益递减”。更具体地说,从使用一个评分员到五个评分员信度全面提高,其中从一个评分员到两个评分员,信度提高幅度约占总数的60%。在这之后,改进的百分比分别是20%(从2个到3个评分员),10%(从3个到4个评分员)和6%(从4个到5个评分员)。依据信度提升的这一模型,研究者建议,在使用《量表》进行托幼机构教育质量评价的过程中,一个班级安排两个评分员可能会被认为是兼顾测量信度和成本/效率的最优测评方案(在成本可接受的情况下获得了较为理想的测量信度)。尽管使用更多的评分员可能会进一步增加测量的信度,但“边际效益递减”现象表明,一个班级安排多个(3个及以上)评分员所投入的成本过高,但信度的增加并不太多。

图5-1 一个班级不同数量评分员条件下的测量信度变化

(五)讨论与启示

《量表》第一版是在借鉴国际上成熟的托幼机构教育质量评价工具的基础上,为测量中国文化背景下的托幼机构教育质量而研制的班级观察评价工具。初步的效度验证研究表明,《量表》具有良好的测量学特性。[26]本研究致力于运用多元概化理论,对《量表》的测量信度进行更进一步的检验。

在多元概化理论分析中,有几个值得注意的发现。第一,不同的子量表(如“空间与设施”与“语言推理”)在“测量目标”上的方差分量是不同的。这说明,幼儿园班级在某些维度上(如“空间与设施”)比起其他维度(如“语言推理”)质量差异更大。实质上,与其他一些维度相比,可能存在更容易被观察和评估的维度,从而导致不同程度的测量信度。例如,子量表空间与设施主要涉及对物理环境的观察测量,如室内或室外的空间、设施设备,相对容易观察和评估。这也许可以解释为什么“空间设施”子量表的信度高于“语言推理”子量表,因为各种情境和活动过程中的语言推理是评分员难以观察和评估的,从而导致相对较低的测量信度。第二,D研究结果显示“边际效益递减”的模式,这表明每个班级评分员的最佳数量可能是两个。使用两个以上的评分员将会显著增加评估工作的成本,但测量信度的增加幅度有限。

综上所述,与已有的研究结果基本一致,[27]概化理论分析的研究结果表明,基于中国文化社会环境下对托幼机构的教育质量进行测量,《量表》都显示了良好的测量信度。同时,基于不同数量评分员测量信度变化的“边际效益递减”结果模型,研究者建议每个班级安排两名评分员,这样我们可能会在测量的信度和成本/效率上达到一个合理的平衡。由于多元概化理论的方法允许研究者考虑非现实的可能性,因而使用多元概化理论评估托幼机构质量观察评价工具的测量信度,是对传统的信度分析方法的突破。