一、学校效能研究方法的演进
学校效能研究从其产生开始,就一直面临来自各方面的挑战,正是在应对这些挑战的过程中,学校效能研究在内容上不断丰富,在方法上也不断成熟起来。随着对教育效果与教育过程的实证研究的增多,教育政策的制定与实施效果评价也逐渐进入学校效能的研究视野,从而形成了多视角、多层次及多范式研究的新型研究模式。这种新的研究模式,弥补了教育研究领域那种脱离课堂及学校实践的教育经济学研究模式的不足,拉近了研究与现实,以及理论与实践的关系,使教育政策的制定能够建立在科学研究的基础上。此外,学校效能研究在方法上的发展也为教育研究方法的进步作出了贡献。其中,“多层线性模型”(Multilevel Linear Model,简称HLM)的发展与应用,拓展了教育研究所能考察的变量的范围,弥补了传统实验室设计不够切近现实的缺陷,能够在真实的环境中,采集多种变量之间的关系,并对真实世界中事物之间的因果关系进行检验。多层分析不仅仅是一种统计分析技术,而且是一种新的研究设计思路。它的提出与应用也广泛地影响了社会科学其他领域的发展。
目前,学校效能研究已发展成为一种综合采用观察法、调查法、测量法、实验研究、个案研究等多种方法,并将质性与量性研究相结合的整合研究领域。在这个过程中,学校效能研究在方法的进步,是其应对来自各方面的批评与挑战的结果。在不同时期,学校效能研究所面临的挑战有所不同,因而其在方法上的进步表现也各有侧重。其在方法的进步表现出三个阶段的特点:
1.1960年代—1970年代,学校效能研究主要面临统计分析方法及研究样本大小的挑战。在研究方法上的进步表现为:寻找替代传统回归分析方法的新技术,并开始在研究设计上考虑进行有效推论所需要的最小样本数。
传统回归分析技术对数据分析层次的限制,以及大型研究在取样上的局限,是这一时期的研究受到攻击的主要原因。科尔曼(Coleman,J.S.,1966)所做的教育机会均等调查,和詹克斯等人(Jencks,et al.,1972)的《美国家庭和教育影响再评价》报告,在英国有鲁特等人(Rutter,et al.,1979)所做的纵向研究和雷诺兹等人(Reynolds et al.,1976)所做的学校效果研究。科尔曼和詹克斯的研究是基于传统的多元回归分析技术,在选取大量学校,采用学校水平的测量及学生水平的社会经济背景的各种测量的基础上进行的,这些研究均是横断研究,没有做出任何入学(intake)调整。而鲁特等人则因样本太小而无法得出有推广价值的结论而遭到质疑。为应对挑战,研究者们开始寻找替代传统回归分析的新统计技术,并尝试在研究设计的取样上,考虑有效推论所必需的最少样本数。
2.1980年代,学校效能研究主要面临研究方法多样化及研究结论重复验证的挑战。而应对这些挑战而在方法上的进步表现为:采用实验研究和准实验研究等方法,并寻求更加复杂的统计分析技术来探讨学校教育的效果及学校之间的差异。
这一时期,学校效能研究所面临的方法上的挑战表现为4个方面:(1)研究的基本发现能否被其他调查重复;(2)研究结果能否经得起更复杂的统计技术(如多层回归分析模型)的检验;(3)在小学是否也会发现同样的结果;(4)学校效果研究的结论能否同样应用到不同的社会和种族中。
在应对这些挑战的过程中,各种验证因果关系的研究方法被广泛地应用到学校效能研究中,如实验研究和准实验研究等。为弥补传统回归分析的不足,有些研究者开始发展多层线性模型,但由于其计算上的复杂性,这一时期还难以在研究中应用这种技术。
3.1980年代末和1990年代,学校效能研究面临全面的概念挑战,为应对挑战,在方法上的进步表现为采用更加复杂的研究设计,探讨学校作用的内在过程及机制。
1980年代末,学校效能研究面临着全面的概念挑战:(1)许多人提出了对学校效能概念的质疑,需要重新界定学校效能的概念;(2)有关学生心理和功能发展的心理社会性影响的结论也面临挑战,这种挑战首先来自于1990年代以后,生物学领域兴起的基因革命引发的学术界对环境影响人发展的信条的怀疑,其次则来自于对横向研究方法缺陷的不满。这一时期的研究,在方法上强调不能仅仅满足于发现危险的有效指标,而是要除了观察事物的联系之外,还要对因果假设进行严格的检验,来识别关键的中间机制,并理解相互作用的过程和多个关联环节的过程。这一时期的研究有6个方面的特点:(1)通过纵向研究数据测量个体的变化;(2)采用自然实验将混在一起的变量分离开来;(3)对假设的原因变量进行有效的测量;(4)系统地检验某种反应的变化,如学习成就、学习态度及行为等;(5)从几种假设的机制解释中明确出一种;(6)充分控制社会选择、初始水平和自我完善等因素的效果。
就此,经过三个阶段的发展,学校效能研究在方法上逐渐走上了综合化发展的道路,并逐渐形成了一种整合性研究的新模式。
二、学校效能的测量
学校效能的测量方法的进步是推动学校效能研究发展的主要动力。学校效能的评价涉及两个方面,一是学校效能的测量,二是学校之间效能差异的测量。
测量是对那种可以以线性的方式来加以描述的量分配数量的过程。凡存在都有量的特征,但并不是所有量的特征都能被测量。只有那些能够被当作线性量的特征,才能用数量加以描述。对某个事物的测量事实上就是把这个事物分配到一个抽象连续体的某一点上,这个连续体要足够长,并且有一个起点,其一端代表较少的量,另一端代表较多的量。这个连续体就是一个合适的量表(如一把尺子),有了它,我们就可以把个体的某种特征分配到这个量表的某一点上。这个合适的量表就是有起点(称之为原点)和测量单位(计算量的依据)的尺度。所有的测量都意味着将所测量的特征表述为一种抽象的线性形式。
对学校效能的测量就是要以线性方式表述学校效能特征,并依据一定尺度来为每个学校分配一个学校效能量。学校效能一般是指学校对学生成就增长的贡献。由于影响学生成就增长的因素是多方面的,因此,学校效能往往与其他影响学生成就增长的因素混在一起,所以,必须在排除学校以外的其他因素的影响后,才能准确测量学校效能。
如果学校在除了教育质量以外的其他影响成就的因素上都等同,那么学校效能的测量将变得非常简单和直接。学校在教学质量上的差异将成为学校之间成就差异的唯一可能来源。因而,学校效能将等同于学校成就,而学校平均成就差异将是学校效能差异的有效测量。
然而,现实生活的状态并不是这么理想,学生并不是随机地分配到学校,因此,我们需要获得许多被假定为影响学生成就的学校之间的变量因素的信息,如父母的教育水平、家庭收入水平、班级大小、学生的个人能力与动机等,这些因素都要被有效测量。此外,学校之间在获得其他文化和教育投入(如丰富的项目)以及外部资金上的差异也可能影响学生成就。因此,学校在学生特征及非学校教育投入上的不平等,使人们不能简单使用学校成就来识别学校效能。学校之间的成就差异可能在某种程度上是这些“初始”差异造成的,而不是学校的效能差异。学校除教育质量以外,在许多其他方面存在的差异也反映在其成就水平上,因此,要测量学校效能的真实水平就需要分离出这些初始外部因素的效果。
目前常用的测量学校效能的方法主要是“附加值”法,又称统计控制法(statistical Control,SC)。其实质是对学校之间除教育质量以外的其他初始差异进行统计控制,通过多元回归分析,计算出各种初始差异对学校成就的贡献,得出各初始差异的预测方程,然后,再在学校的实际观察成就中排除由初始差异预测方程所估计出来的预测成就,其剩余的部分(又称残差(residuals))就是学校的效能。在这种情况下,学校效能被操作化定义为:观察到的(实际的)学校平均分与基于这些特征预测的平均分之间的差异(也就是回归残差)(Goldstein,1997)。这些残差提供了识别“异常者(outliers)”的基础。
直到1980年代以前,学校效能研究均是采用传统的多元线性回归技术来获得预测回归方程。传统回归分析没有区分学校层次的变量和个体层次的变量的不同影响,此外,还存在多元共线性问题,因此,这种方法所得到的结果一直受到人们的质疑。后来,直到1980年代末甚至1990年代,才开始使用多层分析模型来估计学校效能。
在1980年代和1990年代,人们主要关注学校效能指标(又称为“表现指标”(performance indicator))的生产和使用,大多数研究都采用学校平均成就分数测量。这引起了很大的争议,以学校平均成就分数作为学校效能指标的主要问题在于以下两个方面:
1.这类指标的用途非常狭窄,主要在于对学校进行排序,它并不能解释造成学校差异的原因。
2.大量研究显示,这种“表现指标”在提供有关学校的可靠信息方面存在着严重的局限:(1)它很难提供一个能够抓住学校特征的所有重要方面的简单的单维或二维的区分学校效能的测量;(2)用于分析学校表现的信息通常来自于几年前进入学校的一群学生,这些结果能否应用于未来学校的学生身上,是有待探讨的问题;(3)对学校或教育机构的效能判断不能仅靠一群学生某一时的表现,而是要看他们在一段时间里表现的变化,对学校效能的比较,要基于对入学成就和其他相关因素的合适的调整,但即使这样做后所产生的教育“附加值”(或增值)估计,也常常有很多的不确定性,使得它难以提供可靠的排序。
总之,统计控制方法存在不可回避的内在局限,这表现在以下三个方面:
1.在统计控制中,因为缺乏广泛的学生成就因果模型,所以可能会忽略一些重要的变量,预测方程不能包含所有的相关变量。此外,由于测量方法或逻辑上的困难,也会丢失一些重要的变量,例如,预测方程常常只包含了有限的社会人口学特征,如教育水平,家庭大小等,而忽略了难于测量的相关特征,如智力、动机、学习时间等。这会降低统计控制的效果,导致对学校效能的估计偏差。例如,忽视学校在学生动机上的差异会导致我们高估学生动机高的学校的效能,而低估学生动机低的学校的效能。
2.按照定义,学校的效能估计就是预测等式的残差,这不是一个衡量学校效能的绝对标准,而只是一个相对标准,因为,在一定取样范围的学校中,总体的残差是为0的,因此,应该有一半的学校的残差大于0,而另一半的学校的残差则小于0。这样,无论学校的真实效能如何,都会有一半的学校被判断为有效,而另一半的学校被判断为无效。可见,一个学校是否有效,会受到与之比较的学校情况的影响。因此,“附加值”估计只能作为一种用来识别“异常者”的初筛工具,而不能用来定义学校的效能。它不能准确描述学校能做什么。以“附加值”来判断学校改进也存在同样的问题。
3.目前所采用的统计控制方法大多使用了学校总体的社会经济特征(SES)来估计预测成就,对其他影响成就因素的变量的控制还很不够。因此,这种方法在很大程度上难以反映真实的学校贡献情况。
例如,科尔曼所提出的学校效能测量模型,就是以学校总体的社会经济地位来估计预测成就,并基于这个预测模型在学校层面对学校观察平均成就水平进行校正,以此来评价学校效能的一种模型。当然,后来的研究者在对学校观察成就水平进行校正时考虑了更多的因素,例如,英国学者卡腾斯(Cuttance,1992)所提出的学校效能测量模型就是基于学校层面的校正和学生层面输入校正后,来估计学校效能的一种模型。但在学校层面他只考虑了学生的平均社会经济地位的贡献,在学生层面则只考虑了学生原有的入学成就的贡献。其具体的测量方法可以由图13-3表示:
图13-3
图中直线表示某地区所有样本学校的家庭社会经济地位与学业成绩的正相关关系,A校学生的平均社会经济地位是1,B校学生的平均社会经济地位是2,A校学生的观察成就分数高于其社会经济地位预测的成就分数P1,而B校则低于其社会经济地位所预测的成就分数P2。学校平均观察成就分数与按照SES预测的学校成就分数的差异,就是衡量学校效能的指标。
近年来,有人提出了一种新的估计学校效能的方法(Cahan,s.et al.,2000)。这种方法将学校效能定义为:同一学校某组学生在连续两个年级之间的成绩增长(即在X年级与X—1年级的成绩差)。由于学生是同一组,因此,学生特征是恒定的,只需要考虑学校的影响和学生自然成熟及年龄相关因素的影响,这种方法要求使用同一成就测量工具,在连续两个年级,对同一组学生进行两次测量,同时采用“年级间”准实验回归非连续设计。这种设计有两个主要特点:(1)学生分配到出生日期是随机的;(2)年级水平是唯一的年龄因素。
这种方法将学生的成绩增长分解为两部分,即一年的年龄成长和一年的学校教学,年龄的效果以同年级内学生测验分数在生理年龄上的回归来表示,学校学习的效果以两个年级的年龄回归线之间的非连续性表示,如图13-4所示。
图13-4
(Cahan,S.,& Elbaz,J.G.,2000.The measurement of school effectiveness.Studies in Educational Evaluation,26,p.130.)
这种方法的优势在于,采用校内设计方法来估计学校效能,克服了以学校之间的相对比较来确定学校效能的缺陷,其所定义的学校效能具有实质性含义,它能够说明学生取得进步的实际情况,这种操作定义更加符合其实质定义。
此外,采用这种方法来估计学校效能,学校的效果与其他因素对学生学习的影响就不会产生相关(当然,除了年龄以外),学生的出生年龄是随机分配的,可以独立地估计出年龄因素和学校因素对学生学习成就的影响。
显然,这种方法在理念上具有明显的优势,但这种方法的操作使用还存在一定困难。使用这种方法的关键在于,找到能够有效测量连续两个年级学生的学习成绩的同一测量工具,在现实中,要找到这种工具并不那么容易。目前,大多数提倡这种方法的研究,都是采用某种智力测验工具来替代成就测量,但智力测验的结果可能与学校教学相关不高,这可能使我们低估学校教学的效果。此外,智力与年龄的关系也并不是完全线性的,到一定年龄后,智力的增长速度会变慢,这种现象也会使我们低估高年级学校教学的效果。
三、多层线性模型的发展与使用
多层线性模型(以下简称HLM)这一术语最早是由Lindley和Smith在1972年提出的,然而多层分析思想的出现却远早于此,近半个世纪以来,社会科学研究者就一直在探讨如何区分个体水平和社会背景水平的变量对个体行为的不同影响。在1972年提出HLM后,这种想法并没有在统计上得以实现,因为其参数估计的方法与传统的回归方法不同,当时的计算技术还很难满足这种要求。直到1977年,Dempster、Laird和Rubin等人提出了EM算法,并在1981年,将EM算法应用于解决HLM的参数估计后,HLM的应用才成为可能。此后,在1986年英国伦敦大学教授戈德斯坦(Goldstein)又采用迭代加权广义最小二乘法(iteratively weighted generalized least squares)来估计参数。随着参数估计问题的解决,多层线性模型的统计软件也相继出现,进一步推动了HLM在社会科学领域的应用,目前最常见的多层分析软件是HLM、Mlwin。(蔡永红,2006)
社会科学研究,数据结构常常体现为分层嵌套的形式,即低一层的数据嵌套于高一层的结构之中。例如,在教育和心理研究中,探讨学业成绩的影响因素,常常考虑的预测变量有学生的入学成绩、性别、家庭社会经济地位,以及班级大小、班主任和教师的特点、教室环境等,这些变量分别来自两个不同的水平,即学生水平和班级水平,学生嵌套于班级之中。如果再考虑学校的特征,那么,数据的层次扩大到了三层,学生水平嵌套于班级水平,班级水平嵌套于学校水平。
在1980年代以前,由于统计和计算技术的局限,在社会科学领域,探讨多层结构变量之间的关系时,只能采用传统的回归分析方法,对多层数据的处理只能采用两种方式:(1)在学生水平上进行回归分析,在个体水平上对学生的个体变量及班级(或学校)变量进行整合和分析,这个过程实际上是忽略了班级与班级(或学校与学校)之间的差异。(2)在班级(或学校)水平上进行回归分析,在班级(或学校)水平上对学业成绩的个体因素和班级(或学校)因素进行整合分析,这样做的主要问题是忽视了班级(或学校)内学生个体间的差异。
传统的线性回归模型的基本假设是:变量间存在直线关系,变量总体上服从正态分布,方差齐性,个体间随机误差相互独立。后两个假设在分层嵌套设计中往往不成立。例如,不同班级的学生可以假设相互独立,但是同一班级的学生由于受相同班级变量的影响,很难保证相互独立,因此如果采用传统的回归分析方法,误差将会很大。而多层线性模型(HLM)能够将不同层次的变量分层计算,把误差按层次分解为:由第一水平个体间差异带来的,和由第二水平班级间差异带来的,并假设第一水平个体间的测量误差相互独立,第二水平班级带来的误差在不同班级之间相互独立。这样做就提高了差异分解的精度。
与传统的回归分析相比,多层线性模型(HLM)有5个方面的优点:(1)考虑了不同层次的随机误差和变量信息,其标准误差估计、区间估计和假设检验更加准确和有效;(2)可以通过计算不同水平变异在总变异中所占的比率来确定不同水平对因变量的影响程度;(3)可以作为结构方程模型的拓展,用来分析具有多层结构的潜变量之间的因果关系,建立多水平结构方程模型;(4)可以分析重复测量的数据,即将测量看作第一水平,将测试个体看作第二水平;(5)可以分析离散型的数据资料,如二项分布和泊松分布的数据等。
具有嵌套结构的数据,在大规模的社会调查,组织研究、经济研究领域广泛存在,因此,多层线性模型在社会科学研究具有广泛的使用前景。多层线性模型也是一般线性模型的拓展,许多传统统计方法都是它的特例。在两个水平模型中有一个水平的变量为常数时,多层线性模型就简化为传统的回归分析;而单因素方差分析、单因素协方差分析也可以看成是多层分析模型的简化。
与结构方程模型相比,国内社会科学领域对层次线性模型介绍和应用研究都普遍较晚,所发表的研究报告也不多,其中可能有两方面的原因:一是多层模型的统计软件出现得较晚,二是一般研究难以满足多层线性模型对样本量的要求,特别是对水平2(如班级)的样本量要求,虽然并没有统一的标准来判断各水平的样本量多大合适,但一般来说,水平2的样本量都在100以上。
以两水平的多层线性模型为例,假设水平1和水平2都只有一个预测变量,则两水平的多层线型模型可以表示为:
水平1(如学生)Yij=β0j+β1jX1ij+rij
水平2(如班级)β0j=γ00+γ01W1j+μ0j
β1j=γ10+γ11W1j+μ1j
在水平1的方程中,下标“0”表示截距,其中,下标j代表水平1(如学生个体)所隶属的水平2的单位(如某班级)。Yij表示第j班第i个学生因变量的观测值(如:学生的期末考试成绩),下标“1”表示与水平1的预测变量X1有关的回归系数,如果有更多的水平1变量,如X2ij和X3ij,就会有β2j和β3j。β0j表示第j班的截距,γij表示j班第i个学生的测量误差。
对于水平2模型,γ00和γ01分别表示截距β0j对于班级变量W1j的回归直线的截距和斜率,μ0j表示由第j个班级的班级变量带来的截距上的误差。γ10和γ11分别表示截距β1j对于班级变量W1j的回归直线的截距和斜率,μ1j表示由第j个班级的班级变量带来的斜率上的误差。
从上面的数学表达式可以看出,水平1的模型与传统的回归模型类似,所不同的是,回归方程的截距和斜率不再假设为一个常数,而是不同的班级回归方程的截距和斜率都不同,是一个随机变量。每个班级回归方程的截距和斜率都依赖于第2水平的变量,如W1j(假设是班级的学习风气)。
目前,多层线性模型主要应用五个领域:(1)组织和管理研究中的大规模调查数据的分析;(2)个体追踪研究或多次观察的发展研究中的数据分析;(3)对研究文献进行定量分析;(4)利用多层模型较高的统计能力,弥补因水平1单位取样不足而造成的无法进行统计分析的问题,帮助回答水平1数据的问题。
思考题:
1.你如何理解学校效能?
2.简述学校效能的主要测量方法。
[1] 郑燕祥.学校效能与校本管理:一种发展的机制.上海教育出版社,2002.11
[2] Mortimore,P.(1993).School Effectiveness and the Management of effective Learning and Teaching.School Effectiveness and School Improvement,4,(4).290-310
[3] 引自郑燕祥.学校效能与校本管理:一种发展的机制.上海教育出版社,2002.6-11
[4] 王新如,郑文.谈学校组织文化与学校效能.教育科学,1997.7