三、基于项目反应理论多侧面Rasch模型的分析[28](1 / 1)

(一)研究目的

本研究采用多侧面Rasch模型,对28位评分员在运用《量表》进行托幼机构教育质量评价中的评分员偏差进行了分析,一来为培训评分员、修订项目、提高测评的科学性提供佐证;二来为使用项目反应理论(IRT)探讨托幼机构教育质量评价的测量学属性(psychometric property)拓展思路。

(二)概念框架

经典Rasch模型考虑被评价对象和评价项目两个变量对测评结果的影响。[29]多侧面Rasch模型[30]认为除这两个影响因素外,还受评分员等测评情景变量的影响。多侧面Rasch模型将这些影响因素或变量称为测量侧面。多侧面Rasch模型的一般表达式为:

Pnijk是受评者n在项目i上被评委j评定为k等的概率;

Bn是受评者n的能力参数(n=1,2,…,N);

Di是项目i的难度参数(i=1,2,…,L);

Cj是评委j的宽严程度(j=1,2,…,J);

Fk是分部评分模型(Partial Credit Model)中被试得分从k-1到k的等级难度,每个项目均有K级评分(k=1,2,…,K)。

多侧面Rasch模型提供每个测量侧面的参数估计值,估计标准误和fit值等。fit值用于描述实际测评值与模型估计值差异的统计量。具体而言,fit统计量包括infit和outfit,它们的计算公式分别为:

Z2ni表示受评者n在项目i上的标准化残差的平方;Wni为权重,其大小为项目i的方差;infit考虑了项目方差,受极端值影响小;fit值范围为(0,+∞)。如果多名评分员对受评者测评结果相差很大或是过于一致性,fit值都会呈现这种差异。实际测评时,不同评分员对同一受评者的评价意见不可能完全一致,总是会有一定的差异。MFRM认为只要这个差异在某个正常范围内即可。实际工作中,fit值具体采用哪个取值范围通常根据测评目的和需要来确定。

此外,多侧面Rasch模型还可以进行偏差分析,即估计两侧面间的交互作用是否存在显著偏离模型估计值的评分,以此来分析评分员在各侧面的评分差异问题。例如评分员与班级的偏差分析,指分析评分员与班级的交互作用是否存在显著偏离模型估计值的评分,以此来判断评分员对班级的评分差异。MFRM软件提供Z值进行判断,Z值为模型期望值与实际观测值间差异的logits值除以估计标准误。当Z的绝对值大于2时,则认为差异显著,[31]说明评价结果存在较大分歧。

多侧面Rasch模型相比CTT和GT具有一些独特的优势,比如,它可从评分员层面对评分员宽严程度、评价一致性以及各侧面间的交互作用等进行分析。[32]鉴于此,我们尝试用多侧面Rasch模型对托幼机构教育质量评价的评分员偏差进行相关分析。

(三)研究方法

1.样本

抽样幼儿园班级来自我国东部某省。采用分层抽样的方法,首先根据经济发展水平在该省抽取了6个地区(高、中、低各两个);然后分别在这6个地区的市、县、乡镇、村随机抽取幼儿园,在每个幼儿园里随机抽取两个班级,共抽取了91所幼儿园的174个班级。

2.测评工具

本研究采用的测评工具是《量表》。该《量表》采用7点式计分,包含51个项目,从空间与设施、保育、课程计划与实施、集体教学、游戏活动、语言推理、人际互动、家长与教师8个方面(子量表)对托幼机构的教育质量进行观察评价。

3.测评方法与过程

共有28名评分员对174个样本班级运用《量表》进行班级观察和评分。评分员均来自从事学前教育专业教学和研究的高校教师和研究生团队。他们都参与了《量表》的编制和修订研究工作,并且接受了严格的《量表》培训和施测练习。一般情况下,同一班级的评价在同一时间由两名评分员各自独立进行。

4.数据结构设计

托幼机构教育质量评价通常采用评分员观察测评的方法进行,它是一种多人参与的多维主观评价活动。该评价活动维度多、内容复杂(8个子量表、51个评价项目),评价历时较长(通常是对幼儿园班级一日活动进行6.5小时的观察评价),而且观测对象具有现场性和动态性等特征。评分员、评价情景、评价维度、评价项目等都将是评价误差的重要来源。[33]当前国内外仅有少量基于评价子量表或评价维度采用MFRM对托幼机构教育质量评价进行的研究[34],还没有基于测评项目展开相关探讨。考虑该评价活动的复杂性以及测评项目也是影响评价误差的重要来源,而且关于这方面的探讨又很少,本研究建构了托幼机构班级、评分员和评价项目三个侧面来分析评分员偏差,包括评分员宽严度、评分员内部一致性、评分员与评价班级、评价项目的偏差等。从项目反应理论模型MFRM的分析视角,为托幼机构教育质量评价的评价误差来源,合格评分员库的建设及评分员培训的有效性等方面,提供科学依据。

5.数据预处理和数据分析软件

本次测评共有28名评分员对174个班级进行了观察评价。在数据的初步整理中,研究者发现“安抚与独处的空间与设施”“课堂文化”“音像设备和电脑的使用”“尊重和欣赏差异”以及“教师间互动与合作”这五个项目有大量的缺失值(其中多个项目为“允许不适用”的项目或目前在我国尚不普遍的“增设项目”,因而许多班级被评为“不适用”从而导致缺失值)。因此,我们对这些项目和相关班级进行了删除处理,最后用于本研究的有效数据为28名评分员、46个项目、155个样本班级的观察测评结果。数据预处理采用SPSS软件,多侧面Rasch模型分析采用Facets for Windows 3.68.1软件包。

(四)研究结果

1.评分员宽严度及自身内部一致性结果

对28位评分员的宽严程度进行Facets估计,所得结果如表5-3所示。值越大表明评分员评分越严格;反之,其值越小则越宽松。表5-3结果显示,12号评分员最严格(-0.28),22号和24号评分员最宽松(-1.11)。估计标准误(Model S.E)值越大说明评价越不稳定,值越小则越稳定。表中结果表明:28号评分员评价最不稳定,7号、8号评分员评价较稳定。

表5-3 28名评分员宽严程度与一致性结果

续表

表5-3下备注部分RMSE指估计标准误均方根,其值在0~1,越小越好;AdjS.D是校正测量误差后的估计值标准差,其平方值即真实变异量。分离指数(Separation)是AdjS.D除以RMSE的结果,它表示测评的有效性;分离信度是真实变异占测评总变异的比例,其值介于0~1,值越大说明差异越大。表中分离信度值0.91,说明各评分员宽严程度存在较大差异;卡方检验结果表明28位评分员的宽严程度存在显著性差异(χ2(27)=533.3,p<0.001)。

如前文所述,fit值用于描述实际测评值与模型估计值差异的统计量,其结果如表5-3中第六列、第七列所示。它是评分员测评稳定性的指标,用于说明就整体而言每位评分员在观察测评过程中的自身一致性程度。多侧面Rasch模型通过对fit值设定某个范围来拟合实际测评情况。有研究认为fit值介于0.5~1.5是可接受的范围,[35]也有研究认为fit值在0.8~1.2更合适。[36]fit值设定范围越窄对测评工作要求越严格,越能体现测评工作的科学性和权威性。实际工作中,fit值具体采用哪个取值范围通常根据测评目的和需要来确定。鉴于托幼机构教育质量评价的权威性和高风险性,我们选择0.8~1.2。当fit值小于0.8时,说明评分员评价过于一致,仅用少数几个评价等级来进行评分;当fit值大于1.2时,表明评分员内部一致性较差。基于infit考虑了项目方差,其值受极端值影响小,我们主要采用infit值进行考量。由表5-3可知,28位评分员的infit值均大于0.8,意味着这次测评没有自身内部过于一致的评分员。fit值大于1.2的有三位评分员:14号、18号和2号。这说明,整体而言这三位评分员的自身内部一致性较差。分析自身一致性较差的评分员测评特征,一方面可以为评分员提供有针对性的培训;另一方面也可以为《量表》的编制等提供测量学参考与建议。

2.自身内部一致性较差的评分员分析

从上表结果可知2号、14号和18号三位评分员的fit值均大于1.2,认为这三位评分员的自身内部一致性较差。我们对这三位的非期望测评结果(unexpected responses)进行了分析,如表5-4所示:MFRM软件包分析处理的非期望测评的部分结果。MFRM软件包将标准化残差绝对值大于3的均列出。

由表5-4可知,评分员2、评分员14出现非预期评分的频次相对较高。其中,评分员2的异常值出现在两个班级的三个不同项目(包括“午睡空间与设施”“活动区角”“安全”)。其中,两位评分员(评分员2和评分员18)在项目4“午睡空间与设施”上均出现非期望测评结果。该项目主要从幼儿在园午睡/休息的空间、设施方面进行观察测评,之所以出现非期望值,可能是因为该项目一般是在组织幼儿午睡的环节进行观察,观察时间比较短暂;这一时间往往也是评分员即将吃午餐的时间,因此可能造成时间冲突,观察比较匆忙,甚至可能没有仔细观察午睡环境而仅凭模糊印象进行推测评分;另外,评分员经过一上午的观察测评,可能比较疲倦,也易产生测评误差。评分员14测评结果异常值出现在四个班级的四个不同项目(包括“卫生间”“如厕/盥洗/饮水”“角色/戏剧游戏”“教师督导与评价”)。产生这些偏差的可能原因是评分员对这些项目的评价内容和概念理解不准确、观察评价时机掌握不当、评价态度不够稳定等。基于此,需要对这些评分员(尤其是评分员2和评分员14)展开相应项目的培训,以进一步掌握这些项目评价内容涉及的概念内涵、观察测评的时机与核心要点以及评分技术要领等,以便在将来的测评当中更好地把握这些项目的观察测评技术,提高观察测评的准确性与可靠性。

表5-4 评分员2、评分员14和评分员18的非期望测评结果

3.评分员与班级的偏差分析

评分员与班级的偏差分析指,运用MFRM分析评分员与班级的交互作用是否存在显著偏离模型估计值的评分,以此来判断评分员对班级质量的评分差异问题。经统计,评分员与班级偏差显著的次数(26)占总的交互作用次数(362)的比率为8.02%。托幼机构教育质量评价通常由评分员在幼儿园进行为时一天(约6.5小时)的现场观察与评价。该测评活动为时长,测评内容繁多且是对动态变化现场的即时测评,这可能是影响偏差显著次数所占比率较高的重要原因之一。Z值小于-2有12次(3.7%),说明有3.7%测评结果比较宽松;Z值大于2的有14次,近4.32%的测评结果比较严格。

表5-5 评分员与班级的偏差(显著)结果汇总

如表5-5所示,21号评分员发生评分显著性偏差次数比率最大(42.86%)。该评分员共评价了7个班级,发生了3次显著性偏差,偏差最大值(-3.56)是对编号64的班级评价结果。

表5-6 21号评分员与班级的偏差分析

从表5-6可知,评分员21对64号班级的评分低于模型期望值近4个标准差,对该班级的测评结果异常宽松;测评标准比较宽松的是对87号班级的测评。另外,该评分员对编号60的班级测评结果显示Z值大于2,这说明对60号班级的测评比较严格,评分较低。这表明21号评分员对测评项目各评价等级标准的把握还不是很稳定,主观性较强,在今后需要对这类评分员进行有针对性的补充培训与练习。类似地,可以对每位评分员与班级的偏差进行如此分析,限于篇幅,不再列举。卡方检验结果(χ2(324)=341.9,p>0.05)表明,评分员与班级的交互作用不显著。也就是说,各评分员对不同班级在评分标准把握的宽严程度上并不存在显著差异。

4.评分员与项目的偏差分析

评分员与项目的偏差分析是运用MFRM分析评分员与项目的交互作用是否存在显著偏离模型估计值的评分,以此来判断评分员对各项目的评分差异问题。如下图5-2所示为2号评分员在各项目上的评价偏差结果。该评分员的偏差项目个数最多(10个),其中偏差最大的是对第6题(环境创设与幼儿作品展示)的评价;其次是第38题(活动的指导与监护)。在这些偏差项目中,有4个项目是关于幼儿园物质环境的,如家具教学设施、活动区角、教师的空间与设施等;另6个项目是关于活动组织与评价,师幼互动,教师督导与评价等。无论是对班级物质环境创设的评价,还是对教学活动组织的评价,该评分员对部分测评项目内容的理解和等级评分技术的把握尚不够充分。在今后的正式观察测评之前,需对该类评分员在相应的项目上进行更具体深入、有针对性的培训。总体上,在1288次评分员与项目的交互作用中,有106次偏差显著,比率为8.2%。评价量表项目内容的复杂性、概念的抽象性,托幼机构教育质量观察测评的现场性、动态性、观察评价的长时间性和多人参与的多维度的复杂性,或许是偏差显著比率较高的影响因素。卡方检验结果表明,评分员与项目的交互作用显著(χ2(1344)=1906.8,p<0.001)。

图5-2 2号评分员与项目的偏差分析

另外,运用SPSS软件对偏差显著的项目进行了统计,结果如表5-7所示。分析结果显示第45题(教师督导与评价)显著偏差次数最多,比率最大,其次是第13题(健康)。项目45教师督导与评价,主要反映幼儿园平常对教师工作督导与评价的频率、评价的方法和反馈方式等方面的状况。仅凭评分员对班级一天的观察无法获得这些方面的信息,因而该项目主要依据对教师的访谈来获取相关信息;访谈的主观性与随意性、记忆和描述的模糊性,不同教师(幼儿园班级往往并不只有一位带班教师)反馈情况的不一致性等,都有可能对该项目评价的准确性造成影响。项目13“健康”,是从疾病预防和卫生习惯两方面进行测评。其中疾病预防主要是测评托幼机构和教师在平常所采取的措施,评分所需的信息部分来自当天的现场观察,部分需要依赖对班级教师或保育员的访谈进行评分。之所以存在较大的偏差,可能是因为评分信息来源的多样化以及这些信息之间的不一致,访谈对象的不确定性以及访谈信息的主观性和模糊性,都可能影响评分的准确性。总之,从评分员与项目交互作用的显著偏差来看,需要在部分项目上对评分员进行有针对性的增强型培训,以便在有限的时间内对这些项目进行尽可能客观准确地观察测评;同时,也需要对易于出现偏差的项目在随后的修订中加以调整,减少对访谈方法的依赖,或者改进访谈设计,便于评分员获取相对真实可靠和精确的评价依据。此外,有9个项目并不存在显著偏差,它们分别是:进餐、午睡/休息、教学设计与组织、幼儿表现、美术、发展概念与推理、常规和纪律、活动指导和监护、家园沟通与合作。这些项目有些是涉及一日生活环节,比如进餐与午睡/休息,相对易于观察测评。另一些项目涉及集体教学活动、区角游戏活动等。由于这部分评价项目的内容界定相对比较清晰,可操作性强;再加上评分员的专业背景,对幼儿园的集体教学活动和区域游戏活动的环境、组织方式和过程相对熟悉,日常的观摩经验比较丰富。因此,相比较而言,这部分的观察就会比较清晰,评分比较准确。

表5-7 评分员与项目偏差显著的汇总

(五)讨论

托幼机构教育质量评价通常是多人参与的多维复杂评价活动,观察测评时间长、测评内容较多。《量表》的使用要求评分员全天(大约6.5小时)在幼儿园班级内进行集中精力的观察测评。由于受到疲劳程度、测评经验和专业水平等个体因素的影响,评分员是影响评分准确性的重要因素之一。本研究采用MFRM模型对评分员宽严程度、评分员内部一致性、评分员与评价班级以及评价项目的交互作用等评分员偏差进行了分析。

1.评分员宽严程度的影响

MFRM采用评分员宽严程度指标来区分评分过于严格或过于宽松的评分员。评分很宽松(或很严格)的评分员意味着班级获得高分(或低分)的可能更大。MFRM分析结果显示,28名评分员宽严程度存在显著性差异。有研究表明,评分员的个体特征,如对评价内容相关知识的熟悉性是影响评分员偏差的因素之一。[37]或许这些评分员的性格特征或行为风格(如一丝不苟还是机动灵活)、专业态度(如严谨、认真还是随意、应付)、相关学科知识的储备量是导致部分评分员评分较严或较宽松的重要影响因素。建议将来在评分员选择方面,首先考虑有相关学科知识背景的;在培训工作中,强调评价工作的专业态度和精神;在观察评价过程中,通过动态抽检,及时识别评分误差较大的评分员并分析原因,及时进行反馈调整。这些举措或许能够在一定程度上减少因评分员个体特征造成的评分过于严格或过于宽松的问题,从而提高测评的准确性。

评分员内部一致性指某评分员对其所测评的班级、项目是否采用相同的测评标准。MFRM模型fit估计值显示25位评分员的内部一致性较好,3位评分员自身内部一致性较差。MFRM软件提供的非期望反应结果显示,两位评分员在几个班级、几个项目上出现了非期望测评结果。结果表明,出现期望反应的班级没有共同的特征,项目上也没有某些共同属性,托幼机构物质环境和教育过程性的评价项目均有可能出现偏差。出现这些非期望测评结果主要还是因评分员对这些测评项目的内容理解不透彻,对复杂现场情境的评分时机或评分尺度把握不准,难以进行准确测评。依据这些分析结果,我们建议在将来的评分员培训中,对于较为抽象的内容应进一步明晰概念、增加实例和模拟测评机会,针对专业背景不同或者实际经验缺乏的评分员,应增加观察测评策略和技巧的培训,提高培训的有效性。这些分析结果也进一步表明,与经典测量理论通常采用肯德尔W系数来报告整个评分员群体的一致性不同的是,项目反应理论的MFRM模型则可以对每个评分员自身的一致性进行分析。从评分员个体层面进行评分员宽严程度分析、评分员内部一致性分析,这些是项目反应理论MFRM的独特优势,是与经典测量理论无法媲美的。

2.评分员与班级、项目的偏差

评分员与各侧面的偏差分析指评分员与各侧面的交互作用是否存在显著偏离模型估计值的评分情况。经MFRM分析显示,评分员与班级交互作用偏差显著的比率为8.02%。因目前尚未有托幼机构教育质量评价的MFRM分析,对于该比率是否偏高或偏低无法进行同类研究的考究。相比较语言、公务员面试等MFRM的分析结果,该比率偏高。[38]这可能与托幼机构教育质量评价活动较语言测试、公务员面试等测评情况具有更高的复杂性、现场性、动态性与费时性等因素有关。对于托幼机构教育质量评价而言,加强评分员培训,减少评分员测评主观性,或许是减少偏差显著比率的一项重要措施。我们对发生偏差显著较多的评分员做了进一步统计分析,结果发现21号评分员对64号班级的测评结果异常宽松,对60号班级又比较严格。发生偏差的班级并没有出现某些共同的特征。这也说明,评分员与班级的偏差不以班级特征为变量。总之,基于MFRM可以对评分员与班级的偏差进行评分员个体层面的分析。

评分员与项目的偏差分析结果显示,首先,可以在评分员个体层面上,对偏差展开分析讨论。比如2号评分员与项目的偏差比率最高,进一步分析表明,发生偏差显著的项目不仅有关于托幼机构教育质量物质环境方面的,还有教育活动实施过程方面的。这些结果显示,该评分员对这些项目的主要内容和各评分标准的理解还不是很透彻,对复杂现场的评分判断不准确,还需要在将来的测评培训当中,加强对这类评分员的针对性培训。其次,对存在偏差的项目进行统计分析发现,项目45“教师督导与评价”发生的偏差次数最多,比率最大;其次是项目13“健康”。之所以存在较高比率的偏差,可能是因为这两个项目主要采用对班级教师访谈的方式获取相关评分依据,其中部分细节信息教师也难以准确提供,导致评分员难以做出准确评价;另外,访谈的主观性、记忆和描述的模糊性都可能会对评价的准确性造成影响。这意味着,一方面要对评分员进行项目内容的针对性培训;另一方面也要对项目内容、评价指标与评分方法进行适当修订,适当减少对访谈信息的依赖,以便更易于准确地观察和测评。

3.未来研究方向

虽然本文对28位评分员此次测评的评分员宽严程度、评分员自身一致性、评分员与班级、项目各侧面间的交互作用进行了分析与探讨,但如文中所述,对造成这些宽严度不一、内部一致性差的原因是否与评分员个体特征有关,比如是否与具有学前教育或儿童发展相关专业知识背景有关等(尽管本研究中的评分员均为来自学前教育专业的研究生,但他们的本科未必是学前教育专业,因而评分员之间在学前教育专业知识背景上并不完全一致),这是我们将要进一步探讨的问题之一。对于托幼机构教育质量评价这种多人参与的多维主观现场测评活动,其交互作用的偏差比率控制在多大比较合适,以及如何从评分员层面去减少偏差比率等问题也有待于深入探究。

(六)结论

不同于经典测量理论仅能对评分员群体的一致性进行分析,项目反应理论的MFRM模型可以对评分员个体的评分偏差进行详细、具体的估计与分析。本研究采用MFRM模型对28位评分员在155个幼儿园班级、46个项目的教育质量评价中的评分员偏差进行分析。根据托幼机构教育质量评价活动特点、评价情境等建构了评分员、评价班级和评价项目三个侧面,分别对评分员的评分宽严程度、评分员内部一致性,以及评分员与评价班级、评价项目的交互作用进行了分析。研究结果表明,基于项目反应理论的MFRM模型的分析能够为托幼机构教育质量评价的评分员培训、评分员工作质量监测及合格评分员库的建立等提供科学依据,同时也为托幼机构教育质量评价的可信性、有效性和权威性等提供现代测量学依据。

[1] Cassidy,D.J.,Hestenes,L.L.,Hegde,A.,Hestenes,S.,& Mims,S.Measurement of quality in preschool child care classrooms:An exploratory and confirmatory factor analysis of the early childhood environment rating scale-revised[J].Early Childhood Research Quarterly,2005,20(3):345-360.

[2] Perlman,M.,Zellman,G.L.,& Le,V.N.Examining the psychometric properties of the early childhood environment rating scale-revised (ECERS-R)[J].Early Childhood Research Quarterly,2004,19(3):398-412.

[3] Li,K.,Hu,B.,Pan,Y.,Qin,J.,& Fan,X.Chinese Early Childhood Environment Rating Scale (trial)(CECERS):a validity study[J].Early Childhood Research Quarterly,2014,29(3):268-282.

[4] Harms,T.,Clifford,R.M.,& Cryer,D.Early childhood environment rating scale (Revised edition)[M].New York:Teachers College Press,1998;Stipek,D.,& Byler,P.The early childhood classroom observation measure[J].Early Childhood Research Quarterly,2004,19(3):375-397.

[5] Chen,D.,Hu,B.,Fan,X.,& Li,K.Measurement quality of the Chinese Early Childhood Program Rating Scale (CECPRS):an investigation using multivariate generalizability theory[J].Journal of Psychoeducational Assessment,2014,32(3):236-248.

[6] 孙晓敏,张厚粲,薛刚,黎坚.多元概化理论在结构化面试中的应用研究[J].心理科学,2009,(4);杨志明,张雷.用多元概化理论对普通话的测试[J].心理学报,2002,(1);黎光明,张敏强.用概化理论分析高校教师教学水平评估[J].高教发展与评估,2009,(2).

[7] Cronbach,L.J.,Gleser,G.C.,Nanda,H.,Rajaratnam,N.The Dependability of Behavioral Measurements:Theory of Generalizability for Scores and Profiles [M].New York:Wiley,1972.;Shavelson R J.Webb N M1 Generalizability theory:1973-1980[J],British Journal of Mathematical and Statistical Psychology,1981,34:133-166;Jarjoura,D.,Brennan,R.L.A variance components model for measurement procedures associated with a table of specifications[J].Applied Psychological Measurement.1982,6(2):161-171.

[8] 孙晓敏,薛刚.多面Rasch模型在结构化面试中的应用[J].心理学报,2008,40(9):1030-1039.;俞宗火,唐小娟,王登峰.GT与IRT的比较:北京奥运会男子10米跳台跳水分析[J].心理学报,2009,41(8):773-784.

[9] Gordon,R.A.,Fujimoto,K.,Kaestner,R.,Korenman,S.,& Abner,K.An Assessment of the validity of the ECERS-R with implications for measures of child care quality and relations to child development[J].Developmental Psychology,2012,49(1):146-160.

[10] Cash,A.H.,Hamre,B.K.,Pianta,R.C.,& Myers,S.S.Rater calibration when observational assessment occurs at large scale:Degree of calibration and characteristics of raters associated with calibration[J].Early Childhood Research Quarterly,2012,27(3):529-542.

[11] Linacre,J.M.A User’s Guide to Facets Rasch-Model Computer Programs [M].Chicago:MESA Press,2012.

[12] Bonk,W.J.,& Ockey,G.J.A many-facet Rasch analysis of the second language group oral discussion task[J].Language Testing,2003,20(1):89-110.

[13] Engelhard,G.,Jr.,Myford,C.M.,& Cline,F.Investigating assessor effects in national board for professional teaching board for professional teaching standards assessments for early childhood/generalist and middle childhood/generalist certification(RR-00-13)[Z].Princeton,NJ:Center for Performance Assessment,Educational Testing Service,2000.

[14] 孙晓敏,薛刚.多面Rasch模型在结构化面试中的应用[J].心理学报,2008,40(9):1030-1039.

[15] Ba?türk,R.,& I?iko?lu,N.Analyzing process quality of early childhood education with many facet Rasch measurement Model[J].Educational Science:Theory and Practice,2008,8(1):25-32.

[16] 本部分基于本项目研究两篇已发表论文整理而成:(1)Chen,D.Z.,Hu,B.Y.,Fan,X.T.,& Li,K.J.Measurement quality of the Chinese early childhood program rating scale:an Investigation using multivariate generalizability theory[J].Journal of Psycho Educational Assessment,2014,32(3):236-248.(2)陈德枝,秦金亮,李克建.中国托幼机构教育质量评价的多元概化理论分析[J].幼儿教育,2013,(10).

[17] Fan,X.,& Sun,S.Generalizability theory as the unified reliability framework in adolescence research[J].Journal of Early Adolescence,2014,34(1):38-65.

[18] Brennan,R.L.Generalizability theory [M].New York,NY:Springer,2010.;Shavelson,R.J.,& Webb,N.M.Generalizability Theory:A Primer [M].Thousand Oaks,CA:SAGE Publications,1991.

[19] Fan,X.,& Sun,S.Generalizability theory as the unified reliability framework in adolescence research[J].Journal of Early Adolescence,2014,34(1):38-65;Shavelson,R.J.,& Webb,N.M.Generalizability Theory:A Primer [M].Thousand Oaks,CA:SAGE Publications,1991.

[20] Clauser,B.E.,Harik,P.,& Margolis,M.J.A multivariate generalizability analysis of data from a performance assessment of physicians’ clinical skills[J].Journal of Educational Measurement,2006,23(3):173-191.;Yang,Z.M.,Chang,L.& Ma,S.Y.Multivariate generalizability analysis of the Chinese college entrance comprehensive examination[J].Acta Psychologica Sinica,2004,36:195-200.

[21] Shavelson,R.J.,& Webb,N.M.Generalizability Theory:A Primer [M].Thousand Oaks,CA:SAGE Publications,1991.

[22] Brennan,R.L.Generalizability Theory [M].New York,NY:Springer,2010.

[23] Fan,X.,& Sun,S.Generalizability theory as the unified reliability framework in adolescence research[J].Journal of Early Adolescence,2014,34(1):38-65.;Shavelson,R.J.,& Webb,N.M.Generalizability Theory:A Primer [M].Thousand Oaks,CA:SAGE Publications,1991.

[24] Brennan,R.L.Generalizability Theory [M].New York,NY:Springer,2010;Fan,X.,& Sun,S.Generalizability theory as the unified reliability framework in adolescence research[J].Journal of Early Adolescence,2014,34(1):38-65;Shavelson,R.J.,& Webb,N.M. Generalizability Theory:A Primer [M].Thousand Oaks,CA:SAGE Publications,1991.

[25] Brennan,R.L.Generalizability Theory [M].New York,NY:Springer,2010;Fan,X.,& Sun,S.Generalizability theory as the unified reliability framework in adolescence research[J].Journal of Early Adolescence,2014,34(1):38-65.

[26] Li,K.,Hu,B.,Pan,Y.,Qin,J.,& Fan,X.Chinese Early Childhood Environment Rating Scale (trial)(CECERS):a validity study[J].Early Childhood Research Quarterly,2014,29(3):268-282.

[27] Li,K.,Hu,B.,Pan,Y.,Qin,J.,& Fan,X.Chinese Early Childhood Environment Rating Scale (trial)(CECERS):a validity study[J].Early Childhood Research Quarterly,2014,29(3):268-282.

[28] 本部分内容来源:陈德枝,秦金亮,李克建.托幼机构教育质量评价中评分员偏差的多侧面Rasch分析[J].心理科学,2016,(3).感谢《心理科学》杂志社授权使用本论文。

[29] Wright,B.D.,& Stone,M.H.Best Test Design [M].Chicago:MESA Press,1979.

[30] Linacre,J.M.Many-Facet Rasch Measurement [M].Chicago:MESA Press,1994.

[31] Myford,C.M.,& Wolfe,E.W.Detecting and measuring rater effects using many-facet Rasch measurement:Part I[J].Journal of Applied Measurement,2003,4(4):386-422;Myford,C.M.,& Wolfe,E.W.Detecting and measuring rater effects using many-facet Rasch measurement:Part Ⅱ[J].Journal of Applied Measurement,2004,5(2):189-227.

[32] 汪文义,刘铁川.多侧面Rasch模型//丁树良,罗芬,涂冬波.项目反应理论新进展专题研究[M].北京:北京师范大学出版社,2012:127-128.

[33] Chen,D.,Hu,B.,Fan,X.,& Li,K.Measurement quality of the Chinese Early Childhood Program Rating Scale (CECPRS):an investigation using multivariate generalizability theory[J].Journal of Psychoeducational Assessment,2014,32(3):236-248.

[34] Ba?türk,R.,& I?iko?lu,N.Analyzing process quality of early childhood education with many facet Rasch measurement Model[J].Educational Science:Theory and Practice,2008,8(1):25-32.

[35] Linacre,J.M.A User’s Guide to Facets Rasch-Model Computer Programs [M].Chicago:MESA Press,2012.

[36] 孙晓敏,薛刚.多面Rasch模型在结构化面试中的应用[J].心理学报,2008,40(9):1030-1039.

[37] Tajeddin,Z.,& Alemi,M.Pragmatic rater training:Does it affect Non-native L2 teacher’ rating accuracy and bias?[J].Iranian Journal of Language Testing,2014,4(1):66-83.

[38] 姚若松,赵葆楠,刘泽,苗群鹰.无领导小组讨论的多侧面Rasch模型应用[J].心理学报,2013,45(9):1039-1049;Farrokhi,F.,Esfandiari,R.,& Schaefer,E.A many-facet Rasch measurement of differential rater severity/leniency in three types of assessment[J].Japan Association for Language Teaching,2012,34(1):79-102.