近年来,随着基础教育课程改革的逐步深入,很多教育工作者在理论上和实践中对学生评价的具体方法进行了有益的探索。各种各样的新模式、新方法层出不穷,如质性评价、表现性评价、真实性评价、另类评价、实作评价、档案袋评价、成长记录袋评价、动态评价、多元智能评价、成功智力评价等,可谓异彩纷呈。结合校本课程开发的性质及学生的年龄和认知特点,校本课程开发中的学生评价宜采取多元化方式,收集学生学习结果与平时学习情形的表现资料,记录学生在学习过程中的收获成长,同时注重质与量的评价,兼重形成性和总结性评价。在此介绍表现性评价、档案袋评价和动态评价三种方式。这三种方式,不仅符合当前学生评价改革的基本方向,更契合校本课程情境性、动态性、灵活性的特性,也具有较高的可行性和推广运用价值。
(一)表现性评价(performance assessment)
1.表现性评价的内涵
作为对人的工作潜能进行评价的一种手段,表现性评价并不是在教育领域最先提出并得到运用的,它最早运用于心理学领域和企业管理领域。例如,在非言语的心理测试中,主试者通过观察被试者动手操作具体的实物而对其某种技能进行评价;在工厂里,主管人员通过观察雇员在完成一项特殊任务时的表现来对雇员的工作做出评价。直到20世纪40年代,教育评价学家才开始对表现性评价产生兴趣并加以研究。六七十年代以后,表现性评价得到迅速发展,成为今天国内外基础教育评价中广泛应用的一种评价方式。表现性评价是指教师在学生完成一项具体的学习任务过程中,对学生的认知、情感、技能和学习成果等进行的实际考查。[18]它通过可直接观察的实际行为表现来考查一个人掌握有关知识、技能或具备某种态度的程度,重在考查一个人将知识、理解转化为实际行动的能力或者使用有关知识、技能解决问题的能力,而不是重在考查一个人对有关知识信息的积累。[19]
2.表现性评价的特点
李坤崇提出,表现性评价具有以下十三个特点:[20](1)强调实际生活的表现;(2)着重较高层次思考与解决问题技巧;(3)兼容跨领域或学科知识;(4)重视学生学习个别差异;(5)允许评价时间弹性化;(6)适于年龄幼小、发展较迟缓学生;(7)促进学生自我决定与负责;(8)讲求评分、标准与人员的多元化;(9)强化沟通与合作学习能力;(10)兼重评价的结果与过程;(11)着重统整化、全方位、多样化的评价;(12)强调专业化、目标化的评价;(13)强**学与评价的结合。博里奇(Borich)等人提出,表现性评价具有以下特征:[21]表现性评价既是活动又是测验;表现性评价是对学习的直接测量;表现性评价既测量学习结果又评价学习过程;表现性评价可以嵌入课堂活动中;表现性评价能评价社会技能,等等。霍曼等人(Herman,Aschbacher & Winters)认为,表现性评价具有以下几个特征:[22](1)要求学生执行或制作一些需要高层思考或问题解决技能的事或物;(2)评价的任务具有意义和挑战性,且与教学活动相结合;(3)评价的作业能与真实生活产生关联;(4)历程(process)和作品(product)通常是评价的重点;(5)表现的规准(criteria)和标准(standards),即评价的重要层面与评分标准要事先确定。亚拉西昂(Airasian)用列表的方式来展示表现性评价不同于传统学业成就测验的五个领域(见表6.1);斯蒂金斯(Stiggins)从评价目的、学生的反应、主要优点、对学习的影响四个方面分析了表现性评价不同于客观式测验、论文式测验、口头测验的特点(见表6.2);林恩(Linn)等从任务的真实性、负责性等四个方面对纸笔测验和表现性评价进行了比较,从另一个角度揭示了表现性评价的特点(见表6.3)。
表6.1 表现性评价的五个普通领域及范例[23]
表6.2 各种评价类型的比较[24]
续表
表6.3 纸笔测验和表现性评价的特点比较[25]
综合起来得知,表现性评价有以下基本要点:(1)强调要设计真实的或相关的情境;(2)强调要设计具体的、有意义的评价任务;(3)强调评价的目的重在考察学生将所知转化为实际行动的能力。
3.表现性评价的实施
表现性评价适用的领域非常广,无论是听、说、读、写、数学、自然与生活科技学习领域、社会学习领域、健康与体育学习领域、艺术与人文学习领域,以及综合活动学习领域都能适用。[26]校本课程开发中的学生评价同样也适用于这种评价方式,对学生的表现性评价设计与实施的基本程序如下。
第一,确定表现性评价目标。在开展表现性评价之前,教师必须依据教育教学目标与教育教学内容来决定表现性评价目标,并对所确定的表现性评价目标进行分析。评价目标分为知识目标、能力目标。知识目标又分为陈述性知识目标和程序性知识目标。陈述性知识目标是指需要学生对包括符号表征、概念、命题的掌握情况;程序性知识目标则是指学生对概念和规则的运用,包括智慧技能和认知策略。表现性评价在注重考察学籍学生较高层次能力的同时,也重视对基础性知识的掌握;学生能力发展目标包括:(1)综合的思维方法,即能够综合运用各种适当的技能来解决问题,能够将遇到的各种问题转化为清晰的、可解决的任务;(2)有效地占有信息,即能有效地运用各种信息收集技术和各种信息资源,能有效地解释所获得的信息,能准确地评估信息的价值;(3)有效地进行交流,即能够清晰、流畅地进行交流,能和相关人员进行沟通,能使用各种交流方法,能有目的地进行交流;(4)良好的合作性,即能够服务于团队的目标,能有效使用人际交往技能,能有效地维护团队的利益,在团队中能充当各种角色;(5)智力的特征,即具有自律性、创造性和批判性思维。
表现性评价目标的确定虽然要考虑到知识和能力两个方面,但应根据课程领域的性质及评价主题有所侧重。譬如,如果是科学领域的校本课程开发,可以选择实验操作技能作为评价目标;如果是数学领域的校本课程开发,或许可以选择数学概念、数学技能作为评价目标;如果是社会领域的校本课程开发,可以选择批判探究技能作为评价目标。
第二,设计表现性评价任务。表现性评价任务,就是在表现性评价过程中评价者要求评价对象完成的具体任务。表现性评价实际上就是对学生在完成表现性任务过程中的表现情况进行观察与评价。
表现性任务有不同的分类方法。如根据任务给出的条件和限定的程度,可分为限制性任务和扩展性任务。限制性任务主要评价学生对课程所要求的某些技能的掌握程度。限制性任务结构性较强,所需时间相对较少,易于设计和进行评分控制。传统的测验、考试属于限制性任务,较适用于拓展学科知识类校本课程的学生评价。扩展性任务有利于评价学生的信息整合能力、创造性与创新能力、研究能力和实际动手能力。林恩和格朗兰德(Gronlund)曾列举了限制性任务和表现性任务的典型例子以及可被评价的学习结果(见表6.4)。
表6.4 限制性任务与扩展性任务的范例及评价领域[27]
根据学生完成表现性任务时情境的真实程度,可以将表现性任务划分为模拟性任务和真实性任务。[28]模拟性任务要求学生在模拟情境下,完成与真实活动相同的动作或行为。例如,模拟联合国、模拟法庭、模拟理财等活动,要求学生利用所学习的知识,解决日常生活中遇到的问题。一般来说,在完成模拟性任务时,学生的综合素质可以得到较好的表现,特别是他们知识面的宽窄程度、口头表达能力的高低、交流与合作能力的高低及其他非智力因素的发展水平等,都能较好地反映出来。在许多情境下,学生在模拟情境中所显示出来的知识和能力,是其在未来真实情境中表现的一种准备。
真实性任务的要点有两个:一是强调学生在真实情境中进行实际操作;二是要是工作片断,也就是要获取工作样本,以便更真实地评价学生的实际才能。例如,一些技术设计类的校本课程,为了测量与评价学生技术设计制作的技能,教师可以选择在真实情境下进行。真实性任务可以较为充分、全面地反映幼儿运用知识的能力、科学探究的能力及发展水平。
根据表现性任务的时间跨度,可以分为即时性任务和延时性任务。即时性任务通常用来现场判断学生对某一知识领域校本课程的基本概念、程序、关系及思维技能的掌握情况。在设计即时性任务时,提供评价材料可以有以下几种:(1)没有固定答案的开放式问题;(2)带有图片的资料;(3)包含文字信息的资料;(4)呈现各种数据的图表;(5)一个真实(或模拟)的案例。[29]针对每一种情境,学生要做出相应的反应,比如,运用已掌握的知识对问题阐述自己的观点和见解,对图片进行描述和分析,对文字信息进行解释,对数据进行分析和计算,等等。
延时性任务一般是长期的、多目标的项目,经常要求学生用几个星期或整个学期的时间来完成。一般情况下,任务驱动类、活动探究类、问题解决类的以某个项目为主题开发的校本课程学生评价需要对延时性任务做出阶段性的安排或给出分项目标,以便学生明确任务的性质,分配合理的时间与精力去完成任务。同时,教师还应提供一些必要的“支架”,即对学生完成任务有帮助作用的各种信息、物品,以及如何完成任务的具体标准,以促进学生的思考和表达在评价中有正确、良好的表现。
另外,按照任务需要的人数,还可以设计个人独立完成的独立性任务和小组合作完成的合作性任务。需要注意的是在很多的综合实践活动类校本课程开发的学生评价中,教师要努力避免在评价中只做大概观察,仅凭粗略印象就给出评价的笼统结论,以及流于形式的小组评价、同伴评价的情况。要注意将涉及面广、复杂程度高、难度大、时间跨度长的任务进行分解、分工,确保每个人在完成任务的环节中都能达到评价要求。小组成员之间的相互评价,要找到合作中的优点和不足,以便共同提高合作的技能,成为学习中的伙伴。
无论是哪一种表现性任务,都需要根据具体的课程内容来设计,并明确具体的设计要求。林恩等人提出了设计表现性任务的若干建议:(1)关注那些需要复杂认知技能和学生表现的学习结果;(2)选择和开发在内容和技能上能代表重要学习结果的任务;(3)确保评价任务与评价目的高度相关;(4)为学生提供必要的指导,让学生能够理解任务的要求;(5)设计使学生能够更好地理解任务的指导语;(6)运用评分规则使学生清楚地了解完成任务的预期目标[30],见表6.5:
表6.5 科学领域中表现性任务的例子
在设计表现性任务时,教师除了要恰当地选择表现性任务的类型并具体设计表现性任务的内容之外,还要设计实施表现性任务的条件、情境及观察的次数。“条件”是指表现性任务实施的时间、地点或需要使用的设备用具等。“情境”是指自然情境或者特殊控制的情境。情境的选择与设计,要根据表现性任务的特点和表现性评价结果的用途来决定。如果某种表现在活动室中自然发生的频率不是很高,那么,教师就要特别创设一种情境,增加这种表现出现的机会,以便观察。“观察次数”是指教师为了做出可靠的结论而需要观察学生表现的次数。不管评价的目的、任务的性质如何,单独一次的观察结果只能代表学生的一次行为表现,不具有普遍的代表性。因此,要保证评价结论的可靠性,教师必须多次观察,多次收集材料,然后做出综合的分析。如果在不同观察中都能获得相同的表现结果,就说明这些信息是可靠的;相反,如果每次观察到的表现都不一致,那么,教师就需要再做更多次的观察,收集更多的信息,然后才可得出比较可靠的结论。表6.6提供了表现性任务的一个典型例子。
表6.6 表现性任务示例
第三,研制表现性评价量规。评价量规是一个真实性评价工具,它是对学生的作品、成果、成长记录袋或者表现进行评价或等级评定的一套标准。斯廷金斯指出:“如果教师对合理的行为表现没有一个清楚的认识——什么是差的和出色的表现——则教师既不可能指导学生如何完成任务,也不可能对他们的行为进行评价。”[31]因此,评价量规的研制是设计与实施学生表现性评价的重要步骤,也是连接教学与评价之间的一个重要桥梁。
评价量规通常以等级量表的形式呈现,每一等级都有一组行为表现的描述语,对不同的行为特质或层面予以操作性定义。[32]量规一般包含清晰、具体的基准和旨在测量学生达成基准状况的等级或熟练水平。基准是对评价内容质的规定,也是概括评价内容的维度,规定评什么或不评什么。等级是对达成评价基准程度量的划分,旨在详细描述某一评价基准不同等级的表现特征。
目前流行的评分量规主要有两种:整体式评分量规和分项式评分量规。整体式评分量规,指的是对学生完成表现性任务的整体质量进行评价,根据质量的不同赋予一个综合性的分数。表6.7是整体式评分量规的一个范例。
表6.7 整体式评分量规的分数和类别范例[33]
整体式评分量规建立在对学生的表现或产品的整体印象上,而不是对个别成分的考虑。整体式评分量规通常用于评价扩展性任务,如创编一个故事,或用于评价艺术表演等。整体式评分量规突出其总结性和概括性,设计起来比较简单,评价所需要的时间也很少。也正因为这个高效率的优点,整体式评分量规被广泛应用于表现性评价的实践中,如美国国家教育进步评价委员会(the National Assessment of Educational Progress,NAEP)便是使用六点整体式评分量规来评价学生的写作水平(见表6.8)。
表6.8 NAEP所规定的写作的整体式评分量规[34]
显然,运用这样的评分量规,评分者可以很快地对学生的写作成果进行评价。在被评价人数多、评价任务重的情况下,这能够明显地提高评价的效率。
但是,整体式评分量规有一个非常明显的弊端,那就是不能给教师、学生及家长提供具体的、细致的反馈信息,而只是一个概括性的判断。整体式评分量规更适用于评价学生学习的结果,而不太适用于评价学生的学习过程。为此,在客观条件允许的情况下,教师还是应该尽可能地使用分项式评分量规,以便为教师、学生提供有指导性的评价信息。
分项式评价量规指的是针对某项表现性任务的不同侧面,对学生的行为和技能进行分别评价。分项式评分量规的优势在于评价的目标非常明确和集中,评价者不容易偏离评价中心,而且对学生每一方面表现的观察都很细致。最后,由分项结果归纳出的总的评价结论,可以全面反映学生对于整项任务的完成程度和技能表现。
目前,适应学生表现性评价的评价量规主要是等级式量规。等级式量规通常用于评价学生学习的成果、过程和那些难以用“是”或“否”“有”或“无”来评判的内容。依据等级表述的不同,等级式量规可分为数字式等级量规、图表式等级量规和描述性图表量规。此外,为了使等级式量规有较好的应用性,教师不仅要对表现性任务做出维度分析,而且还应当对评分的等级做出明确的规定和说明。
(1)数字式等级量规。数字式等级量规是用圈画数字的形式来确定学生的表现的等级。学生的表现一般可分3~5个等级,用1、2、3、4、5等数字来表示,并对各个数字等级做简单的文字说明。一般情况下,每一个数字都应有相应的言语描述。有些评价者习惯用最大的数字表示最高的等级,1表示最低的等级,其他数字代表中间的等级。表6.9是数字式等级量规的一个范例,尤其适用于小组合作开展的活动探究类课程的学生评价。
表6.9 数字式等级量规范例
(2)图表式等级量规。图表式等级量规是在每个行为项目的下边或右边给出水平横线图尺的等级刻度。一般分为3~5个等级,同一项表现性任务中各条目的等级数是相同的。这些等级刻度可以根据被评价的行为特性,按照从低到高、从小到大、从少到多、从弱到强、从差到优的顺序分成若干个等级。例如,分成5个等级时,可用“低-较低-一般-较高-高”或者“差-较差-一般-较好-好”等一些表示程度大小的词语在水平图尺上加以表示。表6.10是图表式等级量规的一个范例。
表6.10 图表式等级量规范例
教师在利用图表式等级量规评价学生的学习时,应当建立在系统观察和证据充分的基础上。具体操作时,教师可以在连续性图尺刻度的任意适当位置画个记号,而不一定取其等分点。不难看出,图表式等级量规和数字式等级量规之间有许多相同的地方。但数字式等级量规一般只限于整数等级,而图表式等级量规可以在连续的水平图尺线上,任意取值。尽管图表式等级量规中的线段使得对中间点进行选择成为可能,但是用一个词作为指标比用数字没有更大的优势。在评价者考虑诸如“很少、偶尔、经常”这些术语的意义时,也很少能够达成一致的意见。因此,不少研究人员提出,需要对行为进行更详细的描述,以表明学生在被评价的行为上的不同水平。
(3)描述性图表量规。描述性图表量规是对图表式等级量规的一种改进,一般是使用描述性的词来鉴别在图尺刻度上的点,描述是对学生处于图尺的不同位置上的简单概述。在一些描述性图表量规中,只有中心和两头的位置是明确的。有些描述性图表量规中,每一点都有描述。表6.11是描述性图表量规的一个范例。
表6.11 描述性图表量规范例
相对来说,描述性图表量规是比较令人满意的评价方法。它对学生的表现等级予以明确的解释,这些等级代表了学生在所期望的学习结果上发展的不同程度。在好的等级式量规中,所描述的最高水平是真正期望的学习结果,或者至少明确表示好的学习与发展是怎样的。比较详细的表现描述也使评价更为客观和准确。为了帮助评分,可以把数字加到图尺的各个位置上。
除了等级式量规,还可以运用核查表式量规进行学生的表现性评价。核查表式量规在形式和用途上与等级式量规相似,它们之间基本的区别在于评价结果的类型不同。等级式量规有若干等级,可以表明学生表现的程度或频率,可以按顺序等级加以划分;而用核查表得到的是简单的是(否)或有(无)判断。核查表式量规特别适合于简单的或直接观察到的表现或结果,这种评价多依赖于观察而不是测验,适用于对年龄小、学段低的学生评价,在此不具体展开。
第四,进行表现性评价。在进行表现性评价时,除了呈现前面设计好的表现性评价任务,用评价量规开展评价外,还要先明确评价条件和评价主体。评价条件包括:(1)学生完成任务时间。给学生多少时间来计划、修改及完成任务。(2)参考资料。学生在完成任务时,可以使用何种参考资料(实物材料、图书、电脑软件)。(3)能否寻求帮助。学生在完成任务的过程中是否能向同伴、老师或其他人求助。(4)能否借助设备。学生在完成任务时能否使用电脑、计算器,以及其他的辅助设施或材料。(5)评价标准是否提前公布。在课程实施之前是否有明确地告诉学生用来评价他们的学习成果或表现的标准是什么。评价主体可以是:(1)教师。教师是学生表现性评价的首要主体。表现性评价任务的设计、评价量规的制定、评价要求的明确、评价的实施主要以教师为主。(2)学生。学生自评可以训练自我反思与控制的能力,养成元认知策略。(3)集体。针对外显性强的个人表现或作品,可以请班级或小组进行评价。(4)家长。教师应给家长提供参与评价的机会,让家长表达自己对学生学习与发展的观点。
总之,表现性评价具有以下优点:第一,兼重评价的结果与历程。表现性评价能够弥补传统纸笔测验过于僵化、内容与现实脱节、重视结果忽略过程等不足,表现性评价不仅分析学习结果,也重视学习历程。第二,与真实生活结合。表现性评价内容接近真实生活,使得知识能力能更充分地应用于日常生活。第三,完整反映学习结果。表现性评价可以让教师了解学生对问题了解程度、投入程度、解决的技能和自我表达的能力,也较能兼容跨领域或学科的知识,能够完整地反映出学生的学习结果。第四,评价高层次认知思考与问题解决能力。表现性评价不仅评价理解能力,更强调评价“做”的历程与结果,较能评价高层次认知思考及问题解决的能力。第五,促进学生自我决定与负责。表现性评价要求学生将某项学习结果运用于日常生活情境,学生能自由选择应用于何种日常生活,能自由决定完成时间,能自行选取呈现成果方式,这可以促进学生自我决定与负责,让学生成为意义建构的主动参与者。第六,引导高层次认知学习。表现性评价与真实生活较为接近,不仅能评价传统纸笔测验无法评价的高层次认知,更能增进学生学习的动机,提高学生参与和投入的程度,协助学生建构有意义的学习情境,发展问题解决、批判性思考和表达自我的能力,以及增进学生组织、统整和有效表达想法的能力[35]。
但表现性评价实施起来也还有不少局限,如表现性任务设计不易[36]、评价信度不高、学生表现的类推性较弱[37]等问题。
针对这些问题,林恩和格朗兰德提出的改善表现性评价的若干建议,对教师准确地使用表现性评价有一定的指导意义。[38]这些建议的基本内容是:(1)将重心置于复杂认知与学生表现性的学习结果,不应评价简单认知或纯记忆的学习结果;(2)选择或发展表现性任务应是教材与课程中重要的学习内容与技能,不应评价细枝末节的学习结果;(3)在设计表现性评价时,要将干扰评价项目的无关紧要的任务困难度降到最低,如要评价学生的数学沟通技巧与结果的能力,应降低题目指导语的语言理解难度,避免语言能力影响评价目标的实现;(4)提供必要的架构,让学生了解评价的任务与命题者的期望内涵,注意完成任务所需的先备知识与技巧,才能提供挑战性的任务;(5)让学生了解评价标准及期待的表现方式等。
总而言之,学生表现性评价通过学生外在的、可观察的行为或作品判断学生对所学知识和技能的理解与运用,不仅为学生展示和证明自己的成长与发展提供了机会,也为教师通过评价更真实地了解学生、改进校本课程开发和实施提供了一条新途径。
(二)档案袋评价
1.档案袋评价的内涵
李坤崇认为,档案袋评价是“在一段时间内,以个别学生为单位,有目的从各种角度和层次收集学生学习参与、努力、进步和成就的证明,并有组织汇整,经由师生合作,根据评分标准评量学生的表现”的评价方式;档案袋评价“包括学生对选取档案内容的参与、档案作品选取标准、档案评价标准及学生自我反省四项重点,此评价乃多次测量的评价办法,具高度内容效度”。[39]中国内地有研究者认为,档案袋评价为“收集学生在某一科目学习过程中的作品,以学生的现实表现作为判定学生学习质量的依据的评价方法”;[40]档案袋评价“是指评价者确定特定的评价目标,收集反映学生个人努力、成长,以及在知识、技能和情感等领域所取得的成就和进步,以此对学生的发展做出评价的质性学生评价模式”[41];档案袋评价“通常是以一个文件夹的形式,由学生与教师有意识地、系统地收集每一个学生具有代表性的学习成果和反思报告,以反映学生在特定领域的知识、技能与态度的发展,以及学生的努力、进步或成就,集中反映学生向预期目标进步的过程”;[42]档案袋评价“是通过在档案袋中系统地选择和收集学生作品,评价学生在知识、技能、情意态度方面的发展,以展示学生在特定领域内一段时间的进步情况”[43],等等。李臣之认为,档案袋评价注重学生的自我接受、体验、展现和反思,强调学生参与(制作档案袋),使学生在体验中认真反思他们的作品、知识和理解。同时,档案袋也成为教师、家长及相关社会人士沟通的平台,评价参与者之间互动交流,在体验中进步,获得成就感。档案袋内容由师生商议决定,没有固定模式,可以包括学生认为能够展示其成就的任何作品。[44]
综上所述,可知档案袋评价具有一些共同要点:(1)以学生个体为评价对象;(2)以档案袋中所收集的学生作品及相关资料为评价依据;(3)根据一定的评价目标进行;(4)重视学生的自我评价与反思;(5)关注学生在一段时间内的表现、进步与成长。校本课程开发中的学生档案袋评价是指根据特定的校本课程目标,以学生档案袋中所收集的学生作品及相关资料为依据,对学生个体在该校本课程学习的努力与进步、优势与不足所进行的评价。
2.档案袋评价的类型与特征
分类角度不同,档案袋的类型不同。按内容侧重点可以把档案袋分成成果型、过程型和综合型三种基本型;按结构可把档案袋分成结构型、半结构型和非结构型;按用途可以把档案袋分成评价型、展示型和反思学习型三种类型;[45]根据档案袋评价功能的不同,有学者把档案袋分为成果型档案袋、过程型档案袋和综合型档案袋;[46]有研究者将档案袋分为过程型档案袋、目标型档案袋、展示型档案袋和评估型档案袋四类;[47]还有研究者主张把用于班级学生评价的档案袋分为成果档案袋、过程档案袋、评价档案袋和综合档案袋四类,[48]等等。
结合校本课程校本性、灵活性、低利害、低风险的特点,以及学生的认知特点,校本课程开发中的学生档案袋评价以综合评价型档案袋为主,依据课程目标设计评价项目和评价标准,制作学生学习档案袋,收集学生的学习成果、学习表现和学习过程的综合材料进行评价。
校本课程开发中的学生档案袋评价有以下特征:(1)目的性和计划性。学生档案袋评价应是教师根据课程目标与计划,教师和学生一起有组织、有目的、有计划地收集一系列学生校本课程学习的作品或表现。档案袋中的资料应包含足以反映学生向预期课程目标进步的信息。(2)整合性与多元性。档案袋评价要持续一段时间系统、有效地收集各式各样的有代表性的学生学习成果,注重教学与评价的整合,强调评价是教学不可分割的一部分,教师通过评价来实施和改进教学。档案袋收集的内容、内容的呈现方式、评价人员等都是多元的。学生学习档案袋的内容可以是作品样本、观察记录、谈话记录、各种调查、实验和测验的结果等;资料呈现方式也可以各式各样,如纸质材料、照片、录像、录音等。评价人员不仅是教师,也应该包括学生本人、同伴、家长、学校管理人员等。(3)成长性与表现性。档案袋的建立和使用,是伴随教学的过程动态进行的,其中的作品反映了学生在校本课程学习中的努力与进步。档案袋评价通过大量材料的收集和学生本人对材料的反省,表现了学生在校本课程领域的进步、成就及问题,强调形成性评价,关注学生的学习过程和表现性行为,既注重学生学习的结果,也重视学生学习的过程。(4)主题性与反思性。档案袋一般都有明确的主题,教师和学生必须围绕主题收集资料。作品收集不是目的,促进学生发展才是档案袋评价的出发点和归宿。无论是为展示最佳成果而设计的档案袋,还是为描述学习过程而设计的档案袋,都十分重视学生在档案袋创建和使用过程中的参与,尤其是学生的自我评价和反思。有研究者指出,“反思和评估可以促进学生思考自己到底期望从学习中得到什么,可以提高学生的学习动机,让他们对自己学习上取得的成绩感到骄傲,对自己的弱点有客观的评价……反思本来就是档案袋设计的关键。”[49]没有反思,学生档案袋评价潜在的教育价值也就无法发挥出来。
3.档案袋评价的设计与实施
(1)明确档案袋评价的目的。学生档案袋评价的目的,直接影响到档案袋内容的选择。设计档案袋评价目的是要考虑用这种评价方法主要检查学生在哪些方面的表现与进步?从中可以获得什么样的教育教学信息?可以实现评价的哪些功能?等等。林恩等人提出,创建档案袋有两个最基本的目的:为了学生评价和教学。[50]这两个基本目的相互之间并不排斥,但侧重点有所不同。例如,当主要目的是通过让学生评价自己的作品来促进学生的学习时,就会较少考虑不同学生所选择作品之间的可比性,而强调指导学生怎样正确地选择作品,并为学生提供一些例子来说明怎样评价作品的质量。但是,如果档案袋的使用目的是为确定学生的成绩提供部分依据,那么,档案袋中所包含作品类型的可比性就相对重要。此时,教师可能会要求所有的学生围绕共同的任务呈交自己完成任务的结果。沙拉维亚和耶赛迪克则认为,档案袋评价主要有五个目的:第一,反映学生在学习过程中做出的努力和成长的经历;第二,记录学生在各个学科中的学习成就;第三,收集教师需要的支持性的教学改进信息;第四,弥补其他学生评价方法在内容上的不足;第五,提供学校教育质量的证明。
在校本课程开发中的学生档案袋评价有三种目的:
第一,展示学生的成就。实际上,基础教育课程改革以来,不少教师在教学实践中,早已采取了类似的做法。教师们往往会将部分学生的优秀作品在班级或学校里展示,以示表扬并树立榜样。但这种展示一方面在人数上有限,能够展示作品的学生人数受到限制,观看展示的人也不多;另一方面,很多作品在展示之后得不到妥善的保存与积累。如果教师把每个学生学习与发展过程中取得的成就及反映成就的相关资料收集起来,装进各自的档案袋,就可以有效地拓展展示的内容、时间与空间,扩大展示的教育效果,使每一个学生从中受益。第二,描述学生学习与发展的过程。既重视结果又关注过程,是当前学生评价改革倡导的基本理念。作为一种质性评价方式,档案袋评价非常适用于形成性评价。除了学生的最优作品及表现,学生的所有作品(无论内容、形式与阶段)及相关信息都可以收集进学生发展档案袋,用以反映学生学习与发展过程中的努力和进步。透过这些丰富的信息,教师和家长可以了解学生学习与发展的需要,了解学生学习与发展的优势与不足,从而为合理确定课程目标和实施策略提供依据,促进课程开发实施与评价的有机结合。第三,评价学生的发展水平。校本课程开发实施之后,学生在该课程学习领域的发展水平有没有提升,是否达到了规定或预期的课程目标,存在的优势和不足到底有哪些,这些都需要用科学、合理的方式来予以评价。传统学科的学生评价多使用测验的方式,使教师过分关注甄别和评比,只重结果而忽视过程,强调量化而忽视质性资料,通过评价来激励和促进学生发展的作用也就很难实现。而校本课程开发中档案袋的使用,可以将学生学习与发展过程中生成的各种作品和相关资料收集和积累起来,为学生学习态度、学习习惯、学习策略的评价和学习诊断提供全面、丰富、生动的信息。
(2)确定档案袋的主要内容。在传统的学生评价中,教师往往是评价的主宰。教师决定评价的目的、方式和内容,学生一般不参与这些方面的决定。在档案袋评价中,这一问题往往是由教师和学生一起来讨论和决定的。不同于传统的测验等评价方式,学生发展档案袋评价更多的是对学生学习与发展过程的反映,需要学生对自己的进步、成长及存在的问题进行检查和反思。在设计校本课程评价档案袋的内容架构时,要以校本课程范畴为组织框架,指的是按照校本课程的领域和目标来组织学生评价档案袋的主要内容,注重收集学生的行为表现和发展变化,如作品样本、活动记录、谈话记录、问卷调查和各种测验的结果等。
问卷调查使用起来非常方便、快捷,能够在短时间内获得大量的研究信息。在校本课程的学生评价中,问卷调查法除了可以了解学生对校本课程的学习结果、行为、态度,还可以给教师提供修订完善校本课程的信息和建议。
测验法也可用来收集学生认知发展、学习能力、体能等方面的资料。从不同的角度区分,测验法可以分为标准化测验和教师自编测验、计时测验和不计时测验、个别测验和团体测验等。教师可以根据评价的内容、时间条件等因素选择适合自己使用的测验类型。
总之,在确定档案袋的内容时,教师要注意联系评价目的、结合评价内容来收集评价内容:(1)要契合评价目的。档案袋内容的收集,应该服务于评价目的,要有利于激励和促进学生的发展。如果档案袋的目的是为了展示,那么只要收集学生最好的作品与表现即可。如果学生发展档案袋的目的是为了反映学生发展的过程与取得的进步,那么,就应收集那些能表现学生进步的性质与程度的材料,如作品草稿、轶事记录、谈话记录等。(2)要对应评价内容。如果评价的内容是表达与交流能力,那么收集的材料就应该主要是学生的访谈记录、演讲、辩论等作品。如果要评价学生的问题解决能力,就可能要收集学生的研究报告,包括研究过程记录等。
档案袋收录的材料应包含作品完成或资料收集的日期、学生反思、教师的批注等材料。如学校在进行“主题探究活动”的课程评价时,可以采用如下档案袋设计。[51]
主题探究档案袋
1.确立一个你感兴趣的社区环境建设相关的主题
(1)说明所选主题对社区环境建设的重要意义
(2)指导教师对“主题”的评语
2.制订周详的计划,发现关于这个主题的相关信息
(1)说明如何获取相关信息的途径
(2)概括相信的大致内容、优势与不足
(3)尝试提出假设
(4)指导教师对“计划”的评语
3.运用恰当的方法(自然科学或社会科学的方法)进行探究
(1)探究过程记录表
(2)教师对研究过程的评语
4.研究成果
(1)研究报告、建议
(2)成果的采纳情况
5.评价、反思及体会
签名:
(3)设计档案袋的评价标准。作为评价学生发展的工具,档案袋应该有其清晰明确的评价标准,这样,学生在他们的作品及相关表现被放入档案袋之前就很清楚他们将如何被评价,从而明确自己的学习任务,并以此为依据对自己的作品及表现进行自我评价和自我反思。
评价标准用来衡量和检查学生的学习行为表现与发展变化,以便对其学习过程和结果所呈现的某些特征进行确切的评价,因此,评价标准本身必须具体、清晰,有非常强的针对性。一般而言,档案袋的评价有两种方式:一是对档案袋中所收集的每份作品及相关资料进行评价,即单项评价;二是对档案袋进行总体评价,即整体评价。具体见表6.12。
表6.12 档案袋评价的目的与评价标准的选择
无论是单项评价还是整体评价,评价标准的制定是一个非常棘手的问题,它必须清楚地鉴定出什么是好作品或表现,什么是差作品或表现,以及介于这两者之间的各个级别。在评价学生的个人作品或活动表现时,应当对每一类内容的评价制定出适合的评分标准,不能只在整体上给出“优秀”“良好”“中等”“合格”等分数,而不去解释学生作品及表现的具体属性和特征。如可参照多彩光谱项目[52]所使用的生日歌的评分标准(见表6.13),以生日歌为作品表现,将儿童唱歌这一整体评价分为节奏、音高和综合三项内容,从节奏、音高和综合三个方面来评价儿童的歌曲演唱能力。
表6.13 生日歌评价标准[53]
续表
这种单项评价标准,对于形成性评价有很大的帮助,能够为教师提供学生学习与发展过程中有价值的信息,并以此为基础提出学生下一步的发展目标与相应的指导策略。
除了单项评价标准之外,教师还应当明确学生档案袋的结构及对整体内容的评分标准。如多彩光谱项目开发出了视觉艺术评价标准(见表6.14),用以对学生的艺术夹[54]进行整体评价。根据该评分标准,教师不是对学生的个别作品,而是从整体上对学生的艺术档案袋进行评价。如果作品的水平缺乏一致性,教师则根据大多数作品所反映的占优势的水平进行评价(虽然作品不一致本身是值得注意的问题)。教师一般在学年中期和学年末对艺术夹进行整体评价(见表6.15)。
表6.14 学生艺术夹整体评价标准[55]
续表
表6.15 艺术档案袋整体评价表[56]
此外,有美国学者曾对学生档案袋的整体评价提出了这样几个维度:[57](1)学生在完成作品过程中所付出的努力;(2)在完成具体任务时使用的策略和技巧;(3)问题解决的能力;(4)“产品”的综合质量。这对我们设计校本课程开发中的学生发展档案袋评价的整体评价标准都很有启发。
(三)动态评价
1.动态评价的几种模式
(1)“前测—中介—后测”的学习潜能评价模式
1979年,福尔斯坦及其同事针对部分有认知缺陷的学龄儿童设计了学习潜能评价工具(the learning potential assessment device,LAPD)[58],福尔斯坦认为,中介学习是认知发展要件,评价要以诊断儿童认知功能缺陷、评价儿童对教学的反应为目的,以视觉-动作组织作业、高层次认知过程与心智运作作业为题材,采取“前测-中介-后测”程序,评价儿童经过简短中介训练后的表现。[59]福尔斯坦学习潜能评价工具,除评价儿童实际发展能力外,还可透过教师、父母、重要成人乃至较高能力的同伴的协助引导与社会互动,所提供的中介学习经验如果符合规则,则能激发儿童智能最佳发展水准。该评价工具还从信息加工理论出发,通过适切教学介入,分析儿童解题过程所需认知功能及其可塑性,引导儿童运用认知功能去解决问题,进而改变其认知结构。
福尔斯坦学习潜能评价工具应用非常广泛,许多研究者对其进行了改编和发展。如美国学者布多夫(Budoff)等人在此基础上提出了学习潜能评价模式(learning potential assessment,PLA)[60],这一模式采用“前测-训练-后测”程序,测量与评价他们从训练中获益能力,并以此评价儿童学习潜能。模式在教学中的运用一般体现为正向强化方式。即教师协助儿童了解工作或作业的要求,引导儿童思考与选择解决问题的策略,在这个过程中给予赞美、支持与鼓励。该模式计分评价采用“残差获益分数”,依据获益分数将儿童区别为高分者、获益者、无获益者三类。[61]高分者指前测与后测成绩均佳者,获益者指后测成绩显著进步者,无获益者指后测成绩无显著进步者。
学习潜能评价模式以教学介入形式探测儿童取得社会文化与互动的获益能力,以此对儿童进行诊断分类,实施个别化教育干预。相比传统“刺激(S)-个体(O)-反应(R)”行为模式及其传统评价,学习潜能评价模式能更正确地判断儿童学习潜能,从而减少与降低错误的分类,使那些证据不足却又被传统评价误判为智能缺陷的儿童免受精神打击。
(2)“任务—测验—训练”极限评价模式
美国学者卡尔森(Carlson)和威尔德(Wield)提出了极限评价模式(testing-the-limits)。[62]他们抛开“前测—训练—后测”的范式,以被试完成初始认知任务为参照,通过变化实验条件而改变任务情境,考察情境重构对学生成绩的改变。也就是说,这一模式并不改变传统测验的内容与架构,而是改变测验情境,采取“测验中训练”的标准化介入模式。卡尔森和威尔德提供的变化的实验条件有标准教学、解决问题中和解决问题后的言语指导、解决问题后的言语指导、简单反馈、精细反馈、精细反馈加解决问题中和解决问题后的言语指导7种。结果发现,精细反馈训练的情境是最理想的评价情境。
极限评价模式的施测情境操作依据以下六个标准化介入步骤进行:[63]第一,标准化施测;第二,指导语说明;第三,说明选择原因;第四,简单反馈对错;第五,详细反馈:说明对错原因,并探讨解题原则;第六,综合指导语说明与详细反馈。通过分析六种情境操作与后测分数,来了解学生实际智力,分析学生人格因素与测验情境交互作用,进而评析不同施测情境介入的最佳表现与介入策略的有效性。
极限评价模式能有效降低评价过程中“非认知”因素的干扰,减弱种族文化、经验背景、人格因素对评价问题的干扰;“测验中训练”的标准化介入模式易于实施与推广。但是,此模式无前、后测,因此难以评估标准化介入的协助效益。
(3)“前测—学习(训练)—迁移—后测”的渐进提示评价模式
德国心理学家坎佩恩(Campione)和布朗(Brown)提出了渐进提示评价模式(graduated prompting assessment)。[64]该模式根据维果茨基社会发展认知论,把其中学习与发展相关观点、最近发展区、支架、社会中介等概念用于教育评价。
坎佩恩和布朗认为,动态评价可以测量与评价儿童过去已有知识、经验与技能,也可以评估儿童成长、认知改变的可能和学习迁移的程度。这种模式以数学、阅读、逻辑推理、结构复杂问题解决的作业为题材,事先建构“从一般、抽象到特定、具体”的标准化提示系统,再采用“前测-学习(训练)-迁移-后测”四个阶段了解儿童学习、保留与迁移能力。前测与后测可采用静态评价,以了解前、后测表现水平之变化,但学习(训练)和迁移阶段则采取动态评价,施加一系列标准化介入。根据儿童认知能力,学习与迁移阶段还可以施以多种层次的教学介入与训练,促进儿童学习迁移,评估儿童迁移成效。一般情况下,迁移阶段可依中介介入学习材料或题型与原学习材料或者说题型之间的相似关系,把迁移分成保持(零迁移)、近迁移、远迁移和极迁移四个层级或距离层次。[65]极迁移难度最大、迁移距离最远,是“触类旁通”效果的学习迁移。
坎佩恩和布朗渐进提示评价模式具体程序如下:(1)前测:评价者以中立立场对儿童施以某种团体测验,以了解儿童目前的表现水准。(2)学习或训练:按照事先设计的提示协助系统,实施平行式的作业训练(零迁移),以了解儿童如何达到前测表现水准、为何只达到目前的表现水准,以及需要什么和多少协助,才能达到较高水准表现。(3)迁移阶段:向儿童提供与前项平行作业稍作变化的作业(近迁移)或较大幅度变化的作业(远迁移),甚至大幅度变化的作业(极迁移),以评估儿童理解程度、运用先前知识、经验及已习得原理原则的能力。(4)后测:再次实施测验,评估儿童最大可能的表现水准。例如,针对小学生学习数学的渐进提示评价模式,大体可采用如下的评价程序:首先,提供一道数学题作为测验题目或教学问题,请学生思考并尝试解答;然后,因人而异地实施渐进提示,即从不做任何解释和提示,到解释题目中的关键词语,再到分析与强调题目中的数量关系,再到另举一道简单且与原测题平行的例题教学,最后,回到原问题教学而告一段落。如此循环,直到评价计划或教学计划完成为止。
李坤崇认为,渐进提示评价模式的优点为:[66](1)评分客观:采取标准化提示系统,计分依据提示量多寡,评分相当客观;(2)易于实施与推广:教师可依据标准化提示系统进行评价,教师易做、较易于推广;(3)精确评估学生的迁移能力:将迁移阶段分成四个层次,可较精确评估儿童的迁移能力,对诊断能力或提出处方有帮助;(4)强调与学科领域结合:这一模式首先以学科特定领域为评价内容,充分将评价与教学结合。该模式采取标准化的提示系统,相对较为客观,以特定的学科领域为评价内容,充分将评价与教学相结合。但是,渐进提示评价模式在进行量化统计分析时受到了其他研究者的强烈质疑。而且,有研究者指出,如果将此模式用于复杂度较高的学科,会因解题与思考历程过于复杂与多元,导致较难建立工作分析、认知分析与提示系统。
(4)“前测-训练-再测-训练-后测”的连续评价模式
美国学者鲍恩斯(Burns)等人主张连续评价模式(continuum assessment)。[67]鲍恩斯等人认为,有效学习中介是促进学生认知发展的重要条件,评价应以检视不同教学介入的效果、确认有效介入的成分为目的。该评价模式整合了福尔斯坦的学习潜能评价工具和坎佩恩-布朗的渐进提示评价模式,但比学习潜能评价工具设计得更简洁与标准化,比渐进提示评价模式更依循事先建立的排列程序来协助学生。连续评价模式较前两者更注重对不同程度的学生分阶段实施不同的评价方式,以提高评价学生认知能力的效度。
连续评价模式以教学、阅读、知觉领域作业为题材,采取“前测-训练-再测-训练-后测”评价程序,分两大阶段评价学生的认知能力或认知缺陷。第一阶段分两节,首先采取静态评价来测量和评价儿童的一般能力与现有表现,然后先实施“渐进提示”,再测量儿童未经协助的“独立表现”情况。如果前一阶段独立表现没有达到预定的成就标准(如设定75%正确率),则进行后一阶段的渐进提示或中介训练,并进行一连串的静态评价,以了解学生的保留、迁移能力。中介训练与渐进提示不同。中介训练通常根据学生表现而改变内容,既可以加强,也可以减弱。而渐进提示往往是事先设计的动态评价指导程序,一般是按照作业分析和提示明确程度有序地进行。连续评价模式具有三个方面的优点:(1)评价程序包括多次详细设计的静态评价,使信息收集与介入更为有效;(2)分阶段采用不同评价方式来诊断儿童的认知缺陷,能更有效地区分儿童的个别差异与预测儿童的未来表现;(3)重视不同教学介入的效果,促使评价与教学结合。但是,该模式程序复杂,而且中介提示包括标准化与临床式等特点,一定程度上会造成评价设计困难,以及难以实施与推广等问题。
上述介绍的四种动态评价模式,基本上都遵循“前测-训练(或教学介入)-后测”的基本程序,主要差异在于介入方式的不同。从介入方式看,除学习潜能评价模式采用非标准化介入外,其余四种均采用标准化介入。非标准化介入可以比较详尽地分析学生学习与思考的历程,可以提供较丰富的诊断性信息,但施测技术较为复杂,评价的信度与效度也容易受到影响。而标准化介入评分客观,可以有效地评估儿童的认知能力与迁移能力,更好地实现教学与评价的结合,教学中嵌入评价,评价中执行教学。但是,标准化介入难以提供丰富的个体认知缺陷诊断性信息,也难以精确分析不同学生个体的学习与思考历程。
2.动态评价的实施
综合分析动态评价的模式,我们可以发现学生发展动态评价通常要遵循“准备-前测-干预-后测”的程序。在校本课程开发中的学生动态评价的实施也可参考上述程序。即在准备阶段,教师要向学生说明需要完成的评价项目及如何完成。
在确信学生明白了评价要求以后,就进入前测阶段。前测阶段,学生要独立完成评价任务,教师不提供任何帮助。
完成前测后进入校本课程的学习阶段。在校本课程学习阶段,校本课程的学习内容与前测中的评价任务对应。教师首先通过提问了解学生在前测中的思考过程,然后就完成前测中的评价任务所需要的策略、技巧、思路等对学生进行辅导。学习阶段结束后,即进入后测阶段。
在后测阶段,学生要独立完成另一项任务,这个任务与前测中的任务是平行的,难度相当。一般情况下,学生完成前测和后测的评价任务都不受时间限制。
经过上述程序后,学生发展动态评价通常会提供三种分数:一是前测分数;二是后测分数;三是获益分数,即用后测分数减去前测分数的差。前测分数是学生在没有获得任何帮助的情况下得到的分数,表现水平应该与在传统评价中的表现相同。后测分数体现学生接受了校本课程的学习后最终独立完成任务的表现水平。获益分数越高表示学生学习潜能越大,校本课程的学习效果越好。
学生发展的动态评价适用于持续时间短、知识点集中的学科补充拓展类的校本课程,如数学、物理等竞赛类、培优补差类校本课程的评价。李坤崇提出,与传统静态评价相比,动态评价具有以下优点:[68](1)较能了解学生如何表现的学习历程,较能确认学生思考历程与解决策略的缺失,较能觉察学生思考或认知结构的错误类型;(2)较能顾及学生的个别差异,较能尊重学生独特的思考模式;(3)较能避免非认知因素对教学与评价的干扰,如施测焦虑、过度紧张、缺乏信心、恐惧失败或缺乏动机等非认知因素;(4)较能强化学生正向自我概念,较能让学生获得学习成功的喜悦;(5)较能剖析学生连续性的学习历程,较能掌握学生认知改变的连续历程。但同时李坤崇也认为,动态评价的运用必须克服以下问题:(1)评价不易执行。动态评价着重互动与教学介入历程,不仅评价过程耗时,评价难以执行解释,且难以适切解释评价结果。(2)个别评价成本很高。动态评价大多以个别评价为主,而个别评价必须投入大量的经费、人力与时间,成本很高,如果能发展出团体式的动态评价或可降低成本,但也可能很难予以学生个别协助或进行较深入评析学生的认知能力或缺陷。(3)前测信息未充分运用。动态评价研究设计的基本程序为“前测-教学介入-后测”,现今“前测”仅被用来参照获益成果,而未作为提出受试者介入具体内容、如何介入的依据。(4)教学介入内容缺乏理论依据。以往的教学理论能否适用动态评价的介入仍有待探讨,如果以往教学理论不适用,何种教学介入模式或理论较佳,尚缺乏系列的实证研究。(5)研究题材仍显不足。动态评价着重教学与评价结合,但颇多动态评价的研究题材与学生实际学习内容不符,因此学科领域的研究题材仍有待积极开发。(6)信度与效度有待加强。动态评价通常较静态评价主观,较易随评价情境改变而调整评价历程,因此信度通常较低;动态评价着重逐步诱导来协助学生认知发展,如何确认认知历程、确认的理论基础是什么、如何寻找适切效标,这都是动态评价效度必须思考的重点。