第二节 计算机化测验(1 / 1)

计算机化测验指的是以计算机为平台,向考生呈现考题的形式。计算机化测验有广义与狭义之分:广义的计算机化测验叫作基于计算机的测验(Computer-Based Testing,CBT),狭义的计算机化测验叫作计算机化自适应测验(CAT)。CBT包括所有以计算机为呈现平台的测验,例如,把纸笔测验的内容直接转化为计算机呈现,那么它就是一种计算机化测验。但是显然这样简单照搬纸笔测验内容的计算机化测验只是单纯的考试平台变化,不具备自适应的智能化特点。与此不同的是,CAT不仅有测验平台的变化,还包括在第一部分描述的自适应特点(不同初始题、自动终止等),因此成为目前最受欢迎的测验形式之一,也是本书的研究对象。在这一部分中,我们将简要地描述CBT的发展与特点,为以后各章提供一些背景信息。

信息技术的蓬勃发展给现代社会带来了深刻的影响。心理测量领域也被打上了现代信息技术的烙印,正在经历一场技术革命。心理测量的任务是在有关的量尺上给出测量对象的准确位置。这个任务非常复杂,需要耗费大量的人力与物力。现代电脑信息技术可以大幅提高测量中的工作效率,甚至使原来不可想象的任务变得轻松简单。一个简单的例子就是使心理测量可以变得快捷。由于计算机计算能力的大幅提升,它可以轻松地实施测验,包括呈现考题、收集作答、自动评分等,考生在信息化时代已经可以马上得到考试成绩甚至有关的诊断报告。

计算机信息化的巨大变化至少可以体现在两个方面。第一,计算能力的巨大提高。现在,一台个人计算机或平板电脑、智能手机等小型手持设备的计算能力已经远远超过20世纪的大型主机。著名的ENIAC(Electronic Numerical Integrator And Calcula)可以占据一个很大的房间,可是它的计算能力却比不上一台普通的台式个人电脑。而更令人诧异的是,由于云计算的发展,在网络的帮助下,普通的智能手机或平板电脑也具有实施教育测量的能力。第二,各种个人计算机与简易手持设备的大量普及。计算机发展的早年,它以大型主机(Mainframe)的形式存在,是只有大型研究机构和企业才能负担的“奢侈品”。但是,目前个人计算机已经非常普及,甚至已经慢慢被更加便捷的智能手机与平板电脑取代,成为非常普通的日常消费品。

信息技术的革命性变革也不可避免地带来了心理教育测量的变革。早在个人计算机出现的初期,研究者就开始注重这些技术在测量中的应用。计算机化测验的研究始于20世纪70年代。自20世纪80年代以来,陆续诞生了一批大型计算机化测验的实际考试项目,包括美国士兵职业倾向成套测验(Armed Services Vocational Aptitude Battery,ASVAB),美国教育考试服务中心(Educational Testing Service,ETS)的研究生入学考试(Graduate Record Examination,GRE),托福(The Test of English as a Foreign Language,TOEFL)等。目前各种基于计算机技术的测验已经在教育、职业资格考试中大量涌现。计算机化测验已成为测量领域不可忽视的一个潮流。有关的研究者已经建立了一个专门的国际性组织——国际计算机自适应测试协会(International Association of Computerized Adaptive Testing,IACAT),定期举办学术年会。

本节将借鉴Bunderson等人(1988)提出的计算机化测验发展阶段划分框架,系统梳理计算化测验的发展脉络,提供一个完整的历史视角。他们根据心理教育测量与计算机系统的重要特征,提出了一个计算机化考试测评的分类标准,在此基础上区分出了四代计算机化测验技术:

计算机化测验(Computerized Testing);

计算机化自适应测验(CAT);

连续测量(Continuous Measurement,CM);

智能测量(Intelligent Measurement,IM)。

下面我们会详细描述他们提出的划分标准,然后介绍四代计算机化测验系统的特点。详细介绍划分标准的原因是,计算机信息化技术日新月异,给计算机测验系统的变革带来了太多的可能性,对计算机化测验系统的描述也有可能很快过时,而划分的标准具有跨时间的稳定性,是心理教育测量研究者需要掌握的重要工具。例如,Bunderson等人描绘的四代计算机测验系统在今天看来仍然具有很强的借鉴意义,但是具体系统的描述已经显得内容陈旧,因为在心理教育测量与计算机信息化技术两个方面也都发生了重大的变革。只有掌握了这种划分的思维方式,才能更加准确地把握计算机化测验系统发展的脉搏与趋势。

一、划分标准

这个框架是由计算机化测评在测量与计算机系统在不同维度上的特点确定的。本部分详细地描述了这些维度,是了解计算机化测验系统的重要背景信息。

(一)教育测量的主要特征

教育测量可以定义为在规定的条件下,为达成某个教育目的,而为某些个体、情境或者事件确定在某个量尺上的位置的过程。这个具体定义的作用是提供了一个描述测量的六个要素:教育测量过程、确定位置、测量目的、测量对象(个体、情境与事件)、教育相关的量尺、规定的条件。

1.教育测量过程

教育测量是一个过程,这个过程又包含了多个并行同步或者前后相继的几个子过程。主要的过程有:①测量工具的研发,具体有制定测试蓝图、编写试题、预试与组卷;②考试实施,包括获取作答、评分、报告成绩、解读结果等;③考试分析与研究,包括等值、效度研究、项目功能差异(Differential Item Functioning,DIF)等。计算机技术已经对这三个过程都产生了巨大的影响。

2.确定位置

测量的任务是在一个教育相关的量尺上为测量对象确定一个恰当的位置。这个确定的过程可以是静态的,只涉及测量对象在某个时间点的位置;也可以是动态的,确定测量对象在多个时间点的变化情况。监测某个省某个学校学生在某个时间点的总体学业水平就是一种静态测量;而测量学生在接受某个教学计划前后的学业成就变化就是一种动态测量。第一、二代计算机化考试是静态测量,第三、四代计算机化考试属于动态测量。

3.测量目的

长久以来,教育测量的目的是提供一个团体或者个体在某个教育相关的量尺上的相对位置,帮助教育决策,因此教育测量的主要服务对象是机构。教育机构利用教育测量的结果来提高录取分班的准确性,评估教育目标的达成情况,评价教师、教育项目以及组织的效率,用来激励学生。

个体也是教育测量的服务对象之一,包括基于测量结果的指导与治疗、监控个体的进步情况,支持教学决策。但是正式的测量还是过于昂贵,一般只能用于选拔等重大的决策中,个人服务仍然处于次要的地位,而提供个人服务的测验大多是非正式与非标准化的。因此,教育领域对成本低的、服务于个体的新型测量有较大的需求。除了指导与治疗,教育测量还可以用于描绘学习的成长曲线:它可以详细描述学习问题的程度与变化,为及时地干预教学提供信息;也可以用于指导解读学生的状况,提供建设性的意见。教育测量在监控、描述与解读学生进展中的功能与教学紧密相关,因此教学活动可以与测量紧密结合,包括教学内容的选择与顺序、学习中的教学指导方法、选择个性化的练习题等。测量的服务重点从机构到个人的转变是第一、二代与第三、四代计算机化考试的重大区别。而这个区别也与从静态测量到动态测量的转变息息相关。

4.测量对象(个体、情境与事件)

测量的对象包括个体、情境与事件。在社会科学中,行为往往被看作个体与情境交互的结果;教育事件(如学习)也可以用同样的视角来看待,它是能力水平与教学计划交互的结果。在第一、二代计算机化考试中,标准化的任务情境是标准化试题。观察到的行为一般是考生正确作答与否;更复杂的考题会给出多个等级的分数。在第三、四代计算机化考试中,情境任务会更加复杂多样,更加接近现实生活。

计算机技术的变革对测量对象产生了重大的影响。第一,原本非常耗时费力成本高昂的测量大大降低了成本。例如,需要一对一施测的智力测验可以通过计算机施测,并且不需要专家的指导。原来需要人工模拟的任务在计算机上施测后,可以不需要耗费高昂的人工成本,因此可以更加普遍的施测,从而获得考生的学习曲线。第二,实现了很多原来不可能实施的测验。例如,心理能力时间的度量。在传统的考试中,个体的几何图形空间旋转速度是无法测量的,但是在计算机施测中,我们可以通过记录有关的时间来进行有关的测量。

5.教育相关的量尺

教育测量中首先需要确定人们关心的测量内容,它们指的是理论构念(Constructs)等。在实施教育测量之前,需要确定这些重要的理论构念,如智力、数学能力等。

6.规定的条件

规定的条件指的是测量发生的条件。条件的差异会导致测量结果与解读的差异。如果测量条件能够被控制,那么我们就可以称之为“标准化”的。在标准化的条件下,测量结果的外部影响被严格控制,因此测量的结果是可重复的。四代计算机化考试在控制条件中存在一定的差异,但是比较理想的标准化测试,保证了多次测量之间、不同测试对象之间的可比性。

(二)计算机施测系统

计算机化考试不仅仅需要先进的理论来构造构念,需要测量理论与技术来保证测量的可靠性与科学性,而且还需要现代信息技术来收集处理报告测量中的信息。下面我们会简略描述计算机化考试中涉及的信息技术。计算机化考试中的计算机信息技术总称为“计算机施测系统(Computerized Measuring System)”,它涵盖了硬件、软件、考试系统与测量、教学中需要的专家。现只对硬件和软件做简要说明。

硬件。一个独立工作站的硬件包括:可与外部网络连接的电脑、足够大的内存、存储系统、输入设备、显示设备、打印设备、与中心站点联络的设备。目前信息技术高度发达,智能手机与平板电脑已经能够满足这些硬件的要求。

软件。硬件必须与软件结合才能发挥作用。施测系统的软件要求包括操作系统(用于分配系统资源,提高施测系统效率)与应用软件(测试系统,用于施测、评分、记录、汇报成绩,甚至进行结果解读)。软件是指挥施测系统的“智能中心”,发挥着至关重要的作用。计算机化测试的软件有了长足的进步,能够实现多种不同的计算机化测试与计算机化自适应测验。为了适应计算机化自适应测验的需要,新的在线标定系统也陆续诞生了。软件最重大的发展是人工智能的发展,在教育测评中具体表现为知识库计算(Knowledge-based Computing)。它是大数据挖掘的重要技术之一,为第四代智能化测评提供了可能。

计算机施测系统可以承当测试中的五项工作,包括收集信息、存储信息、决策任务、行动任务与沟通联系。四代计算机化测验系统在这五项工作中的表现不尽相同。

第一,收集信息。收集信息的工作由计算机的输入设备完成。输入设备把考生输入的信息(包括个人信息、作答等)收集起来,进行编码,并且传输到主服务器。输入设备的更新换代十分迅速,从最原始的键盘输入到Windows类的界面(下拉菜单、鼠标等),再到目前非常流行的触屏。语音识别技术的迅猛发展也使语音输入日益普遍。键盘输入的方式会带来一定的不公平性,因为原来有打字经验的人会更加熟悉这种方式,但是触屏与语音输入不需要专门的训练,能够消除键盘输入带来的不公平性,提高考试的信度与效度。

第二,存储信息。计算机的存储系统能够完成信息存储的任务,记录测评实施的每一个步骤,存储不同阶段产生的各种数据。与人类的记忆力类似,计算机的存储系统可以让计算机识别信号,存储已有的教学内容与设计,记录数据,分类整理数据等。计算机的存储能力也有巨大的变化。早期的内存容量只有几兆,但是目前普通的台式计算机与笔记本都拥有了8GB的内存容量甚至更多,并且内存容量一直在持续增加。

第三,决策任务。决策任务由计算机的中央处理器完成,主要是根据算法完成有关的计算。例如,在计算机化自适应测验中,它表现为根据考生的作答,判断对错,更新考生的能力估计,然后计算有关的选题指标,选出一个最合适的项目。目前由于云计算的发展,很多计算的任务已经被剥离,不在考生的终端上进行,而是搬运到了中心服务器上进行。

第四,行动任务。行动任务指的是计算机的输出设备执行计算机的决策。在计算机化自适应测验中,最主要的表现是把已经选出的项目呈现给考生。根据要求,显示设备会把项目以文字、图像或者声音的形式呈现。显示设备也经历了巨大的变化,从原来笨重的CRT显示器,到液晶显示器,甚至出现了曲面显示、虹膜识别等先进的技术。

第五,沟通联系。沟通联系是计算机能完成的另一个重要任务。它指的是把大量的计算机联系起来,构成一个网络,这样可以提升考试施测系统的能力,更加高效地完成测试任务,甚至能够实施单个计算机无法进行的任务。计算机网络最早的形式之一是局域网。在心理教育测试领域具体的形式是基于客户机/服务器(Client/Server,C/S)和考试中心的机考模式,如EST的GRE考试。但是考试公司需要花费巨大的人力和财力,用于增设考试中心,维护和更新相关设备和系统等。而这种单纯以资格认证为主的考试公司,并不能为学习者提供多少益处,因为其认证考试结果往往是通过与不通过,并且考试地点只能是考试中心,并不能真正实现“随时随地”进行测验,更不能实现以测试促进学习的目的。比基于客户机/服务器和考试中心的机考模式略有突破的是基于互联网的测评(Internet-based Testing),ETS的TOEFL考试就是采用了这种形式。但是这种形式也没有充分利用现代信息技术,它本质上只是利用互联网进行连接的客户机/服务器模式。一种更加高级的形式叫作基于网络的测评(Web-based Testing)。与目前国家的发展战略对应,基于网络的考试是“互联网+测评(Internet Plus Testing)”的具体形式。它不仅仅是互联网连接的客户机与服务器的大网络,而是利用互联网把云技术、大数据等技术纳入测验系统。更重要的是,这些现代化的信息技术要为教学与学习服务,打造真正的自适应学习(Adaptive Learning)与智慧学习(Smart Learning)。

总而言之,计算机施测系统替代了大量的人力工作,而这些工作如果由人力完成,成本会非常高昂。目前计算机系统已经能够很好地进行评分、存储记录、查找记录、计算统计指标等。伴随着云技术、大数据、移动互联网和物联网的发展,翻转课堂、微课、慕课、手机课堂、教育APP、电子书包、创客运动、教育云等一系列新技术、新理念、新模式出现,Bunderson等人描绘的第四代测验系统已经离我们越来越近,并且被注入了更多丰富的内涵(云计算、大数据等概念在20世纪末并未形成)。可以预言,围绕计算机化自适应测验为核心打造的心理教育测量正在迎接一场新革命。

二、四代计算机化施测系统

(一)计算机化施测系统的具体分类

根据计算机系统与教育测量六个方面的不同特征,提出了这个计算机化测验的四代论。表1-1-1简要概括了这四代计算机化测验在这些方面的主要特征与区别。

表1-1-1 四代计算化测验特征与比较

续表

第一代计算机化测验也称为“线性计算机的考试”(Linear Computer-based Testing)。把纸笔测验的内容直接转化为计算机呈现,那么它就是一种计算机化考试。显然,这样简单照搬指标考试内容的计算机化考试只是单纯的考试平台变化,不具备自适应的智能化特点。

第二代计算机化测验叫作计算机化自适应测验。它不仅仅把考试的平台从纸笔变成了计算机,并且能够实现自适应测验的智能化功能。与第一部分描述的比内智力测验的重大区别是,计算机化自适应测验利用现代化的信息技术手段,通过软件程序自动实现起点的选择(考生能力的粗略估计)、考题的自适应选择、考试的终止等,可以看出计算机化自适应测验是自适应考试理念与现代信息技术的完美结合。它是目前主流的计算机化测验形式,也是本书最重要的研究内容。

第三代计算机化测验叫作连续测量,它关注的是学生学习进展情况的测评。在一门课程的学习过程中,教师与学生都需要了解学习的进展情况,从而能够采取针对性的措施。这些信息可以通过在学习过程中多次采取测评的方法获得,连续测评这个名称也因此而获得。除了多次测评的特点,这种测评还需要实现与学习过程的结合,不对学习过程产生过分的干扰。例如,测试时间过长或者测试次数过多就会减少学生的学习时间。一般来说,课程设计专家会确定每门课程学习过程中需要测评的关键点(Milestones)。另外,需要特别指出的是,这类测评出现于在20世纪90年代,支撑这类测评的测量学理论是项目反应理论。但是这种理论往往与终结性评价相联系,用于高利害考试中。目前与连续测试目标相符的心理测量理论认知诊断模型(Cognitive Diagnostic Modeling,CDM)已经日益成熟,相应的利用这种理论进行计算机化自适应测验也应运而生,称为认知诊断计算机化自适应测验(Cognitive Diagnostic CAT,CD-CAT)。CD-CAT作为计算机化考试的新发展,也是本书的研究对象之一。

第四代计算机化测验叫作智能测量,主要由计算机科学的科研人员提出,主要实现评分、诊断信息、学习建议的智能化。与第二、三代计算机化测验相比,智能测评不仅仅涉及测评过程的智能化,更加强调测验结果使用的智能化。某种意义上说,它是第三代测评的升级加强版,更加强调测评与学习过程的无缝结合,实现从传统的为测验而学习(Learning to Test)到为学习而测评(Testing for Learning)的转变。在这样的学习与测评环境中,学生的学习计划与流程不是由课程设计专家来决定,而是通过智能化的测评来实现自适应学习或者智慧学习。

这个分类框架已经提出了近30年。从目前的计算机化测验研究与应用的现状来看,这个分类框架在发表的时候不仅仅是在计算机化测验大发展时期的一个“初步的总结”,更像是一个对未来的发展预测。此后,CAT中的几个重要研究问题陆续出现,特别是几个重大的实际应用项目(ASVAB、GRE等)展示了CAT的优势,也提出了更多更新的研究问题。这些重要的研究问题包括选题法中的项目曝光问题(Leung,Chang & Hau,2002;Chang,Qian, & Ying,2001;Chang & Ying,1999;Sympson & Hetter,1985),内容平衡(Cheng,Chang,Douglas & Guo,2009;Cheng,Chang & Yi,2007;van der Linden & Chang,2003),多维IRT CAT(Wang & Chang,2011;Wang & Chang,2009;Veldkamp & van der Linden,2002;van der Linden,1999)和CAT的数学原理(Chang,2014;Chang & Ying,2009)等。这些研究大大加深了测量界对计算机化测验的理解,并且使计算机化测验成为心理测量领域的一个热门的分支,成为高利害测验的重要形式之一。

连续测量可以看作CD-CAT的一个初级版本。它利用计算机化测验的施测优势,在学习过程中的几个关键点进行多次测评,但是它与CD-CAT有两个区别:第一,它更加强调监测(Monitoring)的功能,而不是提供教学意见;第二,它缺乏实现诊断功能的心理测量理论的支持。Bunderson等人(1988)就指出当时的连续测评并没有完全实现,因为它没有实现多维的测量。但是这个空白可以被认知诊断理论填补。各类CDM已经成熟,目前已经出现基于CDM的大型题库,研究者也已经开始着手研究CD-CAT的选题法以及测量精度,非统计约束(项目曝光度、内容平衡),同时获得总分与诊断信息等问题。详细综述参见(Zheng,2015)。

第四代计算机化测试是智慧学习的原型,其目标是实现诊断与学习的一体化,为个性化学习(包括补习计划与资优生学习计划)提供教学意见。Bunderson等人(1988)中使用的例子是由计算机领域提出的专家辅导系统(Expert Tutor Systems),同时他们也指出由于计算机界与心理测量界的隔阂,这些系统缺乏心理测量理论的支撑,而心理测量学家也似乎不能为这些系统提供足够的支持。Snow和Mandinach(1991)也注意到了这样的现象。两者的结合才是智能测评的关键。CD-CAT是解决这个问题的方法之一,它可以作为一个智能化学习的驱动引擎或者是导航员,利用智慧测评来制定个性化学习的流程。

(二)四代计算机化施测系统的特征总结

1.计算机控制过程

四代计算机化施测系统的计算机功能要求非常类似。它们都要求计算机控制的测试过程,快速的评分与分数报告,都能够充分利用计算机优势呈现新型的项目,采用新的作答收集方法,都要求能够存储大量的信息用于测试,还有计算机的网络化功能。第一代计算机化测验不要求具备一个可以进行快速计算的处理器,因为它不需要针对每一个项目计算有关的选题指标。第三代计算机化测验系统增加了计算机化辅助教学中的呈现、收集作答与信息处理功能。在第四代计算机化测验系统中,测验已经融入教学,成为教学自然的一部分,避免了对教学的干扰。基于大数据方法的人工智能有可能实现更加复杂的评分、解读与学习建议任务。

2.测量理论

它们的测量理论基础也存在差异。第一代测验系统主要以经典测量理论为主,或者没有使用任何的测量理论。设计实施第一代测验系统的人往往都没有经过必要的心理测量训练,只是对计算机交互比较熟悉。他们不关心甚至不知道信度、效度、计算机化测验与纸笔测验等价性的测量问题,往往只要测试具有较高的表面效度就足够了。第二代已经高级的计算化具有坚实的测量学理论支撑。第二代已经使用各种项目反应理论来计算客观的信息函数指标来选择项目,为每位考生进行“定制式”的测评。第三代利用各种认知诊断理论模型提供更加详尽的诊断信息。第四代则需要利用考虑如何把大数据技术与各种测量理论模型的结合,甚至需要提出更加高级的模型把两者统合起来。

3.测量功能的总结

各代之间在考试施测过程上没有很大的差异,主要差异体现在计算机系统参与结果解读的程度。在第三代连续测量中,计算系统具有一定的解读功能。第四代测验系统需要知识网络的深度学习才能实现人类教师所能进行的复杂解读。

值得指出的是第一、二代系统一般来说进行静态测评,而第三、四代系统则强调动态测评。这与测评的目的紧密相关。第一、二代系统主要为机构提供服务,因为采用的心理测量模型(经典测量理论与单维项目反应理论)也主要是获得对能力的总体评估,用于机构的选拔、排序等目的。而第三、四代系统则强调为个人服务,提供有利于学习与发展的具体信息。

各代使用的量尺也存在一定的差异。第一代系统使用多种非正式的量尺,第二系统开始使用具有基于项目反应模型的量尺,第三、四代系统使用的量尺一定是适用于分析复杂学习内容的、基于多维模型的复合量尺。

控制程度指的是标准化测量发生的规定的客观条件。第一、二代系统的计算机可以在很大程度上控制视觉听觉刺激材料的呈现方式与顺序、作答的形式、作答的时间等。第三代系统增加了对教学的控制,淡化了教学与测评之间的区别。第四代测评更加人性化,学生可以控制学习的进程,但是这给测评的标准化带来了一定的挑战。

过去的几十年,我们目睹了计算机硬件与软件、网络技术的飞速发展。信息革命给教育测量带来了革命性变化。在这些信息技术得到广泛应用之前,教育测评涉及的信息收集、信息存储、决策、决策执行与信息沟通都必须由人力通过多种形式完成,如试卷运输与分发、答题纸的收集与运输、人工阅卷等。计算机与网络可以打破时间与空间的限制,把这些工作部分甚至全部自动化,大大提高了测评的效率,降低了测评的成本。

第一代计算机化测验系统能够完成的工作,全部可以由人力完成,但是计算机化测验系统可以完成得更快更好更准确,刺激材料的呈现也变得更加多样有趣,更加逼真。第二代计算机化测验系统大大提高了测评本身的效率。预先标定好的题库发挥了重要作用,它使我们可以根据考生水平选择项目。它也可以根据呈现方式与时间、测评内容的动态调整来自动化地实施测评。

第三代计算机化测验系统体现了一种与过去测评文化、教育研究传统截然不同的思维。测评与课程之间的区别开始消失;测评自然嵌入课程,渐渐变得“微创”甚至“无创”。测评的开发逐渐要与课程的开发融合。这一代测验系统以参照性任务为基础,能够针对要求的内容掌握情况进行连续细致地监控与反馈,可以描绘每个学生的成长曲线,因此教师与系统可以获得更具指导性的教学建议。

第三代计算机化测验系统不能完全充分实现自适应学习的功能。这个只能由第四代测验系统完成。第四代测验系统可以借助知识网络计算与推断,更加细致地描绘个体学习成长的曲线,实现复杂项目的自动评分,以及测评结果的深度解读。目前的趋势是实现全智能化的课程,即智慧学习。在这个新时代,旧的测量理论可能会被慢慢淘汰,而适应大数据时代的新型模型可能会慢慢浮现。

总而言之,目前心理测量学界已经完全实现了第二代计算机化测验,第三代计算机化测验已经初见成效,但是心理测量学仍然需要进一步发展,其最终的目标将是成为在一个由计算机科学、认知心理学、教育心理学、课程设计与心理测量学联合打造的智慧学习环境中的重要驱动引擎。