自适应测验(Adaptive Testing)是一种智能化测验形式(Smart Testing),它能够根据考生已有的作答对其进行能力估计,然后为考生选择最合适的考题。文献中有很多不同的专有名词用来描述这种测验形式,包括定制式测验(Tailored Testing)、个性化测验(Individualized Testing)、程序化测验(Programmed Testing)、序列项目测验(Sequential Item Testing)、作答权变测验(Response-contingent Testing)、计算机化测验(Computerized Testing)以及树状分支测验(Branched Testing)。这些术语反映了这种智能化测验的不同侧面。例如,定制式测验体现了智能化测验为每一位考生“量体裁衣”,提供独特的考试内容;程序化测验说明这个测验是受电脑程序控制的;序列项目测验揭示了智能化测验中一一按序选定考题展示给考生的现象;作答权变测验指出了考题的选择是基于已有作答的基本事实;树状分支测验体现了由于每个考生可能在每个节点(考题)被分流到不同的路径(接受不同的考题),因而形成了一个有趣的树状分支图。虽然存在很多不同的载体,但是计算机是最理想最普遍的载体,最能体现这种智能化测验的特点。虽然有很多不同的名字,但是它们都体现了根据考生的表现智能化地开展测验的特点,因此目前被学术界与工业界普遍接受的术语是自适应考试,而主要的施测方式是计算机化自适应测验(Computerized Adaptive Testing,CAT)。
一、自适应原则在心理测验中的应用
早在计算机科学诞生之前,心理学家就把这种自适应的智能化原则运用到心理测验中去了。著名的例子是智力测验中的比内智力测验。早在1905年(请注意在这个时期心理测验还处于早期发展阶段,传统意义中的标准化纸笔测验还没有诞生),比内智力量表就很好地体现了根据考生具体能力调整考题的自适应变化原则。在这个量表中,根据考题难度由浅入深排列,以通过题数的多少作为鉴别智力高低的标准,并且据此提出了智力年龄的概念。比内智力量表的实施过程如下,很好地体现了这个自适应原则。
第一,比内智力测验有一个标定好的题库。比内智力测验中的项目按照难度从低到高排列,并且按年龄水平分组,包括3~11岁。每个年龄组的儿童在解答本年龄组的项目时正确作答的概率大约是50%。
第二,比内智力测验由训练有素的心理学家与考生进行一对一的施测,目的是寻找与每个考生最匹配的难度水平(智力年龄)。这个过程很像跳高运动员的比赛过程。
第三,每个考生有不同的测验起点。比内智力测验开始时,施测的考官需要对考生的能力进行估计,一般都用生理年龄,但是如果有更有效的信息,可以进行调整。
第四,它有一个事先规定好的评分规则。
第五,它有一个决定考生下一道考题的选题机制。比内智力测验基于考生先前作答的表现来决定下一道考题。如果一个考生回答正确了某个年龄组中的大部分考题,那么后面的考题就有可能来自一个更高的年龄组;但是如果回答错了大部分考题,那么后面的考题就可能来自一个略低的年龄组。
第六,它有一个终止规则。比内智力测验在确定考生的最高水平(Ceiling Level)与最低水平(Basal Level)之后,就会停止测验。最高水平指的是考生全部回答错误的那个年龄组;最低水平指的是考生能够全部回答正确的那个年龄组。这个考生的真实水平就在这两个年龄组之间。
第七,考生的最终成绩由回答正确的考题决定。具体计算方法是IQ成绩是回答正确作答考题的加权和,权重是年龄组。
图1-1-1是比内智力测验的图示。考题按照智龄(Mental Age)分组,每个年龄组内的考题由那些本组考生有50%可能回答正确的项目组成。
图1-1-1 比内智力测验施测过程示意图
在这个图示中,考生从9岁年龄组的考题开始,他正确回答了第1,2,4,5,6和10题,错误地回答了第3,7,8和9题。因为没有全部正确或者错误回答这些问题,因此9岁并不是这个考生的最高组或者最低组,考试需要继续进行。
此时,考生可以接受更高或者更低一组的考题。考官决定先寻找最低组,因此考生开始回答8岁半组的考题。考生正确回答了80%的考题。于是考官施测8岁组的考题,考生正确回答了90%的考题;接着施测7岁半的考题,考生全部回答正确。因此,这名考生的最低组被确定为7岁半。
用同样的方式,考官继续寻找这名考生的最高水平。考官首先施测了9岁半组的考题,考生回答正确了40%的考题;接着施测10岁组的考题,考生全都没有回答正确。因此,10岁组是这名考生的最高组。
二、自适应测验的主要特征
比内智力测验实测的例子展现了自适应测验的几个主要特征。
第一,每位考生有不同难度的初始题。理论上来说,比内智力测验可以根据考官收集的考生信息,从任何一个年龄组的考题开始。在例子中,如果考官从7岁半到10岁的任何一个年龄组开始,考生会接受同样的考题,得到相同的考试结果。如果从这个范围之外的年龄组开始,只是会增加一些考题,延长考试,但是考试结果不受影响。例如,如果考试从7岁组开始,考生应该会答对所有的问题,就会多找出一个最低水平组。同样,如果从10岁半组开始,考生就会多找出一个最高水平组,因为这个年龄组的考题比10岁组的考题都要困难。
第二,在收集到足够的考生能力水平信息之后,考试就会终止。在比内智力测验中,如果考题不能再提供任何新的信息时,测验就会终止。比最低水平组更简单的考题,对考生来说太简单了,而比最高水平组更难的考题又太困难了。这些考题都不能提供更多的信息,因此施测它们没有任何的意义。
第三,每个考生的考题数量可能会不同。在一个设计良好的自适应测验中,一般都会规定好考生能力测量的精度水平。在收集到足够的信息之前是不会终止测验的。在比内智力测验中,这个测量精度由最高与最低水平组确定。
第四,每个自适应测验可能会使用题库中不同的考题。自适应测验的突出特点就是从预先标定好的题库中选出最符合考生能力水平的项目进行施测。在这个例子中,这个考生回答了7岁半组到10岁组的考题。另一个考生很有可能回答5岁组到7岁半组的考题,而其他的人有可能回答8岁组到13岁组的考题。
第五,在自适应测验中,考生回答的理想考题的难度在50%左右,因为这个难题的题目能够提供最大的信息。在这个例子里,考生正确回答的考题比例是60%。这种“自我调节”的选题机制会使各类考生获得比较类似的心理体验。低能力水平的考生会觉得自适应测验比传统的纸笔测验简单,因为在传统的纸笔测验中他们会遇到更多的难题。相反,高能力的考生会觉得自适应测验比传统的纸笔考试难,因为他们会遇到更多的难题。