第一节 职业测评工具的编制
一、测评工具的科学指标
“工欲善其事,必先利其器”,科学有效的测评工具是决定测评效果的关键因素。“工具”从广义上讲包括职业测评的各种方法,而心理测验是最有特色、最符合标准化要求的测量方法。职业心理测评是心理测验的重要组成部分,是在心理学和管理学的基础上,用心理测验、情景模拟等测量手段,对人的职业兴趣、能力、人格等因素进行科学的分析,以帮助个体了解自己所属的心理类型,根据自己的兴趣、能力、人格来选择职业的科学方法。科学的职业测评以特定的理论为基础,经过设计问卷、抽样、统计分析、建立常模等程序编制,必须符合以下几个指标:信度(可靠性)、效度(有效性)、区分度(鉴别性)、常模(可比性)、客观性和实用性,它们是良好测验的特征。信度、效度、区分度以及常模都是衡量一个测评工具质量高低的关键性测量学指标。职业测评工具的以上技术指标必须达到一定的要求才能保障测评的有效性和科学性。因此,了解相关技术指标的内涵和计算方法对于人才测评具有重大意义(张进辅,曾维希, 2006)。
(一)标准化、客观化
标准化、客观化是实施测验所要达到的基本技术指标。客观化即在收集测评数据时,要对测试的材料、情境、程序、时间、结果处理等方面加以系统控制,以保证收集信息的客观性。标准化即制定统一的测评标准体系,以保证测评结果的公正有效。为达到对测评结果解释的一致性,还要建立规范严格的测评程序,以减少测评的主观性。
首先,在一个好的测验中,凡编入测验的试题,都是从专家和相关人员事先有组织、有计划、有系统地拟出的大量题目中提取,经过多次广泛的测试,并严格分析,反复筛选,最后才确定下来的。未经测试的试题,不能作为标准化测验的试题使用。为了保证试题的客观性,标准化测验常以客观性试题为主。但为了考查被试组织概念、言语表达和其他高层次的思维过程,也可采取适量的主观性试题,但必须讲究技术,如对答案内容加以控制,命题力求明确,拟定比较具体的评分细则等。其次,测验的实施要求极其严格,一般备有测验指导手册或指南,详细规定如何向被测者说明测验目的,怎样指导被测者按正确的方法回答问题,对测验实施环境的要求,测验时间的限制,以及对测验中可能发生的偶然事件的处理方法,等等,这些规定必须在测验过程中被严格执行,以保证测验结果的客观性。最后,计分方法要求标准化。为充分保证评卷时的客观性,必须按照说明书所规定的计分公式和计分方法进行分数评定,绝不可掺入个人意见。对于主观性试题,要先确定标准答案的要点,然后将被试的答案与标准答案对照,给出应得分数。
(二)信度
信度是指一个测验所测结果的稳定性程度,亦称可靠性。用一个测量工具反复测量某一被测对象的同一种属性,其多次测量结果之间的一致性程度就叫作信度。一个好的测验必须具有较高的信度。例如,标准的电子秤是测量重量的一种好的工具,只要操作方法正确,无论何时或何人去测量同一本书的重量,其结果应该是基本一致的。由此可见,信度是衡量测验质量的基本指标,因此,编制测验时首先要鉴定测验的信度(戴海琦,张峰,陈雪枫, 2005)。
信度是反映测验成绩在不同条件下的一致性程度及测验受随机误差影响的程度。信度较好的测验,不易受到随机误差因素的影响;信度较差的测验,较容易受随机误差因素的影响。估计信度的方法有再测信度、复本信度、分半信度、同质性信度、评分者信度等。信度系数只能在与同类测验进行比较的基础上才能决定其能否被接受。信度系数越接近1.0,表示测验的信度越高,越接近0表示信度越低。通常,能力测验和知识测验的信度在0.90以上,有时达到0.95以上,性格、态度、爱好等人格测验的信度在0.80以上。根据信度系数,可以对测验的误差做出数量化的估计。信度高的测验,测验的精确度较高;信度低的测验,其精确度较低。
(三)效度
所谓效度,就是测验能够有效测出它所要测量的东西的程度,亦称有效性。例如,一个智力测验,所得结果确实能够反映一个人的智力高低,那么,它就是一个效度高的测验。但如果另一个智力测验的文字内容晦涩,只有阅读能力强的学生才容易得高分,那么,这个智力测验就可能变成对被测者语言能力的测量,对于智力的测量来说它就是一个效度低的测验。在测验编好后,必须检验测验的效度,效度低的测验不能投入使用。
效度是相对于一定的测量目的而言的,测验的目的不同,测验的效度也不同。当测验被用于预测的目的时,测验应具有预测效度。一个高效度的测验应该具有较好的预测力,即测验得分应与以后的工作表现具有较高的相关,得分高者,表现也较好,得分低者,表现较差。效度是衡量测验有效性和实用性的指标,一个好的测验,应能带来实际的效用。由此测验选拔的技术人员,应比随机选拔的技术人员的一般工作水平要高;由此测验选拔的领导干部,应具有更好的工作表现。否则,该测验就是无效的。与对信度系数的估计相似,可以通过计算测验成绩与效度指标行为之间的相关、进行平均数差异的显著性检验等方法,来对效度系数进行评估。
(四)难度
适当的难度是高信度和高效度的条件之一。选拔领导人才测验的目的是将不同水平的应试者加以区分,为选拔决策提供依据。如果测验过难,所有应试者都未得分;或者测验非常容易,所有应试者都得满分,这项测验就失去了区分应试者水平的意义。题目是构成测验的元素,选择好的题目是编制好的测验的前提。对测验难度的控制,需要通过对题目难度的控制来实现。通常,人们将应试者通过率作为试题难度的指标,通过者越多,试题就相对容易;通过者越少,试题就相对较难。
(五)区分度
区分度是指测验具有鉴别被测者素质高低、优劣的能力,亦称鉴别性。区分度是保证测验效度的重要条件。如果一个测验使能力高者和能力低者得到一样或相近的分数,便说明测验无区分度或区分度极低。区分度高的题目,对应试者的水平具有较高的鉴别力。通常,用题目得分与外在效度标准之间的相关系数,或者测验总分的相关系数,作为题目区分度的指标。相关系数为1.0时,表示该题目可以完全反映出所要测试的某种属性特征,能够准确地预测应试者的有关行为;相关系数为0时,表示该题目与所要测试的属性无关。提高区分度主要通过控制题目的难度水平来达到。如果题目太难,优生和差生都答不上,题目就无区分度;而题目太容易,差生和优生都能答对,题目也无区分度。只有难度适当,而且包括各种不同难度的题目,才能将被测者的素质很好地加以区分。
(六)常模化
常模化是指每个测验都要提供一组测验分数,以之作为比较的基准,以确保测量结果的质量。常模化主要包括常模样本、使用范围、分数转换法等。常模样本的构成要具有广泛代表性,以增加其使用范围。常模的适用范围取决于取样的范围,若从全国取样,所得的常模是全国的;若在地区取样,所得的常模则是地区的,不能随意使用于其他地区。不同历史时期,样本的平均水平会产生变化,常模也将随之变化,因此,常模应及时修订。
不同的常模要求有不同的分数转换法,即为了对测验结果进行统计分析,需要将原始分数转化为具有相同单位的间隔量表。标准分数就是最常用的等距量表。
(七)实用性
实用性是指一个测验适合实际使用的程度。一个测验所需的时间、人力、费用等,必须为使用者的客观条件所许可,它才有可能被实施。因此,应选择那些容易施行,计分方便,编排合理,备有复份,费用便宜,且时间适宜而又可能得到正确和可靠的测验结果的测验。
一个好的测验的上述特征说明,编制测验是相当复杂、极其困难的一项工作。标准化测验必须由专门的机构组织专门人员严格按照标准化的程序进行编制。为了保证人才测评的科学性和有效性,必须选择那些很好地具备了以上7个条件的测评工具,同时,在测评实践中也要有意识地研制符合以上条件并具有针对性的测评工具。