教育科学研究法(张其志)_第一节教育测量研究法概述（1 / 1）_教育科学研究法最新章节免费阅读无弹窗

一、教育测量的含义

（一）测量与教育测量的定义

测量的定义很多，但广为人们接受的是史蒂文斯（S.S.Stevens）下的定义：“从广义而言，测量系根据法则给事物分派数字。”这个定义指出了测量的三个方面的特征：法则、事物、数字。法则是测量的依据和准则，即根据什么来进行测量，例如，用天平衡量物体的重量，依据的是杠杆原理；用温度计量体温，依据是物体热胀冷缩的原理；事物（事物的属性和特征）是测量的对象，也就是对什么进行测量；数字是测量结果的表现形式，测量的结果必须以数字的形式表现出来。[2]因此，所谓测量，就是依据一定的法则（测量的依据和准则）对事物的属性和特征（测量的对象）用数字（测量的结果）加以确定的过程。

教育测量是根据测量学的原理和方法对教育现象及其属性进行数量化研究的过程。它主要包括对学生内在精神属性的测量，如测量学生的学习成绩、智力水平、品德状况、人格特征等方面。[3]

（二）教育测量的基本要素

无论是物理测量，还是教育测量，都必须具备以下三个基本要素。

1.单位

单位是计量事物的标准量名称，如测量物体的重量可用吨、千克、克等为单位，测量物体的长度可用米、分米、厘米、毫米等为单位，测量学业成绩可用分数的“分”做单位。单位是测量的基本要求，没有单位，数量的多少、大小就无法表示，也就无法进行数量分析。

理想的单位必须具备两个条件：一是有确定的意义，即对同一单位，所有人的理解意义都相同，有公认的标准，不能出现不同的解释；二是有相等的价值，即相邻两个单位点之间的距离相等。

2.参照点

参照点是计算事物的起点，又称零点。参照点不统一，量数所代表的意义就不同，测量的结果就无法进行比较。参照点有两种：绝对零点和相对零点。绝对零点的“0”表示“没有”的意思，如“0米”就表示没有长度，“0千克”就表示没有重量，绝对零点是理想的参照点；相对零点是人定的参照点，“0”不一定表示“没有”，如温度的测量以冰点为零点，因此“0℃”并不是表示没有温度。教育测量的参照点多为相对零点，例如，考试得“0分”并不表示学生一点知识都没有掌握。

3.量表

量表即测量的工具，它是具有一定单位和参照点的连续体。如尺子是度量长短的量表，天平是权衡重量的量表。教育测量的量表多以文字试题、图形、符号、操作等形式出现。但由于不同量表的数字化程度不同，数值所包含的信息量不同，因此测量的程度水平也不同。将量表从低级到高级排列，可分为称名量表、顺序量表、等距量表、比率量表四种水平。

（1）称名量表。也称类别量表，这是最低水平的一种量表。只是用数字代表事物或把事物归类，没有任何数量的意义。如将学生按性别进行分类，可以用1表示男性，0表示女性。这种量表所得到的数据，只有区分性，没有序列性、等距性、可加性等，因此不能进行数量化分析及加、减、乘、除运算。它只适用于次数的统计，如次数、众数、百分比、列联相关、卡方检验等。

（2）顺序量表。也称等级量表，比称名量表稍为精确，其得到的数据不仅指明类别，同时指明不同类别的大小等级或具有某种属性的程度。例如，把学生的品德评定为优、良、中、差四个等级；把学生的考试成绩排名次，等等。这种量表所得到的数据具有序列性，但仍没有等距性和可加性，因此也不能进行加、减、乘、除运算。它所适用的统计有中位数、百分位数、等级相关系数、肯德尔和谐系数等。

（3）等距量表。等距量表所得到的数据，不仅具有区分性和序列性，而且由于等距量表有相等的单位和相对的零点，所以具有等距性和可加性。例如，测量温度就是一个等距量表，30℃与20℃之差等于20℃与10℃之差；智力测验的分数、标准分数都是等距量表。等距量表可以进行加减运算，但由于没有绝对零点，故不能进行乘除运算。这种量表应用的统计方法比较广泛，如计算平均数、标准差、积差相关系数、T检验、F检验等。

（4）比率量表。比率量表是最高水平的量表，是一种理想的量表。它既有等距的单位，又有绝对零点，因此可以进行加、减、乘、除运算。大多数物理测量量表都是比率量表，而教育测量由于难以确定绝对零点，因此很难达到这一水平。比率量表不仅适用于上述量表的所有统计，而且还适用于几何平均数和变异系数等统计运算。

二、教育测量的特点

与物理测量相比，教育测量更复杂，更难以测量。这是因为教育测量具有以下特点。

（一）间接性

物理测量如物体的重量、长度、温度，可以用天平、尺子、温度计直接测量。教育测量的对象是学生的内在心理特性，而内在心理特性是无法直接测量的，只能通过其外显的行为，来间接测量其心理活动的特点与水平。也就是说，我们只能通过学生对测验题目的反应和一些行为表现，运用推理、判断的方法，来间接地测量出他们的知识水平、智力高低和品德好坏。

（二）相对性

物理测量的度量单位是绝对的，但教育测量的度量单位则是相对的。一个学生在某次测验中得60分，可能在这个班是较差的分数，但在别的班则有可能是较好的分数；甲在某校的80分并不一定比乙在另一学校的90分低，因为考试的题目难度不同，评分标准不同，因此，分数的价值并不相等。又如，70分比65分多5分，90分比85分多5分，这两个5分并不是由相等的标准确定的。

（三）稳定性

由于人的前后行为具有内在一致性，因而测量结果就具有稳定性的特点。正因为有这种稳定性，我们的测量才有意义。但是，学生的智力、学业成绩、品德等是不断发展、变化的，随着年龄、年级的升高和个体不断地学习，这些特性将会发生变化，因此，不同阶段的测量结果具有不同的意义。由此可见，测量的稳定性也是相对的。

（四）客观性

客观性是对一切测量的基本要求。测验是教育测量的主要工具，因此，教育测量的客观性本质上是测验的标准化问题。测验的标准化包括测验项目、指导语以及施测过程的标准化，评分原则、记分方法和分数转换的标准化，测验结果解释的标准化，等等。但是，由于教育测量要控制的变量比较多，因此，要做到像物理测量那样客观是不可能的。

三、教育测量的类型

教育测量根据不同的分类标准，可以分为以下几种类型。

（一）按照测验的功能分类

1.能力测验

能力测验可以分为一般能力测验和特殊能力测验。一般能力测验即通常所说的智力测验，主要测量人的一般能力（即智力），通常根据学生对智力量表上的题目的反应或回答情况确定其智力水平的高低。目前在国内广泛使用的智力测验如韦克斯勒智力量表、斯坦福—比奈量表等，主要是测量学生在认知活动中的较稳定的一般能力，如言语能力、数学能力、记忆能力、空间能力、推理能力等。特殊能力测验是测量学生在某一特殊领域发展可能性的测验，如音乐能力测验、美术能力测验、体育能力测验、机械能力测验等。[4]

2.成就测验

成就测验又称学绩测验，主要用于测量学生经过教学或训练后对知识与技能的掌握程度，即学业成就。成就测验一般分为两种类型，一是单科成就测验，测量学生在某一学科上的学业成就，如数学测验、语文测验；二是综合成就测验，测量学生在多学科上的综合学业成就。

3.人格测验

人格测验也称个性测验，主要用于测量人格中除能力之外的个性心理，诸如性格、气质、兴趣、态度、品德、动机、信念、价值观等方面的个性心理。人格测验的类型主要有以下几种：一是自陈量表，又称自陈问卷，依据测量的人格特征编制客观问题，要求被试根据自己的实际情况或感受进行回答，以此测量个人的人格特征，是测量人格最常用的方法和形式，如明尼苏达多相人格因素测验（MMPI），卡特尔16种个性因素测验（16PF），艾森克人格测验（EPQ），等等。二是评定量表，通常由一组描述个体特征或特质的词或句子组成，要求他人（知情人）经过观察对某个人的某种行为或特质做出评价，如猜人测验、莱氏品质评定量表，等等。三是投射测验，向被试提供一些未经组织的刺**境，让被试在不受限制的情境下，自由表现他的反应。主试分析反应的结果，来推断被试的人格特征，如罗夏墨迹测验、主题统觉测验、句子完成测验、绘画测验，等等。

（二）按照测验对象的人数分类[5]

1.个别测验

个别测验是指一位主试在同一时间内只测量一个被试。个别测验的主要优点是在测试过程中主试可以对被试的行为反应、情绪状态等进行仔细观察和及时记录，并在必要时采取一定的控制措施，测量结果比较正确可靠。此外，对于一些特殊的测试对象，如幼儿、文盲等，由于他们不能使用文字，只能由主试记录其反应，此时只能采用面对面的个别测验。

2.团体测验

团体测验是指一位主试在同一时间内同时测量许多被试。团体测验的主要优点在于省时省力，可以在短时间内收集到大量的资料。由于这个优点，使团体测验在诸如教育、人事选拔、团体比较研究中得到广泛应用。此外，团体测验的程序比较简单，主试也不必经过专门训练，只要事先熟悉测题和指导语，在施测时能掌握测试时间并能控制现场即可。

（三）按照测验材料的性质分类[6]

1.文字测验

文字测验又称纸笔测验，测验所用的材料是文字。其优点是实施方便，缺点是文字材料易受被试文化程度的影响。

2.非文字测验

非文字测验又称操作测验，测验所用的材料是图片、图形、实物、工具、仪器、模型等，被试通过对材料的辨认、手工操作回答，无须使用文字。其优点是不受或少受文化程度的影响，可用于测量幼儿、文盲和文字表达能力有困难的被试。缺点是只能个别施测，不易团体实施，比较费时费力。

（四）按照测验结果解释所参照的标准分类

1.常模参照测验

常模是指通过抽取具有代表性的、数量足够大的样本进行某项测验得到的平均成绩。常模的类型包括年级常模、年龄常模、百分等级、标准分数常模等。常模参照测验就是将被试在某项测验上所得的分数与常模相比较，以确定被试在某一团体中所处的位置。许多的智力测验、人格测验都属于这种测验。

2.标准参照测验

标准参照测验又称目标参照测验，是指将被试的测验分数与预先制定的某种标准进行比较，看被试是否达到了目标规定的要求。例如，教师根据课程标准规定的教学目标来判断学生的学科测验成绩是否达标以及达标的程度。毕业考试、英语水平测试、钢琴考级、律师、会计师的资格考试等都是标准参照测验。

（五）按照测验的应用分类

1.教育测验

教育测验是在学校及其他教育机构应用最为广泛的测验，其中最常用的是成就测验。此外，许多能力测验和人格测验也有应用，例如，用智力测验了解学生的智力发展情况，用人格测验了解学生的性格、气质、兴趣、态度、品德、动机、信念、价值观等心理特征。

2.职业测验

职业测验主要用于人员选拔、职业指导和职业安置。许多成就测验、能力测验和人格测验都有助于职业上的决策，但也有一些测验是专门为职业的需要发展起来的。如韦斯曼人员分类测验、工业人事测验、机械能力测验、文书能力测验、库德职业兴趣调查表、生涯评估量表，等等。

3.临床测验

临床测验主要用于医务部门，用以检测、诊断智力异常、人格障碍及其他精神疾病。许多能力测验和人格测验可用作临床诊断的辅助工具，也有一些是专为医学临床诊断而设计的测验，常用的有神经心理学测验、儿童心智缺陷测验、心理健康问卷等。

（六）按照测验的标准化程度分类

1.标准化测验

标准化测验是指采用系统的科学程序编制的，在测验施测、评分、分数解释等方面有严格统一的标准，并对误差做了严格控制的测验。标准化测验的编制和施测有一套标准的程序。测验编制包括确定测验目的、拟订编制计划、设计测验项目；抽取有代表性的样本进行试测；进行信度、效度、难度、区分度分析；确定指导语、时限和施测条件；建立常模、确定记分和评分标准以及分数转换和解释的方法等。标准化测验的科学性较高，测量结果比较客观，但编制费时费力，灵活性和针对性不强。

2.自编测验

自编测验也称非标准化测验，是指测验的编制、施测、评分和分数的解释方面不按标准化程序进行的测验。通常由教师自编，临时使用，如课堂测验，期中、期末考试，等级评定量表等。这些测验是教师根据教学目标和自己的教学经验编制而成，通常与日常教学工作紧密联系；测验内容与教材内容、教学进度一致；难度由教师把握。自编测验的随意性较大，在科学性和客观性方面不如标准化测验，但编制省时省力，针对性强，灵活方便。

（七）按照测验的目的分类

1.诊断性测验

诊断性测验是指在教学活动开始时进行的一种测验，目的在于了解学生对学习的准备状况，诊断学生的困难所在，以便恰当处理教学内容、改进教学方法。

2.形成性测验

形成性测验是在教学活动过程中随时进行的一种测验，目的是及时了解教师的教与学生的学的状况，以便采取补救措施及时矫正。

3.终结性测验

终结性测验是在教学的单元或课程结束后进行的一种测验，目的在于鉴定教学目标是否达成。

（八）按照测验的难度分类[7]

1.速度测验

速度测验的题目较为容易，一般都没有超出被试的能力水平，但题目数量较多，且时限较短，几乎每个被试都不能做完所有题目。在纯粹的速度测验中，被试的得分完全依赖于反应速度。

2.难度测验

难度测验包含各种不同难度的题目，由易到难排列，其中有一些极难的题目，几乎所有被试都解答不了。但作答时间较为充裕，使每个被试都有机会做所有的题目，当然也有时间限制。难度测验测量的是被试解答难题的最高能力。