一、定量分析的基础知识(1 / 1)

教育研究方法 齐梅 1559 字 2个月前

(一)定量研究所获得的数据类型

无论是采用观察、调查、测验还是实验的方法收集到的研究数据,甚至是直接使用的现成数据(如来自统计年鉴等),在选择分析方法时,都必须先了解其类型。

1.计数数据和测量数据

这是根据数据的来源进行的分类。

所谓计数数据是指通过点数个数来获得变量的数量的数据,如研究中研究对象的性别,我们只能够点数男性或女性研究对象的个数,而“男”或“女”本身并不具有数量属性,通常数据录入时用“1”“2”分别代表“男”“女”,这里的数字只具有指代的意义。因此,计数数据也被称作类别数据、称名数据。教育研究中涉及的很多人口统计学变量,如性别、是否独生子女、地域、学校类型、科目等,都属于类别数据。另外,在一些调查研究中,问卷中的调查条目也有很多属于类别变量[1]。例如,在研究农村儿童受教育情况的调查中,有如下条目:

“你为什么没有上学:A 自己不想上 B 父母不让上 C 没有学校接收”

在上述调查条目中,要求被调查者从中选择一个适合自己情况的选项,条目所附的三个选项代表了三种不同的原因,这些原因都有其自身的意义,但却不具有量化的属性。数据录入时根据被调查者的选择分别用“1”“2”“3”代表“A”“B”“C”三个选项,这里的数字只具有指代意义,代表三种不同性质的选项,该条目对应的变量就是一个称名变量。

测量数据是指按照一定的标准通过一定的工具而获得的数据。测量有两个要素,即参照点与单位。测量时的参照点有绝对参照点(绝对起点)和相对参照点(相对起点)两种。单位也有两种:相等单位(任意两点之间可以无穷细分)和不等单位(任意两点之间只有有限个数)。根据参照点与单位的不同,测量数据又可分为顺序数据、等距数据和等比数据。

顺序数据也叫等级数据,像学生的成绩排名、竞赛中的名次、对教师的喜爱程度等,都属于顺序数据。顺序数据是没有绝对参照点也没有相等单位的数据。比如,同一个学生的成绩,因为排名时参照点不同,其在班级内、年级内、地区内的排名很可能各不相同。顺序数据也没有相等单位,因此任意相邻的两个数据之间并不代表相同的差异,假如某班级最高的4个成绩分别是95,94,90,83,其对应的4个学生的名次依次为1,2,3,4,但第1名和第2名之间的差距与第3名和第4名之间的差距并不一样。顺序数据仅具有量的大小的含义,只可做大小高低的比较。

等距数据是指没有绝对参照点但有相等单位的数据,如学生的考试成绩、心理能力的分数、摄氏温度等。仍然以学生的成绩为例,在以100分为满分的测验中,学生的成绩是以其在该测验上正确回答问题的量决定的,0分代表全部回答错误,但这个参照点只是一个相对的参照点,0分并不意味着该学生对应的能力为零。同时,成绩是有相等单位的,通常我们以1分为记分单位,但如果需要,我们也可以以0.1分或10分为记分单位。等距数据所包含的数量信息更多,也能进行更多的数学运算。

等比数据,也叫比例数据、比率数据,是指既有绝对参照点又有相等单位的数据,如长度、重量、反应时间、开氏温度等。以开氏温度为例,开氏温度的零度是摄氏温度的-273度,那是目前能够测到的最低温度,那个零度是一个绝对的起点;相应地,我们知道摄氏温度的0度并不代表没有温度,只是一个相对的参照点。

需要注意的是,无论是等距数据还是等比数据,都是根据变量的测量属性来确定的,并不是说数据是按照等距或等比的规律变化的。比如,学生成绩是一个等距变量,但并不意味着所有学生的分数是等距变化的;身高是一个等比变量,也并不意味着人们的身高是按比例变化的。这里的等距、等比的命名更多是从数据运算的角度来考虑的。对于等距变量来说,数据之间只可以做多少比较,但不能做倍数比较(等比变量可以)。比如,我们说小明的身高是小红身高的两倍,是可以理解的,但如果说今天的温度是昨天的两倍,则不可理解,我们只能说今天温度比昨天高多少度才是可理解的。

教育与心理研究中用以获得以上4类数据的量表分别叫作计数量表、顺序量表、等距量表和等比量表。这4种量表的测量学属性依次增加,等比量表是测量水平最高的量表,也是最难编制的量表。最常见、使用得最多的量表是前三种量表。

2.离散数据与连续数据

这是根据变量取值的连续性进行的分类。

离散数据也叫离散变量,是指变量取值只能用自然数或整数单位计算的数据,即任意两点之间只有有限个数的数据。前面介绍的计数数据与顺序数据都属于离散数据。

连续数据也叫连续变量,是指变量取值可以在任意两点之间无穷细分的数据。等距数据和等比数据都属于连续数据。

从数据统计的角度看,连续数据的分布一般满足一定的分布形态,例如,学生成绩一般符合正态分布,因此,可以按照相应的分布进行数据的统计分析,即可进行参数统计; 离散数据包含的数量信息少,数据的分布往往没有什么规律和特点,如一个班级中男女生的分布,只能进行比较粗略的非参数统计。

(二)定量研究数据文件的建立

建立数据文件是定量分析的第一步,不同的数据分析软件采用的数据文件类型各不相同,但大多数的分析软件可以读入或转换其他类型的数据文件,如文本型数据文件、EXCEL数据文件等。其中EXCEL数据文件具有广泛的适用性,EXCEL操作程序也是一款非常大众化的操作程序,比较容易掌握。教育科学研究常用的统计分析软件为SPSS统计软件包,它可以方便快捷地将EXCEL格式的数据文件转换成SPSS专用数据文件,因此,这里只介绍EXCEL数据文件的建立。

一个数据文件有两个基本构成要素:变量名与数值。变量是指研究者提出来的让被调查者回答的一个个问题,在建立数据文件时,通常用简单清晰的几个文字或字母作为该问题的变量名,如“性别”“年级”“辍学原因”等,需要注意的是,变量名的第1个字符不能用数字或半角的标点符号,如“1题”是无效变量名。数值是指每个被调查者在该问题上的回答,通常用阿拉伯数字表示[2],如图12-2所示。建立数据文件时,首先在EXCEL工作表的第一行按调查表中的顺序将每一个问题的变量名录入,然后再将被调查者的回答一一录入,录完第1个被调查者的数据另起一行录入第2个,依次类推。建立数据文件时有一个研究者经常忽略的问题,就是被调查者的编号问题。编号是每一份调查数据的唯一标识码,通常研究者将调查问卷收集回来后就要对问卷进行编号(如果是实验研究,实验前就应当给每个被试一个唯一的编号),录入数据时把编号作为一个变量录入。这样做的好处是方便查找以及数据整理。录入数据时需要注意的另一个问题是如果被调查者漏答或错答,则跳过该问题的录入,即什么都不录入,如图12-2中第4个数据没有性别信息。

图12-2 EXCEL数据文件示例

当数据全部录入完成后,就可以在SPSS操作系统[3]中打开该EXCEL格式的数据文件,直接导入数据并保存为SPSS格式的数据文件。该导入的操作如图12-3所示,非常简单明了。

图12-3 EXCEL格式数据的SPSS导入过程示意图

[1] 在讨论数据类型时,“数据”与“变量”两个词汇在使用上常会互相替换,如“称名变量”就是指该数据是通过点数各个类别的个数而得到的。——编者注

[2] 为了避免统计分析时出错,数据文件中的数值最好都是数值型的,即阿拉伯数字。录入数据时一般会根据选项的顺序直接转换为“12345”,因此有必要保留原始调查问卷,或者建立一个编码本以备查看该选项的意义。——编者注

[3] 本专题中使用的数据分析软件为SPSS22.0英文版。——编者注