第二节 教育科学研究数据资料的整理与分析(1 / 1)

数据的收集与整理是依据统计分析的目的和要求,有组织、有计划地收集数据资料并对其进行去伪存真、去粗取精的分类整理、浓缩简化的工作过程。它是进行统计分析的必要前提,是保证统计数据客观、真实、准确、可靠的关键。

一、数据的收集

(一)数据的来源

根据资料的获取途径不同,数据可分为第一手资料和第二手资料,或者称之为原始数据和次级数据。原始数据即第一手资料,包括原始记录、调查问卷答案、实验结果等,反映被调查对象的原始状况。次级数据即第二手资料,包括期刊报纸、广播电视以及网络资料等已经存在的经他人整理分析过的资料。一般在可能的情况下尽量使用第一手资料,它比第二手资料更加丰富、更加准确,而使用第二手资料是因为其收集成本和所花费时间比较节省。一般而言,统计调查是获取数据的主要形式,收集到的主要是第一手资料;查阅文献、年鉴、上网等是获取统计资料的辅助形式,收集到的主要是第二手资料。

(二)数据的收集

数据收集指的是根据统计研究的目的要求,采用一定组织形式与科学方法,进行采集与研究问题有关的各类数据信息的工作过程。数据收集是一种广义的统计调查,其收集的总体范围可大可小,收集的内容可简单亦可复杂,可以是原始资料也可以是次级资料,收集的方式灵活多样。在信息化时代,数据成为海洋,为了在数据海洋中有效收集数据而不被数据所淹没,首先,应该对自己的专业方向投入更多精力,对它有更清晰的理解;其次,是掌握信息渠道,即知道自己所需要的数据如何获得;最后,就是对获得的数据进行深度加工,使其成为指导决策的依据。

(三)数据的审定

数据需要审定,即通过计算机或人工的方式对数据的准确性、完整性和及时性进行检查。其目的是尽可能地缩小误差,以保证资料最基本的准确性。事实上,经过调查所获得的统计数值与被调查对象实际数值之间总归会存在着一定的差别,即调查误差。一种调查误差是由于调查过程中各有关环节工作的计算错误、抄录错误以及不真实填报等失误而造成的登记误差;另一种是由于非全面调查而只观察不能完全反映总体性质的一部分单位产生的代表性误差。

(四)数据的分类

数据分类是对数据进行归纳、整理、简化、概括的第一步,是进一步分析研究的基础。数据根据来源和观测方法可分为计数数据和测量数据;根据数据的连续性可分为离散数据和连续数据;根据数据所反映的变量性质和测量水平,可分为称名数据、顺序数据、等距数据和比率数据。分类标志按形式可分为性质类别和数量类别。性质类别是按事物的不同性质进行分类,这种分类不表明事物之间的数量差异。如学生按性别分为男生和女生,按组别分为实验组和对照组等。数量类别是按数值大小进行分类,并排成顺序。在排列顺序时,可以直接按数值大小进行排列,也可以用等级顺序进行排列。

二、数据的整理

数据整理是指根据统计研究的目的与要求,对所收集到的原始数据进行科学加工与综合,使之系统化、条理化的工作过程。数据经过整理可以为统计分析提供反映事物总体综合特征的科学化资料,一般程序包括:数据审核认定、数据资料分组、统计资料汇总、编制统计表或绘制统计图。其核心则是统计数据资料分组,主要体现为编制统计表与统计图等。

(一)数据的分组

1.数据分组的概念

根据统计总体的内在特征与研究任务需要,将全部统计数据按照一定的标志划分为若干组成部分就是数据分组。其目的在于把总体中不同性质的单位分开、相同性质的合并,从而保持各组内数据的一致性和各组间数据的差异性,以便进一步研究数量表现与数量关系,进而正确认识调查对象的本质特征及内在规律。例如,在我国青少年体质普查中,作为个体的每个青少年,在年龄、性别、身高和健康状况等诸多调查标志上不完全相同,为反映我国青少年总体内部的差异,就需要按照不同的标志对全国青少年进行分组。如按性别可分为男、女两组;按身高、健康状况可划分为若干组,这有助于认识我国青少年的性别、身高、健康状况等各方面的结构及其比例关系。

2.数据分组的作用

①区别不同的总体类型。不同类型的现象存在本质差别,通过统计资料的分组可以区分总体类型;②反映总体内部结构。统计总体通过分组被划分为若干部分,各组成部分的总量在总体总量中的比重即可反映总体结构的特征与类型;③可以分析总体在数量现象之间的依存关系,找出各种错综复杂现象之间的内在联系和数量关系。

3.数据分组的原则

数据分组的原则包括“穷尽原则”和“互斥原则”。“穷尽原则”是指各分组的空间必须容纳所有个体单位,即总体中的每一个个体都必须有组的归属。例如,按文化程度对人口进行分组,若只分为小学毕业、中学毕业和大学毕业三组,那么未上过小学的以及大学以上文化程度的人口群体便没有对应的组可归属,这种分组就没有做到“穷尽”。“互斥原则”是指在特定的分组标志下,总体中的任何一个单位不能同时归属于几个组,而只能归属于某一个组。例如,把学生分数划分为“60分及以下、60~70分、70~80分、80~90分、90分以上”五个分数段,就不符合互斥原则,因为60分、70分、80分和90分均可以被归为两个分数段。

4.数据分组的种类

根据统计研究的目的和任务,按照不同的分组标准和依据进行数据分组。按分组标志的多少,可分为简单分组与复合分组,简单分组是按照一个分组标志对研究对象进行分组,复合分组是按照两个或两个以上的分组标志对研究对象进行层叠分组。按分组标志性质不同,分为品质分组和数量分组。品质分组就是选择反映事物属性差异的品质标志进行分组,而数量分组就是选择反映事物数量差异的数量标志进行分组。

(二)编制统计表与统计图

1.编制统计表

统计表是用来表达统计指标与被说明的事物之间数量关系的表格。它具有简单清晰、条理清楚、易于分析比较、便于计算等优点。编制统计表的基本原则包括:表的结构要简单明了;一张表只能有一个中心,说明的问题要重点突出;表的层次要清楚,项目、指标的排列要按照逻辑顺序合理安排。统计表按主要项目的分项情况,一般可分为单项表和多项表两种。单项表是仅包括一种事项的比较或仅按一种标志分类的统计表,多项表是包括两种及两种以上事项的比较或按两种以上标志进行分类的统计表。

统计表一般由表号、标题、标目、数据、线条、表注等几部分组成。[4]表号是表的序号,一般写在表的左上方或标题的前面,如果只有一个表的话表号可以省略。标题是表的名称,应确切地、简明扼要地说明表的内容,一般写在表的上方居中位置。标目是表格中对统计数据分类的项目,一般写在表的左侧或在表的上端,标目要清晰、恰当。纵、横标目的排列次序,可按时间的先后、事物的重要性、数字的大小和地理的自然分布等有规则地排列。数据是用来说明标目的,可以是观测值,也可以是计算的结果,如百分比、平均数等。表内数据必须准确、清楚,一律用阿拉伯数字,单位统一,位次对齐,精确度要一致。表内不应有空格,暂缺或未记录可用省略号来表示,无数字用短横杠来表示,数字如果是零则应填写0。如果有相同的数字仍需全部写出,不得写“同上”字样。至于线条,一般统计表上下端的顶线和底线用实线绘制,左右两边可以不用线段封死,纵标目用细实线隔开,以便于区别;也可以将纵列和横列之间都用线段划分,统计表的整体边框完整,外边框用较粗的实线。表注一般用来注明数据的来源,以便查对。可用简短的小号字写在表的下方,它不是表的必要组成部分。例见表11-1和表11-2。

表11-1 天津市某小学教师性别、年龄统计表(n=96)

表11-2 日语、俄语两专业三年级、四年级操行评定结果

2.编制统计图

统计图是用来表达统计指标与被说明的事物之间数量关系的图形。它是将统计资料利用几何的点、线、面、体和色彩的描绘,把研究对象的特征、内容结构、相互关系表达得更直观、生动、形象,使人一目了然,便于进行比较与分析。统计图有条形图、圆形图(也称饼图)、线形图三种。条形图是用相同宽度的条形长短或高低来表示事物数量大小的一种图形。它主要用于比较性质相似的间断性资料。条形图有单式和复式两种,由一组数据资料绘制的图形是单式条形图,由两组或两组以上资料绘制的图形则是复式条形图。条形图按其直条排列方向的不同又可分为纵条图和横条图。

统计图一般是由图号、图题、图目、图形、图例和图注等几部分构成。图题是统计图的名称,即图的标题。图题文字要简明扼要,切合图的内容,字号在图中应最大,一般写在图的正下方。图号应写在图题的左边。图目是图中的标目,是对图中每一部分的说明,可以是文字或数据。图目写在图的基线下面。在采用直角坐标系的统计图中,图目即横轴上所指的各种单位名称,应按自左到右、由小到大的顺序排列。纵轴一般是尺度线,自下而上、从小到大,写在纵轴上。图形是指表示统计数字大小的线条和图形,这是统计图的主体部分。图形线要准确清晰,绘图布局结构要匀称,一般位于图的中央,所占面积应以图框内面积的一半为宜。图形线条是图中各线条最粗的。图例是举例说明某部分图形所代表的事物,一般放在图中空白位置。凡图形或其局部,要借助文字加以补充说明的,均称为图注。图注部分的文字要少而精,字号要小,一般写在图题的左下方。见图11-1、图11-2和图11-3。

图11-1 天津市某小学1—4班历史成绩人数柱状图

图11-2 天津市某小学某班语文成绩人数圆形图

图11-3 天津市某小学1—3班英语成绩人数折线图

三、数据的分析与描述

描述统计的目的在于将已获得的大量杂乱无序的数据资料进行整理、归纳、简化、概括,使事物的全貌及其分布特征清晰、明确地显现出来。描述统计数据常用的特征量包括:集中量、差异量和相关量。平均值、标准差、相关系数分别是最常用的集中量、差异量和相关量。

(一)数据集中趋势的分析描述

集中量反映频数分布中大量数据向某一点集中的趋势,描述这种集中趋势的量数主要有算术平均数、中位数、众数等。

1.算术平均数

算术平均数简称平均数或均值。它是由一组数据的总和与数据的个数相比而得到的,是教育科研中用于反映样本成绩总体水平的一种常用参数。它常用来估计、比较研究对象总体水平。例如,要想比较两个班级的语文成绩,不能将其成绩一一列出来进行比较,这种个别的比较看不出什么结果,如果将两个班级语文成绩的平均数加以比较,就会既简洁又明了地得出结果。必须注意的是,当数据较多、可靠性要求较高的时候,可用平均数说明问题。如果数据较少,后者其中含有极端数值,用平均数做代表值就未必合适。

2.中位数

中位数又称中数,指按大小顺序排列的一组数据中居于中央位置的数。若数据的个数是奇数,就以位于中央的数据作为中位数;如果数据的个数是偶数,则以最中间的两个数据的平均数作为中位数。中位数对位于两端的数据不像平均数那么敏感,它还用于当分布的两端有未知数据但数据个数已知的情况。但中位数的可靠性程度不如平均数。

3.众数

众数是指一组数据中出现次数最多的数值。众数的计算比较简单,但众数不稳定,代表性不好,教育统计中一般不采用众数来反映数据的集中趋势。只有当数据分布中出现极端数据时,才采用众数作为集中量的粗略估计。

(二)数据离散程度的分析描述

要全面地描述数据的分布情况,仅仅用集中量说明分布的集中趋势是不够的,还必须指明各个数据之间的差异程度即离散程度有多大,因为数据之间的差异程度是次数分布的另一个重要特征。应用最广的差异量是标准差,是用各个数据与平均数之差的平方和除以数据个数,得到的标准差越小,表示数据的变异程度越小,即数据比较集中。在教育科研中,标准分数的使用较多,尤其是在成绩评定和录取新生等工作中。标准分数又称Z分数,是原始分数与平均数之差除以标准差所得的数值,可表示一个数据在团体中所处的位置,所以也叫相对位置量数。Z分数若为正值,表示相对应的原始分大于平均数;Z分数若为负值,表示相对应原始分小于平均数。由于Z分数有正负,使用不方便,因此也可以采用T分数。T=50+10Z。T分数50以上越高越优,50以下越低越差。

(三)数据关系的分析推断

在教育研究实践中,常常需要研究变量与变量之间的关系,如某一试卷的得分与总分之间的关系、家长的文化水平与儿童智力水平之间的关系等,都需要用相关量来描述。相关是指两列变量之间的相互关系。一般有三种性质的相关:①正相关,即两列变量的变化方向一致,当一种变量变动时,另一种变量也发生或大或小的同方向变动,如儿童的身高和体重的关系,一般来说身高越高体重越重;②负相关,即两列变量的变化方向相反,当一种变量变动时另一种变量发生或大或小的反方向变动;③零相关,即两列变量的变化方向无一定规律,如人的外貌和智力即为零相关。用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数,其取值范围在-1.00到+1.00之间。正负号表示相关的方向,正号表示正相关,负号表示负相关,其中绝对值大小表示相关的程度。当绝对值为零时,表示两个变量的变化互不相关。绝对值接近1为高相关,绝对值接近0为低相关,而介于其中的为中等相关。

计算相关系数时要求两列变量必须成对。相关系数的计算有许多公式,不同的情况要使用不同的公式。相关系数在教育研究中应用较多,如对考题或测验量表进行质量分析就要用相关的研究方法来检验其信度、效度等。需要注意的是,相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系(详细内容请参见教育统计学的相关书籍)。

四、侧重数据资料的定量研究

(一)定量分析概述

定量分析是指研究者借助于多种技术手段,对所收集到的数据资料进行描述、解释和统计分析,揭示事物数量特征的过程。定量分析的主要手段是统计分析,通过统计分析在一定条件下由样本特征推断相应总体特征。

1.定量分析在教育研究中的运用主要包括数据描述、数据判断和数据的综合分析三个方面

数据描述即将数据进行整理,用图表和统计手段描述出数据的分布情况、集中或离散趋势、相关关系分布等特征;数据判断即由样本特性推断出总体特征并估计出误差范围从而得出科学的结论;数据的综合分析即利用系列数据相互之间的数量关系综合分析数据特征,并预测和解释变量之间的关系或从众多变量中提取出共同的因素。

2.定量研究的信度、效度分析

信度与效度是定量研究的核心概念。信度是衡量测量质量的一个重要技术指标,其可信度高或可靠性高表明测量结果的一致性好、重复性好。常用信度系数测量方法包括重测法、复本法、重测复本法、折半法等。效度是指测量手段测出所要测量的程度,包括表面效度、准则效度、结构效度三种类型。

3.定量分析在教育研究中的局限

①统计分析手段的条件性。正确、恰当运用统计分析方法要依赖于使用者对各种统计技术的需求、条件、用途及与之相联系的特定公式等的了解、掌握和适当选择,否则便是无效的。②统计推断的概率特征。统计推断所依据的数据的概率特征都会有一定的误差,并不是绝对精确,统计分析结果的显著性有时也不能代表真正教育意义的显著性。③教育现象的复杂性导致数量分析的模糊性。

(二)定量分析方法的运用

1.统计分析法的描述性分析

这是用特定的算式对资料数据计算出一些综合指标,用以综合说明事物或数据资料特征的一种方法。常用的综合指标有绝对数、相对数、平均数和标准差。绝对数是用来表明一定条件下某一事物或现象规模的总量指标,它既是反映事物规模的一个指标,也是反映教育基本情况的一个重要指标。相对数是反映事物或现象程度或幅度的一个指标,如某方面人数所占的比重,某方面数值增加的幅度等,均可用相对数予以说明。平均数是反映事物或现象水平的一个指标。当数据资料未经分类汇总时,可计算算术平均数;当数据资料已经分类汇总时,可计算加权平均数;若分析事物在某个时期的平均发展速度时,可计算几何平均数。标准差是反映事物或现象内部差异情况的一个量数,或者说是反映总体中个体之间差异程度的一个量数。标准差的值愈大,说明差异愈大。标准差的计算有已经分类汇总资料和未经分类汇总资料两种方法。

2.统计分析法的推断性分析

在教育研究中所获得的数据资料如考试分数等总是有波动的,数据的这种差异性究竟由偶然因素(称随机误差)还是条件的不同(称条件误差)所造成的一般不容易被直观地辨别出来,为了正确区分这两种误差,统计学提出“统计检验”来解决这类问题,最常用的有差异分析法和相关分析法。在统计检验中,比较常用的差异分析方法是T检验和U检验。T检验可以用于对两个总体平均数的差异分析,其方法是通过计算T值并给予检验。U检验可以用于对两个总体比例的差异分析,其方法是通过计算Z值并给予检验。在统计检验中,比较常用的相关分析方法有积差相关法、等级相关法、点双列相关法和X2检验法。积差相关法是对两现象都可以进行具体数值测定的一种相关分析法。等级相关法是对现象中的个体根据一定标准排列顺序后所进行的相关分析法。点双列相关法是对两现象中的一现象进行具体数值的测定,对另一现象则把个体分成两部分后进行的相关分析法。X2检验法是对两现象的个体都分成两部分或者多部分后所进行的相关分析法。

3.统计分析法的多元统计分析

前面所述的统计分析方法属单变量的统计分析方法,多元统计分析则是一种多变量的统计分析方法,目前教育研究中较为常用的有多元线性回归分析、聚类分析、主成分分析和因素分析等。多元线性回归分析是在无法进行有控制的随机实验中,减小没有控制外来因子而可能发生的偏差的一种方法。聚类分析是将个体或因素指标进行分类的一种方法。例如,对学校的分类、学生的分类、评价指标的分类等,均可用聚类分析的方法进行。主成分分析是将多个变量或多个因素指标化为少数的若干个综合变量或综合指标,而这若干个综合指标可以反映原来多个指标的大部分信息。因素分析是主成分分析的一种推广,它的基本目的是用少数的几个因素去描述许多因素之间的关系。

4.模糊数学分析评价法

前面所谈统计分析法中的推断性方法,是应用统计检验方法检验客观事物的差异或联系是否出于偶然性,即解决随机性的问题。而模糊数学分析评价法则是把模糊数学知识应用于教育研究,主要解决客观事物的模糊性问题。所谓模糊性,指的是客观事物差异的中间过渡中的不分明性。例如对事物的认识和评价等,往往都具有亦此亦彼的模糊性,传统的方法往往又忽视了这种亦此亦彼的事实,而用非此即彼的二值逻辑法给予分析。模糊数学分析评价法则是突破了传统分析评价方法中非此即彼的二值逻辑的限制,采用了多值逻辑的分析方法,即一个对象属于某个等级的程度可以是0或1,也可以是介于0和1之间的任何中间值,并且对于不同的等级可以同时有不同的属于程度。也就是说,每个对象都可以在所有等级上分别做出估量,而不仅仅是其中择一。这时的每个评价结果是多个数构成的一个向量,而不仅仅是一个单值。

【思考与实践】

1.文字资料分析方法主要包括哪些?

2.定性研究的特点及过程是什么?

3.如何进行数据整理?

4.如何进行数据的分析与描述?

5.定量分析方法有哪些?

[1] 陶保平.学前教育科研方法.上海:华东师范大学出版社,2006.

[2] 王嘉毅.定性研究及其在教育研究中的应用.载《西北师大学报》(社会科学版),1995(2).

[3] 陶保平.学前教育科研方法.上海:华东师范大学出版社,2006.

[4] 王彩凤,庄建东.学前教育研究方法.北京:北京师范大学出版社,2011.