一、数据资料的整理
数据资料是指在学前教育科学研究的过程中,通过各种研究方法收集到的一些用数量形式表现的有关教育现象或事实的资料。如通过调查法收集到的某幼儿园幼儿睡眠状况的资料,通过测验法收集到的某区幼儿园幼儿智力发展水平的成绩等数据。由于数据资料一般数量巨大且杂乱无章、质量参差不齐,因此数据资料的整理是指对收集到的原始数据进行检查和分类,并在此基础上用统计图表形式表现出来,使其条理、直观、系统的一种方法。数据资料的整理具体步骤如下。
(一)检查资料
教育科学研究的最终目的是通过有效、真实、完整的资料得出科学准确的结论,因此数据资料整理的首要工作是进行数据资料的检查,即对所收集到的原始数据的有效性、正确性和完整性进行必要的质量审核,以确保即将分析研究的资料是有效、真实和完整的。
所谓资料的有效性是指收集到的原始数据必须具有普遍的代表性,能有效地说明研究的目的,反映研究的需要。所谓资料的正确性是指收集到的原始数据不能出现与事实有出入的情况,即收集资料时必须做到客观精确,不能出现因主观影响和各种工作中的粗心或不慎引起的错误的数据。资料的完整性是指反映研究对象的资料在各个项目上不应有遗漏,以确保统计分析的全面性。如问卷或量表是否全部收回,实验的数据是否全部收集等。鉴于在资料收集的过程中有可能由于疏忽或不慎将错误的、无代表性的数据收集进资料中,以及有可能遗失部分重要资料,所以要求研究者在进行数据资料检查时,应及时地删除错误或无关数据,并根据实际情况对缺失的数据进行补充,以保证研究收集的每一个数据的质量,进而确保整个研究的有效进行。
(二)数据分类
数据分类是指按照研究对象的本质特征,根据分析研究的目的、任务,以及统计分析时所用统计方法的可能性,将所获得的数据进行分组归类。它是对数据进行归纳、整理、简化、概括的第一步,为进一步分析研究打下了基础。分类标志按形式可分为性质类别和数量类别。
1.性质类别
性质类别是按事物的不同性质进行分类。这种分类不表明事物之间的数量差异。如可把幼儿按性别分为男和女;按组别分为实验组和对照组;按年龄分为4岁组和5岁组;按健康状况分为好、中、差等。
2.数量类别
数量类别是按数值大小进行分类,并排成顺序。在排列顺序时,可以直接按数值大小进行排列,也可以用等级顺序进行排列。
(1)顺序排列法。顺序排列法就是将各数据从大到小或从小到大进行排列。这样就可看出最大和最小的数据是多少,各数据出现的次数和位于中间的是什么数等。如果一组数据数目不多,可直接排序;如果数目较多,一般就要编制一个次数分布表。
(2)等级排列法。等级排列法即根据顺序排列划分等级,但与顺序排列不同,它是按数值所含的意义确定。如对于考试成绩或能力测验的分数,应将数值大的排为第一等;对于体育竞赛的测试时间或完成一项任务所用的时间数据,应将数值小的排为第一等。
(三)编制统计表与统计图
通过教育调查和教育实验获得了大量的数据,用归组、编表、绘图等统计方法对之进行归纳、整理,可以直观形象地反映其分布特征。
1.统计表
统计表是用来表达统计指标与被说明的事物之间数量关系的表格。它具有简明清晰,条理清楚,易于分析、比较,便于计算等优点。
(1)编制统计表的基本原则是:表的结构要简单明了。一张表只能有一个中心,说明的问题要重点突出,一目了然;表的层次要清楚,项目、指标的排列要按照逻辑顺序合理安排。
(2)统计表的结构及编制要求:统计表一般由表号、标题、标目、数据、线条、表注等几部分组成。
①表号。表号是表的序号,一般写在表的左上方或标题的前面,如果只有一个表可以省略。②标题。标题是表的名称,应确切地、简明扼要地说明表的内容,一般写在表的上方居中位置。③标目。标目是表格中对统计数据分类的项目,一般写在表的左侧(称为横标目)或在表的上端(称为纵标目)。标目要清晰、恰当。纵、横标目的排列次序,可按时间的先后、事物的重要性、数字的大小和地理的自然分布等有规则地排列。④数据。这是用来说明标目的,可以是观测值,也可以是计算的结果,如百分比、平均数等。表内数据必须准确、清楚,一律用阿拉伯数字,单位统一,位次对齐,精确度要一致。表内不应有空格,暂缺或未记录可用“……”来表示,无数字用“—”表示,数字若是“0”,则应填写“0”。如有相同的数字仍需全部写出,不得写“同上”字样。⑤线条。一般统计表上下端的顶线和底线用实线绘制,左右两边可以不用线段封死,纵标目用细实线隔开,以便于区别;另一种统计表的格式为:纵列和横列之间都用线段划分,统计表的整体边框完整,外边框用较粗的实线。⑥表注。一般用来注明数据的来源,以便查对。可用简短的小号字写在表的下方。它不是表的必要组成部分。
(3)统计表的种类。统计表按主要项目的分项情况,一般可分为单项表和多项表两种。
①单项表。仅包括一种事项的比较或仅按一种标志分类的统计表,如表11-1所示。
表11-1 2009年我国幼儿园数量统计表[1]
②多项表。这是包括两种及两种以上事项的比较或按两种以上标志进行分类的统计表,如表11-2所示。
表11-2 2006—2009年湖南省幼儿园、幼儿班级及在园幼儿数量增长情况统计[2]
2.统计图
统计图是用来表达统计指标与被说明的事物之间数量关系的图形。它是将统计资料利用几何的点、线、面、体和色彩的描绘,把所研究对象的特征、内容结构、相互关系表达得更直观形象,使人一目了然,便于粗略地比较和分析,富于生动性、形象性。
(1)统计图的结构及编制要求:统计图一般是由图号、图题、图目、图形、图例和图注等几部分构成。
①图题。这是统计图的名称,即图的标题。图题文字要简明扼要,切合图的内容,字体在图中应最大,一般写在图的正下方。图号应写在图题的左边。
②图目。这是图中的标目,是对图中每一部分的说明,可以是文字或数据。图目写在图的基线下面。在采用直角坐标系的统计图中,图目即横轴上所指的各种单位名称,应按自左到右,由小到大的顺序排列。纵轴一般是尺度线,自下而上,从小到大,写在纵轴上。
③图形。这是指表示统计数字大小的线条和图形。这是统计图的主体部分,图形线要准确清晰,绘图布局结构要匀称,一般位于图的中央,所占面积应以图框内面积的一半为宜。图形线条是图中各线条最粗的。
④图例。这是举例说明某部分图形所代表的事物,一般放在图中空白位置。
⑤图注。凡图形或其局部,要借助文字加以补充说明的,均成为图注。图注部分的文字要少而精,字号要小,一般写在图题的左下方。
(2)统计图的种类。
①条形图,又称直方图。条形图是用相同宽度的条形长短或高低来表示事物数量大小的一种图形。它主要用于比较性质相似的间断性资料。条形图有单式、复式两种,由一组数据资料绘制的图形是单式条形图;由两组或两组以上资料绘制的图形是复式条形图。按直条图排列的方向不同,又可分为纵条图和横条图,如图11-1[3]、图11-2[4]所示。
图11-1 大、中、小班教师开启的交往行为事件比较图
图11-2 某幼儿园中(一)班和中(二)班幼儿绘画各等成绩人数条形图
条形图的绘制要领:各个(类)直方长条的宽度要相同,单式条形图的色调要一致;相邻长条之间的间距要适当,根据统计项目的多少以及直方长条的宽度来衡量,一般来说,这种间距大约为直方条宽度的0.5~1倍;复式条形图不同类型的直方条宜用不同的色调加以区别,并在图形右上方适当位置标明图例;要把比较的统计事项的直方条靠在一起,而横轴上所标明的分类项目(一重分类)的直方条之间要相互间开,其间距一般取直方条宽度的1~1.5倍。
②圆形图,又称饼图。圆形图是以圆中的扇形面积来表示事物总体内部百分比构成的统计图,同样用于比较性质相似的间断性资料,如图11-3所示[5]。
图11-3 2008年全国不同性质幼儿园所占比例图
圆形图的绘制要领:以适当的半径作一圆,代表总体事物;分别以各统计事项在其总体中的比例乘以圆周角360°,求出各相应扇形的圆周角;根据各计算结果,一次用量角器把整个圆分化成若干个扇形部分,并在其中标上各自的百分比数值。
③线形图。线形图是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。适用于描述某种事物在时间序列上的变化趋势,也适用于描述一种事物随另一种事物发展变化的趋势,还可适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系,如图11-4所示[6]。
图11-4 2002—2009年学前教育毛入园率变化情况
线形图的绘制要领:在平面直角坐标系中,横轴一般代表自变量,纵轴一般代表因变量。横轴既可作为连续变量的量尺,也可作为离散型变量的量尺,但纵轴一般均代表连续变量的量尺。根据有关具体数据,在由纵横两轴所决定的平面上画记圆点,然后用稍粗一些的线段把相邻的点依次连接。在同一个图形中,允许画若干条(一般不超过5条)不同的线形图,以便比较分析。但是,要用不同形式的折线,如虚线、实线、点画线,或不同颜色的折线等加以区分,并在图中适当位置标明图例。
(四)编制次数分布表与次数分布图
1.次数分布表
次数分布是指把观测到的全部数据按大小顺序和一定的组距进行分组统计后,各组所含数据个数的分布。次数分布表是指次数分布的列表形式,是一种常用的统计表。
(1)间断变量的次数分布表。
例如,某班35名学生,对5道选择题做对的次数分布,可用表11-3来表示。即全错的有1人,做对1题的有2人……
表11-3 35名学生5道选择题做对的次数分布表
(2)连续变量的次数分布表。
例1:50名幼儿数数成绩分别为:
44,45,47,40,40,42,43,36,37,37,38,39,32,32,34,35,34,28,28,29,30,30,31,31,29,24,24,25,25,26,26,26,27,27,20,21,22,23,23,23,16,17,18,19,12,14,15,8,9,10。下面我们对这些杂乱无章的数字进行分组,编成次数分布表。其编制的步骤为:
①求全距。全部数据中最大值与最小值之差称为全距,用R表示。如例中R=47-8=39。
②决定组数和组距。将全距分成若干组时要确定组数和组距。组数即分组的个数,用K表示。分组的个数取决于样本容量的大小。分组时一般以10~15组为宜,最多不超过20组,最少不少于10组。组距就是每一组内包含的距离,用I表示。最常用的组距为1、2、3、5、10个单位等。组距I、全距R、组数K三者之间的关系大略可以表示为I=R/K。为了计算方便,一般取I为整数。例1中确定K为10,根据公式I=R/K,可以确定I=4。
③确定组限。组限即一个组的起点值和终点值。前者称为组下限,后者称为组上限,上限与下限的差为组距I。本例中,把第一组确定为[44,48),第二组为[40,44),第三组为[36,40),其余以此类推(注意:这里采用的是左闭右开区间的书写方式,说明各组登记数据次数时包括下限不包括上限)。
④求各组的组中值。组中值是每组上下限之和的平均值,用m表示。如第一组的组中值为(44+48)/2=46。在计算分析时,一般可以用组中值代表该组数据的平均值。
⑤统计次数。按照各组(分组区间)中数据出现的次数来统计。最好将数据先排序(从大到小),再统计每组数据的个数(即次数)并登记。
⑥给出次数分布表。为了对数据的了解更深入,通常在次数分布表中列出次数比率、次数百分比,以及累加次数、累加百分比等。
从表11-4中可得出幼儿分数的分布情况,有助于研究者对整体情况有一个大概的了解。但是,要想通过次数分布表清楚了解在每一分数线以下有多少人,还要制出累加次数分布表(略)。
表11-4 50名幼儿数数成绩的简单次数分布表
2.次数分布图
根据次数分布表绘制的统计图称为次数分布图。它一般适用于表示连续性数据,如身高、成绩等的分布。常见的有直方图、多边图等。
(1)直方图。
直方图是由同一底线上相互连接的矩形所构成。其绘制方法是:首先作一直角坐标系,以纵轴尺度表示数据的分组。矩形的宽度表示组距,矩形的高度表示各组的次数。注意:横轴上所标出的最小值与零点的距离可以不按实际差距标出,只要适当空出一段距离即可;另矩形间的直线可以绘出也可以去掉。例1的次数直方图如图11-5所示。
图11-5 50名幼儿数数成绩次数直方图
(2)多边图。
次数多边图是一种反映次数分布的线形图。其绘制方法与次数直方图基本相同。它是以各组的组中值为横坐标,次数为纵坐标,在直角坐标系上分别描出对应的点,然后把每相邻两点用线段连接,并将两端画至外侧一组的组中点处与基线相交,便得到一个次数多边形,如图11-6所示。
图11-6 50名幼儿数数成绩次数多边图