二、定量分析的内容(1 / 1)

1.常用统计类型

在定量分析中,可以根据不同的分类标准划分为不同的类别。其中,常见的是按照统计分析方法的功能进行分类,分为描述统计、推断统计两大类。

描述统计主要是对资料进行整理、分类和简化、描述数据的全貌,描述性统计是对教育研究中得来的数据进行初步的整理,主要目的是把一堆杂乱无章的数据初步整理成有规律的数据,并计算出这些数据的特征量,揭示它们的本质特征,以利于进一步的分析。描述统计包括数据的初步整理、数据集中趋势和离散趋势的度量以及相关关系的度量等几个方面。教育研究和教学中会经常使用到描述性统计,比如学校的各类考试,教师都要计算出学生的平均分、优秀率、及格率等。

推断统计主要讨论通过局部(样本)数据推论全局(总体)的情况。推断统计包括总体参数特征值的估计方法和假设检验方法两大类。假设检验方法中又分参数假设检验方法、非参数假设检验方法。在教育研究中,研究人员往往无法做到对所有的个体即总体进行研究,只能抽取一部分个体即样本进行探讨。可是,从样本中得到的信息能否代表总体规律呢?这就需要研究人员从样本的数据中获得相关信息,并把这些信息合理地推广到总体中去,得出科学的结论,而这个推理过程就是推断性统计的任务。推断性统计主要包括总体参数估计和假设检验。总体参数估计是用样本数据对总体的特征进行估计。假设检验是指从样本数据得出的差异去推论其总体参数之间是否存在真正差异,进行这种推论的过程称作假设检验。假设检验的内容一般分为样本统计量与总体参数的差异和两个样本统计量之间的差异。

上述二者之间的关系是十分密切的。描述统计是推断统计的基础,推断统计是带有预测性质的统计分析方法;描述统计只对数据进行一般特征的描述分析,若不进行进一步的推断统计分析,就不能深刻地揭示统计结果的意义。教育科学研究统计分析的方法可以根据研究课题的性质和数据类型来选择。教育课题按其研究目的和内容可以分为探索性研究、描述性研究和解释性研究。从研究结果的统计分析来看,则又可以分成为描述性课题和推论性课题两大类。在描述性课题中,研究者只想了解研究对象的特征或情况。一般可以采用平均数、中位数、众数等集中量数,标准差、极差、变异系数等离散量数以及相关系数等统计指标表示。在推论性课题中,研究者常常是从局部的抽样所获取的样本的性质探测总体的性质,或比较总体间有无差异等,如果不加分析地进行推论统计分析,无形之中就增加了许多不必要的工作量,而需要用推论统计分析的课题,如果只运用了描述统计分析,则又达不到研究的目的和要求。

2.统计分析中常用概念介绍

集中量是代表一组数据典型水平或集中趋势的量,它反映出频数分布中大量数据向某一点集中的情况,在量尺上表现为一个点。常用的集中量有算术平均数、中位数和众数,最常用的集中量数是平均数。

算术平均数通常称平均数、均值或均数,是所有观察值的总和除以总频数所得之商,用X表示。其确定平均数的代数公式为:设X1,X2,…,XN为各次观察的结果,则有:

其中X表示平均数,Xi(i=1,2,…,N)表示每个观察值,∑Xi为Xi的总和,N表示观察值的个数。平均数是最严密、最可靠、最简单、应用最广泛的一种集中量数,常用来估计、比较研究对象的总体水平。但是它容易受极端数据的影响。当观察对象较多,可靠性要求高的时候,可用平均数说明问题。如果观察对象较少,或者其中含有极端数值,用平均数做代表值就未必合适。因此,它适用的条件是一组数据中每个数据都比较准确、可靠、无极端数值的影响。

众数是在一组数据中出现频率最高的数值,常用M表示。通常来看,众数一定是本组数据中的一个值,算术平均数和中数却不一定。例如,20,12,15,18,12,16中的众数是12。

在反映敏感性方面,算术平均数的敏感度最高,能够随着数据中的任何数值发生或大或小的变化。中数和众数反映比较迟钝。当数据的个数不变,不管处于两端的数据发生多大的变化,中数都不会随之变化。而众数不受个别数据的影响,它只是出现频率最大的数据。在受抽样变动影响方面,从同一个总体中随机抽取的容量相同的样本,计算出的算术平均数与其他集中量数相比,抽样误差较小。算术平均数是在计算方差、标准差、相关系数以及进行推断统计时必不可少的,而众数和中数则不能再进一步计算。

差异量数 对于一组数据的全貌,仅用集中量来描述是不够的。因为集中量仅描述了数据的平均水平和典型情况,但可能由于一些因素的影响,使数据具有一种变异性,是分散的、变化的。比如,两个班平均成绩相等,但可能一个班分数相对集中;另一个班则参差不齐,比较分散。这个时候,我们要用差异量来描述这种情况。差异变量是表示一组数据中的差异情况或离散程度的量数,表示一个量数与另一个量数或中心点之间的距离。差异量数愈大,集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大。差异量表示一组数据变异程度或离散程度。差异量越大,表示数据分布的范围越广,越不整齐;反之,越集中,变动范围越小。常用的差异量有方差、标准差、差异系数等。差异量数常用方差与标准差表示。

方差是每个数据与该组平均数之差乘方后的均值,即离差(每个数值与算术平均数的差)平方后的平均数。实际研究中,我们往往对总体的抽样样本进行计算,并用样本的统计特征来推断总体的情况。一般来说,其样本方差用S2表示,其计算公式为:

标准差是方差的平方根。标准差是一个很重要的差异量数,常与平均数一起使用,以描述数据分布的整体情况。标准差值大,说明平均数的代表性小,离散程度大。标准差小,说明平均数的代表性大,离散程度小。样本标准差的计算公式为:

方差与标准差的反应比较灵敏,当任何一个数据取值变化时,方差或标准差也随之发生变化;它受抽样的变动影响小,是利用样本数据推断总体差异的最好的估计值。但是它容易受两极端数值的影响,特别是当有个别数值模糊不清时,则不能计算。

相关量数 相关是以量化的形式对客观世界中事物间普遍联系的反映。相关系数是用来描述两个变量之间变化方向和密切程度的数字特征量,取值范围在-1.00和1.00之间。正相关是指两个变量的变化方向一致,当一个变量变动时,另一变量也发生相同方向的变化;负相关是指两个变量的变化方向相反,当一个变量变动时,另一变量发生相反的方向变动;零相关是指两个变量之间的变化没有一定的规律,当一个变量变动时,另一变量不变或是呈现无规则变化。从密切程度来看,无论两变量的变化方向如何,凡密切程度高的称为强相关或高度相关,密切程度一般的成为中度相关,密切程度弱相关或低度相关。应该注意的是,相关关系不等于因果关系。即使两个变量完全相关,也不能说两者之间存在因果关系。相关系数不是等距的度量值。例如我们不能说相关系数0.5是0.25的2倍。此外,相关系数也不代表百分比,例如两变量的积差相关系数r=0.30,不能说其间有30%的相关。