(一)相关分析与回归分析的基础知识
相关分析是描述两个变量之间关系的基本统计方法,也是最直观的方法。相关分析一般只能反映两个变量是否具有相关关系以及相关的方向,但并不能对两个变量相互影响的关系进行方向确定,即不能进行因果推论。回归分析则在相关分析的基础上,对关系密切的两个变量之间的关系进行相对确定化,往往是根据理论或研究的目的,确定两个变量相互作用的方向,即指定一个为自变量,另一个为因变量,然后用自变量预测因变量,并建立预测模型。
1.相关分析的类型
根据不同的分类标准可以对相关分析进行不同的分类。根据两个变量之间是否具有线性变化的关系,相关分析可以分为线性相关和非线性相关(曲线相关),其中线性相关的关系是最简单、最常见的相关关系,也是在教育科学研究中最常见的相关类型。根据数据类型的介绍我们知道,类别变量中变量值只有指代类别属性的意义,没有量的意义,属于质的变量,而测量数据的三种类型具有不同程度的量的意义,可以称为量的变量。因此,根据变量的类型,又可将相关分析分为量的相关、质与量的相关和品质相关三大类。在实际研究中,品质相关实际是对两个类别变量之间的关系的分析,因此常常转化为卡方检验来进行,而质与量的相关则是一个类别变量与一个连续变量之间关系的分析,也常常转化为差异检验来进行,如t检验、方差分析等。因此本书主要介绍属于量的变量之间的相关分析及回归分析。
属于量的变量之间的相关,又可以根据变量的连续性分为积差相关、等级相关等。当两个变量都是正态分布的连续变量,且样本容量比较大时,用积差相关进行分析,如学生的入学成绩与入学后的考试成绩之间的关系分析;当两个变量都是等级变量,或者不满足积差分析的连续变量时,可以用等级相关分析,如两位教师对同一批学生的等级评定之间的关系分析。
2.回归分析的类型
回归分析是在相关分析的基础上进行的,因此回归分析的类型也对应于相关分析的类型。根据变量之间的线性关系的不同,有线性回归与非线性回归之分,其中线性回归又根据自变量的数目,分为只有一个自变量的一元线性回归分析和有两个或两个以上自变量的多元线性回归分析。在教育科学研究中常用的回归分析是线性回归分析。
3.判断线性关系的方法
两个变量之间线性关系的判断,主要是通过绘制相关散点图,根据图形的形状进行的判断。下面以某批学生入学时数学成绩和入学后摸底考的数学成绩为例,分析二者的线性关系。
绘制相关散点图的SPSS过程如下:
选择Graphs→Legacy Dialogs→Scatter/Dot,打开散点图绘制类型选择对话框,如图12-20所示,SPSS默认选择“Simple Scatter”,即简单散点图,也是研究者判断两个变量关系所需的散点图,因此,直接点击“Define”键进入变量选择对话框,将入学后成绩变量放入右侧“Y Axis”框,将入学考试成绩变量放入右侧“X Axis”框,如图12-21所示,点击“OK”键,可以得到图12-22所示的散点图。
图12-20 散点图绘制对话框
图12-21 散点图绘制变量选择对话框
图12-22 相关散点图
由图12-22可见,入学考试成绩与入学后成绩之间的散点图呈现一个由左下至右上对角线区域内的椭圆形状,这是典型的线性正相关的散点图形状,可以判断两个变量之间为线性关系。如果散点形态为圆形或者其他曲线形状则不能做出线性关系的判断。
(二)相关分析的实现
以上述入学时及入学后成绩的数据为例,两变量为线性关系,同时根据正态分析的P-P图可以判断两个变量基本满足正态分布(具体过程略),样本量为73,因此可以进行积差相关分析。
积差相关分析的SPSS过程如下:
选择Analyze→Correlate→Bivariate,打开相关分析对话框,将入学考试成绩和入学后成绩两个变量放入右侧“Variables”框,如图12-23所示,SPSS默认相关类型为积差分析(Pearson),直接点击“OK”键,可以得到表12-17所示相关分析结果表。
图12-23 相关分析对话框
表12-17给出了两个变量的相关矩阵,该矩阵沿左上至右下对角线对称分布,只需关注上三角形或下三角形的结果即可。表12-17中每两个变量的相关分析提供了3个统计量,由上至下分别是相关系数、相关系数显著性检验的伴随概率和样本容量,其中SPSS默认在相关系数值的右上角根据显著性水平分别标1个或2个星号,如表12-17中所注,一个星号代表该相关系数检验的伴随概率小于0.05,两个星号代表伴随概率小于0.01。表12-17中数据表明两个变量的积差相关系数为0.897,对其进行检验的伴随概率为0.000,即小于0.01,所以在相关系数的右上角标了两个星号。需要说明的是,在绘制相关系数的统计表时,选择伴随概率与星号标记两种形式的其中一个即可,即如果采用相关系数值标星号的形式,则不必报告伴随概率,如果报告伴随概率,则无须在相关系数值后加标记。相关系数值的大小反映了两个变量之间关系的密切程度,一般认为,在相关显著的前提下,相关系数绝对值在0.7以上,可以判断为高相关,0.4以下为弱相关,介于0.4和0.7之间的为中等程度的相关。根据这个标准,入学考试成绩与入学考试成绩之间是正的高相关的关系。
表12-17 积差相关分析相关系数矩阵
等级相关的SPSS实现过程与积差相关的实现过程基本一致,只是需要在图12-23的主对话框中,将“Correlation Coefficients”下的“Spearman”复选框进行勾选即可。等级相关的结果输出形式与积差相关非常类似,这里不再进行说明。
(三)回归分析的实现
在上例中,入学考试成绩与入学后成绩高相关,因此,可以进一步以入学考试成绩为自变量,以入学后成绩为因变量进行回归分析,建立回程方程,对二者之间的关系进行确定化分析。
回归分析的SPSS过程如下:
选择Analyze→Regression→Linear,打开线性回归分析对话框,将入学考试后成绩变量放入右侧“Dependent”框,将入学考试成绩变量放入右侧“Independent(s)”框,如图12-24所示,直接点击“OK”键,可以得到表12-18至表12-20三个结果输出表。
图12-24 线性回归分析对话框
表12-18 线性回归分析回归方程的方差分析表a
表12-18是对回归方程的方差分析,该方差分析的目的是判断回归方程是否显著。表12-18中最后两列分别是方差分析F检验值及其伴随概率,由表12-18中数据可知,F值为291.814,其伴随概率为0.000,小于0.05,说明回归方程显著,也即可以用入学考试成绩预测入学后的考试成绩。
表12-19是对回归方程中各系数的显著性检验。一元线性回归方程可以写作:
Y=a+bX
其中Y代表因变量,X 代表自变量,a为常数项,b为自变量的回归系数。如果自变量的回归系数b值显著,就可以认为能够用自变量预测因变量。
表12-19中行1是对常数项的检验,行2为回归系数的检验,列2至列3给出的是非标准化的系数值及其标准误,列4是标准化的回归系数,列5至列6为对系数的t检验统计量及其伴随概率。由表12-19中数据可知,非标准化的回归系数为0.738,标准化的回归系数为0.897,t值为17.083,伴随概率为0.000,小于0.05,说明回归系数显著。需要注意的是,表12-18的F检验与表12-19的t检验是等价的,只需报告其中一个即可。一般情况下直接报告表12-19回归系数分析的结果,即含有各系数值又有回归系数显著性的检验。
根据回归分析的结果,可以将入学成绩预测入学后成绩的回归方程写为:
入学后成绩 = 43.189+0.738×入学考试成绩
表12-20为回归分析模型的基本概要,该统计表提供了一个判定自变量预测因变量的效力的“测定系数”,即R Square值,该值反映了自变量可以在多大程度上解释因变量的变异,即自变量的预测力度。R Square 取值为0~1,值越大,说明自变量的预测力度越高,表12-20中数据为0.804,说明入学考试成绩可以解释入学后成绩80.4%的变异。这是一个比较高的测定系数。
表12-19 线性回归分析回归系数表a
表12-20 回归分析模型概要