数据的分布存在不均衡的情况,能够反映这种不均衡程度的指标就是标准差。另外,对某个值的评价,会随着不均衡程度的不同而变化。那么,标准差是怎么计算的呢?应该如何去应用呢?
用于描述不均衡的指标是标准差。这是用来反映数据整体的分布如何分散或者如何集中的值。首先说明一下它是怎么计算的。
假设我们对某项知识进行问答测试后,得出图1和图2的结果。
图1的平均分是60分,最低分是40分,最高分是80分。
图2的平均分是60分,最低分是20分,最高分是100分。
图1的数据整体分布,在60分的位置出现峰值,数据都分布在靠近60分的地方。虽然图2的平均分也是60分,数据的峰值也在60分附近,但从数据均衡性的角度来看,与图1相比,其山脚位置分布更加广泛。用数值来表现这种分布的差异,就是标准差。
图1的标准差计算如下。
离散程度(与平均数之差的平方的和)
=(-20)×(-20)×1
+(-10)×(-10)×4
+(0)×(0)×6
+(10)×(10)×4
+(20)×(20)×1
= 1600
方差(除以数据个数)
= 1600÷(1+4+6+4+1)
= 100
标准差(计算平方根)
= 10
同样地,图2的标准差计算如下。
离散程度(与平均数之差的平方的和)
=(-40)×(-40)×1
+(-30)×(-30)×1
+(-20)×(-20)×1
+(-10)×(-10)×3
+(0)×(0)×4
+(10)×(10)×3
+(20)×(20)×1
+(30)×(30)×1
+(40)×(40)×1
= 6400
方差(除以数据个数)
= 6400÷(1+1+1+3+4+3+1+1+1)
= 400
标准差(计算方根)
= 20
综上所述:
图1的平均分是60分,最低分是40分,最高分是80分,标准差是10。
图2的平均分是60分,最低分是20分,最高分是100分,标准差是20。
标准差越大,表示不均衡的程度越高。
图1的标准差是10,图2的标准差是20,只靠平均数无法表达不均衡的程度,通过标准差表现出来了。标准差的计算有3个要点。
1. 计算离散程度(距离平均数有多远)
2. 计算方差(除以样本数)
3. 计算平方根
接下来,我们逐一来确认。
1. 计算离散程度(距离平均数有多远)
我们用图2来计算。首先,100分的有1人,100分距离平均分60分的差值是40分。
计算标准差时,要计算离散程度值的平方。计算平方值以后,对比平均数,离散程度值的影响会变大。具体的计算是,离散程度值的平方数,40×40=1600,属于这个分差的有1人,即1个数据,所以1600×1=1600。
接下来,我们试试计算70分的离散程度。
其距离平均分60分的差值是10分,离散程度是10×10=100。
同时,70分的有3人,所以100×3=300。
按照这个方法,20分的有1人,30分的有1人,……,100分的有1人,计算所有数据的情况。
离散程度(与平均数之差的平方的和)就是:
=(-40)×(-40)×1
+(-30)×(-30)×1
+(-20)×(-20)×1
+(-10)×(-10)×3
+(0)×(0)×4
+(10)×(10)×3
+(20)×(20)×1
+(30)×(30)×1
+(40)×(40)×1
= 6400
2. 计算方差(除以样本数)
通过步骤1,我们知道离散程度的总和是6400。接下来除以样本数,计算出离散程度的平均数。这次有16人的数据,所以,
6400÷(1+1+1+3+4+3+1+1+1)
= 400
这个400就叫作“方差”。
3. 计算平方根
离散程度通过方差得以表现,但这是利用与平均数之差的平方值算出来的数字,为了恢复到原来数字的维度,我们求出平方根。
这就是标准差。
接下来,我们学习如何使用标准差进行数据解释。
假设图1是逻辑思考能力的测试,图2是沟通能力的测试,员工A的成绩是,逻辑思考能力70分,沟通能力也是70分。
那么,员工A的逻辑思考能力和沟通能力,哪种能力的成绩更好呢?
我们知道刚才的图表的情况,但在实际的商务场景中,我们往往有可能会拿到上述的数据,并需要对其进行解释。因此,重要的是能够根据员工A的成绩、平均分、标准差的数据,对员工A的成绩进行评价。我们来实际进行一下评价。
首先,考虑与平均分之差。不管是逻辑思考能力还是沟通能力的测试,平均分都是60分,员工A的成绩都是70分,两者都比平均分高10分。从与平均分的差异来解读,逻辑思考能力和沟通能力之间无法区分优劣。
接下来,加上标准差来进行评价。逻辑思考能力的标准差是10,沟通能力的标准差是20,这表示逻辑思考能力测试成绩的不均衡程度比较低。也就是说,数据集中在60分附近,得到30分、40分或80分、90分等分数的人不多。
另一方面,沟通能力测试的标准差是20,比逻辑思考能力的标准差大。这表示,数据的不均衡程度较高,较多人的分数与平均分60分拉开了距离。
这样一来,虽然员工A的分数同样都是70分,但逻辑思考能力的成绩是在较多人的成绩集中在平均分60分的情况下拿到的70分,沟通能力的成绩是在较多人的成绩远离60分的情况下拿到的70分。因此,如果要说哪一项更优秀的话,那么可以认为逻辑思考能力测试的成绩更为优秀。
练习题
销售1科和销售2科是互为竞争对手的销售科。某月,销售1科、销售2科的销售额平均数均为200万日元。另外,人均销售额的标准差情况是,销售1科为10万日元,销售2科为20万日元。
假设销售1科员工A的销售额是220万日元,销售2科员工B的销售额是230万日元,那么如何判断谁的销售业绩更好呢?请通过平均销售额和标准差来思考。
解答
销售1科员工A的销售额是220万日元。
220万日元(员工A的销售额)-200万日元(销售1科的平均销售额)= 20万日元
因为销售1科的平均销售额是200万日元,所以员工A的销售成绩比平均数高20万日元。
此外,销售1科的标准差是10万日元。
20万日元÷10万日元 = 2
相当于员工A的销售成绩达到了标准差2倍的位置。
同理,计算员工B的情况。销售2科员工B的销售额是230万日元。
230万日元(员工B的销售额)- 200万日元(销售2科的平均销售额)= 30万日元
因为销售2科的平均销售额是200万日元,所以员工B的销售额比平均数多30万日元。
此外,销售2科的标准差是20万日元。
30万日元÷20万日元 = 1.5
相当于员工B的销售成绩达到了标准差1.5倍的位置。
销售额方面,比起员工A的220万日元,员工B的230万日元更多,从与平均数之差来看,员工A是20万日元,员工B是30万日元,也是员工B的比较多。单从金额来评价的话,看起来是员工B的销售业绩更好。
然而,如果考虑标准差的话,员工A的销售额达到标准差2倍的位置,员工B的销售额达到标准差1.5倍的位置,从数据不均衡程度的角度来看,可以得出员工A的销售业绩更好。
如上所述,单纯从销售额、与平均数的差额等角度无法看出的意义,可以通过标准差获知。
STEP UP!
最后,请看一看下面的例子。
我们来考量360度评价的结果。员工X和员工Y都有8位同事,他们的合作精神评价(5阶段评价)的平均分如下表所示。从结果可以说明什么问题呢?
他们的平均分都是4分,可以做出同等程度的评价,但标准差方面,员工X是0.5分,员工Y是1.5分,数值不同。员工X的标准差0.5比较小,说明平均分4分附近的数据比较多;员工Y的标准差比较大,可以推测数据分布比较不均衡。而且,如果平均分是4分,最高分是5分的话,估计打低分的人有不少。
下面的图表分别展示了平均分为4、标准差为0.5,以及平均分为4、标准差为1.5的例子。
从这个图表来看,可以说明,“员工X无论和谁一起共事都能发挥合作精神,团队成员对他的评价没有太大的差异;另一方面,员工Y的合作则存在一定的特征,呈现出喜欢他的人很喜欢他,跟他合不来的人就没法合作的趋势”。
另外,从数学的角度来说,不管数据的不均衡程度如何,平均数±(标准差)×2的范围内,必定存在整体的四分之三以上的数据,这点已被证明。知道这一点的话,就可以以平均数和标准差为线索,推断数据主要存在于哪一个范围。
在本次的例子中,员工X的平均分是4分,标准差是0.5,那么标准差的2倍就是1,所以4±1,即3~5分应该是包含了整体数据的75%以上。另一方面,员工Y的平均分是4分,标准差是1.5,那么标准差的2倍就是3,本来理论上是1~7分包含了整体数据的75%以上,但由于上限是5分,所以从数据不均衡的角度来看,可以推断很可能存在极端低分的数据。
数据不均衡程度的指标会告诉我们单从平均数无法看出的数据分布情况,希望大家能够灵活运用它进行充分的解释。
小结
√ 不均衡程度是用于表示数据总体分布(分散程度)的指标
√ 通过平方计算,使离散程度有效体现
√ 标准差越大,数据越分散;标准差越小,数据越集中
√ 通过平均数和标准差,就有可能对数据进行评价
√ 以标准差为线索,可以推断数据集中在哪个范围