平均数能够用一个数值来说明统计总体的特征,是非常有力的指标。这个概念无论对谁来说都耳熟能详,便于充分理解。然而,需要留意的是,只看数字的话,有可能导致误解产生,存在风险。那么,具体应该怎样使用平均数、应该注意些什么呢?
假如你是销售部的一员。昨天,举办了一场面向新客户的销售研讨会,参加者有10位。有一份满分为5分的满意度调查问卷,10位参加者的调查结果如下。
这个调查结果需要向上司报告,你会怎样报告呢?例如,可以说3分的有3人,4分的有4人,5分的有3人,像这样报告“每个分数有多少人”。但如果这样报告的话,上司很难马上得出整体印象。
在这种时候,有一种指标可以传递整体印象,那就是平均数。
算出10份问卷的分数总和(3+3+…+5+5=40分)。
这个总和除以总份数,可以算出平均分40÷10=4.0分。
这样的话,结果就是“总共10份问卷,平均分是4.0分”,不需要进行个别分数的报告,用一个数字就可以表达问卷调查的结果。此外,这样计算平均数,哪怕问卷份数增加至100份、1000份,都是有效的。
计算平均数,可能要花一些力气,但不管是100份的结果还是1000份的结果,都能够用一个数字来表达。平均数是可以用一个数值来表示统计总体的代表值。
1. 进行计算
2. 转化为图表
想要灵活运用平均数,首先要进行计算。另外,还有一点很重要,就是把数据转化为图表,让整体情况可视化!建议大家养成习惯,以上两点要配合进行。下面分别进行详细说明。
1. 进行计算
大家看到数字时,首先请尝试计算平均数。算出所有数据的总和,然后除以数据样本数。计算本身只是加法和除法,是小学生都能做的简单计算。
2. 转化为图表
其次,就是尝试转化为图表。图表可以帮助我们从视觉上把握整体的分布情况。
我们以刚才的问卷调查为例,进行详细介绍。图1是把刚才的问卷调查结果转化为图表的情况。
整体的分布以平均数4分为中心,3分和5分均匀地分布在两侧。以平均数4分作为代表这个样本的值似乎没有不妥。
接下来,我们看看图2。图2计算平均数的结果也是4分。然而,它的分布情况是分成3分和5分这两大部分,并不存在4分的数据。在这种情况下,虽然平均数确实是4分,但是用4分作为代表这个样本的值(代表值)是否合适呢?似乎有些不妥。
我们再来看看图3。平均数同样是4分,但分布情况是,1分的数据有2个,4分的有2个,而半数以上都是5分。虽然半数以上都是5分,但由于受到2个1分的影响,平均数只有4分。那么用4分作为代表这个样本的值(代表值)是否合适呢?对于这种情况,也是留有一点疑问。
如上述例子,虽然平均数同样为4分,但有可能是图1的分布,也有可能是图2或图3那样的分布。总之,平均数只是计算出来的数值,并不是在表示数据如何分布。
正因如此,我们不仅要计算平均数,还必须转化为图表,把握清楚整体的分布情况。
此外,一般听到“平均数”,人们就会认为是类似图1的分布,也就会自然地联想为,处于平均数的数据在整体数据中是最多的。
因此,如果数据的分布情况类似图1,由于4分的数据在整体数据中占得最多,那么结论为平均分是4分,就没多大问题。
但是,如果数据的分布类似图2或图3,结论只说“平均分是4分”的话,就变成只看平均数了,听者可能会自然联想到图1那样的分布。
因此,如果是图2那样的分布情况,就要说明“平均分是4分,但分化为3分和5分两极”;如果是图3那样的分布情况,就要说明“平均分是4分,但超过半数的分数是5分以上,反而受到了部分1分的影响”,不要只看平均数,通过图表观察整体分布情况而得知的信息,要在报告时添加上去。
练习题
销售部有员工A至员工I,共9名成员。在某一周,他们每人的销售额(单位:万日元)如表2所示。你要对这个结果进行报告,所以马上进行了计算和图表化。
1. 进行计算
9名成员单周的销售额平均数是(100+101+102+109+110+111+112+113+132)÷9=110万日元
2. 转化为图表
把9人的销售额数据转化为图表后,如图4所示。
现在问题如下:如果要把计算出来的平均数(110万日元)作为销售部的成绩(代表值),那么有哪些地方必须留意呢(提示:关于员工I,应该怎样去考量)?
解答
从图表来看,员工I的销售额,相比于其他8名成员似乎有着不同的倾向。因此,如果要把员工I包含在内来计算平均数的话,就需要把握清楚,员工I与其他8人相比,有没有特殊情况。
例如,要先确认好,员工I“销售的货物是否与其他8人不同”“是否负责与其他8人不一样的区域”等,有没有出现特殊的情况。
如果要把平均数作为代表值,那么必须确认清楚,“其中是否包含特殊的数据”。数据的图表化,也是辅助判断是否包含特殊数据的一种有效手段。
STEP UP!
最后,介绍一下平均数以外的代表值——中位数。
中位数是指在所有数据中,刚好排在中间位置的数据的值。
我们尝试找出刚才的销售部销售额数据中的中位数。
这个例子有9名成员,所以正中位置,即第5名成员的数据的值(销售额)就是中位数。第5名成员是员工E,员工E的销售额是110万日元,所以中位数是110万日元。
下面,我们确认一下平均数和中位数有哪些不同的特征。
请看图5。此时员工I的销售额是222万日元,是一个更突出的数值。员工I的特殊性,与图4相比更为明显了。
我们算一算图5的中位数和平均数。
中位数与图4的道理相同,排在9名成员的正中央,即第5名员工E的数据。员工E的销售额是110万日元,所以图5的中位数是110万日元。另一方面,平均数是(100+101+102+109+110+111+112+113+222)÷9=120万日元,与刚才的图4相比,高了10万日元。
在9个数据中,员工I与其他8人相比较为突出,这一点在图4和图5中是相同的。由于平均数受到员工I的值的影响,所以图4与图5的结果不一样。而另一方面,图4和图5的中位数是相同的数值。
如上所述,中位数具有不易受特殊数据影响的特征。当整体数据中包含了特殊数据时,或者在整体数据的分布不是左右对称的情况下,有时活用中位数作为代表值会比较好,请大家记住这一点。
小结
√ 平均数可以用一个值代表整体,是便利的指标
√ 看到数字,就尝试进行计算和图表化
√ 图表化之后,可以通过视觉把握整体数据的分布情况
√ 要确认是否包含特殊的数据
√ 中位数也是代表值的一种,且具有不易受特殊数据影响的特征