“浙江许多人均指标都居全国领先水平,通常被人们称作富省,可这个‘富’是相对的,是初级阶段的,绝不能因为一些平均数而忽略全省存在的贫困面。”
——摘自某公开报道
这番话出自浙江省原省长、全国人大代表吕祖善之口,反映出这位父母官对经济发达的浙江省的省情有着非常清醒而可贵的认识 1。
确实,在有些情况下,以“平均数”代替“大多数”似乎无关紧要,但在一些重大问题上则必须将两者分开。俗话说“饱汉不知饿汉饥”,对于腰缠万贯、一掷千金的富翁来说,他怎么也不会想象得出赤贫者是如何因为哪怕缺少1元钱就挨饿、受冻的。“平均数”决不能代替“大多数”,有时候甚至也不能代替“极少数”。
在统计学中,平均数的主要作用是描述“数据的集中趋势”,即“数据向某一中心值数据聚拢的倾向”;或者是数据的“一般水平、代表值或典型值”。
容易看出,平均数属于一种概括性指标。由于受离群值(极端值)的影响,平均数往往容易掩盖个体差异。有鉴于此,许多情况下平均数什么问题也说明不了。
例如,一家小餐馆里有两位顾客,一位顾客喝了1斤白酒,另一位顾客吃了2碗泡饭。如果用平均数看,他们两人平均每人喝了半斤白酒,吃了1碗泡饭,看上去好像还不错。而实际上呢,两个人似乎都很不好——一个人喝酒喝醉了,另一个人吃得太饱了。
这种平均就根本不符合事实,也没有意义,因为它的“离散度”(反映一组数据离散程度的统计学指标)太大了。
再例如,如果有人问你全班同学的身高是多少?你当然可以用平均身高来回答。因为每个同学的身高不一样,你即使知道每个同学的身高也没必要一个个报出来,否则对你来说就太琐碎了,而对方也未必就需要这样的数据。你只要报出平均身高是多少,如果更细致一点,报出男生平均身高是多少、女生平均身高是多少,对方就知道了大概。
但显而易见,这种平均身高并不能看出全班同学中最高和最低的同学身高是多少。即使两个班级同学的身高平均值完全相等,这两个班级最高(低)同学的身高也不一样。所以,在掌握了平均身高时,如果有必要还必须掌握最高、最低的同学身高是多少。
现实社会中,“平均数”和“大多数”是工作中常常听说的概念。有些情况下以“平均数”代替“大多数”无关紧要,可是在一些重大问题上,则必须将“平均数”与“大多数”区分开来,绝不能以“平均数”代替“大多数”,甚至不能以“平均数”代替“极少数”。
统计课上老师经常举例的一则笑话说,一位不会游泳的统计学家遇到面前的一条小河时硬是不敢趟过去,后来他听别人说这条小河的“平均”水深只有0.5米,就勇敢地下河了,没想到最终被淹死在河里。
原来,这条小河的平均水深确实只有0.5米,可是它的最深处却超过2米。这最深处“2米”虽然是“极端值”,可是你能说可以因此忽略吗?可怜的是这位统计学家仅仅掌握了“数据的集中趋势”,却忽略了河中最深处和最浅处的变化,当然要付出生命代价了。
平均数的种类多种多样,可以说是个“大家族”。因此,搞清楚有哪些平均数,对读者如何理解平均数会有很大帮助。
一般来说,平均数可以分为算术平均数、几何平均数、调和平均数 2、加权平均数、平方平均数等几类。为了更好地说明问题,下面我们对最常用的三种平均数以列表方式加以比较:
各种各样的平均数中,最常用的是算术平均数和加权平均数。
所谓算术平均数,是指对没有分组的原始数据简单相加后得到的平均数,又叫平均值。
例如,某企业的A部门有5个人,他们的年收入分别是8、5、4、3、2万元,这时候就只能用简单算术平均数来计算该部门的人均年收入(因为其中找不到完全相同的两个数字,无法赋予权数),结果是(8+5+4+3+2)÷(1+1+1+1+1)=4.4万元。
所谓加权平均数,是指对已经经过分组的原始数据进行平均。分组后的原始数据可能会出现相同数字,而且有可能会有多个相同数字出现,这时候某个数字出现的次数多少就叫频数,这也是加权平均数中所说的权数。
例如,该企业的B部门也是5个人,他们的年收入分别是8、6、5、5、1万元。这时候如果要计算B部门的人均年收入,那么既可以用算术平均数法计算也可以用加权平均数法计算。
用算术平均数法计算得到的结果是(8+6+5+5+1)÷(1+1+1+1+1)=5万元,用加权平均数法计算得到的结果是(1×8+1×6+2×5+1×1)÷(1+1+2+1)=5万元。容易看出,这两种计算方法得到的结果是相同的,但后者的计算更简单,甚至会简单得多。
例如,如果要计算该企业A、B两个部门的人均年收入是多少,这时候当然也可以用算术平均数法来计算,但由于其中年收入8万元的人有2个、年收入5万元的人有3个、年收入6、4、3、2、1万元的人各有1个,所以用加权平均数法来计算更简单。
在这里,“2”个人、“3”个人、“1”个人分别就是它们的权数。具体计算过程是(2×8+3×5+1×6+1×4+1×3+1×2+1×1)÷(2+3+1+1+1+1+1)=4.7万元。
容易看出,算术平均数是加权平均数的一种特例。当加权平均数中权数全部是1时,这时候它就变成了算术平均数。
加权平均数的大小受两个因素影响,一个是各组数值的大小,另一个是各组分布的频数多少。毫无疑问,哪一组的频数越多,这组数值对于平均数的影响作用就越大。
相反,算术平均数的大小更容易受极端数值影响。例如在上述A组的5个人中,如果年收入最高的不是8万元,而是36万元,那么这时候A组的5个人平均年收入就达到10万元,而实际上这5个人中只有1人超过这个数,其他4个人不仅没有达到这个数,而且相差不少;而如果去掉这个最高数,这时候其余4个人的人均年收入就只剩下了2.8万元,虽然不怎么“好看”,却更接近实际。
与算术平均数、加权平均数相比,几何平均数主要用于对比率、指数等数值进行平均,用来计算平均发展速度。
在加权平均数中,除了一组数据中的某个数出现的频数称为权数以外,权数还有更广泛的含义。
例如,在一些体育比赛项目如跳水比赛中,每个运动员除了要完成规定动作外,还必须完成一定数量的自选动作。而既然是自选动作,那么这些动作的难度就是各不相同的。要在不同的运动员之间进行比较,就必须用权数进行衡量,这就是大家通常听到的“难度系数”。如果两位选手自选动作难度系数不同,即使完成的跳水动作质量相同,得分也不一样。道理很简单,难度系数大的运动员得分会高些、难度系数小的运动员得分会低些,这实际上就是权数在起作用。
在企业里,分配奖金时常常会用到奖金系数,不同岗位、不同员工之间的奖金系数各不相同,实际上这里的奖金系数也是一种权数。
在中小学校,期中考试、期末考试、平时小测验都与成绩报告单上的分数有关,而这些考试分数的权数也不相同。
如果某个学生的期中考试成绩是90分,期末考试95分,平时小测验100分,这时候出现在报告单上的成绩一般就不会是算术平均数的(90+95+100)÷(1+1+1)=95分,而会是加权平均数。
假如该学校的期中、期末、平时小测验权数分别是30%、50%、20%,那么这时候出现在成绩报告单上的分数就是(90×30%+95×50%+100×20%)÷(30%+50%+20%)=94.5分了。
与“平均数”相对的是“大多数”、“极少数”。“大多数”比较容易理解,极少数就容易被忽略,而实际上呢,既然它是客观存在,就是不能忽略的。尤其是在社会人文领域,这种“极少数”的意义更大。
例如,全面建设小康社会、早日实现小康目标,一个十分重要的指标是看城乡居民人均年收入达到多少标准。从考核指标看,这时候只能衡量这样的“平均数”;可是在老百姓眼里,是否达到小康水平在看“平均数”的同时,更要看达到这种“平均数”的人数多少,因为“平均数”并不代表“大多数”。
如果,一家企业老板的年收入是200万元,他的企业有50名员工,这些员工的平均年收入是2万元,你能说这个企业员工平均收入是5.88万元吗?显然不行。如果你按照年收入5.88万元向他们征收个人所得税,一定行不通。
可是在现实生活中,这种用“平均数”掩盖“大多数”的情形比比皆是。一些地方和部门的工作重点和注意力,就是放在如何拔高“平均数”上。这就要求读者在阅读、分析有关平均数指标时,能从这个角度去考虑问题,避免以偏概全。
除了算术平均数、几何平均数等称为平均数外,众数、中位数也是平均数。不但如此,以众数、中位数为代表的平均数,在存在异常值的情况下,更能反映统计数据的集中趋势。
不用说,在绝大多数情况下,一组数据中总会存在异常值。这表明,在大多数情况下众数、中位数更能反映“平均”值。
先看众数。所谓众数,是指在统计分布上具有明显集中趋势的那个数字,它最能代表统计数据的一般水平。用读者容易理解的话说就是,众数就是一组数据中出现次数最多的那个数。众,多也。
容易看出,如果这组数据中出现的数据次数一样多,这时候也就无所谓众数不众数了,换句话说,这时候没有众数。
例如在上述A部门的5名员工中,每个人的年收入各不相同,就表明这组数据没有众数。而在B部门的5名员工中,有两位员工的年收入相同(都是5万元),这时候就说这组数据中出现了一个众数(2个人,5万元)。如果以众数来代表平均数,这时候就可以说,这些员工的人均年收入是5万元 3。要注意的是,有时候在一组数据中会有多个数据出现相同的次数,这时候就说这组数据中的众数不只1个。
用众数作为平均数的好处是不受极端数据影响,而且计算简单。因为既然是极端数据,它的出现次数必定不多,很自然地就被排斥在众数之外。至于计算简单,有时候根本就不用计算,用眼睛简单地看看就能看出这组数据中出现次数最多的是哪个数了。
用众数作为平均数的缺点是可靠性比较差。所以,一组数据中如果个别数据有很大变动,这时候选择中位数来表示“数据的集中趋势”更合适。
所谓中位数,是指将一组数据按照某种顺序排列后位于最中间的那个数。显而易见,这时候大于中位数的数字恰好有一半,小于中位数的数字也恰好有一半。正因如此,它才有权代表“平均数”。中位数的主要作用,就是排除极端数字影响,代表总体数据的中等情况。
以上述A、B部门为例,这两个部门都是5个人(奇数),所以位于最中间的那个数(第3个数)就是中位数 4。在A组中,中位数是4万元,这时候就说A部门的人均年收入是4万元;而B组中的中位数是5万元,这时候就说B部门的人均年收入是5万元。
容易看出,用中位数代表平均数有时候更容易反映事物本质,道理很简单,因为它具有“一半在我之上、一半在我之下”的观测作用。
前些年有一首打油诗是这样说的:“村上有个张百万,9个邻居穷光蛋,平均收入算一算,家家都能有10万。”
显而易见,这里的计算方法就是简单算术平均数或加权平均数;如果采用众数或中位数来表示每户平均年收入,数字就都变成了0。而从实际情形看,平均年收入是0要比10万元更能代表真实情况,毕竟这村上的10户人家中有9户的年收入是0。
所以,读者在了解到某单位、某地区甚至某个国家的人均年收入是某个数值时,如果不知道这个平均数究竟是算术平均数、加权平均数、众数、中位数还是其他什么,它对你的意义就不大。
换句话说,如果你对某个“平均数”有所怀疑的话,就很有必要继续考察它的“中位数”是多少。也就是说,在完全剔除了极端数据后,再来看看它的“平均数”有多大。
算术平均数和中位数虽然都是“平均数”,但中位数却是算术平均数的“克星”——它既是算术平均数的最大竞争对手(避免被统计数据所蒙蔽),又最容易被找到(不需要经过复杂计算一眼就能看出来)。
对于上述“奥妙”,统计学家或统计数据发布者们体会最深,所以常常喜欢用这种伎俩来欺骗读者。
例如,当他们想说明这几年平均收入增长速度较快时,通常会采用数值较高的算术平均数来计算;而当需要达到其他目的时,又会报出另一个平均数来。
通过这些方法得到的平均收入,虽然从统计方法上来说都没错,可是如果不符合你的理解,也就不具备实际价值,并且还会造成困惑,产生误导。
当然,读者有时候并没必要去区分这个平均数究竟是算术平均数、加权平均数、众数还是中位数。
例如,如果你出于一般目的,想知道某个班级学生的平均身高是多少,就没有必要搞得太复杂,因为在这种情况下各种方法取得的平均数大致相等 5;而如果你是为了制作校服,就必须了解更多信息,既要了解这种平均数究竟是什么类型的平均数,更要在此基础上用到全距和标准差等信息,而且最好是知道每一组数据分别是多少。
描述每个人的身高时是这样,但在描述每个人的收入时就绝对不能采用这种方式了。
究其原因在于,每个人的身高变动较小,有的甚至非常接近;而每个人的收入差别则很大,甚至相差成千上万倍。这时候它的曲线形状通常不是钟形状态的、对称的正态分布,而是有点像孩子们玩的滑梯,后面拖着长长的尾巴——梯子的一侧呈陡斜状,一直升到顶部,而滑道的一侧则缓慢向下倾斜。这时候,用算术平均法来表示收入平均数与中位数相差甚远。
明白了这个道理读者会发现,在进行年收入比较时,如果说去年的平均收入(平均数)与今年的平均收入(中位数)相比,用这种方法计算出平均收入增长率就毫无意义。可是你还不能说,在有些统计数据中,就是采用这种方式来糊弄读者的。
读者平时看到的平均收入等数据,如果没有特别说明,通常采用算术平均数。它的最大优点是,对读者来说“最没有意义”,但是对统计数据发布者来说却“最有意义”。究其原因在于,这种平均值不但会拉高全社会的平均收入额,而且会隐瞒年收入几百万、几千万的巨额收入者,以及年收入非常可怜的赤贫者。
所以,有兴趣的读者在了解到全社会的平均收入数据后,可以在每年出版的《中国统计年鉴》或国家统计局官方网站上进一步查阅比较详细的、分组统计的各项数据,弥补这种不足。
实际上,比平均值作用更大的是中位数,而用中位数作为平均数是国际惯例。中位数能够表明一半人的收入超过这个数字,另一半人的收入低于这个数字。所以,读者在了解平均收入时,不妨再关心一下以中位数表示的平均收入是多少,这样或许更能说明问题。否则,许多人会看了这样的平均收入后上当受骗,许多企业也正是用这种方式来达到某种不可告人的目的。
举个简单的例子来说,如果某企业有3位合伙人,100名员工。这年的经营业绩还不错,100名员工的人均年收入是4万元,3位合伙人的人均年收入10万元,当年企业实现利润200万元。如果企业把这些数据张榜公布,一定会有员工愤愤不平:我们辛辛苦苦工作,年收入才4万元,你们(合伙人)凭什么每人就轻而易举地得76.67万元?
好了,如果不进行这种区分,而是把所有人的年收入和利润分配平摊到每个人身上,结果就变成人均年收入630÷103=6.12万元,这样看上去就“和谐”多了,张榜公布在橱窗里也不会激起民愤了。工人们感到老板们的收入(10万元)实际上只比自己“略高”一点;并且还会纷纷猜测其他工人的工资比自己高,因为自己只拿到4万元。而实际上呢,大家拿到的都是4万元。
看看,这就是算术平均数掩盖事物本质的“功劳”。
这个例子虽然粗糙,可是这种伎俩在劳动工资统计中比比皆是。这就是为什么在同一个企业中,明明看到办公文员的年收入只有3万多元,公司总裁的年收入高达100多万元,最终公布的年平均收入是几万元就能搪塞过去的原因。类似这样的情形太多了。
例如,美国钢铁公司(the United States Steel Corporation)的工资统计数据表明,该公司10年间的员工平均周收入上升了107% 6。单纯从平均数据看确实如此,但读者怎么也不会想到,该公司在早期的统计数据中包括兼职员工人数,从而扩大了计算公式的分母,拉低了基期收入数据。如果你知道这一点,就会明白这种收入增长率的水分了。
举例来说,如果你某年在这家公司工作了半年,而第二年则是全年在这家企业工作的。虽然在此期间你的工资收入没有任何变化,可是根据这样的平均数来统计,你的年收入就已经增长了1倍。
简单地看平均数,很容易被平均数后面掩盖着的“不平均”所误导。例如你家中的住房面积只有50平方米,而邻居家则从50平方米换成了150平方米,虽然你的实际住房面积没有任何变化,可是你们两家的平均住房面积却都从原来的50平方米增加到了100平方米!
警惕吧,这样的笑话。
【解读点睛】
一位不会游泳的统计学家听说河水平均深0.5米就淌过去,结果淹死了,实际上它的最深处超过2米。极端值会严重干扰平均数的真实性。
1 吴杭民:《不为平均数沾沾自喜方能全面改善民生》,浙江工人日报,2008年3月13日。
2 调和平均数由于平时不常用,并且统计调和平均数和数学调和平均数还有诸多不同,所以这里略去不谈。
3 顺便提一下,如果在被观察者中没有明显的次序(通常不能用数据来表示)时,由于无法很好地定义算术平均数和中位数,这时候可以用其中的某个名称来表示众数。例如,一组事物“鸡、鸭、鱼、鱼、鸡、鱼”中的众数,就可以用“鱼”来表示。但这种情形不在本书研究之列。
4 如果这组数据的总数是偶数,那么计算中位数时就要取最中间的两个数的平均值。例如,在3,5,7,8这组数中共有4个数,中位数就是其中最中间的两个数的平均值,即(5+7)÷2=6。
5 在处理诸如人类特征的数据时,各种平均数的数值会十分接近。这些数据具有我们常说的正态分布特点,它们的平均值、中位数、众数会落在相同的点上。
6 [美]达莱尔·哈夫著、廖颖玲译:《统计数字会撒谎》,北京,中国城市出版社,2009年,第30页。