平均数的问题
假设你与另外49名乘客一起乘坐一辆公交车。在某一站全德国最胖的人上了车。问题是:公交车上乘客的平均体重将会增加多少个百分比?4%或5%—大概应该是这个数值。
假设你还在同一辆公交车上,全德国最富有的人卡尔·阿尔布雷希特上了车,那么这辆公交车上的人均财产会增加多少个百分比呢?4%或5%?远远不止!
让我们好好计算一下第二个假设。假设这50名随机选择的乘客每人有54000欧元的财产,这时卡尔·阿尔布雷希特的加入就使总财产增加了将近250亿欧元,公交车上的人均财产变成了5亿,提高了百分之一百万。一个单一的特殊个体导致了整个局面的改变。在第二个假设中,“平均”这个概念已经没有了意义。
纳西姆·塔勒布曾警告过世人:“不要试图去过一条平均一米深的河流。”这和我举公交车的例子是一个意思。一条河流可以在很大的范围内只有几厘米深,但在中心位置有10米深—人会被淹死。总使用平均值来考虑事情很可能会是有害的,因为平均值掩盖了事情背后真实的分布情况。还有一个例子是夏日里紫外线的平均辐射强度。如果你整个夏天都在被遮住光线的办公室度过,然后飞到马略卡岛(Mallorca),并且在那里不做任何防护地晒太阳,那你的健康肯定会有问题—尽管你受到的平均紫外线辐射强度并不比那些定期进行户外活动的人高。
以上不是什么新的认识,这里面的逻辑是可以理解的。新的认识是:在一个复杂的世界里,分布情况正在变得越来越不规律。或者我们可以回到那个公交车的假设上,在一个复杂的世界里,实际的分布情况更接近第二个假设,因此用平均值来进行解释就越来越不合适。平均一个网站有多少访客?没有平均情况下的网站,只有很少的网站(脸谱网或谷歌)能吸引到绝大部分访客,而剩下的网站,可以说有无数个,只有很少量的访客。数学家将这种情况称之为“幂律分布”。一旦有极为特殊的个体在控制分布情况,那么平均的概念就没有意义。
什么是一个公司的平均规模?什么是一个城市的平均居民人数?什么是一场战争的平均规模(是战争人数还是战争天数)?什么是DAX(德国DAX指数,德国重要的股票指数)每日的平均变化?
建筑项目的平均超支是多少?一本书的平均版次是多少?一次涡流造成的平均损失是多少?一位银行家获得的平均红利是多少?一次市场营销活动的平均成功率有多少?电影演员们的平均收入是多少?以上这些人们当然都可以计算出来,但却是没有意义的。在这些例子中,分布情况都与“幂律分布”有关。用最后一个例子说明一下:有少部分演员每年收入超过千万欧元,但也有成千上万的演员仅仅能维持温饱。如果你因为电影的平均收入看起来很可观而建议你的子女去当演员,那你最好还是再考虑一下。
结论:当提到“平均”这个词时,你最好还是对它**一些,试着探究一下其背后的整体分布情况。如果一个极特殊的情况不会给平均值带来很大影响,就像第一个公交车的假设,那么“平均”这个概念还是有意义的;如果一个极特殊的情况会改变整个局面,就像第二个公交车的假设,那么你(特别是记者朋友们)就应该放弃“平均”这个概念。