人们常说“要正确理解现状”,事实上,要正确地把握现状并不容易。很多时候,看起来有特殊意义的现象,实际上只是偶然情况。那么,如何能够准确地理解正在发生的事情呢?
你收到了一份业务知识理解度的测试得分表(表1),满分是20分,请你对团队40个人的成绩进行分析。
只是看表格的话不够清晰,所以你把数据以每5分为一个刻度单位制作了一份图表。
从图表来看,0~5分、6~10分、11~15分、16~20分,每一组都有10人,看起来从成绩好的成员到成绩不好的成员,分布是一致的。
接下来,改为以每4分为一个刻度单位制作成图表(图2)。
结果刚才看起来是一致的分布,换成以4分为一个刻度单位的图表以后,可以发现数据分布在图中的左右两侧,成绩好的成员与成绩不好的成员分化成两极。
这样转化以后,虽然原始数据是相同的,但以5分为一个单位进行统计和以4分为一个单位进行统计,呈现出来的趋势是完全不同的。
我们经常倾向于以5分为一个刻度单位、以10分为一个刻度这样容易理解的方式进行统计,但理由仅仅是数字容易分割。建议大家不要单纯地以数字容易分割为理由来确定刻度宽幅,要记住以下3个要点:
1. 确认整体数据的宽幅
2. 考虑能够把数据分成4~8组的刻度宽幅
3. 制作多个图表,确认呈现的趋势是否发生变化
1. 确认整体数据的宽幅
以本次的例子来说,测试分数的0~20分就是数据的宽幅。
2.考虑能够把数据分成4~8组的刻度宽幅
数据的宽幅是0~20,所以如果把刻度宽幅设为5,那么可以刚好分成4组;如果把刻度宽幅设为4,那么可以分成5组;如果把刻度宽幅设为3,那么可以分成7组。因为4~8组只是大致参照值,所以并不意味着少一点或多一点都不行。
3. 制作多个图表,确认呈现的趋势是否发生变化
刚才分别以“5”“4”为刻度宽幅制作了图表,现在尝试再以每3分为一个刻度单位,把整体数据分为7组来制作图表(图3)。
成绩好的成员与成绩不好的成员两极分化,分布在图表的左右两侧,这一点跟图2的解释大体一致。另一方面,在图3中,比起左右对称分布的现象,在这里更突出的印象是左侧成绩不好的成员较多,这是因为得分为6~8分的人数较多。
同样是40人的数据,随着刻度宽幅的变化,呈现的趋势却完全不同。那么,哪一种刻度宽幅最合适呢?答案是哪一种都可以。之所以这么说,是因为原始数据是相同的,只是改变了刻度宽幅来呈现而已。
在这里,可贵的不是问“宽幅为多少最合适”,而是理解“选择不同的宽幅,呈现的趋势可能会发生变化,解释可能会发生变化”。
同时,大家要时刻记住,尝试以不同的刻度宽幅进行划分,观察呈现出来的趋势如何变化,或者有没有变化,不断进行摸索。
练习题
你的职责之一是把握到店顾客的人数。
昨天的顾客数是90人,今天是130人,增加了40人。你想知道这40人的差异是由于哪些顾客增加而形成的,所以把昨天的顾客数和今天的顾客数,以10岁为一个刻度单位,大体分为11~20岁,以及21~30岁这两组来制作图表。
从图表来看,11~20岁、21~30岁这两组各增加了20人。然而,仅仅这样的话无法完全把握是什么年龄的顾客有所增加。于是,你按照每一岁为一个刻度单位,仔细地整理了年龄分布的情况,得出表2的结果。
那么,我们应该以几岁为一个刻度单位来制作图表呢?
解答
1. 确认整体数据的宽幅
我们知道数据的宽幅是13~26岁。
2. 考虑能够把数据分成4~8组的刻度宽幅
首先,可以按照每4岁为一个刻度单位来分割数据,以此制作图表,如图5所示。从图表可知,人数有增加的是17~20岁及21~24岁的群组。
3. 制作多个图表,确认呈现的趋势是否发生变化
刚才尝试了改变刻度宽幅来制作不同的图表,下面我们试试改变数字的起点来制作其他图表。
图5是以13岁为起点,按照4岁的刻度宽幅制作出来的,这是因为手里的数据刚好是从13岁开始的。现在,我们尝试把起点改为11岁,也按照4岁的刻度宽幅制作图表。
结果如图6所示,人数有所增加的是19~22岁的顾客。19~22岁相当于大学生的年龄段,所以可以推测,今天顾客的人数有所增加,是因为大学生比昨天来得多。
如上所述,即使刻度宽幅相同,如果计数起点发生变化,图表呈现的趋势也会发生变化。所以大家分析时,除了要改变刻度宽幅制作多个图表,也要尝试改变计数起点,看看图表呈现的趋势有无变化。
另外,刻度宽幅应该设为多少、计数起点应该设为多少、最终采用哪种分割方法,在思考以上内容时,也要把定性解释能否成立作为其中一个基准纳入考虑范围。
STEP UP!
目前,我们思考了应该以几岁作为一个刻度宽幅来制作图表,最后我们还要考虑如何把握年龄数据。
到店顾客数还可以按照时间段或者星期几的不同来划分,而时间段或星期几的数据,相比年龄来说是更容易划分的切入点。相反,按年龄来划分数据比较有难度。因为时间段或者星期几的数据,只要追溯收银机的记录就可以统计,而年龄的数据必须是有意地去获取。
实际上,在便利店等地方,工作人员录入收银信息时,会填入眼前顾客的年龄层数据,哪怕只有观察所得的印象。
或者也可以利用积分卡。积分卡的目的是希望顾客有其他机会再次光临,它还有一个目的就是建立商品与购买者的联系,记录下谁买了什么物品,这些也能用于数据分析。
为了理解现状,要确定数据以怎样的切入点进行分割,这点很重要。同时也要理解,为了进行数据分割,有些信息需要有意地去获取。
小结
√ 现在正在发生什么事情,这不是凭借单一想法就能确定的,也不是靠别人来告诉我们就能知道的
√ 需要对多个可能性进行不断摸索并思考
√ 改变刻度宽幅、改变计数起点来制作多个图表
√ 对呈现出来的趋势考虑定性的解释
√ 为了进行数据分割,有些信息需要主动去收集