第19讲 掌握相关性(1 / 1)

相关性是计算机擅长的范畴。此外,因AI而成为主流的机器学习,其框架背后也蕴藏着相关性的思路。今后,能够理解相关性会变得越来越重要。那么,“相关性”是什么?应该怎么运用呢?

假如你在人才开发部工作,现在需要考虑今后的研修事宜。首先,你为了从日前进行的公司内部能力测试结果中,找出逻辑思考能力和沟通能力的相关性,制作了散点图(横轴是逻辑思考能力的分数,纵轴是沟通能力的分数)。

A、B、C、D中的哪一个图可以推断出逻辑思考能力越高,沟通能力就越高呢?A、B、C、D中的哪一个图可以说明逻辑思考能力与沟通能力没什么关系呢?

如果逻辑思考能力与沟通能力有相关性,那么逻辑思考能力提升的话,沟通能力也会提升;反之,逻辑思考能力降低的话,沟通能力也降低。也就是说,图表会呈现出数据分布朝右方上扬的现象。

数据分布朝右方上扬而且数据比较均衡集中的是图A,图A可以说明逻辑思考能力与沟通能力之间存在相关性。图B的数据也是朝右方上扬,但与图A相比,数据稍微分散。

而图D整体的数据比较分散,有逻辑思考能力高但是沟通能力低的人,也有沟通能力高但是逻辑思考能力低的人,可以初步认为逻辑思考能力和沟通能力之间没什么关系。图C与图D相比,也能够看出数据分布稍微朝右方上扬,但趋势与图A、图B相比稍微偏弱。

现在先说明一下相关性。如果某个要素X发生变化时,另一个要素Y也随着X的变化而发生变化,我们就说这两个要素有相关性。

如果随着X的增加,Y也增加的话,就叫正相关;如果随着X的增加,Y减少的话,就叫负相关。

如果逻辑思考能力与沟通能力有相关性,就意味着会呈现出逻辑思考能力高的人沟通能力也高的趋势。

判断有无相关性的指标叫作相关系数(用R来表示),根据相关系数的不同,可以做出以下的解释(正相关的情况)。

·0.9及以上 有非常强的相关性

·0.7~0.9  有强相关性

·0.5~0.7  有相关性

·0.3~0.5  有弱相关性

·不到0.3

没有相关性

上述图A至图D的散点图的情况是,相关系数分别为0.9、0.7、0.5、0.3,图A有非常强的相关性,图B有强相关性,图C有相关性,图D有弱相关性。

相关系数通过计算软件可以直接计算出来,但是请务必遵循以下2个要点。

1. 描绘散点图

2. 在此基础上,计算相关系数

1. 描绘散点图

请在计算相关系数之前,先描绘散点图。通过视觉能够获得的信息量是极大的,建议大家通过观察去了解数据的分布趋势。要确认是“朝右方上扬”还是“朝右方下降”,或者“是否不均衡”。

此外,有时候数据还会分布成几个组。这些情况如果只看相关系数的数值是无法判断的。

2. 在此基础上,计算相关系数

通过散点图知道了趋势之后,请务必确认相关系数的数值。

以下的两个散点图,相关系数都是“0.5”,但它们分布的情况有所不同。

练习题1

现在要确认店铺的工作人员人数与销售额(每家店)是否存在相关性。

X轴是店铺工作人员的人数,Y轴是每家店每月的销售额(单位:百万日元)。请思考,根据以下的散点图,可以如何进行解释?

解答

从散点图来看,可以看出数据分布朝右上扬的趋势,但是不明显。另外,相关系数是0.4,也不是一个高的数值。因此,可以解释为,工作人员的人数与销售额没有太大的相关性,工作人员的人数多,销售额也不一定高。

练习题2

那么,如果是下图的话,可以怎样解释呢?

解答

这个图表的数据分布呈现朝右方上扬的趋势,相关系数是0.8,是较高的数值。因此,可以解释为,如果店铺工作人员的人数多,销售额就会提升。

其实刚才确认的两个图表,原始数据是相同的,不同的是有没有纳入以下这两个数据。

即店铺工作人员的人数多,销售额却不高的X店;以及店铺工作人员的人数少,但销售额却很高的Y店。

把这两家店作为离群点从数据中剔除的话,就可以认为整体的趋势是工作人员人数与销售额有相关性。

这样的话,接下来要思考的就是,把这两家店作为离群点与其他数据分开来看是否合适。

那么,我们试想一下,在怎样的情况下会出现人数多但销售额不高(X店),以及人数少但销售额较高(Y店)的情况呢?

(X店)

团队合作不佳

店长刚刚变更,经营方针落实得不彻底

虽然人数多,但有几个人实质上并没有在工作等

(Y店)

人数虽然少,但其中有经验的人较多,接待顾客的技巧非常高

得益于店长的经营技巧,下了一些有别于其他店铺的功夫

有地方优势,如顾客流量高等

造成与其他店铺情况不同的趋势,可能存在多个原因。如果对刚才罗列出来的可能性进行充分验证后,发现确实存在上述某些情况,就可以把X店和Y店作为离群点剔除。剔除了X店和Y店以后的散点图,就可以代表整体趋势。

我们能够发现离群点,是因为如上述所言,通过描绘散点图,得以从视觉上获取信息。从表格中的数据去识别离群点虽然也可行,但数据量增加后就会变得困难。这就是在直接计算相关系数之前要先描绘散点图的原因。

在剔除离群点的时候,可以从以下三个角度来考虑。

·在散点图上,把视觉上看起来与其他数据的集合分离开来

·离群点的数量与总数相比并不多

·有定性的理由可以支持剔除离群点

初期的数据,有可能是偶然获取的,需要判断是否应该用一个数据来代表整体的情况。

STEP UP!

为了验证气温与到店顾客数有关联性的假设,制作了如下散点图。横轴是气温,纵轴是单日平均到店的顾客数。对此可以进行怎样的解释呢?

相关系数是0.5。虽然不是很高的数值,但也可以考虑气温与到店顾客数存在相关性。

另一方面,请思考一下气温与到店顾客数本身是如何变化的。可以想象,寒冷与炎热的时候顾客数都会减少。

所以应该考虑的不是“气温与到店顾客数是否相关”,而是“是否存在某个具体温度值会使到店顾客数增加”。

人们一有数据可能就会想转化为图表,并且考虑根据图表进行解释。然而,如果不加注意,就会变成一切以图表为准,变成解释图表了。

为了避免这种情况发生,在进行图表化之前,要先考虑清楚数据之间的相关性,再转化为图表。

刚才的散点图是以所有的数据为基础制作的,但其实应该把某个气温以前的趋势和某个气温以后的趋势分开,转化成两个散点图,这样更符合自然规律。

实际以25℃为界,把25℃以下的情况和25℃以上的情况区分开来描绘成散点图,得出以下图表。相关系数的绝对值都是0.95,是非常理想的值。

相关系数只是一种指标,重要的是要结合定性的意义来思考。在应用时,要考虑哪个范围的数据可以视作同一范畴的。要做到这一点的话,“描绘图表,用头脑来判断”很重要。而且,这样的判断,事实上只有人才能做到。

描绘散点图,将相关系数的计算交给计算机,另一方面,要清楚知道人应该思考什么事情,要灵活地运用相关性。

小结

√ 相关性的计算是计算机擅长的范畴

√ 不单单依赖于相关系数,这点很重要,务必描绘出散点图来观察

√ 在描绘散点图之前,认真思考可能会出现怎样的分布

√ 没必要对所有的信息一律用相同的方法来处理。可以剔除离群点,也可以把数据分组

√ 定性的解释也很重要