第7讲 通过少量信息得出切实结论的贝叶斯推理与内曼-皮尔逊式推理的差异(1 / 1)

7-1 用贝叶斯推理解开壶的问题

在上一讲中,我们已经了解到如何用标准的概率性推论——内曼-皮尔逊统计学来解答关于壶的判断问题。这是用假设检验的方法,如果可以设定显著水平为10%,那么从“观察到黑球”的现象,就可以得出“是B壶”的结论。但需要注意的是:如果反复使用这种方法,那么一定要意识到还有10%的概率会做出错误的判断。下面将要阐述的是:如果把显著水平设定为通用的5%或1%,就只是从“观察到只有1个球”这个假设检验中,则不能够对壶的问题做出判断。

从另一方面来讲,如果运用贝叶斯推理,按照前4讲中所述的方法,也可以对壶的问题进行概率性推论,并且不需要类似显著水平这样的概念。下面,我们用贝叶斯推理方法对壶的问题来进行说明。

7-2 把A壶和B壶分别设定为一个类别

首先,我们再重复一遍问题设定。

问题设定

面前有一只壶,已知这个壶不是A壶就是B壶,但是单从外表看不出究竟是哪个。而目前已知的是:A壶中有9个白球和1个黑球,B壶中有2个白球和8个黑球。现在,如果从壶里取出1个球,并且这个球是黑色的,那么,面前的这个壶究竟是A还是B呢?

和之前一样,我们先来设定类别。由于需要判断的问题是:面前的这只壶,是A壶还是B壶?因此,需要设定的类别自然也分为A和B。

接下来的步骤是设定先验概率。由于我们暂时不知道这只壶是A壶还是B壶,并且也不知道壶里装有什么颜色的球(在观察球之前),所以,只能运用“理由不充分原理”。换言之,将“是A壶”和“是B壶”的先验概率均设为0.5,此时,用长方形来表示的可能存在的情况,则如图表7-1所示,总共被划分成两等份。

图表7-1 根据理由不充分原理设定的先验分布情况

然后,设定在各类别中,出现黑球或白球的条件概率。在“是A壶”的情况下,出现黑球的条件概率为0.1,出现白球的条件概率为0.9;而在“是B壶”的情况下,出现黑球的条件概率为0.8,出现白球的条件概率为0.2。把这些具体情况填入图中,则如图表7-2所示,共有4种可能出现的情况。

图表7-2 条件概率的设定

下一步,是把4种可能出现的情况的概率填写进去。同时,请回想一下,前面我们曾讲:“长方形的面积”可视为概率(图表7-3)。

图表7-3 计算四种可能性的概率

由于最终观察到球的颜色为黑色,因此白球的可能被完全排除在外,如图表7-4所示。把观察到黑球的2种情况用图来表示,并将各概率标准化处理,如下所示:

(该壶为A壶的后验概率):(该壶为B壶的后验概率)

=0.5×0.1:0.5×0.8

=1:8

=1/9:8/9

换言之,在观察到黑球的前提下,该壶为A壶的后验概率为1/9,约等于0.11;而该壶为B壶的后验概率为8/9,约等于0.89。由于后者是前者的8倍,因此,判断该壶为B壶较为妥当。

图表7-4 排除掉两种可能性

7-3 贝叶斯推理无论在何种条件下,都能得出一个暂时的结果

正如大家所看到的,贝叶斯推理并没有像内曼-皮尔逊统计学的假设检验那样,有关于显著水平的设定。贝叶斯推理的强项是“无论在何种条件下,都能得出一个暂时的结果”。但是,这个结果并不像内曼-皮尔逊统计学那样,得出一个单方面的判断(非A即B),而是认为两种可能性都有,并赋予这两种可能性相应的比例关系,仅此而已。而“看到数值之后,做出判断”的工作,就留给统计学家们了。因此,贝叶斯推理也常被称为“总经理的概率”,它的含义是:贝叶斯推理就像是公司职员进行筛选和鉴别,最终由总经理根据下属报告上来的数值进行判断。

关于判断究竟是哪个壶的问题:假设在A壶的10个球中,黑球的个数为x;B壶的10个球中,黑球的个数为y,之后观察到出现了黑球,那么:

(该壶为A壶的后验概率):(该壶为B壶的后验概率)=x:y

因此,当壶中的黑球较多时,结果为该壶的后验概率也就越大(在前面的例子中,x=1,y=8)。这个推理可以将“由于观察到出现了黑球,因此有可能会是黑球较多的那个壶吧”这一简单的推论合理化。统计学家看到x:y的比例之后,可以做出“该壶为A壶”或“该壶为B壶”,或是“不管得出何种结论都不妥当”之中的任意一种判断。

7-4 贝叶斯推理和内曼-皮尔逊式推理中,“风险”的含义不同

特别需要注意的一点是,在贝叶斯推理和内曼-皮尔逊式推理中,各自“风险”的含义是完全不同的。

第6讲中曾讲到,在内曼-皮尔逊式推理中,显著水平是其风险的指标。其含义是:例如,将显著水平设定为5%,那么如果用同一种方法,反复使用假设检验的话,有5%的概率会得出错误的结论。因此,采用大胆一点的说法是:5%概率的风险,并不是针对“现在判断得出的结论”进行的直接评价。毕竟,“风险”针对的是所使用的方法论,给只不过是“通过在风险概率为5%的某种方法所下的结论”的间接评价值。

另外,本讲中会提到这样一个观点:所谓根据贝叶斯推理得出的结论的“风险评价”,其实就是“后验概率”本身。实际上,在壶的推理的例子中,由于计算出“该壶为A壶的后验概率”约为0.11,那么,如果做出“该壶为B壶”的判断,则这一判断出错的概率也约为0.11。这并不是方法论本身存在的风险,而是由于A的可能性与B的可能性的比例为1:8,这一风险从而直接被认可。

用比喻性的说法来解释:假设检验的风险存在于结论之外,而贝叶斯推理的风险则存在于结论的后验概率本身之中。

还有一个必须留意的问题是:贝叶斯推理之所以能在不考虑显著水平的情况下做出判定,是因为设定了先验概率这一“奇怪的”概念。如前所述,先验概率基本上是一种“主观的”概念。也就是说,贝叶斯推理不会直接认为“概率是×”,而是采取“相信概率应该是×”“总之,先设定概率为×吧”这样的态度。因此,在这种先验概率的基础上被推断出来的后验概率,通常有其任意性,而责任则归于在统计学者的判断。这也是为什么贝叶斯推理被称为“总经理的概率”的原因所在。

图表7-5 关于壶的判断的贝叶斯更新

7-5 从逻辑性观点出发,看贝叶斯推理的过程

最后,我们还是像在第6讲中所说明的那样,从逻辑性观点出发,再来总结一遍贝叶斯推理的结构吧。问题设定中,列举了已知事实:

事实1 该壶为A壶或者B壶

事实2’ 若为A,则可能是白球

事实3’ 若为B,则可能是黑球

事实4 黑球(不出现白球)

通过以上4个事实,我们来看一看,在贝叶斯推理过程中,究竟会呈现怎样的组合推理方式呢?

首先,从事实2’中可以推导出,假设该壶为A壶,则可能会出现“该壶为A壶且出现黑球”或“该壶为A壶且出现白球”的任意一种情况,之后,能够推导出“基本上是后者”的结论。同样,从事实3’可以推导出,假设该壶为B壶,则可能会出现“该壶为B壶且出现黑球”和“该壶为B壶且出现白球”的任意一种情况,之后,能够推导出“基本上是前者”的结论。通过以上结果和事实4,我们可以排除掉“该壶为A壶且出现白球”和“该壶为B壶且出现白球”这两种情况,只留下“该壶为A壶且出现黑球”和“该壶为B壶且出现黑球”的可能性。

如果考虑到“前者的可能性小,而后者的可能性大”的情况,就能判断出答案是后者——“该壶为B壶且出现黑球”的可能性较大。因此,就能得出如果“该壶为B壶且出现黑球”,那么自然B是成立的,因此结论为B。贝叶斯推理的逻辑结构就是这样的。

第7讲·小结

1.设定“该壶为A壶”和“该壶为B壶”两个类别。

2.依据理由不充分原理,设定A的先验概率为0.5,B的先验概率为0.5。

3.在“该壶为A壶”的情况下,设定黑球的条件概率为0.1,白球的条件概率为0.9;在“该壶为B壶”的情况下,设定黑球的条件概率为0.8,白球的条件概率为0.2。

4.由于观察到了黑球,因此排除掉白球的可能性。

5.设定黑球的概率满足正规化条件。

6.求出“该壶为A壶”的后验概率和“该壶为B壶”后验概率,得出“应该是B壶”的结论。

练习题

答案参见此处

在这里,稍微改变一下壶里的球的构成,然后进行同样的推理。

面前有一只壶,已知这个壶不是A壶就是B壶,但是单从外表看不出究竟是哪个。而目前已知的是:A壶中有8个白球和2个黑球,B壶中有3个白球和7个黑球。现在,如果从壶里取出1个球,并且这个球是黑色的。设定先验概率各为0.5,在接下来的步骤中,求出“该壶为A壶”、“该壶为B壶”的后验概率,并判断该壶为A壶还是B壶。

各个类别的先验概率分别为,

(a)=()、(b)=()

添加信息后的条件概率分别为,

(c)=()、(d)=()

(e)=()、(f)=()

四种互不相同的情况的概率分别为,

(g)=()×()=()

(h)=()×()=()

(i)=()×()=()

(j)=()×()=()

观察到“黑球”的2种情况下的概率,使之满足标准化条件,为:

观察到“黑球”的情况下“该壶为A壶”的概率=()

观察到“黑球”的情况下“该壶为B壶”的概率=()

综合上述,能够得出该壶为()的结论。