第12讲 在贝叶斯推理中可以依次使用信息 “序贯理性”(1 / 1)

12-1 在进行贝叶斯推理时,即使忘记了之前的信息也是合乎逻辑的

上一讲中,以垃圾邮件过滤器为例,对于从2条信息中计算出来后验概率的进行了解释说明。结论如图表12-1所示。

图表12-1 依据两条信息进行贝叶斯推理

实际上,像这样通过连续收集到的信息而进行的连续推理(称为逐步推理),具有十分奇妙的性质。简单地说,就是“通过获得信息①而修改了各个类别的概率之后,再通过信息②来进行推理时,可以暂时忘记之前的信息①,这样做是没有问题的”。这在专业上被称为“序贯理性”,也是贝叶斯推理的突出性质之一。本讲将继续以上一讲中的垃圾邮件过滤器为例,来对这个性质进行说明。

图表12-2 依据从信息①中得到的信息进行贝叶斯推理

12-2 把从信息①中得到的后验概率,设为“先验概率”

首先,我们来回顾上一节中最初的推理过程(从“附带链接”这一信息中得到的后验概率)。

事前设定“垃圾邮件”和“正常邮件”这2种类别,它们的先验概率均为0.5(理由不充分原理)。然后,将每个类别再分为“附带链接”和“无链接”两种情况,并计算每种可能性的概率。

现在,扫描出来的结果是检出了“附带链接”(我们将其称为信息①)。根据信息①计算后验概率,图表12-1中显示,推测结果是垃圾邮件的后验概率①为3/4,结果是普通邮件的后验概率①为1/4。

换言之,根据信息①,先验概率由各为0.5,变更(更新)为0.75和0.25这一后验概率,如图表12-2所示。

接下来,我们来试着做一个有趣的构想:把计算出的后验概率再次设定为各个类别的先验概率,如图表12-3所示。

图表12-3 把从信息①得出的后验概率,设定为先验概率

这个构想的含义是:暂且不考虑变更的原因,而是先将目前正在检查的邮件中垃圾邮件的先验概率设定为0.75,普通邮件的先验概率设定为0.25。换言之也就是:虽然忘记了原因,但总结果是设定了这样的先验概率。

这个假设并非毫无道理。说起来,先验概率原本就是在没有根据的情况下设定的。即便是从主观上来讲,这个问题都可以不作考虑。因此,即使把根据信息①推算出的后验概率设定为新的先验概率,也没有任何不妥。

12-3 通过信息②进行贝叶斯更新

那么,像图表12-3所示的那样,使用第二次设定的各个类别的先验概率,检索出第二条信息——含有“幽会”一词(称为“信息②”),并计算后验概率。这便是之前已经多次试验过的、通过一条信息进行的贝叶斯推理,因而很容易理解和操作。

图表12-4 使用信息②,通过贝叶斯推理计算出后验概率

如图表12-4所示,互不相同的可能性共有4种,那么下一步就是进行乘法运算,得出每种可能性的概率。事实上,由于已经检索到了“幽会”一词,那么便可以排除掉其中不含“幽会”的两种情况,留下剩余的两种情况。接下来,使这个概率的比满足标准化条件(相加之和为1)。于是,在检索到“幽会”一词的情况下,后验概率为:

(垃圾邮件的后验概率):(正常邮件的后验概率)

=0.75×0.4:0.25×0.05

=3×8:1×1

=24:1

这个结果,和上一讲中使用两条信息(这里的信息①和信息②)进行的贝叶斯推理得出后验概率的结果,是完全一致的。

那么,为什么这两个结果会一致呢?难道只是偶然的吗?事实上并非如此,这样的结果是必然的,而原因却出乎意料地简单。

图表12-5 依据两条信息进行修改的结果和逐步修改的结果一致的原因

下面来看图表12-5。上半部分,即上一讲中通过两条信息(这里的信息①和信息②)一次性计算出后验概率时使用的图。

而下半部分,是本讲中图表12-2中的图。它是通过信息①,逐个修改各个类别的概率而得出的后验概率的比例。

需要确认的是:下方的长方形中的乘法运算,与上方的长方形中的“3个数的乘积”中的“前2个数的乘积”是一致的。即把下方的比例关系作为各个类别之比,然后,通过信息②进行贝叶斯推理,如图表12-4所示,这样就会出现和上方的乘法运算完全相同的计算方式。这样便出现了“把通过信息①得出的后验概率设为先验概率,然后通过信息②,再求出后验概率”和“通过同时利用信息①和信息②求出的后验概率”是一致的奇妙结果。

总而言之,利用乘法运算求出的概率,只要能够顺利运行,就能够得出这样的特性。

12-4 贝叶斯推理具有智慧性

“通过同时利用两条信息求出的后验概率”和“把通过信息①得出的后验概率设为先验概率,然后通过信息②,再求出后验概率”是完全一致的,在贝叶斯推理中,该结论一般情况下都是能够成立的。这一特性在专业领域被称为“序贯理性”,如图表12-6所示。

图表12-6 序贯理性

“序贯理性”的成立,也就是指:即使不同时使用信息,也就是逐步地(依次地)使用,也能够得出相同的结果。换言之,就是“即使忘记了之前使用过的信息也没问题”的意思。这是因为它在后验概率中得到了体现,而如果将后验概率视为先验概率,只要进行新的推理,结果就不会发生变化。

这让我们了解到贝叶斯推理的神奇所在。一直以来,我们都在使用庞大的信息来推算概率,而如果每次都动用所有的信息来进行推测的话,就会非常麻烦。同时,脑中需要存储的信息量也会变得很大。另一方面,只使用过一次的信息,即使后来丢掉,其结果也已经完全反映到了当前的推理中,只要运用得当,在效率高的同时又不费力气。而贝叶斯推理正是具备了上述功能。

这也可以说是一种“学习功能”。贝叶斯推理中,修改过的“各个类别的后验概率”,已经使用了所有的信息。也就是说我们可以将其看作“从信息中学习到的结果”。贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。

打个比方来讲,贝叶斯推理拥有“人类特性”的功能。我们总是对他人的能力和人性等进行评估。这时,我们并不是始终“调动迄今为止的记忆来进行评价”的,而是通过观察这个人的某些行为,做出对其印象的判断。一般情况下,这些行为事后就会被忘记了。在此基础上形成的印象,经历了下一次新的观察之后,也会再一次被转化为新的印象。

如果我们不断地重复“信息”→“修改印象”→“遗忘信息”的过程,慢慢地就会形成了对这个人的固定评价。重要的是,像这样通过逐步“修改印象”得出的结果,与“通过迄今为止的所有观察,一次性形成的印象”之间,并没有太大的偏差。因此,我们没有必要总是“从白纸开始思考”,这样会耽误大量的时间和精力。贝叶斯推理,其实就像我们日常每天都在做的“印象的修改”和“学习”等一样,只不过是运用了系统的数值来进行计算。

据此,我们能够得出“从某种意义上来讲,贝叶斯推理是一种具备人类特性的推理方式”的结论。因此,如果在互联网商业中使用贝叶斯推理,就等于增加了一个能干的店员,营业能力会大大提高。这正是贝叶斯推理在电子商务中受到瞩目的重要原因之一。

第12讲·小结

1.“同时使用两条信息得出的后验概率”,与“把通过第一条信息中求出的后验概率设定为先验概率,再通过第二条信息,再一次得出后验概率”,二者的结果通常是一致的。

2.上述1的性质被称为序贯理性。

3.序贯理性可以看作学习功能的一种。

4.在贝叶斯推理中,即使忘记了之前的推测中使用过的信息,也是没有问题的。

练习题

答案参见此处

以自己对于女同事来说是“真命天子”还是“无关路人”为例来进行推理,思考关于“序贯理性”的问题,进行以下设定:

※先验概率:“真命天子”的概率为0.5、“无关路人”的概率为0.5。

▼送出/不送巧克力的条件概率

▼送出/不送巧克力的条件概率

接下来,请在下面的括号中填入合适的数值。

根据收到巧克力这一信息进行修改

(真命天子&送出巧克力)的概率=()×()=()……(a)

(无关路人&送出巧克力)的概率=()×()=()……(b)

收到巧克力之后的后验概率

(真命天子的概率):(无关路人的概率)=(a)∶(b)=()∶()……(c)

在把(c)设定为先验概率的基础上,当频繁收到邮件的情况下,修改为

(真命天子&频繁发送)的概率=()×()=()……(d)

(无关路人&频繁发送)的概率=()×()=()……(e)

把(c)设定为先验概率,当频繁收到邮件的后验概率

(真命天子的概率):(无关路人的概率)=(d)∶(e)=()∶()……(f)

设定先验概率为各自0.5时,在“收到巧克力且频繁收到邮件”的情况下进行修改,

(真命天子&送出巧克力&频繁发送)的概率=()×()×()=()……(g)

(无关路人&送出巧克力&频繁发送)的概率=()×()×()=()……(h)

在“收到巧克力且频繁收到邮件”的情况下,后验概率为

(真命天子的概率):(无关路人的概率)=(g)∶(h)∶=():()……(i)

这里的(f)和(i)是一致的,这体现了序贯理性。