第1部仅停留在描述贝叶斯统计学本质的阶段。但由于没有使用概率符号,因而语言表述不够精确。而如果想要真正地深入掌握使用“贝塔分布”等概率分布的复杂推算,必须要通过算式来理解。在前面,我们已经通过“面积图”的方法积累了扎实的基础,所以,再复杂的概率符号,也能够轻松理解。即使从未听说过“正态分布”也不必担心,我会为大家进行清楚细致的讲解。那么,下面就让我们开始学习吧!
第14讲 “概率”与“面积”的性质相同概率论的基础
14-1 复杂的贝叶斯推理需要用到概率符号
之前的讲义中对于贝叶斯推理进行的讲解,刻意没有使用概率符号。这是因为,从第1讲到第13讲的内容,即使不使用概率符号,也可以针对贝叶斯推理展开讲解,且效果并不会逊色于使用概率符号的讲解方式。实际上确实如此,所有的问题都可以通过使用面积图来解决。而如果使用概率符号来讲解的话,我担心读者朋友们需要在理解贝叶斯推理过程的同时,还要思考概率符号的含义。这样会带来双重负担,导致本来能够理解的知识,也变得无法理解。因此我最终使用了面积图的方法,而这两种方法在本质上其实是相同的。
然而,当我们需要进行更加复杂的贝叶斯推理时,就不得不使用概率符号了,否则,将会遇到一些麻烦。尤其是在采用“连续型先验分布”(第16讲中将详细讲解)的情况下,如果不使用概率符号,是根本无法进行下去的。因此,从第14讲开始,直到第18讲,我将针对概率符号和连续型概率分布进行讲解;从第19讲到第21讲,则步入贝叶斯推理的精髓——贝塔分布和正态分布。
14-2 通过函数的形式来记述概率
概率是指,用一个“大于0且小于1的数值”来对应“发生的事情”的数学概念。
“发生的事情”→“数值”(“数值”的取值范围:必须大于0且小于1)。
先确定“发生的事情”,然后决定与之对应的数值分配,这被称为“概率模型”。
例如,“晴天、阴天、雨天、雪天”为4件事情,分别为这4件事情分配一个0到1之间的数值,结果便会得到一个关于“明天的天气”的概率模型。但要注意的是:所分配的4个数值的相加之和必须为1(标准化条件)。以下为该概率模型的一个例子:
晴天→0.3、阴天→0.4、雨天→0.2、雪→0.1
在这里,我们将4个基础事件——晴天、阴天、雨天、雪天称为“基本事件”。所谓“基本事件”,也就是指为了记述需要计算的概率现象的、且不能再往下分解的最基本事件。
把几个基本事件组合起来,便成为一件“发生的事情”。例如“撑伞”这件事情,是在“雨天”和“雪天”这些基本事件发生的时候,才能得以实现。因此,可以使用以下集合来进行记述:
“撑伞”={雨天,雪天}
该集合{雨天、雪天},又可以称为“事件”。而用集合的方式来记录基本事件,则表示为{晴天}、{阴天}、{雨天}、{雪天},那么也可以这样理解:基本事件是现象的一种。
下面,在该概率模型中,使用符号p(A)表示事件A发生的概率。
p是probability(概率)的首字母。根据前文所述,p(A)的取值范围,一定在0到1之间。在刚才的例子中,基本事件可以表示为:
p({晴天})→0.3、p({阴天})→0.4、p({雨天})→0.2、p({雪天})→0.1
在这里,p({晴天})→0.3的含义是:明天的天气为“晴天”的概率是0.3。
而非基本事件的概率的定义则是:构成该事件的基本事件的概率之和。比如,方才的事件“撑伞”的概率为:
p(“撑伞”)=p({雨天,雪天})=p({雨天})+p({雪天})=0.2+0.1=0.3
这可以表述为:发生撑伞这一事件的概率为0.3。大家可以观察这个例子,注意一下:相比文字,使用概率符号进行记述要简单得多。总结一下上述的符号方法,用“事件”来表示“发生的事情”,可以得到如下图表:
概率p:“事件”→“数值”,“数值”=p(事件)
我们再来思考另一个代表性概率模型的例子:“掷骰子出现的点数”的概率模型。该案例中的基本事件为:
{1点,2点,3点,4点,5点,6点}
为了方便起见,“点”字可以省略掉,只写出数字,为:
{1,2,3,4,5,6}
也就是说,可以将基本事件设为数字的集合。那么,事件也将变为数字的集合,例如:
“偶数”={2,4,6}
“4以下”={1,2,3,4}
因此,在分配概率时,可以先自然地对基本事件的概率进行以下设定:
因此,对于事件,则可以确定为类似如下的形式:
在这里,将“偶数”这一事件记作E,将“4以下”这一事件记作F,则可以记为:
14-3 概率与面积的性质相同
通过上一节中关于“基本事件”“事件”“概率”的定义,我们可以了解到:概率具有与面积相同的性质。
关于掷骰子的概率模型,我们可以通过图表14-1来实际进行一下图解。这与之前的讲解中多次出现的长方形分割图(可能性示意图)是完全相同的。并且,用来表示事件F=“4以下”的概率的p(F),与表示长方形1到4部分面积的数值是一致的,这一点显而易见。
图表14-1 概率模型即为面积图
如果将概率理解为面积,那么自然就能理解以下所述的性质。下面的“A or B”事件表示:“A或B其中之一将会发生”的事件。
概率的加法法则
设定事件A和事件B没有重复,即这两个事件当中,不存在共通的基本事件。
此时,事件“A or B”的概率为:A的概率与B的概率之和,即:
p(A or B)=p(A)+p(B)
根据概率与面积相同的原理,通过观察图表14-2,很容易就可以理解该法则。
图表14-2 概率的加法法则
14-4 用概率符号来表示贝叶斯推理的先验概率
之前的那些贝叶斯推理的先验概率,可以使用以上事件和概率的符号重新表示出来。
例如,在第2讲的例子中,有“癌症”和“健康”两个类别。那么在概率模型中,基本事件的集合可以表示为:
{癌症,健康}
用分配给每一类别的先验概率来反映实际的罹患率,为:
p(癌症)=0.001,p(健康)=0.999
而这在图表14-3(与图表2-1相同)中,分别对应面积为0.001的长方形和面积为0.999的长方形(由面积为1的长方形分割得来)。
图表14-3 根据癌症罹患率得到的先验分布
另外,关于第4讲中介绍的“某对夫妇生的第一胎为女孩的概率为多少”的概率模型,可以将生女孩的概率p的数值设定为基本事件。在这里,将基本事件称为“概率”可能会让人感觉有些奇怪,事实上这并不突兀。可以将基本事件设定为{0.4}、{0.5}、{0.6}。在这里,{0.4}的含义是“该夫妇生的第一胎为女孩的概率为0.4”这一事件,可以理解为类似于掷骰子出现的点数。用概率符号来表示图表14-4(与图表4-1相同)中长方形的面积的话,先验分布可以记为:
图表14-4 某对夫妇生的第一胎为女孩的概率的先验分布
写作p({0.4})的情况下,由于中间的0.4也表示概率,整体的p({0.4})也表示概率,所以可能有些难以理解。但因为中间的概率“0.4”是针对“某对夫妇生的第一胎为女孩”这一基本事件(事件)的,而整体的p({0.4})则用来表示:估计这一基本事件有多大的可能性,也就是所谓的“信念的程度”,因此,可以理解为意思完全不同的两个概念。
14-5 用概率符号来表示用“&”连接起来的事件
下面讲解的是贝叶斯推理的基础——用“&”连接起来的事件的概率。正如第10讲中讲解的、将两个概率现象用“&”组合起来形成的事件,这被称为直积试验。最易于理解的是将抛硬币和掷骰子这两个试验组合为一的例子,如图表14-5所示。
图表14-5 抛硬币和掷骰子的直积试验
下面我们再讲解一次,为了进行将抛硬币的试验与掷骰子的试验组合形成的直积试验,需要像图表14-5那样,纵向列出抛硬币的结果,横向列出掷骰子的结果,形成格子的形式(矩阵)。之后,在矩阵中用(抛硬币的结果)&(掷骰子的结果)的形式,将两个试验的结果组合在一起。这些就是直积试验概率模型中的基本事件,在这个例子中共有12个:
正面&1 正面&2 正面&3 正面&4 正面&5 正面&6
反面&1 反面&2 反面&3 反面&4 反面&5 反面&6
此时,之前的抛硬币事件和掷骰子事件,就可以通过使用上述的
基本事件来表示。例如,抛硬币的结果为“正面”的事件就可以表示为:
“正面”={正面&1,正面&2,正面&3,正面&4,正面&5,正面&6}
而这意味着,掷骰子的结果是多少都无所谓,只要抛硬币的结果是“正面”就行。同理,掷骰子出现“2”的事件可以表示为:
“2”={正面&2,反面&2}
另外,如果事件“正面”和事件“2”同时发生,此时出现的应为“正面”和“2”中共同包含的基本事件。即(正面&2)。所以(“正面”和“2”同时发生)的理论性结合,即{正面&2},这样,保持了其整合性。
图表14-6 直积空间中原本的试验事件
这里的直积试验得到的概率与之前讲解的一样,对应矩阵的面积而进行定义。正如第10讲中的讲解:由于抛硬币和掷骰子被定义为独立试验(无关系的试验),因此,所有12个基本事件,
p(抛硬币的结果&掷骰子的结果)
=p(抛硬币的结果)×p(掷骰子的结果)
为了使之成立,导入了基本事件的概率。也就是说,可以根据右边的乘法对左边的概率进行定义,例如:
也就是说,12个基本事件中的任何一个,其概率都分配为1/12。
像这样导入的直积试验的概率模型,与原来的模型并不矛盾。使用14-3中讲解的“概率的加法法则”,则为:
p(“正面”)=p({正面&1,正面&2,正面&3,正面&4,正面&5,正面&6})
=p({正面&1})+p({正面&2})+p({正面&3})+p({正面&4})+p({正面&5})+p({正面&6})
恰好与(仅仅)抛硬币的概率保持了整合性。
第14讲·小结
1.概率模型由基本事件、事件、概率构成。
2.基本事件是指,不能再进行分解的基本性事件。
3.事件是若干个基本事件的集合。
4.将基本事件e的概率表记为p({e})。
5.例如,由基本事件e,f,g构成的事件{e,f,g}的概率被定义为: p({e,f,g})=p({e})+p({f})+p({g})
6.“概率的加法法则”是指,在A和B中没有重复的事件时,以下式子成立: p(A or B)=p(A)+p(B)
7.将两个概率现象组合形成的直积试验,由a&b这样的基本事件构成。因此,概率通常被定义为能够使乘法法则成立(假定为独立试验),所以通过乘法来进行计算。 p({a&b})=p({a})×p()
练习题
答案参见此处
我们尝试着思考一下,当事件存在重复情况下的“概率的加法法则”。将A和B的重叠部分设为C,如下图所示:
分析上图,并依据“概率与面积相同”的原理,进行填空。
p(A or B)=p()+p()-p()