17-1 贝叶斯推理中经常使用的连续型分布——“贝塔分布”
在我们之前介绍的贝叶斯推理中,为实现先验分布而设定的类别是有限的。例如,第1讲中,关于顾客购买商品的推理,分为“来买东西的人”和“随便逛逛的人”两类;第2讲中,癌症检查的结果,分为“癌症”和“健康”两类;第4讲中关于第二胎性别的案例,分为“生女孩的概率为0.4的夫妇”、“生女孩的概率为0.5的夫妇”、“生女孩的概率为0.6的夫妇”这三类。
像上述这样,在有限的类别中进行贝叶斯推理的情况并不少见,但也有很多时候,必须要分为无限个连续的类别才行。例如,第4讲中关于第二胎性别的案例,如果把“生女孩”的概率p仅仅设定为0.4、0.5、0.6这三种的话,显然是不够的。毫无疑问,在这个案例中,概率p的取值范围应该为0≤p≤1。那么,因为类别总共有连续的无限个,所以在设定先验概率时,需要设置为连续型概率分布。
本讲将介绍贝叶斯推理中出现频率很高的“贝塔分布”。理解“贝塔分布”,需要用到微分、积分等难度较大的数学知识,而本书在讲解时会尽量避免这种方式,而是采用直观的图解方法来进行说明。
17-2 何为“贝塔分布”
首先介绍“贝塔分布”这一概率分布的概念。从计算公式入手来看:横轴x代表基本事件的数值,纵轴y代表概率的密度。上一讲中已经讲过,概率密度是指“乘以区间的长度后可以转化为概率的量”。
贝塔分布可以用以下公式来表达:
y=(常数)×xα-1(1-x)β-1 (0≤x≤1) …(1)
出现在指数部分α和β,应为大于1的自然数,它用来决定贝塔分布的种类。换言之,如果赋予α和β具体的数值,就能够决定一次贝塔分布。当α、β为较小的数值时,贝塔分布的图表为相对简单的模型;反之,当α、β为较大的数值时,贝塔分布的图表则为比较复杂的模型。另外,写着“常数”的部分,是为了使标准化条件(所有事件的概率之和为1)成立,而进行了调整的数值,因此在贝叶斯推理中并不是那么的重要。
接下来,我们通过几个例来理解。
例1:α=1,β=1时,
x0=1,也就是“任何非零数的零次幂为1”。(1)式为
y=(常数)×x0(1-x)0=(常数)×1×1=(常数)(0≤x≤1)
y=(常数)的图像是一条与x轴平行的线段,这与上一讲中的[0,1]-赌盘模型相一致。并且,从标准化条件来考虑的话,(常数)必须为1。于是也可以用以下的(2)式来表达(图表17-1)。
y=1 (0≤x≤1) …(2)
例2:α=2,β=1时,
根据上面的(1)式,
y=(常数)×x1(1-x)0 (0≤x≤1)
可以得出:
y=(常数)x (0≤x≤1) …(3)
为一次函数,如图表17-2所示,函数的图像为一条向右上方延伸的线段。这里(常数)=2,原因将会在17-4中予以说明。
例3:α=1,β=2时,
根据上面的(1)式,
y=(常数)×x0(1-x)1 (0≤x≤1)
可以得出:
y=(常数)(1-x)(0≤x≤1) …(4)
同样为一次函数,如图表17-4所示,函数的图像为一条向右下方延伸的线段。这里(常数)=2,原因将会在17-5节中予以说明。
例4:α=2,β=2时,
根据上面的(1)式,
y=(常数)×x1(1-x)1 (0≤x≤1)
可以得出:
y=(常数)×x(1-x)(0≤x≤1) …(5)
为二次函数,如图表17-5所示,函数的图像为抛物线的一部分。这里(常数)=6,原因将会在17-6节中予以说明。
接下来,将对这些例子逐一进行详细说明。
17-3 α=1,β=1的例子即为[0,1]-赌盘模型
17-2中已经解说过,α=1、β=1时的贝塔分布,也就是是[0,1]-赌盘模型(均匀分布的一种)。反过来可以说,[0,1]-赌盘模型是贝塔分布的一种,如图表17-1所示。
图表17-1 α=1,β=1的贝塔分布的概率分布图
17-4 α=2,β=1的例子
17-2中已经作了说明,α=2、β=1时的贝塔分布为一次函数,即:
y=(常数)x (0≤x≤1) …(3)
如图表17-2所示,函数的图像是一条穿过原点并向右上方延伸的线段。在概率分布图中,由于概率通过面积体现,所有事件的概率p(0≤x≤1)与三角形OAB的面积相一致。那么,基于标准化条件来考虑,该面积必须为1。而三角形的面积=(底边)×(高)÷2,那么,底边为1,则高为2。也就是说,x=1时,y=2。因此,在(3)式中(常数)=2。
换言之,α=2,β=1的贝塔分布为:
y=2x (0≤x≤1) …(6)
图表17-2 α=2,β=1时贝塔分布的概率分布图
下面通过一个例子,来帮助大家理解贝塔分布中的概率变化情况。例如,求事件{0.5≤x<0.7}的概率p(0.5≤x<0.7)。观察图表17-3,在概率分布图中,事件的概率通过面积来表示的,而概率p(0.5≤x<0.7)是则为图中涂有颜色部分的梯形的面积。梯形的上底长为x=0.5时的y,则y=2×0.5=1。梯形的下底长为x=0.7时的y,则y=2×0.7=1.4。之前已经讲过,这个并非概率,而是一个被称为概率密度的量。此外,梯形的高度为0.7-0.5=0.2。因此可以求出梯形的面积为:(1+1.4)×0.2÷2=0.24。也就是说,我们可以求出事件{0.5≤x<0.7}的概率为:
p(0.5≤x<0.7)=0.24
图表17-3 贝塔分布y=2x时的概率
17-5 α=1,β=2的例子
如17-2中所述,α=1、β=2时的贝塔分布为以下一次函数:
y=(常数)(1-x)(0≤x≤1) …(4)
如图表17-4所示,函数的图像是一条穿过A(0,2),并向右下方延伸的线段。在概率分布图中,由于概率通过面积来表示,故所有事件的概率p(0≤x≤1)是与三角形OAB的面积相一致的。基于标准化条件来考虑,该面积必须为1。由于底边为1,故高为2。也就是说,当x=0时,y=2。因此,在(4)式中(常数)=2。换言之,α=1,β=2的贝塔分布为:
y=2(1-x)(0≤x≤1) …(7)
图表17-4 α=1,β=2的贝塔分布的概率分布图
17-6 α=2,β=2的例子
17-2中已经讲过,当α=2、β=2时,贝塔分布为以下二次函数:
y=(常数)×x(1-x)(0≤x≤1) …(5)
如图表17-5所示,图像为抛物线(二次函数图像)的一部分。在概率分布图中,由于概率通过面积来表示,故所有事件的概率p(0≤x≤1)与抛物线和x轴围成的图形面积是一致的。基于标准化条件来考虑,由于该面积必须为1,那么用积分方法来计算面积,决定了在(5)式中(常数)=6。换言之,α=2、β=2的贝塔分布为
y=6x(1-x)(0≤x≤1) …(8)
在该概率分布中,若要计算出事件{0.5≤x<0.7}的概率p(0.5≤x<0.7),只需计算出图中涂有颜色部分的面积即可。但由于它是一个曲线图形,因此必须使用积分运算,用数学公式来表达,即为:
对于初学者来说,贝叶斯推理有着相当的难度的原因:即使在入门部分,也需要用到微积分的思考方式。当然,在标准的统计学(内曼-皮尔逊统计学)中,微积分的运用也是不可缺少的。不过,一般情况我们需要的推理,不一定会用到微积分,而大部分教科书也是采用的这种写法。另一个原因,在本书的后文部分也会涉及:在贝叶斯推理中,即便是入门阶段也不可避免地需要用到微积分。为此,本书选取了一个折中的方案:对概率密度函数进行解说,但不会涉及更深入的微分概念;此外,会针对概率分布图中,概率即面积这一问题进行解说,但也会省略掉如何具体运用积分理论计算面积的过程。总之,会在最大程度上避免涉及太多的微积分概念。
图表17-5 α=2,β=2的贝塔分布的概率分布图
17-7 在贝塔分布中,若α、β增大,情况就会变得复杂
截至上一节,我们所讨论过的贝塔分布的例子中,α、β均不大于2,因而图形也相对简单。而如果α、β均大于2,那么就会形成我们不大熟悉的图形。下面,列举一个α、β的数值均比较大的例子,如α=4、β=3时的贝塔分布。
y=60x3(1-x)2 (0≤x≤1) …(9)
如图表17-6所示。
图表17-6 α=4、β=3的贝塔分布的概率分布图
第17讲·小结
1.贝塔分布,是x的取幂和(1-x)的取幂相乘的形式。
2.在x的0次幂和(1-x)的0次幂的情况下,与均匀分布相一致。
3.在x的1次幂和(1-x)的0次幂、x的0次幂和(1-x)的1次幂的情况下,概率分布图为线段。
4.在x的1次幂和(1-x)的1次幂的情况下,概率分布图为抛物线。
5.常数是由标准化条件(面积之和为1)决定的。
练习题
答案参见此处
当α=3、β=2时,贝塔分布的概率密度表示如下:
y=12x2(1-x)
此时,计算以下关于x的概率密度。
(3)x=1的概率密度