第17讲 “贝塔分布”的性质由两个数字决定(1 / 1)

17-1 贝叶斯推理中经常使用的连续型分布——“贝塔分布”

在我们之前介绍的贝叶斯推理中,为实现先验分布而设定的类别是有限的。例如,第1讲中,关于顾客购买商品的推理,分为“来买东西的人”和“随便逛逛的人”两类;第2讲中,癌症检查的结果,分为“癌症”和“健康”两类;第4讲中关于第二胎性别的案例,分为“生女孩的概率为0.4的夫妇”、“生女孩的概率为0.5的夫妇”、“生女孩的概率为0.6的夫妇”这三类。

像上述这样,在有限的类别中进行贝叶斯推理的情况并不少见,但也有很多时候,必须要分为无限个连续的类别才行。例如,第4讲中关于第二胎性别的案例,如果把“生女孩”的概率p仅仅设定为0.4、0.5、0.6这三种的话,显然是不够的。毫无疑问,在这个案例中,概率p的取值范围应该为0≤p≤1。那么,因为类别总共有连续的无限个,所以在设定先验概率时,需要设置为连续型概率分布。

本讲将介绍贝叶斯推理中出现频率很高的“贝塔分布”。理解“贝塔分布”,需要用到微分、积分等难度较大的数学知识,而本书在讲解时会尽量避免这种方式,而是采用直观的图解方法来进行说明。

17-2 何为“贝塔分布”

首先介绍“贝塔分布”这一概率分布的概念。从计算公式入手来看:横轴x代表基本事件的数值,纵轴y代表概率的密度。上一讲中已经讲过,概率密度是指“乘以区间的长度后可以转化为概率的量”。

贝塔分布可以用以下公式来表达:

y=(常数)×xα-1(1-x)β-1 (0≤x≤1) …(1)

出现在指数部分α和β,应为大于1的自然数,它用来决定贝塔分布的种类。换言之,如果赋予α和β具体的数值,就能够决定一次贝塔分布。当α、β为较小的数值时,贝塔分布的图表为相对简单的模型;反之,当α、β为较大的数值时,贝塔分布的图表则为比较复杂的模型。另外,写着“常数”的部分,是为了使标准化条件(所有事件的概率之和为1)成立,而进行了调整的数值,因此在贝叶斯推理中并不是那么的重要。

接下来,我们通过几个例来理解。

例1:α=1,β=1时,

x0=1,也就是“任何非零数的零次幂为1”。(1)式为

y=(常数)×x0(1-x)0=(常数)×1×1=(常数)(0≤x≤1)

y=(常数)的图像是一条与x轴平行的线段,这与上一讲中的[0,1]-赌盘模型相一致。并且,从标准化条件来考虑的话,(常数)必须为1。于是也可以用以下的(2)式来表达(图表17-1)。

y=1 (0≤x≤1) …(2)

例2:α=2,β=1时,

根据上面的(1)式,

y=(常数)×x1(1-x)0 (0≤x≤1)

可以得出:

y=(常数)x (0≤x≤1) …(3)

为一次函数,如图表17-2所示,函数的图像为一条向右上方延伸的线段。这里(常数)=2,原因将会在17-4中予以说明。

例3:α=1,β=2时,

根据上面的(1)式,

y=(常数)×x0(1-x)1 (0≤x≤1)

可以得出:

y=(常数)(1-x)(0≤x≤1) …(4)

同样为一次函数,如图表17-4所示,函数的图像为一条向右下方延伸的线段。这里(常数)=2,原因将会在17-5节中予以说明。

例4:α=2,β=2时,

根据上面的(1)式,

y=(常数)×x1(1-x)1 (0≤x≤1)

可以得出:

y=(常数)×x(1-x)(0≤x≤1) …(5)

为二次函数,如图表17-5所示,函数的图像为抛物线的一部分。这里(常数)=6,原因将会在17-6节中予以说明。

接下来,将对这些例子逐一进行详细说明。

17-3 α=1,β=1的例子即为[0,1]-赌盘模型

17-2中已经解说过,α=1、β=1时的贝塔分布,也就是是[0,1]-赌盘模型(均匀分布的一种)。反过来可以说,[0,1]-赌盘模型是贝塔分布的一种,如图表17-1所示。

图表17-1 α=1,β=1的贝塔分布的概率分布图

17-4 α=2,β=1的例子

17-2中已经作了说明,α=2、β=1时的贝塔分布为一次函数,即:

y=(常数)x (0≤x≤1) …(3)

如图表17-2所示,函数的图像是一条穿过原点并向右上方延伸的线段。在概率分布图中,由于概率通过面积体现,所有事件的概率p(0≤x≤1)与三角形OAB的面积相一致。那么,基于标准化条件来考虑,该面积必须为1。而三角形的面积=(底边)×(高)÷2,那么,底边为1,则高为2。也就是说,x=1时,y=2。因此,在(3)式中(常数)=2。

换言之,α=2,β=1的贝塔分布为:

y=2x (0≤x≤1) …(6)

图表17-2 α=2,β=1时贝塔分布的概率分布图

下面通过一个例子,来帮助大家理解贝塔分布中的概率变化情况。例如,求事件{0.5≤x<0.7}的概率p(0.5≤x<0.7)。观察图表17-3,在概率分布图中,事件的概率通过面积来表示的,而概率p(0.5≤x<0.7)是则为图中涂有颜色部分的梯形的面积。梯形的上底长为x=0.5时的y,则y=2×0.5=1。梯形的下底长为x=0.7时的y,则y=2×0.7=1.4。之前已经讲过,这个并非概率,而是一个被称为概率密度的量。此外,梯形的高度为0.7-0.5=0.2。因此可以求出梯形的面积为:(1+1.4)×0.2÷2=0.24。也就是说,我们可以求出事件{0.5≤x<0.7}的概率为:

p(0.5≤x<0.7)=0.24

图表17-3 贝塔分布y=2x时的概率

17-5 α=1,β=2的例子

如17-2中所述,α=1、β=2时的贝塔分布为以下一次函数:

y=(常数)(1-x)(0≤x≤1) …(4)

如图表17-4所示,函数的图像是一条穿过A(0,2),并向右下方延伸的线段。在概率分布图中,由于概率通过面积来表示,故所有事件的概率p(0≤x≤1)是与三角形OAB的面积相一致的。基于标准化条件来考虑,该面积必须为1。由于底边为1,故高为2。也就是说,当x=0时,y=2。因此,在(4)式中(常数)=2。换言之,α=1,β=2的贝塔分布为:

y=2(1-x)(0≤x≤1) …(7)

图表17-4 α=1,β=2的贝塔分布的概率分布图

17-6 α=2,β=2的例子

17-2中已经讲过,当α=2、β=2时,贝塔分布为以下二次函数:

y=(常数)×x(1-x)(0≤x≤1) …(5)

如图表17-5所示,图像为抛物线(二次函数图像)的一部分。在概率分布图中,由于概率通过面积来表示,故所有事件的概率p(0≤x≤1)与抛物线和x轴围成的图形面积是一致的。基于标准化条件来考虑,由于该面积必须为1,那么用积分方法来计算面积,决定了在(5)式中(常数)=6。换言之,α=2、β=2的贝塔分布为

y=6x(1-x)(0≤x≤1) …(8)

在该概率分布中,若要计算出事件{0.5≤x<0.7}的概率p(0.5≤x<0.7),只需计算出图中涂有颜色部分的面积即可。但由于它是一个曲线图形,因此必须使用积分运算,用数学公式来表达,即为:

对于初学者来说,贝叶斯推理有着相当的难度的原因:即使在入门部分,也需要用到微积分的思考方式。当然,在标准的统计学(内曼-皮尔逊统计学)中,微积分的运用也是不可缺少的。不过,一般情况我们需要的推理,不一定会用到微积分,而大部分教科书也是采用的这种写法。另一个原因,在本书的后文部分也会涉及:在贝叶斯推理中,即便是入门阶段也不可避免地需要用到微积分。为此,本书选取了一个折中的方案:对概率密度函数进行解说,但不会涉及更深入的微分概念;此外,会针对概率分布图中,概率即面积这一问题进行解说,但也会省略掉如何具体运用积分理论计算面积的过程。总之,会在最大程度上避免涉及太多的微积分概念。

图表17-5 α=2,β=2的贝塔分布的概率分布图

17-7 在贝塔分布中,若α、β增大,情况就会变得复杂

截至上一节,我们所讨论过的贝塔分布的例子中,α、β均不大于2,因而图形也相对简单。而如果α、β均大于2,那么就会形成我们不大熟悉的图形。下面,列举一个α、β的数值均比较大的例子,如α=4、β=3时的贝塔分布。

y=60x3(1-x)2 (0≤x≤1) …(9)

如图表17-6所示。

图表17-6 α=4、β=3的贝塔分布的概率分布图

第17讲·小结

1.贝塔分布,是x的取幂和(1-x)的取幂相乘的形式。

2.在x的0次幂和(1-x)的0次幂的情况下,与均匀分布相一致。

3.在x的1次幂和(1-x)的0次幂、x的0次幂和(1-x)的1次幂的情况下,概率分布图为线段。

4.在x的1次幂和(1-x)的1次幂的情况下,概率分布图为抛物线。

5.常数是由标准化条件(面积之和为1)决定的。

练习题

答案参见此处

当α=3、β=2时,贝塔分布的概率密度表示如下:

y=12x2(1-x)

此时,计算以下关于x的概率密度。

(3)x=1的概率密度