第16讲 “概率分布图”帮助我们进行更加通用的推理(1 / 1)

16-1 到达到实用水平,需要“概率分布图”和“期待值”

截至上一讲,我们已经完成了对于贝叶斯推理的基本技巧、以及运用常见的概率记号对其进行描述的知识点进行了解说。至此,进行简单设定的推理已经完全不成问题。但如果要对于稍微复杂的设定进行推理、或是进行通用性推理的话,之前所介绍的方法就略显不足了。

对于稍微复杂的设定进行推理、以及进行通用性推理时,需要了解“概率分布图”和“期待值”相关的知识,尤其是在连续性概率分布这种基本事件无限多的情况下,以上背景知识更是不可缺少的。我们从本讲开始学习这个知识点。而在后面几讲中,将会对贝叶斯推理中最有代表性、重要的“贝塔分布”和“正态分布”进行解说。在本讲中,首先为大家解说贝塔分布的出发点——“均匀分布”的相关内容。

16-2 思考“同样的可能”型的概率模型

想象一下抛硬币和掷骰子试验的常规概率模型,就很容易理解“均匀分布”的概念了。

正如第14讲中解说的那样,概率模型是根据基本事件和对其概率的分配来进行定义的。以抛硬币为例,其基本事件的集合表示为:

{正面,反面}

为每个基本事件分配相同的概率,即:

这些基本事件被称为“大致相同”。也就是说,可以把“正面”和“反面”设定为基本相同的情况。

而在掷骰子的情况,也正如第14讲中所解说的那样,基本事件的集合可以表示为:

{1,2,3,4,5,6}

而分配概率的方法,则是把点数K出现的概率记为p({k}),那么:

此时,6个基本事件也是“大致相同”的。

用面积图来描述抛硬币和掷骰子的概率模型,如图表16-1所示,由于可能性“大致相同”,所以长方形被分为面积相等的几份。

图表16-1 关于硬币和骰子的“大致相同”

接下来我们来设想一个新的模型——赌盘,也就是在赌场里使用的工具的概率模型。它的基本事件为整数1~36,表示为:

{1,2,3,…,35,36}

实际上,在赌场里真正使用的赌盘,每个分区用“0”或“00”等数字来标记。在这里,我们为了简单起见,把赌盘的圆周分为36等分,并用整数1~36分配给每一等份来命名。若把赌盘的概率模型也设定为“大致相同”的情况,那么理所当然地,每个点数出现的概率都是相同的,因而可以表示为:

用图来表示,如图表16-2所示。

图表16-2 赌盘上的“大致相同”

在该模型中,可以把“抽取一个满足条件1≤x≤k的整数x”的概率记为p(1≤x≤k)。由于1≤x≤k占了整体中的36分之k的比例,所以可以得出:

16-3 把“大致相同”模型转换为成连续化的“均匀分布”

赌盘的概率模型,是把整数1~36出现的概率设定为“大致相同”。而若是把这个模型扩展为(连续的)无限个基本事件,就形成了“均匀分布”的概率模型。

下面我们来想象一下这个虚构出来的赌盘:在圆周上绘制0≤x≤1范围内所有的x。之后,截取截线段中0~1之间的部分,并把它想象成车轮形状的圆形,这就是基本的“均匀分布”的概率模型。本书中,将该模型称为[0,1]-赌盘模型(该名称仅在本书成立)。

在该概率模型中,“在0≤x≤1范围的数值中,随机抽取一个x”,正对应了抛硬币随机出现“正面”或“反面”,以及掷骰子随机出现点数1~6的结果。

但该模型与之前的模型相比有着很大的差异,体现在概率的分配方式上。

如果模仿之前的抛硬币和掷骰子的例子,将0.4或0.73等x的数值作为事件,并将{0.4}或{0.73}等作为基本事件,那么,应该为其分配“大致相同”的概率。然而,对于[0,1]-赌盘模型来说,这种方法并不合适,而这又是为什么呢?

这里需要用到标准化条件的概念。在概率模型中,所有事件的概率之和为1。假设对于每一个x,都为事件{x}分配相同的概率a,由于在0≤x≤1的范围中有无数个x,那么,则必须满足以下公式:

(对于满足条件0≤x≤1的所有x,{x}的概率之和)

=(无限个a的和)=1

并且,如果不满足a=0,就会出现矛盾。但如果a=0的话,就会产生两个困难。

第一个困难:“无限个0相加等于1”的含义是什么?

第二个困难:对满足条件0≤x≤1的每个x,假设它的概率为p({x})=0。那么,应该怎样计算满足条件0≤x≤0.5时,抽取出x的概率呢?

上述两个困难的难度系数都不小,那么,为了避开它们,我们需要调整之前设定概率的方式为以下方式:

在[0,1]-赌盘模型中的概率的设定

在[0,1]-赌盘模型中,t的取值范围为0<t≤1,把[大于0且小于等于1的数值]的集合设为基本的事件。也就是说,将E={满足条件0≤x<t的x}设为基本事件。之后,为事件E分配概率为p(E)=t。最后,把事件E简略地记为(0≤x<t),其概率p(E)简略地记为p(0≤x<t)。

例如,若t=0.5,那么事件{0≤x<0.5}则表示“选取一个大于等于0且小于0.5的数值”。如果用赌盘来解释,则表示:球落在0≤x<0.5范围内的号码中。这一范围内,能够由此做出比率占“一半”的判断。那么,如果设置其概率为0.5(=t),也是符合“大致相同”观点的逻辑的。同理,若t=0.7,那么事件“0≤x<0.7”可以看作是“0≤x≤1的70%”,因而设定事件E的概率为0.7(=t)是再自然不过的事了。如果用图表16-3这样的面积图来分析,就会发现该方法与我们一直以来掌握概率的方法,其实是一脉相承的。

图表16-3 [0,1]-赌盘的概率

16-4 [0,1]-赌盘模型中的一般事件的概率

根据上一节中的基本设定,在[0,1]-赌盘的概率模型中,所有必要事件的概率都能够依据“概率的加法法则”计算出来。

例如,我们可以试着在“选取0.5≤x<0.7范围中的x”这一事件中,计算“0.5≤x<0.7”的概率。现在,把0≤x<0.5和0.5≤x<0.7这两个范围合并起来,可以得到0≤x<0.7这一取值范围。因此,根据概率的加法法则可以得出:

p(0≤x<0.5)+p(0.5≤x<0.7)=p(0≤x<0.7)

如上一节中所设定的,由于第1项的值为0.5,第3项的值为0.7,所以第2项的值可以确定为:

P(0.5≤x<0.7)=0.7-0.5=0.2

以上计算过程看似烦琐,但只要考虑到0.5≤x<0.7这一范围,有着0.2的浮动空间,那么自然也可以认为概率就是0.2了(图表16-4)。

图表16-4 [0,1]-赌盘模型的一般事件

[0,1] -赌盘模型,即“从0≤x≤1的范围中,随机抽取一个数值”的模型。该模型的端点为0和1,长度为1,可以说是一个极其特殊的例子。而一般意义上的均匀分布是类似于“从2≤x<5的范围里,随机抽取一个数值”这样的。至于这种情况,可以通过图表16-5来试着理解。

图表16-5 [2,5]-赌盘的概率

16-5 能够用图说明复杂概率模型的“概率分布图”

均匀分布是指,由无限个数值构成的概率模型。如果只解决这个问题,那么相比于一直以所使用的长方形的图相比,也是毫不逊色的。但对于同样的连续无限型概率模型,在后文将要解说的贝塔分布和正态分布等情况下,如果使用长方形的图解进行说明,会难于理解。那么,在这里,我们用图示来解析概率模型,不再使用长方形的面积图,而是通过其他方法,也就是概率分布图。

概率分布图是指,在“横轴上设定表示事件的数值、在纵轴上设定概率”的图表。

图表16-6 骰子的概率分布图

通过观察图表,我们能够从视觉上对各事件的概率进行计算。例如,出现2≤x≤4的点数的概率,也就是2~4这3根柱子的高度之和,为:

接下来要做的是,描绘均匀分布的[0,1]-赌盘模型的概率分布图。该图为6根柱子组成的骰子的概率分布图,需要注意的是,虽然我们可以把它想象成由无限个细微的部分组成,但实际上还是有所差异的(图表16-7)。

首先,横轴上排列着无数个满足条件0≤x≤1的数值x。因此,图表只存在于0≤x≤1这一取值范围之内,横线AB的高度为1。这里需要注意的是,“高度1”所指的并非抽取到各个x的“概率”。实际上,正如方才解说的那样,对应各个x的整合性的概率值只有0,如果为1会很奇怪。例如,在x=0.5时,纵向线段CD的长度1,而这并不是抽取到0.5的概率。

图表16-7 均匀分布的概率分布图

在诸如均匀分布这种连续型概率模型中,用来表示的概率并不是“高度”,而是“面积”。如果考虑面积的话,那么CD只是一条线段,面积为0,这样想就符合了整合性的要求。

例如,基本事件{0.5≤x<0.7}的概率,也就是图表16-8中涂有颜色的长方形的面积。该长方形的横为0.2,纵为1,因此面积为0.2×1=0.2,这与上一节中所解说的基本事件{0.5≤x<0.7}的概率是一致的。

图表16-8 在连续型的概率分布图中,用面积表示概率

用比喻性的方式来解释“概率的密度”与“概率”的关系,则就像是“速度”和“距离”之间的关系。例如,“分速10米”并不是指“距离”意义上的米,而是指瞬间的速度。从这个意义上来讲,距离为0。“分速10米”表示:如果按照当前的状态持续1分钟,将会前进10米的距离。因此,如果以分速10米前进5分钟,那么前进的距离就是10×5=50米。也就是说,速度是根据所花费的时间,首次转化为距离的量。而概率密度的含义也大致相同,是指根据区间所占的宽度,首次转换为概率的量。

第16讲·小结

1.抛硬币或掷骰子的试验,是各个数被设定为“大致相同”的概率模型。

2.在[0,1]-赌盘模型中,0≤x≤1的数值被设定为“大致相同”。

3.[0,1]-赌盘模型是均匀分布的概率模型,它的基础是事件{0≤x<t}所占有的区间。

4.设定事件{0≤x<t}的概率p({0≤x<t)为宽度t。

5.概率分布图是指,设定横轴为数值、纵轴为概率的图表。在连续型的情况下,纵轴则不用来表示概率本身,而是概率的密度。

6.均匀分布的概率分布图为水平直线(线段)。事件的概率就是长方形的面积。

7.在均匀分布中,(概率)=(概率密度)×(区间的长度)

练习题

答案参见此处

运用[0,1]-赌盘模型,计算以下概率。

(1)p(0.2≤x<0.7)=()

(2)p((0.1≤x<0.4)or(0.5≤x<0.9))=()

(3)p((0.3≤x<0.7)与(0.4≤x<0.8)的重叠部分)=()