21-1 把正态分布设定为先验分布,并进行推理
作为本书的最后一项推理,我们来共同研究使用正态分布的贝叶斯推理。
把正态分布设定为先验分布的情形,一般认为有以下内容:
?使用的概率模型,通过正态分布所赋予。
?设定的类别出现在特定类别附近的可能性很高,而基本不会出现于远离它的类别。
前者的原因在于,这是基于想要把先验分布和模型的概率分布作为同一类别的构想下形成的,这样的先验分布称为“共轭先验分布”。把前者的说法用专业用语来表达,即“正态分布是共轭先验分布”。
后者的原因在于,意味着作为“事前的先入之见”的“可能的类别”集中在某一处。例如,在“日本人的成年女性的身高”作为类别而设定的概率模型中,如果把100cm到200cm的可能性设定为对等,似乎不大合适。由于日本人的成年女性的身高大概在160cm左右,因此有“在160cm附近的可能性很大,而180cm或140cm等的可能性很低”这种先入为主的想法是很自然的。因此,设定身高的类别的先验分布,在160cm附近是相对比较集中的,而远离这一身高的,则相对分散。此时,可以说在正态分布的条件下进行设定是比较合适的。
21-2 用不准确的温度计推算洗澡水的温度
在贝叶斯推理中,通过各个类别的事前概率和各个类别中获得信息只有,必须要计算“~&~”这种形式的偶发事件的概率,这在之前已经操作过多次。用之前的例子进行说明,如第2讲中,从类别“癌症”“健康”和获得的信息“阳性”“阴性”中,计算“癌症&阳性”、“健康&阴性”等事件的概率;第3讲中,从类别“真命天子”“无关路人”和获得的信息“送出巧克力”“不送巧克力”中,计算“真命天子&不送”“无关路人&送出”等事件的概率。
若把正态分布设为共轭先验分布,也需要进行同样的操作。结论如下:“~&~”这种形式的事件的概率分布,也是上一讲中所解说的正态分布(为比例的分布)。第19讲中,在考虑“生女孩的概率”时,若把先验分布设为贝塔分布,虽然“(类别p)&女孩”的分布也是贝塔分布(为比例的分布),但也会出现同样的情况。由于共轭先验分布原本就是这个含义,因此自然会得出这样的结论。但正态分布的情况和贝塔分布不一样,若对这个部分进行普遍说明,将会难以理解。这是由于正态分布的公式本身就比较复杂。
那么,本讲采用“曲线救国”的方式:第一,在进行一般论述之前,一边具体解说贝叶斯推理的流程,一边解说“~&~”的概率密度公式;第二,省略解说“~&~”的概率密度公式为何会变成这样的原因。接下来,进入解说环节,概率模型如下:
用不准确的温度计测量热水的温度
要把洗澡水加热到适宜的温度42℃。当认为已经烧开的时候,便用温度计测量了水温。但由于所使用的温度计不够准确,因此设定测量的温度x,遵循以实际温度θ为平均值、标准偏差为2℃的正态分布的概率分布。现在,温度计显示的温度为40℃。那么,实际的水温为多少度呢?
按照通过正态分布、用贝叶斯推理解答问题的流程,我们采用以往的步骤划分法来解决这个问题吧。
21-3 根据正态分布进行贝叶斯推理的步骤
步骤1:用正态分布设定先验分布
我们要推算的是实际的水温θ。虽然现在已知,观测结果(信息)为40℃,但贝叶斯推理的风格是:在此之前的类别的先验分布中,对于“θ是以怎样的形式分布的”这一问题进行设定。这个问题设定类别的先验分布时,出现了与以往不同的情况:实际的水温θ有各种类别(温度),而这些不同的类别(温度)之间存在“可能”或“不可能”的差异。在这种情况下,运用正态分布进行设定则较为合理的(共轭先验分布)——由于希望加热到的合适温度为42℃,因此,把平均值设定为42℃这样一种正态分布。而由于标准偏差无论如何设定都是有可能的,那么就暂且设定为3℃吧。总的来说,就是进行以下设定:
先验分布的设定:类别θ遵循平均值为42、标准偏差为3的正态分布。
步骤2:在类别θ的基础上,求出测量40℃这一温度得到的概率密度的函数
贝叶斯推理的下一个步骤,是在确定类别之后,计算从这个类别中所获得特定的信息的概率密度。以癌症检查的例子进行说明,则为“患癌症”的人的检查结果呈“阳性”的事件,即“癌症&阳性”的概率。把其他几种情况都列举出来,则为:计算“癌症&阴性”、“健康&阳性”、“健康&阴性”这4种可能性出现的概率。这些都是按照“类别&信息”的形式组合而成的。
在烧水的问题中,“类别&信息”,则是以“(实际的水温θ)&(测量的温度x)”这种形式出现的。但在该组合中出现了两个难题:第一,与癌症检查中出现4种可能性不同,该情况下,存在无限种可能的组合形式。因此,不能通过图表来进行举例说明(而第19讲中的贝塔分布的情况,由于信息只有“女孩”“男孩”2种情况,因此勉强能够用完整的图表来举例)。第二,“类别&信息”的概率,虽然是通过“条件概率的公式”(见15-3)计算得来的,但这种情况下的计算太过复杂,对于不是那么精通数学的人来说很难理解。
因此,本讲中按照以下方式进行处理:
?在基本事件“(实际的水温θ)&(测量的温度x)”中,只用图表列出“θ&40”的概率分布。(由于在此之外还存在“θ&38”或“θ&40”等无限的可能性,因此不对其一一进行图表列式)。
?若把基本事件“θ&40”的分布调整为满足标准化条件的形式,则为正态分布。此外,关于如何计算它的平均值和标准偏差的问题,此处只给出结论。
以上述方针为前提,下面我们继续来进行解说。
图表21-1 采用正态分布的贝叶斯推理
在图表21-1中,上方部分的开口朝上的图表为θ的先验分布。正如设定的那样,为平均值42、标准偏差3的正态分布。
而下部分的开口朝下的图为,表示类别为θ(当实际水温为θ)时,测量出的结果为40℃的概率密度的图表。换言之,即根据测量出来的温度,从划分的情况(测量结果为37℃或45℃等所有情况)中,只抽取40℃这一测量结果而形成图表。
步骤3:求出后验分布,并计算其分布的期待值
在图表21-1中,由于针对各个θ,只画出了在其基础上表示观测到40℃的概率密度的部分,因此,并不满足标准化条件,这与以往所有的贝叶斯推理是一样的。若将其调整为满足标准化条件的比例关系,则可以得出以下结论:
后验分布 将基本事件“θ&40”调整为满足标准化条件的比例关系,那么可以得到“在获得40℃这一信息之后,各θ的后验概率”。该后验分布即为,关于θ的正态分布。而该正态分布的平均值(分布的期待值),可以通过以下计算得出。
上述计算过程的具体含义,将在下下节中进行解说。
21-4 后验分布的含义
在说明计算方法之前,首先解释一下贝叶斯更新的概念:我们认为,洗澡用的热水水温,遵循事前为平均值42℃、标准偏差为3的正态分布。因此,若用1个数值来代表的话,则估计期待值(=平均值)为42℃。但是,由于用不准确的温度计测量出的水温为40℃,那么根据这条信息,就可以得出关于θ的后验分布,表示为图表21-1右侧的正态分布。这一概率分布的期待值在顶点位置(挑担人偶的支点),也就是正态分布的平均值,为40.6℃。以上为获得信息之后,对于水温的推理值。
上述贝叶斯推理过程,可以通过图表21-2来理解。
图表21-2 通过温度计的测量结果,对信息进行修改
换言之,虽然最初的观点(预想)为42℃,但之后,以通过温度计得到的测量结果40℃为参考,进行了修改。虽然修改后的值,比起最初的42℃更接近40℃,但绝非40℃。之所以会出现这样的结果,是因为温度计的测量存在误差/偏差(标准偏差),所以这一部分的结果是不可信的。因此,我们并没有修改测量值为40℃,而是保留了40.6℃的结果。
这一结果,比起42℃和40℃的中间值41℃,更接近40℃,那么为何要修改为这一数值呢?原因在于,表示先验分布的误差/偏差的标准偏差为3,但温度计显示的测量的误差/偏差的标准偏差为2,后者的误差相对较小。这意味着,根据误差/偏差相对较小的温度计得出的结果,对于先验分布的推算影响较大,想来这也是自然的。
21-5 根据正态分布进行贝叶斯推理的公式
接下来,对于上上节中进行的、将正态分布作为共轭先验分布而进行的推理计算进行说明。
根据正态分布进行贝叶斯推理的公式
将需要推理的θ的先验分布设定为平均值μ0、标准偏差σ0的正态分布;将观察的信息x设为遵循平均θ、标准偏差σ的正态分布。至于μ0、σ0、σ,则设为具体已知的数值。换言之,设定关于信息x的附带条件概率密度p(x|θ)为平均值θ、标准偏差σ的正态分布。
(ⅰ)只观察1次信息时的公式:
把观测到的值设为x,则:
(观测到x之后,θ的后验分布)p(θ|x)为关于θ的正态分布。
(ⅱ)观察n次信息时的公式:
若把观测到的n个数值的平均值(为(观察值的合计)÷n)记为x,
以下,用略显烦琐的文字来进行解说:
首先,标准偏差的2次方是被称为“方差”的量。方差,也是标准统计学中重要的统计量之一。
在正态分布中,后验分布的平均值按照以下方法进行计算:
观测值只有1个的情况下,按照以下公式计算:
(先验分布的平均值)÷(先验分布的方差)+(观测值)÷(信息x的方差)
之后,用下面的式子相除:
(先验分布的方差的倒数)+(信息x的方差的倒数)
此处,若重现21-3中的计算,则为:
在该计算中,由于用方差大的数进行除法运算之后,结果反而变小,所以我们得知:方差小的数值对于修正值的影响更大。
那么,n次观察后的x平均方差,则为上述结果的2次方,即:
(原来的方差)÷n
21-6 测量两次水温之后的贝叶斯推理
最后我们来研究,如果测量两次水温的话,烧水的问题该如何推理呢。运用上一节的公式(ⅱ),并将21-2中的问题进行如下变更:
用不准确的温度计测量两次热水的温度
要把洗澡水加热到适宜的温度42℃。当认为已经烧开的时候,便用温度计测量了水温。但由于所使用的温度计不够准确,因此设定测量的温度x,遵循以实际温度θ为平均值、标准偏差为2℃的正态分布的概率分布。现在,温度计显示的温度为:第一次为40℃,第二次为41℃。那么,实际的水温为多少度呢?
那么,这两次测量值的平均值为:
因此,运用上一节中的公式(ⅱ),(注意n=2),通过以下方法计算正态分布p(θ|=40.5)的平均值(期待值),为:
这以结果反映了两次测量结果的修正值。
至此,关于使用正态分布的贝叶斯推理的讲解正式结束。各位读者朋友们也不知不觉地学会了这一复杂而普遍使用的贝叶斯推理方法。这是贝叶斯推理这座山脉的山顶之一。不知不觉地,大家已经爬到了山顶。
从山顶俯瞰到的景色如何呢?
第21讲·小结
1.在类别为θ、信息为x的贝叶斯推理中,若信息x的概率分布p(x|θ)为将θ设为平均值时的正态分布的情况,那么,将θ的共轭先验分布设定为正态分布。
2.上述1的情况下,后验分布p(θ|x)也为正态分布。
练习题
答案参见此处
日本男性A在测量时,由于处于紧张状态,血压测量的结果会出现:有时比实际血压高,有时又比实际血压低的情况。该结果的分布遵循:把实际的血压μ作为平均、标准偏差10的正态分布。把遵循正态分布的、与A同龄的日本男性的最高血压设为先验分布,即设定平均值130、标准偏差20的正态分布。
(1)若只测量1次,结果为140。那么此时,A的实际血压的后验分布的平均值为:
(2)测量2次,平均值为140。那么此时,A的实际血压的后验分布的平均值为: