20-1 统计学的主角——“正态分布”
在统计学中,最常用的是被称为“正态分布”的连续型概率分布。在标准统计学(内曼-皮尔逊统计学)中如此,在贝叶斯统计学中亦是如此。
正态分布之所以应用如此广泛的原因,主要有两个:
第一,正态分布有着十分便利的数学操作性,这一点在后面将会涉及。第二,正态分布是一种在自然界和社会中频繁出现的概率分布。本节将对第二点进行简要说明。
最初发现正态分布的实验是这样的:投掷N枚硬币时,把出现正面的x枚硬币的概率记为p(x),当N足够大的时候,p(x)的分布图会呈现出特殊的形状(吊钟型)。亚伯拉罕-棣莫弗和拉普拉斯等数学家发现了该图表中对应的函数,即图表20-1的公式。
此后,数学家高斯在担任天文台主任时,通过分析天体观测时的误差所呈现出来的概率分布,也推导出了同样的分布图。
图表20-1 标准正态分布
在高斯的研究之后,随着概率理论和统计学的进步,人们发现,在很多场合都能够观察到这样的正态分布。例如,通过观察包括人类在内的各种各样的生物种群,可以发现了同一种群的体长遵循正态分布的规律。此外,在体内的构成物(血液等)的分布,也呈正态分布趋势;在收到电波时出现的噪音中,也观察到了正态分布的现象。而最近的股票收益率也呈正态分布,这是个强有力的证明。总之,正态分布出现在我们身边的很多现象中。
20-2 呈现吊钟型的正态分布
正态分布是指,分布图呈现特殊形状的一类分布。为了让大家了解具体的形状,首先,我们来看被称为“标准正态分布”代表性图表——图表20-1。横轴x表示类别的数值,纵轴y表示的是出现的概率密度,该图表具有如下特征:
·以y轴(x=0)为轴,左右对称。
·图像呈为吊钟型(铃型),最高点在x=0的位置。
·无论x取何值,y也不会等于0(图表向左右两侧无限延伸)。
·在x≥2的部分,图像急剧下降;同样,在x≤-2的部分,图像也急剧下降。
图表20-2 标准正态分布的概率
图表20-1右上方横向写的,是表示概率密度的函数的公式,公式本身非常复杂,估计大多数读者看了会眼花吧。系数的分母是以圆周率π的平方根的形式出现的,不过,这并不重要(只是为了满足标准化条件),而重要的是:无理数e(纳皮尔常数)的取幂,以及二次函数的指数部分为负的系数。这正是图像呈之前所述的形状和特征的原因所在。但后面的内容中不会再出现这个函数,因此简单了解即可,即使后面忘记了也没关系。
这个一是连续型的概率分布。由于高度y表示的并非概率,而是概率密度,因此,“有宽度的部分的面积才是概率”这一点,与贝塔分布是一样的。例如,在满足-1≤x≤1时观察到x的概率,表示为图表20-2中涂有颜色部分的面积,其概率约为0.6826。
20-3 正态分布由“μ”和“σ”决定
一般的正态分布,可以从标准正态分布中轻而易举地获得,只要把图表按照以下步骤进行变形即可。
步骤1:以y轴为中心,向左右两侧延伸σ倍(σ希腊字母,读作“西格马”)。为了满足标准化条件(面积之和为1),各部分的高度需为σ分之1。
步骤2:横向平行移动,直到对应函数顶点的x坐标为μ(希腊字母,读作“缪”)为止。
现在,针对μ和σ的作用进行说明。
μ是概率分布的平均值。换言之,即为“挑担人偶的平衡支点”。由于其左右对称的,因此位于函数图像的顶点位置。而σ是被称为标准偏差的指标,表示分布中的“分散”“扩大”的程度。
接下来,用形象的方式来说明“分散”“扩大”的概念。由于平均值μ位于概率分布图顶点的位置,因此,最容易观察到数值。因而,如果被问到“你能预言可以观察到什么吗”的时候,回答“我可以预言在‘μ附近’”,是比较稳妥的。但是,若说这个预言的准确度如何,则要依存于“分散”“扩大”的程度。如果是分布的状态为山顶高、山脚低,那么由于μ附近的数值容易被观察到,则预言的准确度相对较高。但如果分布的状态为山顶低、山脚高,那么反而会观察到,远离μ的数值出现的频率高。因此,偏离预言的可能性就会增高,导致准确度降低。
也就是说,我们可以想象为,标准偏差σ表示的是“从观察值的平均值中,误差/偏差的程度”的指标。本书后面不对标准偏差进行更深入的探讨,如果想了解更多内容,可以参考相关书目《完全自学 统计学入门》(详见参考文献⑨)。
那么,只要确定μ和σ,就能决定一个一般的正态分布。尤其是标准正态分布,它对应μ=0、σ=1。
用σ=2、μ=3来举例说明上述内容,则如图表20-3所示。
图表20-3 一般的正态分布
上方部分为标准正态分布的分布图,顶点在x=0的位置,扩大宽度为1。下方左侧的图像为,将该标准正态分布向左右两侧扩大2倍之后得到的图像。此时,函数图像的倾斜度稍微平缓了一些。为了保证总面积为1,其对应的x位置的高度同样需要变为1/2。通过这个操作,可以得出标准偏差σ=2的正态分布(平均值μ保持为0不变)。下方右侧的图为,将该图像向右平行移动+3后得到的图像。那么顶点自然变为了x=3所对应的位置。通过这个操作,可以得出平均值μ=3的正态分布。按照这样的方式,可以得到μ=3、σ=2的正态分布的概率分布图。
综上,可以得出以下结论:
一般正态分布的性质
?只要赋予平均值μ和标准偏差σ,就能确定一个正态分布。
?μ的含义为分布的平均值。表示为图表的顶点位置,因此也是挑担人偶的平衡支点。
?σ表示分布的标准偏差。即表示图表左右扩大多少,其含义是分布的“扩大”“分布”。
?标准正态分布是指μ=0、σ=1的情况。平均值μ、标准偏差σ的正态分布的分布图,是在不改变标准正态分布的分布图面积的情况下,左右延长σ倍,y方向延长1/σ倍,并且只在x方向上平行移动μ。
20-4 将一般正态分布概率转换为标准正态分布形式
若已知标准正态分布的概率,就能很容易地计算出一般正态分布的概率。
下面我们来进行实际操作:例如,在μ=3、σ=2的正态分布中,计算在1≤x≤5的范围中观察到x的概率。
正如刚才的解说,标准正态分布(μ=0、σ=1的正态分布)的图像,是左右扩大2倍,同时横向平行移动+3后得到的。因此,如果把它调转过来,即横向平行移动-3,同时左右缩小1/2,就能恢复到标准正态分布的状态。
也就是说,把变量x变形为z=(x-3)/2,变量z就会成为遵循标准正态分布的变量。于是可以得到:
1≤x≤5
→1-3≤x-3≤5-3
→-2≤x-3≤2
→-2/2≤(x-3)/2≤2/2
从这个变形中,又可以得到:
用概率的符号进行表示,则为:
因此,在μ=3、σ=2的正态分布中,计算在1≤x≤5的范围中观察到x的概率,与在标准正态分布中观察满足-1≤z≤1的z的概率是相同的。换言之,这个概率,与20-2中所出的结果是一样的,即约为0.6826。
p(1≤x≤5)≈0.6826
20-5 正态分布的多个观测值的平均值为正态分布
正态分布具有以下神奇的性质:
正态分布观测结果的平均值具有何种性质
根据平均值μ、标准偏差σ的正态分布观测到n个数值,取平均值记为x,即
对于“即使将正态分布进行平均化,结果也依然是正态分布”这样神奇的性质,大家一定会感到惊讶吧。这就是20-1中提到的“便利的数学操作性”。此外,其神奇之处在于,平均值与之前相同,而标准偏差是除以观察次数的平方根而得出的数值。下面,我们通过以下练习实际感受一下。
问题
把日本的成年女性的身高作为正态分布,其平均值为160cm,标准偏差约为5cm。现在,随机从日本的成年女性中抽取25人,多次计算她们身高的平均值。此时的结果,x遵循怎样的概率分布呢?
答案
平均值≈160cm
第20讲·小结
1.正态分布这种概率分布,在自然和社会中经常能观察到。
2.只要确定了平均值μ和标准偏差σ,就能确定一个正态分布。
3.平均值μ表示图像的顶点位置,标准偏差σ表示图像的扩大程度。
4.标准正态分布是所有正态分布的基础,即μ=0、σ=1。
练习题
答案参见此处
(1)假设z为根据标准正态分布而被观测到的数值。此时,z在-1≤z≤1的范围中的概率p(-1≤z≤1)为0.6826,计算当z在0≤z≤1的范围内时,
p(0≤z≤1)=p(-1≤z≤1)÷()=()
(2)假设x为根据μ=5、σ=3的正态分布而被观测到的数值。此时,计算x在5≤x≤8的范围内时,概率p(5≤x≤8),则:
根据上述结果,并使用(1)中的答案,可以求出()