概率分布(英语:probability distribution)或简称分布,是概率论的一个概念。使用时可以有以下两种含义:
广义地,它指称随机变量的概率性质--当我们说概率空间(\Omega ,{\mathcal {F}},\mathbb {P} )中的两个随机变量X和Y具有同样的分布时,我们是无法用概率\mathbb {P} 来区别他们的。换言之:
称X和Y为同分布的随机变量,当且仅当对任意事件A\in {\mathcal {F}},有\mathbb {P} (X\in A)=\mathbb {P} (Y\in A)成立。
但是,不能认为同分布的随机变量是相同的随机变量。事实上即使X与Y同分布,也可以没有任何点ω使得X(ω)=Y(ω)。在这个意义下,可以把随机变量分类,每一类称作一个分布,其中的所有随机变量都同分布。用更简要的语言来说,同分布是一种等价关系,每一个等价类就是一个分布。需注意的是,通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等,都是指各种类型的分布,而不能视作一个分布。
狭义地,它是指随机变量的概率分布函数。设X是样本空间(\Omega ,{\mathcal {F}})上的随机变量,\mathbb {P} 为概率测度,则称如下定义的函数是X的分布函数(英语:distribution function),或称累积分布函数(英语:cumulative distribution function):
{\displaystyle F_{X}(a)=\mathbb {P} (X\leq a)},对任意实数a定义。
具有相同分布函数的随机变量一定是同分布的,因此可以用分布函数来描述一个分布,但更常用的描述手段是概率密度函数(英语:probability density function, pdf)。
在常用的文献中,“分布”一词可指其广义和狭义,而“累计分布函数”或“分布函数”一词只能指称后者。为了不致混淆,下文中谈及上述的广义时使用“分布”一词;狭义时使用“分布函数”一词。
分布函数的性质刻划
对于特定的随机变量 X,其分布函数F_{X}是单调不减及右连续,而且F_{X}(-\infty )=0,F_{X}(\infty )=1。这些性质反过来也描述了所有可能成为分布函数的函数:
设 F:[-\infty ,\infty ]\to [0,1],F(-\infty )=0,F(\infty )=1且单调不减、右连续,则存在概率空间(\Omega ,{\mathcal {F}},\mathbb {P} )及其上的随机变量X,使得 F 是X 的分布函数,即 F_{X}=F
随机变量的分布
设P为概率测度X为随机变量,则函数 F(x)=P(X\leq x) x\in \mathbb {R} )称为X的概率分布函数。如果将X看成是数轴上的随机点的坐标,那么,分布函数F(x)在x处的函数值就表示X落在区间(-\infty ,x]上的概率。
例如,设随机变量X为掷两次骰子所得的点数差,而整个样本空间由36个元素组成。
其分布函数是:
离散分布
上面所列举的例子属于离散分布,即分布函数的值域是离散的,比如只取整数值的随机变量就是属于离散分布的。F(x)表示随机变量X\leq x的概率值。如果X的取值只有x_{1}<x_{2}<…<x_{n},则:
F_{X}(x_{i})=\sum_{j=1}^{i}P(x_{j})
{\displaystyle \sum_{k=1}^{n}P(x_{k})=1}
二项分布
二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jakob Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为p,那么在n次试验中出现k次的概率为:
f(n,k,p)={n \choose k}p^{k}(1-p)^{n-k}
例如,在掷3次骰子中,不出现6点的概率是:f(3,0,{\frac {1}{6}})={3 \choose 0}\left({\frac {1}{6}}\right)^{0}\left({\frac {5}{6}}\right)^{3}=0.579
在连续两次的轮盘游戏中,至少出现一次红色的概率为:f(2,1,{\frac {18}{37}})+f(2,2,{\frac {18}{37}})=0.736
二项分布在p=0.5时的对称性 ( 自变量为k )
二项分布在p=0.5时表现出图像的对称性,而在p取其它值时是非对称的。另外二项分布的期望值\operatorname {E} (X)=np,以及方差\operatorname {var} (X)=np(1-p)
泊松近似
泊松近似是二项分布的一种极限形式。其强调如下的试验前提:一次抽样的概率值p相对很小,而抽取次数n值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为p,那么在n次试验中出现k次的概率按照泊松分布应该为:
f(n,k,p)={\frac {(n\cdot p)^{k}}{e^{n\cdot p}\cdot k!}}
其中,数学常数e=2.71828…(自然对数的底数)
例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:f(100,0,{\frac {1}{200}})+f(100,1,{\frac {1}{200}})+f(100,2,{\frac {1}{200}})=0.986
在实践中如果遇到n值很大导致二项分布难于计算时,可以考虑使用泊松分布,但前提是n\cdot p必须趋于一个有限极限来源请求。采用泊松分布的一个不太严格的规则(通过展开二项分布,并在形式上化简为类似泊松分布后,利用极限化简即可得)来源请求是:
- $$n\geq 100$$
- $$p\leq 0.1$$
连续分布
设X是具有分布函数F的连续随机变量,且F的一阶导数处处存在,则其导函数
f(x)={\frac {\operatorname {d} F(x)}{\operatorname {d} x}}
称为X的概率密度函数。
每个概率密度函数都有如下性质:
\int _{-\infty }^{\infty }f(x){\rm {d}}x=1
\int _{a}^{b}f(x){\rm {d}}x=\operatorname {P} (a\leq X\leq b)=F(b)-F(a)
第一个性质表明,概率密度函数与x轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间[a,b]的概率值等于密度函数在区间[a,b]上的积分,也即是与X轴在[a,b]内形成的区域的面积。因为0\leq F(x)\leq 1,且f(x)是F(x)的导数,因此按照积分原理不难推出上面两个公式。
正态分布、指数分布、t-分布,F-分布以及\Xi ^{2}-分布都是连续分布。
正态分布
连续随机变量的概率密度函数如果是如下形式,
f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}
那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中\mu 是平均值,\sigma 是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,正态概率密度函数具有和普通概率密度函数类似的性质:
\int _{-\infty }^{\infty }f(t)\,{\rm {d}}t=1
F(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}e^{\left(-{\frac {1}{2}}\left({\frac {t-\mu }{\sigma }}\right)^{2}\right)}{\rm {d}}t
如果给出一个正态分布的平均值\mu 以及标准差\sigma ,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助z-变换以及标准正态分布表格(z-表格)。
中间值\mu =0以及标准差\sigma =1的正态分布被称之为标准正态分布,其累积分布函数是
\Phi (z)={\frac {1}{\sqrt {2\pi }}}\cdot \int _{-\infty }^{z}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t
将普通形式的正态分布变换到标准正态分布的方法是
z={\frac {x-\mu }{\sigma }}
例如,已知一正态分布的\mu =5,\sigma =3,求区间概率值P(4<X<=7)计算过程如下,
((4-5)/3)<Z<=((7-5)/3),
(-1/3)<Z<=(2/3),
P(4<X<= 7)=P((-1/3)<Z<= 2/3)=\Phi (2/3)-\Phi (-1/3)=0.7475-0.3694=0.3781
其中\Phi (z)值通过查z-表格获得。
正态分布与二项分布的关系
在离散分布中如果试验次数n值非常大,而且单次试验的概率p值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:n\cdot p\cdot (1-p)\geq 9。
从二项分布中获得\mu 和\sigma 值的方法是:
如果\sigma >3,则必须采用下面的近似修正方法:
(注:q=1-p;EF:二项分布;ZF:正态分布)
上(下)临界值分别增加(减少)修正值0.5的目的是在\sigma 值很大时获得更精确的近似值,只有\sigma 很小时,修正值0.5可以不被考虑。
例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,
\mu =n\cdot p=64\cdot 0.5=32,
\sigma ={\sqrt {n\cdot p\cdot (1-p)}}={\sqrt {64\cdot 0.5\cdot 0.5}}=4,
n\cdot p\cdot q=16\geq 9,符合近似规则,应用z-变换:
{\displaystyle P(32\leq X\leq 42)\approx \Phi \left({\frac {42+0.5-32}{4}}\right)-\Phi \left({\frac {32-0.5-32}{4}}\right)}
=\Phi \left(2.63\right)-\Phi \left(-0.13\right)=0.0517+0.4957=0.5474
标准正态分布N(0,1)下的z-表格
在运用z-表格时注意到利用密度函数的对称性来求出z为负值时的区域面积。