3.2离散型随机变量及分布

如果随机变量X的取值是有限的或者是可数无穷尽的值,如:
X={x_1,x_2,x_3,\cdots,x_n}
则称 X为离散随机变量。

3.2.1 离散型随机变量及分布概述

x_1,x_2,x_3,\cdots,x_n是随机变量X的所有可能取值,对每个取值x_i,X = x_i是其样本空间S上的一个事件,为描述随机变量X,还需知道这些事件发生的可能性(概率)。
设离散型随机变量X的所有可能取值为x_i (i=1,2,\cdots,n)
P(X = x_i) = P_i,i= 1,2,\cdots,n
称之为X的概率分布或分布律,也称概率函数。
常用表格形式来表示X的概率分布:

由概率的定义,P_i (i = 1,2,\cdots)必然满足:
(1) P_i\geq 0 i=1,2,\cdots,n
(2) \sum_{i=1}^n p_i =1
例1:某篮球运动员投中篮圈的概率是0.8,求他两次独立投篮投中次数X的概率分布。
解 X可取0,1,2为值,记A_i={第i次投中篮圈},i=1,2,则P(A_1) = P(A_2) = 0.8
由此不难得到下列各情况的概率:
投了两次没一次投中,即:
P(X=0)=P(\overline{A_1 A_2 })=P(\overline{A_1})P(\overline{A_2})=0.2\times 0.2=0.04
投了两次只投中一次,即:
P(X=1)=P(\overline{A_1}A_2\cup A_1 \overline{A_2})=P(\overline{A_1}A_2)+P(A_1 \overline{A_2})=0.2\times 0.8+0.8\times02=0.32
投了两次两次都投中,即:
P(X=2)=P(A_1 A_2)=P(A_1)P(A_2)=0.8\times 0.8=0.64

P(X=0)+P(X=1)+P(X=2)=0.04+0.32+0.64=1
于是随机变量X的概率分布可表示为:

若已知一个离散型随机变量X的概率分布:

则由概率的可列可加性,可得随机变量X的累加值为:
F(x)=P(X\leq x)=\sum_{x_k\leq x}P(X=x_k)\tag{3.2}
例如,设X的概率分布由例1给出,则
F(2)=P(X\leq 2)=P(X=0)+P(X=l)=0.04+0.32=0.36

3.2.2 伯努利分布

伯努利分布又称为二点分布或0-1分布,服从伯努利分布的随机变量X取值为0或1两种情况,且它的分布列为P(X=1)=p,P(X = 0) = l − P其中(0 < P < 1),则称X服从参数为p的伯努利分布,记作X\sim B(1, p)。其概率函数可统一写成:
p(X=x)=p^x (1-p)^{1-x}
其中x\in {0,1}
X服从伯努利分布,记为X\sim B(P)
随机变量X的期望:

\frac{1}{2}时,伯努利分布为离散型平均分布。
伯努利分布在机器学习中经常看到,如逻辑回归模型拟合的就是这种模型。

3.2.3二项分布

二项分布是重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jokab Bernoulli)提出。一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,假设某样品在随机一次试验出现的概率为p,那么在n次试验中出现k次的概率为:
P(X=k)=\binom{n}{k}p^k{(1-p)}^{n-k}
假设随机变量X满足二项分布,且知道n,p,k等参数,我们如何求出各种情况的概率值呢?方法比较多,这里介绍一种比较简单的方法,利用scipy库的统计接口stats即可,具体如下:

运行后的二项分布图如图3-2所示。

图3-2 二项分布图

3.2.4多项分布

多项分布是伯努利分布的推广,假设随机向量X的取值有k种情况,即可表示为: X=i,i\in {1,2,\cdots,k},则有:
p(X=i)=p_i,i=1,2,\cdots,k
随机变量X有k种情况,在实际使用时,往往把k种情况用度热编码来表示,如X=1,可表示为[1,0,0,\cdots,0],X=2,可表示为[0,1,0,0,\cdots,0]。这里用[y_1,y_2,\cdots,y_k]表示独热编码。
这样多项分布可表示为:
p(X=i)=p_1^{y_1} p_2^{y_2}\cdots p_k^{y_k}=p_1^0 p_2^0\cdots p_i^1\cdots p_k^0=p_i
多项分布在机器学习中应用非常广泛,如softmax回归模拟的就是多项分布,神经网络多分类的模型也是拟合多项分布。

3.2.5泊松(Poisson)分布

若随机变量X所有可能取值为0,1,2,\cdots,它取各个值的概率为:
P(X=k)=\frac{{\lambda}^k}{k!} e^{-\lambda}, (k=0,1,2,\cdots)
这里介绍了离散型随机变量的分布情况,如果X是连续型随机变量,其分布函数通常通过密度函数来描述,具体请看下一节。