3.5多维随机变量及分布

有些随机现象需要同时用多个随机变量来描述。例如对地面目标射击,弹着点的位置需要两个坐标(X,Y)才能确定,X,Y都是随机变量,而(X,Y)称为一个二维随机变量或二维随机向量,多维随机向量(X_1,X_2,\cdots,X_n)含义依次类推。

3.5.1二维随机变量

1、二维随机变量的定义
设W是一个随机试验,它的样本空间\Omega,设X_1,X_2,\cdots,X_n是定义在Ω上的n个随机变量,由它们构成的随机向量(X_1,X_2,\cdots,X_n),称为n维随机向量或n维随机变量。当n=2时,即(X_1,X_2),称为二维随机向量或二维随机变量。
2、分布函数的定义
设(X,Y)是二维随机变量,对于任意实数x,y,均存在二元函数F(x,y)=p((X\le x)\cap(Y\le y))记作p(X\le x,Y\le y),则将F(x,y)称为二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数。

3.5.2二维离散型随机变量

1、二维离散型随机变量的定义
如果二维随机变量(X,Y)全部可能取到的值是有限对或可列无限多对,则称(X,Y)是离散型随机变量,对应的联合概率分布(或简称为概率分布或分布律)为
p(X=x_i,Y=y_j )=p_{ij}, i,j=1,2,\cdots
例:将一枚均匀的硬币抛掷4次,X表示正面向上的次数,Y表示反面朝上次数,求(X,Y)的概率分布。
解: X的所有可能取值为0,1,2,3,4,Y的所有可能取值为0,1,2,3,4, 因为X+Y=4,所以(X,Y)概率非0的数值对为:
二维随机变量(X,Y)的联合概率分布表为:
2、性质
(1)非负性:p_{ij}\ge 0
(2)规范性:
\sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1
3、概率分布
二维离散型随机变量(X,Y)的分布函数与概率分布之间有如下关系式:
F(x,y)=\sum_{x_i<x}\sum_{y_i<y}p_{ij}

3.5.3二维连续型随机变量

1、定义
设二维随机变量(X,Y)的联合分布函数为F(x,y),若存在非负可积函数f(x,y),使得对于任意实数 x,y,都
F(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv
则称(X,Y)为二维连续型随机变量,函数f (x,y)称为(X,Y) 的联合概率密度函数,简称概率密度或密度函数。

2、密度函数f(x,y)的性质
(1)非负性:f(x,y)\ge 0
(2)规范性:
\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy=1
(3)当f(x,y)连续时,\frac{\partial^2 F(x,y)}{\partial x \partial y}=f(x,y)
(4)若D是Oxy平面上的任一区域,则随机点(X,Y)落在D内的概率为:
p((X,Y)\in D)=\iint_{(x,y)\in D}f(x,y)dxdy
3、两种常见的二维连续型随机变量的分布
(1)均匀分布
定义:设D是平面上的有界区域,其面积为A,若二维随机变量(X,Y)的概率密度为
f(x,y)=\begin{cases}\frac{1}{A},&(x,y)\in D\\0,&(x,y)\notin D\end{cases}
则称(X,Y)服从区域D上的均匀分布。
可以验证,均匀分布的密度函数f(x,y) 满足密度函数的两个性质。
(2)正态分布
定义:如果(X,Y)的联合密度函数为

例:若(X,Y)的密度函数为
所以,a=6

D的范围请看下图中阴影部分

由此可得:

3.5.4边际分布

对于多维随机变量,如二维随机变量(X,Y),假设其联合概率分布为F(x,y),我们经常遇到求其中一个随机变量的概率分布的情况。这种定义在子集上的概率分布称为边缘概率分布。
例如,假设有两个离散的随机变量X,Y,且知道P(X,Y),那么我们可以通过下面求和的方法,得到边缘概率P(X):
P(X=x)=\sum_y P(X=x,Y=y)\tag{3.9}
对于连续型随机变量(X,Y),我们可以通过联合密度函数f(x,y)来得到边缘密度函数。
f(x)=\int_{-\infty}^{\infty}f(x,y)dy \tag{3.10}
f(y)=\int_{-\infty}^{\infty}f(x,y)dx \tag{3.11}
边缘概率如何计算呢?我们通过一个实例来说明。假设有两个离散型随机变量X,Y,其联合分布概率如表4-1所示。
表4-1:X与Y的联合分布
如果我们要求P(Y=0)的边缘概率,根据式(3.9)可得:
P(Y=0)=P(X=1,Y=0)+P(X=2,Y=0)=0.05+0.28=0.33

3.5.5条件分布

上一节我们介绍了边缘概率,它是多维随机变量一个子集(或分量)上的概率分布。对于含多个随机变量的事件中,经常遇到求某个事件在其他事件发生的概率,例如,在表4-1的分布中,假设我们要求当Y=0的条件下,求X=1的概率?这种概率叫作条件概率。条件概率如何求?我们先看一般情况。
设有两个随机变量X,Y,我们将把X=x,Y=y发生的条件概率记为P(Y=y|X=x),那么这个条件概率可以通过以下公式计算:
P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)} \tag{3.12}
条件概率只有在P(X=x)>0时,才有意义,如果P(X=x)=0,即X=x不可能发生,以它为条件就毫无意义。
现在我们来看上面这个例子,根据式(3.12),我们要求的问题就转换为:
P(X=1|Y=0)=\frac{P(X=1,Y=0)}{P(Y=0)} \tag{3.13}
其中P(Y=0)是一个边缘概率,其值为:P(X=1,Y=0)+P(X=2,Y=0)=0.05+0.28=0.33
而P(X=1,Y=0)=0.05.故P(X=1|Y=0)=0.05/0.33=5/33
式(3.12)为离散型随机变量的条件概率,对连续型随机变量也有类似公式。假设(X,Y)为二维连续型随机变量,它们的密度函数为f(x,y),关于Y的边缘概率密度函数为f_Y (y),且满足f_Y (y)>0,假设
 f_{X|Y} (x|y)=\frac{f(x,y)}{f_Y (y)}\tag{3.14}
为在Y=y条件下,关于X的条件密度函数,则
F_{X|Y}(x|y)=\int_{-\infty}^{x}f_{X|Y}(x|y)dx\tag{3.15}
称为在Y=y的条件下,关于X的条件分布函数。
同理,可以得到,在X=x的条件下,关于Y的条件密度函数;
f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}\tag{3.16}
在X=x的条件下,关于Y的条件分布函数为:
F_{Y|X}(y|x)=\int_{-\infty}^{y}f_{Y|X}(y|x)dy\tag{3.17}

3.5.6条件概率的链式法则

条件概率的链式法则,又称为乘法法则,把式(3.12)变形,可得到条件概率的乘法法则:

3.5.7独立性及条件独立性

两个随机变量X,Y,如果它们的概率分布可以表示为两个因子的乘积,且一个因子只含x,另一个因子只含y,那么我们就称这两个随机变量互相独立。这句话可能不好理解,我们换一种方式的来表达。或许更好理解。
如果对\forall x\in X,y\in Y,P(X=x,Y=y)=P(X=x)P(Y=y)成立,那么随机变量X,Y互相独立。
在机器学习中,随机变量为互相独立的情况非常普遍,一旦互相独立,联合分布的计算就变得非常简单。
这是不带条件的随机变量的独立性定义,如果两个随机变量带有条件,如P(X,Y|Z),它的独立性如何定义呢?这个与上面的定义类似。具体定义如下:
如果对\forall x\in X,y\in Y,z\in Z,P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)成立
那么随机变量X,Y在给定随机变量Z时是条件独立的。
为便于表达,如果随机变量X,Y互相独立,又可记为X\bot Y,如果随机变量X,Y在给定时互相独立,则可记为X\bot Y|Z
以上主要介绍离散型随机变量的独立性和条件独立性,如果是连续型随机变量,我们只要把概率换成随机变量的密度函数即可。
假设X,Y为连续型随机变量,其联合概率密度函数为f(x,y),f_x(x),f_y(y)分别表示关于X,Y的边缘概率密度函数,如果f(x,y)=f_x(x)f_y(y)成立,则称随机变量X,Y互相独立。

3.5.8全概率公式

前面我们介绍了随机事件的全概率公式,这个公式推广到离散型随机变量,假设离散型随机变量X的分布律为:p(x_i)= p_i,i=1,2,\cdots,N
设离散型随机变量Z,它与随机变量X,构成的联合概率为p(x_i,z_j),从而可得
p(x_i)= \sum_{j=1}^M p(x_i,z_j),i=1,2,\cdots,N;j=1,2,\cdots,M
这里我们可以把Z看成是一个隐变量!从全概率这个角度来理解隐变量,是视角之一。

3.5.9 Jensen不等式

Jensen不等式(Jensen's inequality)是以丹麦数学家Johan Jensen命名的,它在概率论、机器学习等领域应用广泛。如利用其证明EM算法、KL散度大于等于0等等。
Jensen不等式与凸函数有关,何为凸函数?
1、凸函数的定义:
假设f(x)为定义在n维欧氏空间R^n中某个凸集S上的函数,如对任何实数t(0\le t\le 1)及S中任意两点x_1,x_2,恒有:
f(tx_1+(1-t)x_2 )\le tf(x_1 )+(1-t)f(x_2)\tag{3.21}
则称函数f(x)在S集上为凸函数。
式(3.21)的几何意义如图3-5所示:
图3-5 凸函数任意两点的割线示意图
从上图可知,凸函数任意两点的割线位于函数图形上方, 这也是Jensen不等式的两点形式。
2、Jensen不等式
对于任意属于S中数据集\{x_i\},如a_i\ge 0\sum_{i=1}^m a_i=1,则利用归纳法可以证明凸函数f(x)满足:
f(\sum_i^m a_i x_i )\le\sum_i^m a_i f(x_i)
Jensen不等式就是式(4.10)的一个两点到m个点的一个推广。如果f(x)是凹函数,只需不等式反号即可。
如果把x作为随机变量,p(x=x_i )=a_i是x的概率分布,Jensen不等式可表示为:
E[X]=\sum_i^m x_i a_i
f(E[X])\le E[f(X)]
如果函数f(x)为严格凸函数,当且仅当随机变量x是常数时(即x_1=x_2=\cdots=x_m),上式不等式取等号,即有:
f(E[X])=E[f(X)]
Jensen不等式可用归纳法证明,这里就不展开说明了。Jensen不等式在证明EM算法时用到。