概率统计随机过程之分析化
概率统计随机过程之概率母函数、矩母函数和特征函数
概率母函数
定义:设X是非负整数的随机变量,定义其概率母函数 (probability-generating function)为 g(s)=E[sX]=j=0∑∞sjP[X=j],s∈[−1,1]
其中约定 00=1。显然 g(s) 在 [−1,1] 绝对收敛
性质
- P[X=k]=k!g(k)(0), k=0,1,…,这说明概率母函数和概率分布列一一对应
- E[X]=g(1)(1)
- 若 E[X]<∞,则 Var[X]=g(2)(1)+g(1)(1)−[g(1)(1)]2
- 若 X1,…,Xn 相互独立,Y=X1+⋯+Xn,则 gY(s)=gX1(s)⋯gXn(s),s∈[−1,1]
- X1,X2,… 是独立同分布的非负整数随机变量,概率母函数为 ψ(x); N 为取正整数值的随机变量且独立于 Xi,概率母函数为 G(s)。则 Y=X1+⋯+XN 的概率母函数为 H(s)=G[ψ(s)]
只给出性质五的证明 H(s)=E[E[SW∣Y]]=n=1∑∞E[sX1+⋯+Xn]P[Y=n]=n=1∑∞[ψ(s)]nP[Y=n]=G[ψ(s)]
例子
二项分布概率母函数
二项分布 B(n,p) 的概率母函数为 g(s)=(sp+q)n
由此立得若 Xi,…,Xm 独立,且Xi∼B(ni,p),则Y=X1+⋯+Xm∼B(n1+⋯+nm,p)
泊松分布概率母函数
泊松分布 P(λ) 的概率母函数为 g(s)=eλ(s−1)
由此立得若 Xi,…,Xm 独立,且Xi∼P(λi),则Y=X1+⋯+Xm∼P(λ1+⋯+λm)
几何分布概率母函数
几何分布 G(p) 的概率母函数为 g(s)=1−sqsp
由此立得若 Xi,…,Xm 独立,且Xi∼G(p),则Sm=X1+⋯+Xm 有概率母函数 gSm(s)=(1−sqsp)m=(sp)mj=0∑∞j!m(m+1)⋯(m+j−1)(sq)j=(sp)mj=0∑∞(jm+j−1)(sq)j=k=m∑∞(m−1k−1)pmqk−msk
于是得 Pascal 分布 E[Sm=k]=(m−1k−1)pmqk−m
求概率
求扔三颗骰子,总点数为 9 的概率。 记 Xi 为第 i 颗骰子的点数,其概率母函数
g(s)=E[sX1]=61(s+s2+⋯+s6)=611−ss(1−s6)
则 Y=X1+X2+X3 的概率母函数为
gY(s)=[gX(s)]3=63(1−s)ss3(1−s6)3=631(s3)(1−3s6+3s12−s18)k=0∑∞(2k+2)sk
则 s9 的系数为 P(Y=9)=631[(26+2)−3]=21625
推广——二维概率母函数
设 (X,Y) 是二维取非负整数值的随机向量,记 pik=P[X=i,Y=k],则其二维概率母函数为 g(s,t)=E[sXtY]=i=0∑∞k=0∑∞piksitk,s,t∈[−1,1]
其有如下性质
- ∣g(s,t)∣≤g(1,1)=1,∣s∣≤1,∣t∣≤1
- gaX+bY+c(s)=scg(sa,sb)
- 若 X,Y 独立,则 g(s,t)=gX(s)gY(t)
- g(s,1)=gX(s),g(1,t)=gY(t)
- 若 E[X]<∞,E[Y]<∞,则 E[X]=∂s∂g(s,t)∣∣s=t=1,E[Y]=∂t∂g(s,t)∣∣s=t=1
- 若 E[X2]<∞,E[Y2]<∞,则 E[X2]=∂s2∂2g(s,t)∣∣s=t=1,E[Y2]=∂t2∂2g(s,t)∣∣s=t=1,E[XY]=∂s∂t∂2g(s,t)∣∣s=t=1
- pik=i!k!1∂si∂tk∂i+kg(s,t)∣∣s=t=0, i,k=0,1,…
局限
只能对取非负整数值的随机变量定义
矩母函数
定义:设 X 是随机变量,定义其矩母函数 (moment-generating function)为 MX(s)=E[esX] 仅当 E[esX]<∞ 时,我们称 MX(s) 存在
矩母函数性质
- MaX+b(s)=esbM(sa)
- E[Xk]=M(k)(0),k=1,2,…
- M(0)=1
- 可逆性:若∃a>0,∀s∈[−a,a],M(s)<∞,则 M(s) 唯一地决定了 X 的分布函数
- 若 X1,…,Xn 独立,Y=X1+⋯+Xn,则MY(s)=MX1(s)⋯MXn(s)
- X1,X2,… 独立同分布,矩母函数为 MX(s); N 为取正整数值的随机变量,矩母函数为 MN(s)。则 Y=X1+⋯+XY 的矩母函数为 MY(s)=E[E[esY∣N=n]]=E[(MX(s))n]=∑n=1∞(MX(s))nP[N=n]
而 MN(s)=∑n=1∞[es]nP[N=n] 二者有紧密的联系:将 MN(s) 中出现的 es 替换为 MX(s) 即可
矩母函数例子
离散型矩母函数
M(s)=21e2s+61e3s+31e5s
E[X]=M(1)(0)=(212e2s+613e3s+315e5s)∣s=0=619
E[X2]=M(2)(0)=(214e2s+619e3s+3125e5s)∣s=0=671
指数分布矩母函数
设 X∼E(λ),则当 s<λ 时,有 M(s)=λ∫0∞esxe−λxdx=s−λλe(s−λ)x∣x=0∞=λ−sλ
而当 s≥λ 时 M(s) 不存在
E[X]=M(1)(0)=(λ−s)2λ∣s=0=λ1 E[X]=M(2)(0)=(λ−s)32λ∣s=0=λ22
正态分布矩母函数
X∼N(μ1,σ12),Y∼N(μ2,σ22),X,Y 相互独立,求 Z=X+Y 的分布
先计算标准正态分布的矩母函数,由定义求得 M(s)=es2/2
根据矩母函数的性质,有 MX(s)=eμ1seσ12s2/2,MY(s)=eμ2seσ22s2/2,MZ(s)=e(μ1+μ2)se(σ12+σ22)s2/2
于是 Z∼N(μ1+μ2,σ12+σ22)
复合随机变量
不断进行成功概率为 p 的伯努利实验直至成功,每次实验的耗时服从参数 λ 的指数分布,且完全独立。 求总耗时的分布
首先 Xi∼E(λ),N∼G(p),Y=X1+⋯+XN , 当 s<λ 时有 MXi(s)=λ−sλ 而 MN(s)=1−qespes 故 MY(s)=1−qMX(s)pMX(s)=λ−s−qλpλ=pλ−spλ
推广——随机向量的矩母函数
设X=(X1,X2,…,Xn)⊺,则其矩母函数定义为
MX(s)=E[es⊺X]=E[es1X1+⋯+snXn]
局限性
有些分布的矩母函数不存在,因为其积分发散,如 Cauchy 分布。为此我们引入特征函数来保证可积性。
特征函数
定义:对随机变量 X ,定义其特征函数 (characteristic function) 为 ϕ(t)=E[eitX]=E[cos(tX)]+iE[sin(tX)],t∈R
特征函数性质
- ∣ϕ(t)∣≤ϕ(0)=1,ϕ(−t)=ϕ(t)
- ϕ(t) 在 (−∞,∞) 一致连续 v若 E[∣X∣k]<∞,则 ϕ(k)(t)=ikE[XkeitX],ϕ(k)(0)=ikE[Xk]
- 非负定性:∀t1,…,tn∈R,∀z1,…,zn∈C,∑k=1n∑j=1nϕ(tk−tj)zkzˉj≥0
- 若 X1,…,Xn 相互独立, Xk 特征函数为 ϕk(t),则 Y=X1+⋯+Xn 的特征函数为 ϕY(t)=ϕ1(t)⋯ϕk(t)。注意,逆命题不成立,后面给出了例子。
特征函数与概率分布函数是有一一对应关系的,二者可以互相确定,在概率论中叫做反演定理。
在累积概率分布函数与特征函数之间存在双射。也就是说,两个不同的概率分布不能有相同的特征函数。
给定一个特征函数ϕ,可以用以下公式求得对应的累积概率分布函数 FX(y)−FX(x)=τ→+∞lim2π1∫−τ+τite−itx−e−ityφX(t)dt 一般地,这是一个广义积分;被积分的函数可能只是条件可积而不是勒贝格可积的,也就是说,它的绝对值的积分可能是无穷大。
特征函数例子
二项分布特征函数
二项分布 B(n,p) 的特征函数为 ϕ(t)=(eitp+q)n
(对比其概率母函数 g(s)=(sp+q)n)
泊松分布特征函数
泊松分布 P(λ) 的特征函数为 ϕ(t)=eλ(eit−1)
(对比其概率母函数 g(s)=eλ(s−1))
几何分布特征函数
几何分布 G(p) 的特征函数为 ϕ(t)=1−qeitpeit
(对比其概率母函数 g(s)=1−sqsp)
正态分布特征函数
正态分布 N(μ,σ2) 有特征函数 ϕ(t)=eiμte−21σ2t2
(对比其矩母函数 M(s)=eμseσ2s2/2)
先考察标准正态分布。正态分布的特征函数推导不太容易,一种不太严谨的做法是做形式化运算,将 i 视为常数,则
ϕ(t)=2π1∫−∞∞eitxe−x2/2dx=e−t2/22π1∫−∞∞e−(x−it)2/2dx=e−t2/2
严格的数学推导需要一定复变函数的背景知识。
首先 ϕ(t)=2π1∫−∞∞eitxe−x2/2dx=2π1∫−∞∞cos(tx)e−x2/2dx
对 t 求导得 ϕ′(t)=−2π1∫−∞∞xsin(tx)e−x2/2dx=2π1∫−∞sin(tx)de−x2/2=−2π1∫−∞∞tcos(tx)e−x2/2dx=−tϕ(t)
即 dtd[ϕ(t)et2/2]=0,则 ϕ(t)et2/2=C=ϕ(0)=1,得 ϕ(t)=e−t2/2
由此再求一般正态的特征函数
E[eit(μ+σX)]=eitμE[eitσX]=eitμe−σ2t2/2
同时,若 X1,…,Xm 相互独立,Xj∼μj,σj2,则
Y=X1+⋯+Xm∼N(∑j=1mμj,∑j=1mσj2)
均匀分布特征函数
均匀分布 U(a,b) 的特征函数为 ϕ(t)=it(b−a)eitb−eita
指数分布 指数分布 E(λ) 的特征函数为 ϕ(t)=(1−λit)−1
(与矩母函数 M(s)=λ−sλ=1−s/λ1=(1−s/λ)−1 对比)
柯西分布特征函数
f(x)=π(1+x2)1,其特征函数为 ϕ(t)=e−∣t∣
取 Y=aX,(a>0),则 ϕY(t)=E[ei(at)X]=e−a∣t∣,此时
ϕX+Y(t)=E[eit(1+a)X]=e−(1+a)∣t∣=ϕX(t)ϕY(t),但显然 X,Y 不独立
拉普拉斯分布特征函数
f(x)=21e−∣x∣ ,其特征函数为 ϕ(t)=1+t21
注意它和柯西分布的“对称性”
更多的性质
- 若 E[∣X∣n]<∞,则 ϕ(t)=∑m=0nm!E[(itX)m]+o(tn)
特别的,若二阶矩存在,则 ϕ(t)=1+itE[X]−21t2E[X2]+o(t2)
逆转公式:若累积分布函数 F(x) 在 (a,b) 连续,则 2π1T→∞lim∫−TTite−ita−e−itbϕ(t)dt=F(b)−F(a) 若 ∫−∞∞∣ϕ(t)∣dt<∞,则 X 有有界连续密度函数 f(x)=2π1∫−∞∞e−itxϕ(t)dt
这些说明了随机变量和分布函数相互唯一决定
先介绍收敛性:设 X 有分布函数 F(x), Xn 有分布函数 Fn(x)。若在 F(x) 的连续点 x 处,有 n→∞limFn(x)=F(x),则称 Xn 依分布收敛 (convergence in distribution) 到 X,记为 Xn→dX;或称 Fn 弱收敛 (weak convergence) 到 F,记为 Fn→wF
连续性定理指出,Xn 依分布收敛到 X 的充分必要条件是,其对应的特征函数满足 n→∞limϕn(t)=ϕ(t),∀t∈R
- 判定一个函数是否为特征函数有如下定理
S. Bochner-Khintchine 定理
设 ϕ(t),t∈R 是连续函数且 ϕ(0)=1,其是特征函数的充要条件是他是非负定的,即 ∀t1,…,tn∈R,∀z1,…,zn∈C,∑k=1n∑j=1nϕ(tk−tj)zkzˉj≥0
Polya 定理
设 ϕ(t) 是连续函数、偶函数,在 (0,∞) 是凸函数,且满足ϕ(t)≥0,ϕ(0)=1,ϕ(t)→0(t→∞) 则其是特征函数。
J. Marcinkiewiez 定理
若 ϕ(t) 具有形式 eP(t),其中 P(t) 是多项式,则其系数不能大于 2
有趣的例题
(1)ϕ(t) 是特征函数,证明 ϕˉ,ϕ2,∣ϕ∣2,Re[ϕ] 都是特征函数
设 X,Y独立同分布且特征函数为 ϕ,则前三个分别为 −X,X+Y,X−Y
第四个构造独立于 X 的随机变量 Z 且 P[Z=±1]=0.5,则XZ 的特征函数为 Re[ϕ]
(2)ϕ(t) 是特征函数,则 ∣ϕ(t)∣ 未必是特征函数
设 X∼B(1,1/3),ϕ(t)=32+31eit 。设 Y 的特征函数为 ψ(t)=∣ϕ(t)∣,则 ψ2(t)=ϕ(t)ϕ(−t),即 Y1+Y2 和 X1−X2 同分布。其中 Y1,Y2 与 Y 独立同分布,X1,X2 与 X 独立同分布。由于 X1−X2∈{−1,0,1},则 Yi∈{−0.5,0.5},记 P[Y1=0.5]=α。则
P[Y1+Y2=1]=α2=P[X1−X2=1]=2/9
P[Y1+Y2=−11]=(1−α)2=P[X2−X1=1]=2/9
此时 α 无解
(3)X1,…,X4 独立同标准正态分布,则
- X1X2的特征函数为 1+t21
- X1X2+X3X4 的特征函数为 1+t21,即服从拉普拉斯分布
(4)X,Y独立同标准正态分布,U,V独立于 X,Y,则Z=U2+V2UX+VY∼N(0,1)
(5)利用已知结果若 a>0,b>0,则I(a,b)=∫0∞exp{−a2u2−b2u−2}du=2ae−2abπ
证明若 f(x)=2πx31exp(−2x1),x>0, 则 E[e−tX]=exp(−2t)
(6)X,Y,Z独立同标准正态分布,则
- X/Y服从柯西分布
- 1/X2的概率密度函数为 5. 中结果
- (XYZ)/X2Y2+Y2Z2+Z2X2∼N(0,1/9)
(7)Xn 有分布函数 Fn(x)=x−2nπsin(2nπx),0≤x≤1
- Xn 有密度函数 fn(x)=1−cos(2nπx),0≤x≤1
- Fn(x) 弱收敛于 U[0,1],但 fn(x) 不收敛