概率统计随机过程之C-R不等式
概率统计随机过程之C-R不等式
Cramer-Rao不等式是另一个判别无偏估计是否为UMVUE的方法,但是Cramer-Rao不等式有更深层的含义。
我们知道估计量始终会是一个随机变量,有自己的概率分布,而不是一个准确的值。Cramer-Rao除了给出了Cramer-Rao正则分布族这种费舍尔信息的存在条件,还有另一个更重要的贡献:C-R不等式,可以说给了统计学理论上的绝望。
C-R不等式,其实就是在说:统计,对真实的概率分布参数估计能力是有限的。举个不太恰当的类比,有点像量子理论中的测不准原理 (二者证明有相似之处哦)。C-R不等式告诉我们,无论我们如何抽样充足,无论我们统计方法如何科学,我们对参数的估计值,永远不可能无限逼近是逻辑上的真实值!
回到C-R不等式和UMVUE的关系上来,其思想如下:设Ug是θ的一切无偏估计构成的集合,所有的这些Ug中的无偏估计的方差必有一个下界(一定非负),这个下界称为C-R下界。如果Ug中某一个估计量g^的方差达到了这个下界,则g^就一定是参数的UMVUE,当然会对样本分布族和g^有一些正则条件。当时,使用这种下界的方法,都一个缺点,即C-R不等式给出的下界经常比实际的下界更小一些。这一情况下,C-R不等式就无法判断UMVUE的存在性。此外,C-R不等式还有其他一些用处,比如计算估计的效率、有效估计等等。
前置条件
C-R不等式成立需要样本分布族满足一些正则条件,适合这些条件的分布族称为C-R正则分布族。
单参数C-R正则分布族
定义1:单参数Cramer-Rao正则分布族:若单参数概率分布族p(x;θ),θ∈Θ属于Cramer-Rao正则分布族,则需要满足以下五个条件:
- 参数空间Θ是直线上的开区间;
- ∂θ∂p(x;θ)对所有θ∈Θ都存在;
- 分布的支撑{x:p(x;θ)>0}与θ无关,即分布族具有共同的支撑;
- p(x;θ)的微分与积分运算可交换;
- 对所有θ∈Θ,期望 0<I(θ)=E[(∂θ∂lnp(x;θ))2]<+∞(1) 其中,I(θ)为分布p(x;θ)中含有θ的费舍尔信息量,简称信息量。
费舍尔信息量
上面,我们用式(1)定义了费舍尔信息量。其具体解释可以理解为样本中关于θ有多少信息。I(θ)越大,意味着样本中含有位置参数θ的信息越多,该参数越容易估计。I(θ)也可解释成单个样品提供的信息量,由于简单抽样中,各个样品是i.i.d的,故每个样品提供的信息量I(θ)也是一样多的,即整个样本(X1,⋯,Xn)所含信息量为nI(θ)。
C-R不等式
单参数C-R不等式
定理1:设F={f(x;θ),θ∈Θ}是C-R正则分布族,g(θ)是定义在参数空间Θ上的可微函数,设X=(X1,X2,⋯,Xn)是由总体f(x;θ)∈F中抽取的简单随机样本,g^(X)是g(θ)的任一无偏估计,且满足下列条件: ∫⋯∫g^(x)f(x,θ)dx 可在积分号下对θ求导数,此出dx=dx1⋯dxn,则有: D[g^(X)]≥nI(θ)(g^′(θ))2,∀θ∈Θ(2) 其中,I(θ)为Fisher信息量。
特别地,当g^(θ)=θ时,式(2)变成 >D[g^(X)]≥nI(θ)1,∀θ∈Θ(3) 当f(x;θ)为离散概率分布列时,式(2)变成 >D[g^(X)]≥ni∑{[∂θ∂logf(xi;θ)]2f(xi;θ)}(g^′(θ))2,∀θ∈Θ(4)
证明:C-R不等式的证明本质上是柯西-施瓦茨不等式的应用。
首先,在概率论中,柯西-施瓦茨不等式形式为: Var(X)⋅Var(Y)≥[Cov(X,Y)]2 我们再来看看C-R不等式,式(2): D[g^(X)]≥nI(θ)(g^′(θ))2,∀θ∈Θ 和柯西施瓦茨不等式对比下,D[g^(X)]是方差。根据概率统计随机过程之最大似然估计拓展笔记中的内容,可知nI(θ)其实是分数函数的方差。前面多了一个n是因为,此时有n个i.i.d简单抽样出来的随机变量,是多维随机变量场景。
为了阐述清晰,在这里我们在写一遍关于分数函数S(x)的相关证明。由于随机样本中每一样品都是i.i.d的,所以有f(x;θ)=i=1∏nf(xi;θ),那么分数函数可记 S(x;θ)=∂θ∂logf(x;θ)=i=1∑n∂θ∂logf(xi;θ)(5) 使用和概率统计随机过程之最大似然估计拓展中一样的方法,可知: E[S(x;θ)]=i=1∑nE[∂θ∂logf(xi;θ)]=i=1∑n∫f(xi;θ)1∂θ∂f(xi;θ)⋅f(xi;θ)dxi=i=1∑n∫∂θ∂f(xi;θ)dxi=i=1∑n∂θ∂∫f(xi;θ)dxi=i=1∑n∂θ∂1=0 注意,C-R正则族的条件(2)保证了导数的存在,条件(4)保证了积分、微分顺序可交换。由于分数函数的期望为0,因此分数函数的方差为 D[S(x;θ)](xi都是i.i.d)=D[i=1∑n∂θ∂logf(xi;θ)]=i=1∑nD[∂θ∂logf(xi;θ)]=i=1∑n{E[(∂θ∂logf(xi;θ))2]−(=0E[∂θ∂logf(xi;θ)])2}=n⋅E[(∂θ∂logf(xi;θ))2]=nI(θ) 由上可知,nI(θ)是分数函数的方差。那么式(2)可转换为要证: D[g^(X)]⋅D[S(X;θ)]≥(g^′(θ))2,∀θ∈Θ 再将上式和柯西-施瓦茨不等式对比下,发现区别就是将g^′(θ)换成g^(X)与S(X;θ)的相关系数。注意,g^′(θ)是关于θ的函数,而g^(X)与S(X;θ)的相关系数会将X消掉,只剩下θ。下面我们就来验证这一点: Cov(g^(X),S(X;θ))=E[g^(X)⋅S(X;θ)]−E[g^(X)]=0E[S(X;θ)]=E[g^(X)⋅S(X;θ)]=∫⋯∫g^(x)(∂θ∂logf(xi;θ))f(x;θ)dx=∫⋯∫g^(x)∂θ∂f(x;θ)dx=∂θ∂E[g^(X)]∫⋯∫g^(x)f(x;θ)dx∵g^(X)是g(θ)的任一无偏估计∴E[g^(X)]=g(θ)=∂θ∂g(θ)=g′(θ) 即,Cov(g^(X),S(X;θ))=g′(θ)。这样C-R不等式就完全转变成了柯西-施瓦茨不等式的形式。C-R不等式得证。
C-R不等式表明,在给定分布族、样本后,我们的估计能力是有限的,无论用什么估计方式,其方差最小也是C-R不等式给出的结果。如果希望方差无限小,唯一的途径就是样本数量无限大。
单参数C-R不等式等号成立条件
- 若样本分布族非指数族,任何g(θ)的任何无偏估计,其方差不能处处达到C-R不等式下界。这意味着,非指数族就没法用C-R不等式来求证UMVUE。
- 即使样本的总体是指数族,f(x;θ)=C(θ)expQ(θ)T(x)h(x),也不是让和g(θ)都能找到无偏估计g^(X),使其方差处处达到C-R下界。唯有g(θ)=E[aT(X)+b]时才有,即g^(X)=aT(X)+b(线性函数)的情形才有,此处a=0,b与X无关,但可以是θ的函数。
从上面两个条件,我们不能发现:用C-R不等于求UMVUE是很受限的。
多参数C-R不等式
TODO用到时再说。
C-R不等式应用
求UMVUE
当分布族满足正则分布族条件时,我们可以计算nI(θ)g′(θ)。然后再计算估计量的方差D[g^(X)]。如果二者相等,且估计量是无偏估计,那么此估计量就是UMVUE。
这个方法对于指数族都是很好用的,因为指数族都是C-R正则分布族,而且可以求出费舍尔信息。但是,其缺点也很明显。一是因为很多分布族不满足C-R正则条件;二是一些UMVUE的实际方差确实比C-R不等式给出的更大,因此即使一个估计量方差大于C-R下界,那它也可能是UMVUE。即C-R不等式是必要条件,不是充分条件。
估计的效率和有效性
无偏估计的效率定义很简单,就是C-R界与估计方差的比值:
定义2:无偏估计的效率。设g^(X)为g(θ)的无偏估计,比值 eg^(θ)=D[g^(X)][g′(θ)]2/nI(θ) 称为无偏估计g^(X)的效率。
显然,根据C-R不等式必有0<eg^(θ)≤1。
- 当eg^(θ)=1,则称g^(X)是g(θ)的有效估计(UMVUE)(有效估计是UMVUE,但是UMVUE不一定是有效估计);
- 若g^(X)不是g(θ)的有效估计,但是n→∞limeg^(θ)=1,则称g^(X)是g(θ)的渐进有效估计。
虽然有效估计是无偏估计中最好的,但是从常用分布来看有效估计并不多,渐进有效估计不少。
在渐进正态性中的应用
在一定条件下,最大似然估计具有渐进正态性。我们将通过如下定理阐释。需要指出的是,定理是以连续分布的形式给出,但是对于离散场景也是适用的。
设p(x;θ)是某密度函数,其参数空间Θ={θ}是直线上的非退化区间(即不是一个点),假如:
- 对一切θ∈Θ,p(x;θ)对θ如下偏导都存在:∂θ∂lnp,∂θ2∂2lnp,∂θ3∂3lnp
- 对一切θ∈Θ,有∣∂θ∂lnp∣<F1(x),∣∂θ2∂2lnp∣<F2(x),∂θ3∂3lnp<H(x)成立,其中F1(x)与F2(x)在实数轴上可积,而H(x)满足:∫−∞∞H(x)p(x;θ)<M,这里M与θ无关。
- 对一切θ∈Θ,有0<I(θ)=E[(∂θ∂lnp)2]<+∞
则在参数真值θ为参数空间Θ内点的情况下,其似然方程有一个解存在,且此解θ^n=θ(x1,x2,⋯,xn)依概率收敛于θ,且: θ^n∼AN(θ,[nI(θ)]−1)
这个定理的意义在于给定了最大似然分布有渐进正态性的条件,其中渐进方差(体现大样本效率)完全由样本数量n和分布的费舍尔信息量I(θ)决定,且费舍尔信息量越大(分布中含有θ)的信息越多,渐进方差在同等样本数量下越小,从而最大似然估计效果越好。