概率统计随机过程之C-R不等式

Cramer-Rao不等式是另一个判别无偏估计是否为UMVUE的方法,但是Cramer-Rao不等式有更深层的含义。

我们知道估计量始终会是一个随机变量,有自己的概率分布,而不是一个准确的值。Cramer-Rao除了给出了Cramer-Rao正则分布族这种费舍尔信息的存在条件,还有另一个更重要的贡献:C-R不等式,可以说给了统计学理论上的绝望。

C-R不等式,其实就是在说:统计,对真实的概率分布参数估计能力是有限的。举个不太恰当的类比,有点像量子理论中的测不准原理 (二者证明有相似之处哦)。C-R不等式告诉我们,无论我们如何抽样充足,无论我们统计方法如何科学,我们对参数的估计值,永远不可能无限逼近是逻辑上的真实值!

回到C-R不等式和UMVUE的关系上来,其思想如下:设Ug\mathcal{U}_gθ\theta的一切无偏估计构成的集合,所有的这些Ug\mathcal{U}_g中的无偏估计的方差必有一个下界(一定非负),这个下界称为C-R下界。如果Ug\mathcal{U}_g中某一个估计量g^\hat g的方差达到了这个下界,则g^\hat{g}就一定是参数的UMVUE,当然会对样本分布族和g^\hat{g}有一些正则条件。当时,使用这种下界的方法,都一个缺点,即C-R不等式给出的下界经常比实际的下界更小一些。这一情况下,C-R不等式就无法判断UMVUE的存在性。此外,C-R不等式还有其他一些用处,比如计算估计的效率、有效估计等等。

C-R不等式成立需要样本分布族满足一些正则条件,适合这些条件的分布族称为C-R正则分布族

定义1:单参数Cramer-Rao正则分布族:若单参数概率分布族p(x;θ)p(x;\theta)θΘ\theta\in\varTheta属于Cramer-Rao正则分布族,则需要满足以下五个条件:

  1. 参数空间Θ\varTheta是直线上的开区间;
  2. p(x;θ)θ\frac{\partial p(x;\theta)}{\partial\theta}对所有θΘ\theta\in\varTheta都存在;
  3. 分布的支撑{x:p(x;θ)>0}\{x:p(x;\theta)>0\}θ\theta无关,即分布族具有共同的支撑;
  4. p(x;θ)p(x;\theta)的微分与积分运算可交换;
  5. 对所有θΘ\theta\in\varTheta,期望 0<I(θ)=E[(lnp(x;θ)θ)2]<+(1)0<I(\theta)=E[(\frac{\partial\ln p(x;\theta)}{\partial\theta})^2]<+\infty\tag{1} 其中,I(θ)I(\theta)为分布p(x;θ)p(x;\theta)中含有θ\theta费舍尔信息量,简称信息量。

上面,我们用式(1)定义了费舍尔信息量。其具体解释可以理解为样本中关于θ\theta有多少信息。I(θ)I(\theta)越大,意味着样本中含有位置参数θ\theta的信息越多,该参数越容易估计。I(θ)I(\theta)也可解释成单个样品提供的信息量,由于简单抽样中,各个样品是i.i.d的,故每个样品提供的信息量I(θ)I(\theta)也是一样多的,即整个样本(X1,,Xn)(X_1,\dotsb,X_n)所含信息量为nI(θ)nI(\theta)

定理1:设F={f(x;θ),θΘ}\mathcal{F}=\{f(x;\theta),\theta\in\varTheta\}是C-R正则分布族,g(θ)g(\theta)是定义在参数空间Θ\varTheta上的可微函数,设X=(X1,X2,,Xn)X=(X_1,X_2,\dotsb,X_n)是由总体f(x;θ)Ff(x;\theta)\in\mathcal{F}中抽取的简单随机样本,g^(X)\hat g(X)g(θ)g(\theta)的任一无偏估计,且满足下列条件: g^(x)f(x,θ)dx\int\dotsb\int \hat{g}(\bm{x})f(\bm{x},\theta)\mathrm{d}\bm{x} 可在积分号下对θ\theta求导数,此出dx=dx1dxn\mathrm{d}\bm{x}=\mathrm{d}x_1\dotsb\mathrm{d}x_n,则有: D[g^(X)](g^(θ))2nI(θ),θΘ(2)D[\hat{g}(X)]\geq \frac{(\hat g'(\theta))^2}{nI(\theta)},\forall \theta\in \varTheta\tag{2} 其中,I(θ)I(\theta)为Fisher信息量。

特别地,当g^(θ)=θ\hat g(\theta)=\theta时,式(2)变成 >D[g^(X)]1nI(θ),θΘ(3)D[\hat{g}(X)]\geq \frac{1}{nI(\theta)},\forall \theta\in \varTheta\tag{3}f(x;θ)f(x;\theta)为离散概率分布列时,式(2)变成 >D[g^(X)](g^(θ))2ni{[logf(xi;θ)θ]2f(xi;θ)},θΘ(4)D[\hat{g}(X)]\geq \frac{(\hat g'(\theta))^2}{n\sum\limits_i\left\{[\frac{\partial\log{f(x_i;\theta)}}{\partial\theta}]^2f(x_i;\theta)\right\}},\forall \theta\in \varTheta\tag{4}

证明:C-R不等式的证明本质上是柯西-施瓦茨不等式的应用。

首先,在概率论中,柯西-施瓦茨不等式形式为: Var(X)Var(Y)[Cov(X,Y)]2\mathrm{Var}(X)\cdot\mathrm{Var}(Y)\geq[\mathrm{Cov}(X,Y)]^2 我们再来看看C-R不等式,式(2): D[g^(X)](g^(θ))2nI(θ),θΘD[\hat{g}(X)]\geq \frac{(\hat g'(\theta))^2}{nI(\theta)},\forall \theta\in \varTheta 和柯西施瓦茨不等式对比下,D[g^(X)]D[\hat{g}(X)]是方差。根据概率统计随机过程之最大似然估计拓展笔记中的内容,可知nI(θ)nI(\theta)其实是分数函数的方差。前面多了一个nn是因为,此时有nn个i.i.d简单抽样出来的随机变量,是多维随机变量场景。

为了阐述清晰,在这里我们在写一遍关于分数函数S(x)S(\bm{x})的相关证明。由于随机样本中每一样品都是i.i.d的,所以有f(x;θ)=i=1nf(xi;θ)f(\bm{x};\theta)=\prod\limits_{i=1}^n f(x_i;\theta),那么分数函数可记 S(x;θ)=logf(x;θ)θ=i=1nlogf(xi;θ)θ(5)S(\bm{x};\theta)=\frac{\partial\log{f(\bm{x};\theta)}}{\partial\theta}=\sum_{i=1}^n \frac{\partial\log{f(x_i;\theta)}}{\partial\theta}\tag{5} 使用和概率统计随机过程之最大似然估计拓展中一样的方法,可知: E[S(x;θ)]=i=1nE[logf(xi;θ)θ]=i=1n1f(xi;θ)f(xi;θ)θf(xi;θ)dxi=i=1nf(xi;θ)θdxi=i=1nθf(xi;θ)dxi=i=1n1θ=0\begin{aligned} E[S(\bm{x};\theta)]&=\sum_{i=1}^n E[\frac{\partial\log{f(x_i;\theta)}}{\partial\theta}]=\sum_{i=1}^n \int\frac{1}{f(x_i;\theta)}\frac{\partial f(x_i;\theta)}{\partial\theta}\cdot f(x_i;\theta)\mathrm{d}x_i\\ &=\sum_{i=1}^n \int\frac{\partial f(x_i;\theta)}{\partial\theta}\mathrm{d}x_i=\sum_{i=1}^n \frac{\partial }{\partial\theta}\int f(x_i;\theta)\mathrm{d}x_i=\sum_{i=1}^n \frac{\partial 1}{\partial\theta}=0 \end{aligned} 注意,C-R正则族的条件(2)保证了导数的存在,条件(4)保证了积分、微分顺序可交换。由于分数函数的期望为0,因此分数函数的方差为 D[S(x;θ)]=D[i=1nlogf(xi;θ)θ]=i=1nD[logf(xi;θ)θ]=i=1n{E[(logf(xi;θ)θ)2](E[logf(xi;θ)θ]=0)2}(xi都是i.i.d)=nE[(logf(xi;θ)θ)2]=nI(θ)\begin{aligned} D[S(\bm{x};\theta)]&=D[\sum_{i=1}^n \frac{\partial\log{f(x_i;\theta)}}{\partial\theta}]=\sum_{i=1}^n D[\frac{\partial\log{f(x_i;\theta)}}{\partial\theta}]\\ &=\sum_{i=1}^n \{E[(\frac{\partial\log{f(x_i;\theta)}}{\partial\theta})^2]-(\underbrace{E[\frac{\partial\log{f(x_i;\theta)}}{\partial\theta}]}_{=0})^2\}\\ (x_i都是i.i.d)&=n\cdot E[(\frac{\partial\log{f(x_i;\theta)}}{\partial\theta})^2]=nI(\theta) \end{aligned} 由上可知,nI(θ)nI(\theta)是分数函数的方差。那么式(2)可转换为要证: D[g^(X)]D[S(X;θ)](g^(θ))2,θΘD[\hat{g}(X)]\cdot D[S(X;\theta)]\geq (\hat g'(\theta))^2,\forall \theta\in \varTheta 再将上式和柯西-施瓦茨不等式对比下,发现区别就是将g^(θ)\hat g'(\theta)换成g^(X)\hat g(X)S(X;θ)S(X;\theta)的相关系数。注意,g^(θ)\hat g'(\theta)是关于θ\theta的函数,而g^(X)\hat g(X)S(X;θ)S(X;\theta)的相关系数会将XX消掉,只剩下θ\theta。下面我们就来验证这一点: Cov(g^(X),S(X;θ))=E[g^(X)S(X;θ)]E[g^(X)]E[S(X;θ)=0]=E[g^(X)S(X;θ)]=g^(x)(logf(xi;θ)θ)f(x;θ)dx=g^(x)f(x;θ)θdx=θg^(x)f(x;θ)dxE[g^(X)]g^(X)g(θ)的任一无偏估计E[g^(X)]=g(θ)=g(θ)θ=g(θ)\begin{aligned} \mathrm{Cov}(\hat{g}(X),S(X;\theta))&=E[\hat{g}(X)\cdot S(X;\theta)]-E[\hat{g}(X)]\underbrace{E[S(X;\theta)}_{=0}]\\ &=E[\hat{g}(X)\cdot S(X;\theta)]\\ &=\int\dotsb\int \hat{g}(\bm{x})(\frac{\partial\log{f(x_i;\theta)}}{\partial\theta})f(\bm{x};\theta)\mathrm{d}\bm{x}\\ &=\int\dotsb\int \hat{g}(\bm{x})\frac{\partial f(\bm{x};\theta)}{\partial \theta}\mathrm{d}\bm{x}\\ &=\frac{\partial}{\partial \theta}\underbrace{\int\dotsb\int \hat{g}(\bm{x})f(\bm{x};\theta)\mathrm{d}\bm{x}}_{E[\hat{g}(X)]}\\ &\because \hat g(X)是g(\theta)的任一无偏估计\\ &\therefore E[\hat g(X)]=g(\theta)\\ &=\frac{\partial{g(\theta)}}{\partial{\theta}}=g'(\theta) \end{aligned} 即,Cov(g^(X),S(X;θ))=g(θ)\mathrm{Cov}(\hat{g}(X),S(X;\theta))=g'(\theta)。这样C-R不等式就完全转变成了柯西-施瓦茨不等式的形式。C-R不等式得证。

C-R不等式表明,在给定分布族、样本后,我们的估计能力是有限的,无论用什么估计方式,其方差最小也是C-R不等式给出的结果。如果希望方差无限小,唯一的途径就是样本数量无限大。

  1. 若样本分布族非指数族,任何g(θ)g(\theta)的任何无偏估计,其方差不能处处达到C-R不等式下界。这意味着,非指数族就没法用C-R不等式来求证UMVUE。
  2. 即使样本的总体是指数族,f(x;θ)=C(θ)expQ(θ)T(x)h(x)f(\bm{x};\theta)=C(\theta)\exp{Q(\theta)T(\bm x)}h(\bm x),也不是让和g(θ)g(\theta)都能找到无偏估计g^(X)\hat{g}(X),使其方差处处达到C-R下界。唯有g(θ)=E[aT(X)+b]g(\theta)=E[aT(X)+b]时才有,即g^(X)=aT(X)+b\hat{g}(X)=aT(X)+b(线性函数)的情形才有,此处a0,ba\neq 0,bXX无关,但可以是θ\theta的函数。

从上面两个条件,我们不能发现:用C-R不等于求UMVUE是很受限的

TODO用到时再说。

当分布族满足正则分布族条件时,我们可以计算g(θ)nI(θ)\frac{g'(\theta)}{nI(\theta)}。然后再计算估计量的方差D[g^(X)]D[\hat g(X)]。如果二者相等,且估计量是无偏估计,那么此估计量就是UMVUE。

这个方法对于指数族都是很好用的,因为指数族都是C-R正则分布族,而且可以求出费舍尔信息。但是,其缺点也很明显。一是因为很多分布族不满足C-R正则条件;二是一些UMVUE的实际方差确实比C-R不等式给出的更大,因此即使一个估计量方差大于C-R下界,那它也可能是UMVUE。即C-R不等式是必要条件,不是充分条件。

无偏估计的效率定义很简单,就是C-R界与估计方差的比值:

定义2:无偏估计的效率。设g^(X)\hat{g}(X)g(θ)g(\theta)的无偏估计,比值 eg^(θ)=[g(θ)]2/nI(θ)D[g^(X)]e_{\hat{g}}(\theta)=\frac{[g'(\theta)]^2/nI(\theta)}{D[\hat{g}(X)]} 称为无偏估计g^(X)\hat{g}(X)的效率。

显然,根据C-R不等式必有0<eg^(θ)10<e_{\hat{g}}(\theta)\leq 1

  • eg^(θ)=1e_{\hat{g}}(\theta)=1,则称g^(X)\hat{g}(X)g(θ)g(\theta)有效估计(UMVUE)(有效估计是UMVUE,但是UMVUE不一定是有效估计);
  • g^(X)\hat{g}(X)不是g(θ)g(\theta)的有效估计,但是limneg^(θ)=1\lim\limits_{n\rightarrow \infty}e_{\hat{g}}(\theta)=1,则称g^(X)\hat{g}(X)g(θ)g(\theta)渐进有效估计

虽然有效估计是无偏估计中最好的,但是从常用分布来看有效估计并不多,渐进有效估计不少。

在一定条件下,最大似然估计具有渐进正态性。我们将通过如下定理阐释。需要指出的是,定理是以连续分布的形式给出,但是对于离散场景也是适用的。

p(x;θ)p(x;\theta)是某密度函数,其参数空间Θ={θ}\varTheta=\{\theta\}是直线上的非退化区间(即不是一个点),假如:

  1. 对一切θΘ\theta\in\varThetap(x;θ)p(x;\theta)θ\theta如下偏导都存在:lnpθ,2lnpθ2,3lnpθ3\frac{\partial\ln p}{\partial\theta},\frac{\partial^2\ln p}{\partial\theta^2},\frac{\partial^3\ln p}{\partial\theta^3}
  2. 对一切θΘ\theta\in\varTheta,有lnpθ<F1(x),2lnpθ2<F2(x),3lnpθ3<H(x)|\frac{\partial\ln p}{\partial\theta}|<F_1(x),|\frac{\partial^2\ln p}{\partial\theta^2}|<F_2(x),\frac{\partial^3\ln p}{\partial\theta^3}<H(x)成立,其中F1(x)F_1(x)F2(x)F_2(x)在实数轴上可积,而H(x)H(x)满足:H(x)p(x;θ)<M\int_{-\infty}^\infty H(x)p(x;\theta)<M,这里MMθ\theta无关。
  3. 对一切θΘ\theta\in\varTheta,有0<I(θ)=E[(lnpθ)2]<+0<I(\theta)=E[(\frac{\partial\ln p}{\partial \theta})^2]<+\infty

则在参数真值θ\theta为参数空间Θ\varTheta内点的情况下,其似然方程有一个解存在,且此解θ^n=θ(x1,x2,,xn)\hat\theta_n=\theta(x_1,x_2,\dotsb,x_n)依概率收敛于θ\theta,且: θ^nAN(θ,[nI(θ)]1) \hat\theta_n\sim AN(\theta,[nI(\theta)]^{-1})

这个定理的意义在于给定了最大似然分布有渐进正态性的条件,其中渐进方差(体现大样本效率)完全由样本数量nn和分布的费舍尔信息量I(θ)I(\theta)决定,且费舍尔信息量越大(分布中含有θ\theta)的信息越多,渐进方差在同等样本数量下越小,从而最大似然估计效果越好。