概率统计随机过程之参数估计

概率统计随机过程之参数估计

统计推断三大内容:抽样分布、参数估计(点估计、区间估计)与假设检验

参数估计的核心思想:用抽样出来的样本构造函数(统计量)来尝试近似实际分布的参数。

点估计

估计量:在参数估计大类的点估计中,那么用于估计未知参数的统计量称为点估计(量),简称为估计(量)

估计一个具体的数值,实际比较困难。我们用样本来构造一个函数 \[ \hat\theta = \Theta(X),X=(x_1,\dotsb,x_n) \] 用以计算参数\(\theta\),由于是估计值所以用\(\hat\theta\)表示。其中\(X=(x_1,\dotsb,x_n)\)为容量为n的样本。有时也用\(\hat g(\theta)\)表示,因为有时要估计的不是\(\theta\),而是\(\theta\)的某个函数。

具体可参见笔记《概率统计随机过程之数理统计常用概念》中统计量与估计量那一小节。

具体方法:

  1. 矩估计
  2. 最大似然估计(MLE)
  3. 贝叶斯估计(MAP等)
  4. LSE(MMSE)
  5. ……

点估计的优良性准则

  1. 无偏性。\(E(\hat\theta)=\theta\)(样本方差的系数\(n-1\)就是这里的无偏性得出来的)
  • \(\hat\theta\)\(\theta\)的无偏估计,但是\(g(\hat\theta)\)不一定是\(g(\theta)\)的无偏估计。例如说明1。
  1. 有效性。估计值的方差越小越好。\(D(\hat\theta_1)\leq D(\hat\theta_2)\)\(\hat\theta_1\)更好。波动性小,无偏情况下,更可能接近于真实值。
  2. 相合性(一致性)。\(\lim_{n\rightarrow \infty} P(|\hat\theta-\theta|<\varepsilon)=1\),取的样本越多,越趋近于真实值。
  3. 渐进正态性(大样本性质)。体现了估计量随样本数量趋近于真实值的速度。

说明1:样本方差\(S^2\)\(\sigma^2\)的无偏估计,但是\(\sqrt{(S^2)}\)不是\(\sqrt{\sigma^2}\)的无偏估计。

说明2:无偏性+有效性(尽量小方差)=一致最小方差无偏估计(UMVUE)

说明3:无偏性和相合性是两个方面的性质,无偏性是概率性质,相合性是统计性质,无偏不一定相合。

具体可参见笔记《概率统计随机过程之数理统计常用概念》中估计量的评价指标那一小节。

矩估计

核心思想:近似替代。用样本的矩代替总体的矩,用样本矩的函数估计总体矩的相应函数。就把样本当总体。

理论基础是格涅坚科大数定理(原始数据用原点矩估计)

总体的矩 <-----> 样本的矩
一阶 \(E(X)\) <-----> 一阶 \(\bar X = {1\over n}\sum X_i\)
二阶 \(E(X^2)\) <-----> 二阶 \(A_2 = {1\over n}\sum X_i^2\)
\(\vdots\) \(\vdots\) \(\vdots\)

同时有: \[\begin{aligned} &\hat \mu = \bar X\\ &\hat \sigma^2 = A_2 - \hat \mu^2 =B_2(二阶中心矩) \end{aligned} \] 不难发现,中心矩可以用原点矩来表示。

矩估计存在的要求

  1. 该分布的k阶矩是存在的
  2. 估计量或其函数\(g(\theta)\)可以写成各阶矩组成的函数,即\(g(\theta)=G(\underbrace{\alpha_1,\alpha_2,\dotsb,\alpha_k}_{k原点矩},\underbrace{\mu_2,\mu_3,\dotsb,\mu_s}_{s阶中心矩})\),则\(g(\theta)\)可以用样本矩的函数\(\hat g(X)=G(a_1,a_2,\dotsb,a_k,m_2,\dotsb,m_s)\)进行矩估计,其中\(a_i,s_i\)分别是\(i\)阶样本原点矩和中心矩。

矩估计的一般步骤

  1. 求出一些矩。一般情况下,原分布中有几个未知参数,就需要几阶矩估计。(有时也确定需要哪些矩)
  2. \(\theta\)\(g(\theta)\)用矩表示(表示方法不唯一,可以根据UMVUE准则判断优劣,即要无偏,方差要小)。
  3. 替换矩(样本矩→总体矩,\(\hat\theta = \varTheta(X)→\theta\)\(\hat g(X)→g(\theta)\))。

矩估的特点

  1. 简单。
  2. 一般矩估计是渐进无偏的。由于原点矩都是无偏的,中心距是渐进无偏的;只有当估计量是原点矩的线性组合时,才是无偏估计。
  3. 没有运用到总体的分布信息,准确性稍差。而且要求总体的矩一定存在。
  4. 矩估计不唯一,取决于\(\theta\)\(g(\theta)\)如何被各阶矩表示。
  5. 相合性:略

极大似然估计

核心思想:概率大的事件比概率小的事件更容易发生。要估计的参数能够使产生这个样本的概率最大

步骤:

  1. 总体的概率/密度函数。
  2. 写出似然估计函数\(L(\lambda)\)
  3. 两边取\(\ln\),即为\(\ln(L(\lambda))\)
  4. \(\lambda\)求导(多参数估计就是偏导),令导数为0。

TIPS:对于有些分布的极大似然估计没法直接求,比如均匀分布。

似然函数取对数的原因:

  1. 减少计算量。乘法变成加法,从而减少了计算量;同时,如果概率中含有指数项,如高斯分布,能把指数项也化为求和形式,进一步减少计算量;另外,在对联合概率求导时,和的形式会比积的形式更方便。
  2. 计算时更准确。为概率值都在[0,1]之间,因此,概率的连乘将会变成一s个很小的值,可能会引起浮点数下溢,尤其是当数据集很大的时候,联合概率会趋向于0,非常不利于之后的计算。

需要指出的是:取对数不影响单调性\[ p(x|\theta_1)>p(x|\theta_2)\Leftrightarrow \ln(p(x|\theta_1))>\ln(p(x|\theta_2)) \] 因为相同的单调性,它确保了概率的最大对数值出现在与原始概率函数相同的点上。因此,可以用更简单的对数似然来代替原来的似然。

最大似然估计的不变原理

我们介绍一个致使最大似然估计得到广泛应用的定理。

定理1(不变定理):设\(X\sim p(x;\theta),\;\theta\in\mathcal{\Theta}\),若\(\theta\)的最大似然估计为\(\hat\theta\),则对任意函数\(\gamma=g(\theta)\)\(\gamma\)的最大似然估计为\(\hat\gamma=g(\hat\theta)\)

这个定理的条件很宽,致使最大似然估计的应用也会广泛。在函数\(g(\theta)\)非单调的时候,它的证明需要测度论的内容,暂时不予证明。

点估计的有效性详解

我们在前面提到过可以用估计值的方差来代表估计的有效性,但是这有一个前提条件:需要该估计为无偏估计。这样估计值才能紧密散布在真值周围,如果是估计值偏差较大,方差很小,那只会猜到一个错误的位置。如果用图像表示无偏与方差的关系,如下图:

点估计偏差与方差

点估计偏差与方差

从上图中,我们可以看出:第一幅子图中,当无偏估计且方差很小时,估计点密布在真值周围,我们可以用取平均的方法贴近真实值;如果像第二个子图中,是有偏估计,而方差又很小,那么我们有很大可能会得到一个错误的估计。第二行的两个子图是方差较大的情况,我们可以观察到,无偏估计在方差较大时,点比较散,因此会增大估计误差;而有偏估计在方差较大时,反而可能比小方差时表现的更好。

下面我们给出无偏估计有效性的精确定义:

\(\hat\theta_1=\hat\theta_1(x_1,x_2,\dotsb,x_n)\)\(\hat\theta_2=\hat\theta_2(x_1,x_2,\dotsb,x_n)\)都是参数\(\theta\)的无偏估计,如果: \[\mathrm{Var}(\hat\theta_1)\leq \mathrm{Var}(\hat\theta_2),\forall \theta\in \varTheta\] 且至少对一个\(\theta_0\in\varTheta\),有严格不等号成立,则称\(\hat\theta_1\)\(\hat\theta_2\)有效。

那么对于有偏估计,我们要如何评价它的优劣呢?有偏估计与无偏估计相比,除了随机散布造成的方差时存在的,还有与真实值之间的系统性偏差。由于随机造成的误差有正有负,因此我们用平方的方式来去除正负的影响(用绝对值也可以叫平均绝对误差,不过平方有更好的运算性质)。

在此,我们定义有偏估计的有效性:

\(\hat\theta_1=\hat\theta_1(x_1,x_2,\dotsb,x_n)\)\(\hat\theta_2=\hat\theta_2(x_1,x_2,\dotsb,x_n)\)都是参数\(\theta\)的估计量,如果: \[E(\hat\theta_1-\theta)^2\leq E(\hat\theta_2-\theta)^2,\forall \theta\in \varTheta\] 且至少对一个\(\theta_0\in\varTheta\),有严格不等号成立,则称在均方误差意义下\(\hat\theta_1\)优于\(\hat\theta_2\)。其中,\(E(\hat\theta_i-\theta)^2\)称为\(\theta_i\)d的均方误差,常记为\(MSE(\hat\theta_i)\)

根据定义不难发现,如果\(\hat\theta_i\)是无偏估计,那么均方误差等于方差,即\(MSE(\hat\theta)=Var(\hat\theta)\)。我们可以将均方误差的式子做如下变换: \[\begin{aligned} MSE(\hat\theta)&=E(\hat\theta-\theta)^2=E\{[\hat\theta-E(\hat\theta)]+[E(\hat\theta)-\theta]\}^2\\ &=E[(\hat\theta-E(\hat\theta))^2]+[E(\hat\theta)-\theta]^2\\ &=\mathrm{Var}(\hat\theta)+\delta^2 \end{aligned} \] 其中,我们将\(\delta=|E(\hat\theta)-\theta|\)称为(绝对)偏差,它体现了估计\(\hat\theta\)与真实值\(\theta\)之间的系统误差。由此可见,均方误差\(MSE(\hat\theta_i)\)可以分解成系统误差和随机误差两部分两部分组成。无偏性可以让偏差\(\delta\)为0,有效性指标等同于要求方差最小化,而有偏估计则要求二者之和越小越好。假如有一个有偏估计其均方误差比任一个无偏估计的方差还小,则此种有偏估计应予以肯定。如下例子所示:

有偏估计MSE例子.png

有偏估计MSE例子.png

可惜的是,参数的一切可能估计组成的估计类中一致最小均方误差估计不存在。

思想实验:为什么参数的一切可能估计组成的估计类中一致最小均方误差估计不存在?

如果一个估计\(\theta^*\)为一致最小均方误差,那么对于其他任意对于\(\theta\)的估计方法\(\tilde{\theta}\)在参数空间\(\varTheta\)上都有\(MSE(\theta^*)\leq MSE(\tilde{\theta})\)。问题就出自两个任意上,一是任意估计方法,二是\(\forall\theta\in\varTheta\);这两个要求太严格了。我们来设计这样一个场景:参数的真值为\(\theta_0\),有一个奇葩的估计方式\(\tilde{\theta}_0\),无论给出什么样本,其估计结果都是\(\theta_0\)(固定值完全消除了样本随机性带来的随机性,导致方差为0)。尽管这个估计方式对于\(\varTheta\)中除了真实值为\(\theta_0\)的情况,一无是处,但是我们不能否认在真实值为\(\theta_0\),这个估计很完美(绝对误差为0)。此时,\(MSE(\tilde{\theta}_0)=0\)。而一致最小均方误差\(\theta^*\)要满足\(MSE(\theta^*)\leq MSE(\tilde{\theta})\),那么\(\theta^*\)必须是方差为0,偏差为0,那么只能让\(\theta^*=\tilde{\theta}_0\)。那么对于\(\varTheta\)中的任意\(\theta_i\)都可以构造类似的奇葩估计:无论给出什么样本,其估计结果都是\(\theta_i\)。根据\(MSE(\theta^*)\leq MSE(\tilde{\theta})\),又必须让\(\theta^*=\tilde\theta_i\)。那么对于不同\(\theta_i\),一致最小均方误差估计\(\theta^*\)根本不是同一个估计方式,所以一致最小均方误差估计不存在。

对此,我们的处理方式是将需要将估计方式范围缩小一些,做出一些限制,例如要求估计方法都必须是无偏的。此时产生一类非常重要的估计类:一致最小方差无偏估计,简称UMVUE。

一致最小方差无偏估计

我们前面已经分析过,均方误差在无偏估计中会简化为方差,此时一致最小均方误差估计简化为一致最小方差无偏估计。仿照前面的形式,我们给出一致最小方差无偏估计的定义:

一致最小方差无偏估计:在参数估计\(\mathcal{F}=\{f(x,\theta),\theta\in\varTheta\}\)中,如果\(\hat\theta\)是参数\(\theta\)无偏估计,如果对另外任意一个\(\theta\)无偏估计\(\tilde{\theta}\),在参数空间\(\varTheta\)上都有: \[\mathrm{Var}(\hat\theta)\leq \mathrm{Var}(\tilde{\theta})\] 则称\(\hat{\theta}\)\(\theta\)一致最小方差无偏估计,简记为UMVUE(Uniformly minimum variance unbiased estimation)

需要指出,有些参数可能不存在无偏估计,即UMVUE可能也不存在。如果参数的无偏估计存在,我们称此参数为可估参数。为什么加上无偏之后,一致最小方差估计就可以存在了呢?前面我们提到两个任意上,一是任意估计方法,二是\(\forall\theta\in\varTheta\),这两个要求太严格。无偏其实是对第一个任意的限制,缩小了估计类范围,把很多奇葩的估计方法(如上文提到的\(\tilde{\theta}_0\)方法)排除在外。

显然,在给定样本数量后,从无偏性和有效性两个角度,UMVUE是最优解,下面我们给出三个求UMVUE的方法。第一个是零无偏估计法,第二个是充分完全统计量法,第三个用了C-R不等式(单拎出来介绍)。下面我们分别介绍。

改进一个无偏估计

假设我们已经知道了一个无偏估计,有没有办法能够优化它的方差呢?我们先介绍一种改进无偏估计的方法——Rao–Blackwell定理。

定理2(Rao–Blackwell定理):设\(T=T(x)\)是样本\(x\)关于参数\(\theta\)充分统计量\(\hat\theta(x)\)\(\theta\)的一个无偏估计,即\(E[\hat\theta(x)]=\theta\),则 \[h(T)=E[\hat\theta(x)|T]\]\(\theta\)的无偏估计,并且 \[D[h(T)]\leq D[\hat\theta(x)]\] 其中当且仅当\(P(\hat\theta(x))=h(T)=1\),即\(h(T)=\hat\theta(x)\),a.s. P成立。

我们先解释下\(h(T)=E[\hat\theta(x)|T]\),从条件期望的\(E(X|Y)\)可知,我们是对\(X\)求期望,会将\(X\)的随机性抹去,\(E(X|Y)\)实际上是关于\(Y\)的随机变量函数,即\(f(Y)=E(X|Y)\),当\(Y=y\)时,函数的值就确定了。因此\(h(T)=E[\hat\theta(x)|T]\)就是一个关于\(T\)的随机变量函数\(h(T)\)。这个定理的关键就是说,这样的复合函数\(h\cdot T\)\(\theta\)的无偏估计,且方差比原来的无偏估计\(\hat\theta(x)\)小。

\(h\cdot T\)\(\theta\)的无偏估计这点用重期望公式可以证明: \[ E[h(T)]=E[E(\hat\theta(x)|T)]=E[\hat\theta(x)] \] 由于\(\hat\theta(x)\)\(\theta\)的一个无偏估计,所以\(E[h(T)]=E[\hat\theta(x)]=\theta\),即\(E[h(T)]\)也是\(\theta\)的一个无偏估计。

对于方差的证明,我们需要用一个小技巧: \[ \begin{aligned} D[\hat\theta(x)]&=E\{\hat\theta(x)-E[\hat\theta(x)]\}^2\\ &=E\{\hat\theta(x)\underbrace{-h(T)+h(T)}_{引入h(T)}-\underbrace{E[\hat\theta(x)]}_\theta\}^2\\ &=E[\hat\theta(x)-h(T)]^2+\underbrace{E[h(T)-\theta]^2}_{D[h(T)]}+2\{E[h(T)-\theta][\hat\theta(x)-h(T)]\} \end{aligned} \] 前面两项好理解,需要处理一下交叉相乘的最后一项。我们可以根据重期望公式将其换种写法: \[ E\{[h(T)-\theta][\hat\theta(x)-h(T)]\}=E_T\{E[(h(T)-\theta)(\hat\theta(x)-h(T))|T]\}\\ 当T=t为给定的条件时,h(T)为一常数\\ 原式=E_T\{(h(T)-\theta)E[\hat\theta(x)-h(T)|T]\}=E_T\{(h(T)-\theta)\{E[\hat\theta(x)|T]-h(T)\}\}\\ \] 在式子的最后,我们发现有一项\(E[\hat\theta(x)|T]\),而这正是\(h(T)\)的定义啊,所以必有 \[ E_T\{(h(T)-\theta)\underbrace{\{E[\hat\theta(x)|T]-h(T)\}}_{E[\hat\theta(x)|T]=h(T)}\}=0 \] 因此,\(2\{E[h(T)-\theta][\hat\theta(x)-h(T)]\}=0\)\(D[\hat\theta(x)]\)可以写成: \[ D[\hat\theta(x)]=E[\hat\theta(x)-h(T)]^2+D[h(T)]\geq D[h(T)],\forall \theta \in \varTheta \] 并且等号成立的条件是\(E[\hat\theta(x)-h(T)]^2=0\),即\(\hat\theta(x)=h(T)\)。这里再多解释一句,充分统计量\(T\)也是\(x\)的函数,所以前式具体应写为\(\hat\theta(x)=h(T(x))\)\(\hat\theta=h\cdot T\)

Rao–Blackwell定理的意义在于,如果我们能够找到一个充分统计量,那么就用\(E[\hat\theta(x)|T]\)可以改进任何\(\theta\)的无偏估计,得到\(h(T(x))\)。且在充分统计量存在的情况下,UMVUE一定是充分统计量的函数(除非相等),否则我们可以通过\(h(T)\)构造一个方差更小的无偏估计。

举个例子:设\(X=(X_1,\dotsb,X_n)\)是从两点分布族\(\{b(1,p):0<p<1\}\)中抽取的简单样本。显然\(X_1\)\(p\)的一个无偏估计,从前文可知\(T(X)=\sum_{i=1}^n X_i\)\(p\)的充分统计量,试利用\(T\)构造一个比\(X_1\)方差更小的无偏估计。

利用Rao–Blackwell定理可知,通过条件期望构造的无偏估计如下: \[ h(t)=E[X_1|T=t]=1\times P(X_1=1|T=t)+0\times P(X_1=0|T=t)\\ =E[X_1|T=t]=1\times P(X_1=1|T=t)=\frac{P(X_1=1,T=t)}{P(T=t)}\\ =\frac{P(X_1=1,X_2+\dots+X_n={t-1})}{P(T=t)}=\frac{p\cdot{n-1\choose{t-1}}p^{t-1}(1-p)^{n-t}}{{n\choose{t}}p^{t}(1-p)^{n-t}}\\ =\frac{t}{n}=\frac{\sum_{i=1}^n X_i}{n}=\bar{X} \] 显然,样本均值\(h(T)=\bar{X}\)也是\(p\)的无偏估计,且方差为\(p(1-p)/n\),而\(X_1\)的方差为\(p(1-p)\),只要当\(n\geq 2\)时,\(\bar{X}\)的方差就会小于\(X_1\)。然而,Rao-Blackwell定理能够通过充分统计量改进无偏估计统计量,却并没有告诉我们改进后的估计是否为UMVUE或者如何改进成UMVUE。为了判断一个统计量是否为UMVUE,我们先介绍一些判别方法。

零无偏估计法

定理3:设\(X=(x_1,x_2,\dotsb,x_n)\)是来自某总体的一个样本,\(\hat\theta(X)\)\(\theta\)的一个无偏估计,\(D[\hat\theta(X)]<\infty\),则\(\hat\theta\)\(\theta\)的UMVUE的充要条件是:

对任意一个满足\(E[\varphi(X)]=0\)\(\mathrm{Var}[\varphi(X)]<\infty\)\(\varphi(X)\),都有 \[\mathrm{Cov}(\hat\theta,\varphi)=0,\forall\theta\in\varTheta\]

其中,\(\varphi(X)\)是一个统计量,其期望为0,可称为零的无偏估计,这也是这个方法名字的由来。这个定理的常用解释为:\(\theta\)的UMVUE必与任何零的无偏估计线性不相关。反之,与任何零的无偏估计线性不相关的估计量,必然是\(\theta\)的UMVUE。

我们先证明这个定理的充分性,即\(\Rightarrow\) UMVUE

设有另一个\(\theta\)的无偏估计\(\tilde{\theta}(X)\),那么构造函数\(\varphi(X)=\hat\theta(X)-\tilde{\theta}(X)\),其期望为 \[E[\varphi(X)]=E[\hat\theta(X)-\tilde{\theta}(X)]=E[\hat\theta(X)]-E[\tilde{\theta}(X)]=\theta-\theta=0\] 方差为: \[\mathrm{Var}[\tilde\theta(X)]=E[\tilde\theta(X)-\theta]^2=E[(\tilde{\theta}(X)-\hat\theta(X))+(\hat\theta(X)-\theta)]^2\\ =\underbrace{E[(\tilde{\theta}(X)-\hat\theta(X))^2]}_{E(\varphi^2(X))}+\underbrace{E[(\hat\theta(X)-\theta)^2]}_{\mathrm{Var}(\hat\theta)}+2\underbrace{\mathrm{Cov}(\varphi(X),\hat\theta(X))}_{定理充分性体现:=0}\\ =\underbrace{E(\varphi^2(X))}_{\geq 0}+\mathrm{Var}(\hat\theta)\geq \mathrm{Var}(\hat\theta)\] 这表明,\(\hat\theta\)\(\theta\)的无偏估计中方差最小,即为UMVUE。

我们再证明定理的必要性,即UMVUE\(\Rightarrow \mathrm{Cov}(\hat\theta,\varphi)=0,\forall\theta\in\varTheta\)。我们采用反证法证明必要性。

\(\hat\theta(X)\)\(\theta\)的UMVUE,存在一个\(\varphi(X)\)满足\(E[\varphi(X)]=0\)\(\mathrm{Var}[\varphi(X)]<\infty\)。假设,在参数空间\(\varTheta\)中存在一个\(\theta_0\)使得\(\mathrm{Cov}(\varphi(X),\hat\theta(X))=a\neq 0\)。下面就是一系列神仙操作,令: \[ b=-\frac{\mathrm{Cov}(\varphi(X),\hat\theta(X))}{\mathrm{Var}[\varphi(X)])}=-\frac{a}{\mathrm{Var}[\varphi(X)])}\neq 0 \] 现在,构造一个\(X\)的估计\(\tilde{\theta}=\hat{\theta}+b\varphi(X)\),对其求期望可得\(E[\tilde{\theta}]=E[\hat{\theta}+b\varphi(X)]=E[\hat{\theta}]+bE[\varphi(X)]\),由于\(\varphi(X)\)期望为0,所以\(E[\tilde{\theta}]=\theta\),也是一个无偏估计,然而其方差为: \[\begin{aligned}\mathrm{Var}(\tilde{\theta})&=E[\hat{\theta}+b\varphi(X)-\theta]^2\\ &=E(\hat{\theta}-\theta)^2+b^2E[\varphi^2(X)]+2bE[(\hat{\theta}-\theta)\varphi(X)]\\ \because E(\hat{\theta}-\theta)^2&=\mathrm{Var}(\hat{\theta});E[\varphi^2(X)]=\mathrm{Var}[\varphi(X)]\\ \because E[(\hat{\theta}-\theta)\varphi(X)]&=E[(\hat{\theta}-\theta)(\varphi(X)-0)]= \mathrm{Cov}[\varphi(X),\hat\theta(X)]=a\\ 原式&=\mathrm{Var}(\hat{\theta})+b^2\mathrm{Var}[\varphi(X)]+2ab\end{aligned}\] 由于\(b=-\frac{a}{\mathrm{Var}[\varphi(X)])}\),因此\(b^2\mathrm{Var}[\varphi(x)]=\frac{a^2}{\mathrm{Var}[\varphi(x)]},\quad 2ab=\frac{-2a^2}{\mathrm{Var}[\varphi(x)]}\)。因此上式可化简为: \[ 原式=\mathrm{Var}(\hat{\theta})-\frac{a^2}{\mathrm{Var}[\varphi(X)]}<\mathrm{Var}(\hat{\theta}) \] 显然,此时\(\mathrm{Var}(\tilde{\theta})<\mathrm{Var}(\hat{\theta})\),即\(\hat\theta(X)\)并不是\(\theta\)的UMVUE,与前提矛盾。所以必有\(\mathrm{Cov}(\varphi(X),\hat\theta(X))=0\)

得证。

对于统计量\(\hat\theta(X)\),我们必须对任意的零无偏估计统计量\(\varphi(x)\)都要有\(\mathrm{Cov}(\hat{\theta},\varphi)=0\),这在证明时需要很多技巧,而且很多时候很难证明。但如果,我们能够证明这个统计量是个充分统计量,那么就可以有以下推论:

推论3-1:设\(T=T(X)\)\(\theta\)的充分统计量,\(h(T(X))\)\(\theta\)的一个无偏估计,且方差\(D[h(T(X))]<\infty\)。对任何充分统计量\(T\)的函数\(\delta(T)\),如果\(E[\delta(T)]=0\),必有 \[\mathrm{Cov}[h(T),\delta(T)]=E[h(T)\times\delta(T)]=0\] 那么,\(h(T(X))\)\(\theta\)的UMVUE。

此推论在充分统计量的条件下,将所有的零无偏估计缩小到零无偏的充分统计函数的函数。

充分完全统计量法

充分完全统计量法的核心是LS定理,它不仅给出了UMVUE的充分条件,还给出了唯一性和如何构造UMVUE的线索。

定理4(Lehmann-Scheff定理,简称LS定理):设\(X=(x_1,x_2,\dotsb,x_n)\)是来自总体\(\{f(x,\theta),\theta\in\varTheta\}\)的一个样本,\(\varTheta\)为参数空间,\(T(X)\)是参数\(\theta\)充分完全统计量,若\(\hat{g}(T(X))\)\(\theta\)的一个无偏估计,则\(\hat{g}(T(X))\)\(\theta\)唯一的UMVUE

注意,此处唯一是依概率1的唯一,即设\(\hat{g},\hat{g}_1\)\(\theta\)的两个估计量,若\(P(\hat{g}=\hat{g}_1)=1\),对一切\(\theta\in\varTheta\),则视\(\hat{g},\hat{g}_1\)为同一个估计量。

定理的证明:

先证利用统计量的完全性证明唯一性。

\(\hat{g}_1(T(X))\)\(\theta\)的任一无偏估计,令\(\delta(T(X))=\hat{g}(T(X))-\hat{g}_1(T(X))\),则\(E[\delta(T(X))]=E[\hat{g}(T(X))]-E[\hat{g}_1(T(X))]=0, \theta\in\varTheta\)。由于\(T(X)\)是完全统计量,而\(\delta(T(X))\)是其函数,根据信息处理过程中的信息量不增定理,\(\delta(T(X))\)也是完全统计量。

根据完全统计量的定义,\(E[\delta(T(X))]=0\),几乎处处成立(a.s.)时,\(\delta(T(X))=0\),即\(\hat{g}(T(X))=\hat{g}_1(T(X))\)几乎处处成立(a.s.)。又由于\(\hat{g}_1(T(X))\)的任意性,唯一性得证。

在唯一性得证的基础上,我们使用充分性证明方差最小。设\(\varphi(X)\)\(\theta\)任一无偏估计,令\(h(T(X))=E[\varphi(X)|T]\),由于\(T(X)\)时充分统计量,因此\(p(\varphi(X)|T)\)的概率分布与\(\theta\)无关,那么其期望\(h(T(X))=E[\varphi(X)|T]\)也与待估计参数无关,因此\(h(T(X))\)也是一个统计量。而由定理2,Rao–Blackwell定理可知: \[ E[h(T(X))]=E[E[\varphi(X)|T]]=E[\varphi(X)]=\theta,\forall \theta\in\varTheta\\ D[h(T(X))]\leq D[\varphi(X)],\forall \theta\in\varTheta \] 又因为由充分完全统计量构造出来的无偏估计是唯一的(唯一性),因此对任一\(\varphi(X)\)构造出来的\(h(T(X))=E[\varphi(X)|T]\),都等于\(\hat{g}(T(X))\)。综上可知有: \[\hat{g}(T(X)) \leq D[\varphi(X)],\forall \theta\in\varTheta\] 最小方差特性得证。

这个方法的核心是先找到个一个充分完全统计量,比如可以通过因子分解定理,指数族概率函数特性,定义等方式获得。当有了充分完全统计量后,可以有两个方法求UMVUE。

  1. 使用Rao–Blackwell定理。首先找个一个无偏估计\(\varphi(X)\),然后通过条件期望\(h(T)=E[\varphi(x)|T]\),得到充分统计量\(T\)的函数,且根据Rao–Blackwell定理,\(h(T)\)是无偏的。
  2. 直接使用充分统计量,构造\(\theta\)无偏估计的函数。适用于充分统计量与无偏估计关系比较简单的情形。

推论4-1:设\(X=(x_1,x_2,\dotsb,x_n)\)是来自指数族总体 \[f(\bm{x},\bm{\theta})=c(\bm\theta)\exp\left\{\sum_{j=1}^k \theta_j T_j(x)\right\}h(x),\bm\theta=(\theta_1,\dotsb,\theta_k)\in\varTheta^\star\]\(T(x)=(T_1(x),\dotsb,T_k(x))\),且自然参数空间\(\varTheta^\star\)作为\(R_k\)的自己有内点,且\(g(T(X))\)\(\theta\)的无偏估计,则\(g(T(X))\)\(\theta\)的唯一的UMVUE。

其实,根据指数族分布的性质可知,\(T(X)\)实际上就是充分完全统计量,因此只有找到一个函数\(g\)使\(g(T(X))\)无偏,那么根据定理4,它就是参数\(\theta\)的唯一的UMVUE。

Cramer-Rao(C-R)不等式与界

Cramer-Rao不等式是另一个判别无偏估计是否为UMVUE的方法,但是Cramer-Rao不等式有更深层的含义。

我们知道估计量始终会是一个随机变量,有自己的概率分布,而不是一个准确的值。Cramer-Rao除了给出了Cramer-Rao正则分布族这种费雪信息的存在条件,还有另一个更重要的贡献:C-R不等式,可以说给了统计学理论上的绝望。

C-R不等式,其实就是在说:统计,对真实的概率分布参数估计能力是有限的。举个不太恰当的类比,有点像量子理论中的测不准原理 (二者证明有相似之处哦)。C-R不等式告诉我们,无论我们如何抽样充足,无论我们统计方法如何科学,我们对参数的估计值,永远不可能无限逼近是逻辑上的真实值!

回到C-R不等式和UMVUE的关系上来,其思想如下:设\(\mathcal{U}_g\)\(\theta\)的一切无偏估计构成的集合,所有的这些\(\mathcal{U}_g\)中的无偏估计的方差必有一个下界(一定非负),这个下界称为C-R下界。如果\(\mathcal{U}_g\)中某一个估计量\(\hat g\)的方差达到了这个下界,则\(\hat{g}\)就一定是参数的UMVUE,当然会对样本分布族和\(\hat{g}\)有一些正则条件。当时,使用这种下界的方法,都一个缺点,即C-R不等式给出的下界经常比实际的下界更小一些。这一情况下,C-R不等式就无法判断UMVUE的存在性。此外,C-R不等式还有其他一些用处,比如计算估计的效率、有效估计等等。

具体C-R不等式的细节,见笔记《概率统计随机过程之C-R不等式》

区间估计

估计一个数值范围,核心要求:希望以尽可能大的概率落在尽可能小的区间内

置信区间与枢轴变量

  • 区间长度:越长概率越大,越不精确
  • 以多大概率落在区间中
  • 希望以尽可能大的概率落在尽可能小的区间内

需要指出的是,置信区间是指其能包括待估计参数的区间,而不是待估计参数落入区间的意思。待估计值是客观存在的。

枢轴变量:枢轴变量一般满足特定的分布,枢轴变量和待估计参数之间存在确定的函数关系,因此通过枢轴变量可以求出置信区间。

枢轴变量.jpg

枢轴变量.jpg

一个正态总体的期望和方差的区间估计

当我们从一个含有未知参数的正态分布\(N(\mu,\sigma^2)\)抽样时,可以通过抽样的样本对参数\(\mu,\sigma^2\)进行区间估计,分为以下四种情况。

一个正态总体的期望和方差的区间估计

一个正态总体的期望和方差的区间估计