概率统计随机过程之指数型分布族应用 Nov 9, 2021 · 概率统计随机过程 · 分享到: 概率统计随机过程之指数型分布族应用 在学习广义线性模型的时候,其各种模型都可以通过指数型分布族的形式来表示,而指数型分布族可以给出求原始分布均值和方差的统一形式,这在机器学习、数理统计中有重要作用。此外,本文还介绍了指数型分布族使用最大似然估计来估计参数的方法。 指数型分布族(指数族) 指数型分布族的向量化写法 指数型分布族的转换例子 伯努利分布的指数族形式 多类别分布的指数族形式 均值未知方差已知的高斯分布的指数族形式 均值方差皆未知的高斯分布的指数族形式 泊松分布的指数型分布族形式 指数族的期望与方差的统一形式 指数族的期望 指数族的方差 \(\\theta\)与\(\\eta\)的一一对应缘由 指数型分布族的最大似然估计 自然指数族 指数分散族 分散参数讨论 配分函数讨论 指数分散族的方差 指数型分布族(指数族) 指数型分布族是指数分布族的推广,囊括了正态分布族、二项分布族、伽马分布族、多项分布族常见分布等等。具体定义形式如下: 指数型分布族:一个概率分布族\(\mathfrak{p}=\{p_{\theta}(x);\theta∈\varTheta\}\)可称为指数型分布族,假如\(\mathfrak{p}\)中的分布(分布列或密度函数)都可表示为如下形式: \[p_\theta(x)=h(x)c(\theta)\exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)\right\}\tag{1}\] 其中,k为自然数;\(\theta\)可以是数字,也可以是向量。分布的支撑\(\{x:p(x)>0\}\)与参数\(\theta\)无关;诸\(c(\theta),c_1(\theta),\dotsb,c_k(\theta)\)是定义在参数空间\(\varTheta\)上的函数;诸\(T_1(x),\dotsb,T_k(x)\)是\(x\)的函数,称为充分统计向量,但\(T_1(x),\dotsb,T_k(x)\)线性无关。\(h(x)\)也只是\(x\)的函数,且\(h(x)>0\),通常是一个常数。 \(c(\theta)\)是作为归一化参数存在的,称为叫做配分函数(partition function)。 \[c(\theta)^{-1} = \int h(x) \exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)\right\} dx\] 此外,指数族还有另一种表述方式,就是将外面的\(c(\theta)\)放到指数符号中: \[p_\theta(x)=h(x)\exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)-A(\theta)\right\}\tag{2}\] 由于通常\(A(\theta)\)含有\(\log\)符号,该部分也称为“Log Partition Function”,易知\(A(\theta)=\ln c(\theta)\)。 如果我们使用向量值函数来表达指数型分布族可写为: \[p_\theta(x)=h(x)\exp\left\{\mathbf{C}^T(\theta)\mathbf{T}(x)-A(\theta)\right\}\tag{3}\] 从上述定义可知,一个分布族是不是指数型分布族的关键在于其概率分布能否改写为定义中方式。 指数型分布族的向量化写法 下面我们使用向量值函数将式(3)进行进一步改造。 向量值函数:有时也称为向量函数,是一个单变量或多变量的、值域是多维向量或者无穷维向量的集合的函数。向量值函数的输入可以是一个标量或者一个向量,输出是向量,定义域的维度和值域的维度是不相关的。 对于\(\theta\)的一系列函数\(c_1(\theta),c_2(\theta),\dotsb\)和充分统计量向量\(T_1(x),T_2(x),\dotsb\),我们写出列向量形式: \[ \mathbf{C}(\theta)=\begin{bmatrix}c_1(\theta)\\c_2(\theta)\\\vdots\\c_k(\theta)\end{bmatrix} \mathbf{T}(x)=\begin{bmatrix}T_1(x)\\T_2(x)\\\vdots\\T_k(x)\end{bmatrix} \] 那么式(3)可写成 \[ p(x;\theta)=h(x)\exp\left\{\mathbf{C}^T(\theta)\mathbf{T}(x)-A(\theta)\right\}\tag{4} \] 其中,\(\mathbf{C}(\theta),\mathbf{T}(x)\)都是向量值函数,\(h(x),A(\theta)\)都是普通函数。通常文章会把\(A(\theta)\)写成\(A(\mathbf{C}(\theta))\)的形式,这两种本质上是等价的,但是\(A(\mathbf{C}(\theta))\)的参数形式更加统一,为主流用法。由于\(\mathbf{C}(\theta)\)的计算结果本质上就是一个向量,我们可令向量值函数\(\mathbf{C(\theta)}=\eta\),那么式(4)可表示为: \[ p(x;\eta)=h(x)\exp\left\{\eta^T\mathbf{T}(x)-A(\eta)\right\}\tag{5} \] 这就是其他资料中的常见形式。其中\(\eta=\mathbf{C}(\theta)\),参数\(η\)通常叫做自然参数(natural parameter)或者标准参数(canonical parameter)。这里注明:\(A(\theta)\)与\(A(\eta)\)实际上是两个不同的函数,但是可以通过\(\eta=\mathbf{C}(\theta),\theta=\mathbf{C}^{-1}(\eta)\)进行互换,因此在后文对他们不做区分。此外,在指数族的期望与方差的统一形式一节中,我们还会证明为什么\(\eta,\theta\)是一一对应的,这里先写出这个引理。 引理1:在指数族中函数\(C(\cdot)\)总是单调连续的(存在逆函数),所以自然参数\(η\)和原始参数\(θ\)是存在一一映射关系的。 \[ \eta=\mathbf{C}(\theta)\\ \theta=\mathbf{C}^{-1}(\eta) \] 在指数型分布族中,使用标准参数\(η\)表示的公式形式称为指数族分布的标准形式(canonical form),在标准形式下,分布的参数是\(η\)。实际上,从原始分布向指数型分布转换的过程就是将\(\theta\)转换为\(\eta\)的过程,在下节中我们会用例子说明。 指数分布族的意义在于给了我们常见分布一个统一的形式,我们通过此形式得出的结论,可以推广到所有符合该形式的概率分布。指数族有以下特殊之处,可能有些内容暂时不会涉及。 指数族分布是唯一有共轭先验的分布族,这就简化了后验的计算 在特定的规范化条件下(regularity conditions),指数族分布是唯一有限规模充分统计量(finite-sized sufficient statistics)的分布族,这意味着可以将数据压缩称固定规模的浓缩概括而不损失信息 指数族分布是广义线性模型(generalized linear models)的核心 指数族分布也是变分推理(variational inference)的核心 指数型分布族的转换例子 伯努利分布的指数族形式 伯努利分布又叫两点分布或者0-1分布,是最简单的概率分布形式之一。常见伯努利分布写成: \[ p(x;p)=p^x(1-p)^{1-x},x\in\{0,1\} \] 转写为指数型分布族形式为: \[ \begin{aligned} p(x;p)&=\exp\{x\ln{p}+(1-x)\ln{(1-p)}\}\\ &=\exp\{x\ln(\frac{p}{1-p})+\ln{(1-p)}\} \end{aligned} \] 对照指数族的形式,有\(h(x)=1;c(p)=\ln(\frac{p}{1-p});T(x)=x;A(p)=-\ln n (1-p)\)。写成标准形式为: \[ p(x;\eta)=\exp\{\eta x-\ln(1+e^\eta)\} \] 标准参数\(\eta\)和原始参数\(p\)的关系为: \[ \eta=\ln(\frac{p}{1-p})\\ p=\frac{1}{1+e^{-\eta}}\tag{6} \] 其中\(\ln(\frac{p}{1-p})\)成为logit函数,其反函数\(\frac{1}{1+e^{-\eta}}\)称为sigmoid函数。如果我们得到了\(\eta\)就可以用sigmoid函数反推得到\(p\)。 多类别分布的指数族形式 伯努利分布中是只有两个取值的离散随机变量的概率分布,当随机变量的取值扩展到多个(大于2个并且有限集)的时候,就是称为多类别分布。比如掷一个均匀的骰子,就是6个等概率结果的多类别分布。假设多类别分布中共有\(m\)个类别,其概率分别为\(\theta_1,\theta_2,\dotsb,\theta_m\),那么其概率质量函数为: \[ p(x;\mathbf{\theta})=\prod_{i=1}^m \theta_i^{x_i}\\ \sum_{i=1}^m \theta_i=1\\ \sum_{i=1}^m x_i=1 \] 在一次实验的\(m\)个\(x_i\)中,只有被取到的那个\(x_i\)为1,其余的\(x_j\)都是0。我们将其改写成指数型分布族的形式: \[ p(x;\mathbf{\theta})=\exp\{\sum_{i=1}^m x_i\ln{\theta_i}\} \] 我们注意到,由于条件\(\sum_{i=1}^m \theta_i=1,\sum_{i=1}^m x_i=1,x_i=\{0,1\}\)的限制,实际上\(m\)个\(\theta_i,x_i\)都只有\(m-1\)个自由变量,最后的\(\theta_m,x_m\)可以用\(\theta_m=1-\sum_{i=1}^{m-1}\theta_i,x_m=1-\sum_{i=1}^{m-1}x_i\)表示。因此上面的等式可以改写为: \[ \begin{aligned} p(x;\mathbf{\theta})&=\exp\{\sum_{i=1}^{m-1} x_i\ln{\theta_i}+(1-\sum_{i=1}^{m-1}x_i)\ln{(1-\sum_{i=1}^{m-1}\theta_i)}\}\\ &=\exp\left\{\sum_{i=1}^{m-1} x_i\ln{\frac{\theta_i}{1-\sum_{j=1}^{m-1}\theta_j}}+\ln{(1-\sum_{i=1}^{m-1}\theta_i)}\right\}\\ 其中,&\theta_m=1-\sum_{j=1}^{m-1}\theta_j\\ &=\exp\left\{\sum_{i=1}^{m-1} x_i\ln{\frac{\theta_i}{\theta_m}}+\ln{\theta_m}\right\} \end{aligned} \] 对照向量化形式的指数型分布族形式,有\(h(x)=1;\mathbf{C}(\theta)=\begin{bmatrix}\ln(\theta_1/\theta_m)\\\ln(\theta_2/\theta_m)\\\vdots\\\ln(\theta_{m-1}/\theta_m)\end{bmatrix},\mathbf{T}(x)=\begin{bmatrix}x_1\\x_2\\\vdots\\x_{m-1}\end{bmatrix};A(\theta)=-\ln(1-\sum_{i=1}^{m-1}\theta_i)=-\ln(\theta_m)\)。 将其写成标准形式为: \[ p(x;\eta)=\exp\{\eta^T T(x)-\ln(\sum_{i=1}^me^{\eta_i})\} \] 其中,\(\eta=\mathbf{C}(\theta),A(\eta)=\ln(\sum_{i=1}^me^{\eta_i})\) 在\(\theta\)与\(\eta\)的换算中需要一个技巧,我们在\(\mathbf{C}(\theta)\)最后添加一项\(c_m(\theta)=\ln(\theta_m/\theta_m)\equiv 0\)。 PS:若我们将添加\(c_m(\theta)\)的\(\mathbf{C}(\theta)\)记为\(\mathbf{\hat{C}}(\theta)\),\(\mathbf{T}(x)\)最后也添加一项\(x_m\),记为\(\mathbf{\hat{T}}(x)\),由于\(c_m(\theta)=0\),因此\(\mathbf{\hat{C}}^T(\theta)\mathbf{\hat{T}}(x)=\sum_{i=1}^{m} x_i\ln{\theta_i}=\sum_{i=1}^{m-1} x_i\ln{\theta_i}=\mathbf{C}^T(\theta)\mathbf{T}(x)\)。因此,在此定义下,可以用后者替代前者得到更加工整的表达形式。 那么有: \[ \eta_i=c_i(\theta)=\ln(\frac{\theta_i}{\theta_m})\Rightarrow \theta_i=\theta_m e^{\eta_i}\\ \Rightarrow \sum_{i=1}^m \theta_i=\theta_m\sum_{i=1}^m e^{\eta_i}=1\\ \Rightarrow \theta_m=\frac{1}{\sum_{i=1}^m e^{\eta_i}}\\ \Rightarrow\theta_i=\theta_m e^{\eta_i}=\frac{e^{\eta_i}}{\sum_{i=1}^m e^{\eta_i}}\tag{7} \] 我们将上式称为softmax函数,普遍用于多分类问题。 均值未知方差已知的高斯分布的指数族形式 典型的高斯分布写成(方差\(\sigma^2\)已知): \[ p(x;\mu)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} \] 转写为指数族形式为: \[ p(x;\mu)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{1}{2\sigma^2}x^2\}\cdot\exp\{\frac{1}{2\sigma^2}(2\mu x-\mu^2)\} \] 对照指数族的形式,有\(h(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{1}{2\sigma^2}x^2\};c(\mu)=\frac{\mu}{\sigma^2};T(x)=x;A(\mu)=\frac{\mu^2}{2\sigma^2}\)。写成标准形式为: \[ p(x;\eta)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{1}{2\sigma^2}x^2\}\cdot\exp\{\eta x-\frac{\eta^2\sigma^2}{2}\} \] 当服从标准正态分布时,\(\sigma=1\Rightarrow\eta=\mu\)。 均值方差皆未知的高斯分布的指数族形式 如果高斯分布的均值和方差都是未知的,那么就需要使用多个线性不相关的充分统计量来表示指数型分布族: \[ \begin{aligned} p(x;\mu,\sigma^2)&=\frac{1}{(2\pi\sigma^2)^{1/2}} \exp[ -\frac{1}{2\sigma^2}(x-\mu)^2]\\ &=\frac{1}{(2\pi\sigma^2)^{1/2}} \exp[-\frac{1}{2\sigma^2} x^2 +\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2]\\ &=\frac{1}{(2\pi)^{1/2}} \exp[-\frac{1}{2\sigma^2} x^2 +\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2-\ln{\sigma}] \end{aligned} \] 对照指数族的形式,有\(h(x)=\frac{1}{(2\pi)^{1/2}}, \mathbf{C}=\begin{bmatrix}\mu/\sigma^2 \\-1/(2\sigma^2)\end{bmatrix},\mathbf{T}=\begin{bmatrix}x\\x^2\end{bmatrix},A(\mu,\sigma)=\frac{1}{2\sigma^2}\mu^2+\ln{\sigma}\)。 需要指出的是,一般情况下,我们在\(A(\mu,\sigma)\)中最好不要在使用原有的\(\mu,\sigma\),而是使用\(\mathbf{C}\)中的分量\(c_1=\mu/\sigma^2,c_2=-1/(2\sigma^2)\)表示,即 \[ A(\mathbf{C})=\frac{-c_1^2}{4c_2}-\frac{1}{2}\log(-2c_2)\tag{8.1} \] 所以,其指数型分布族表示形式为 \[ p(x;\mathbf{C})=\frac{1}{(2\pi)^{1/2}} \exp[\mathbf{C}^T(\mu,\sigma)\mathbf{T}(x)-A(\mathbf{C})] \] 在其他文献中,也有令\(h(x)=1\),然后把\(\frac{1}{(2\pi)^{1/2}}\)放到\(A(\mathbf{C})\)中的,即\(A(\mathbf{C})=\frac{-c_1^2}{4c_2}-\frac{1}{2}\log(-2c_2)-\frac{1}{2}\log(2\pi)\),这样是等价的。 泊松分布的指数型分布族形式 泊松分布的概率质量函数如下: \[ p(x;\theta)=\frac{\theta^x e^{-\theta}}{x!} \] 其中,\(x\)为正整数。将其改写为指数型分布族: \[ p(x;\theta)=\frac{1}{x!}\exp\{x\ln(\theta)-\theta\} \] 对照指数型分布族形式易知:\(h(x)=\frac{1}{x!},c(\theta)=\ln(\theta),T(x)=x,A(\theta)=\theta\)。根据\(\eta=c(\theta)\)显然有: \[ \eta=\ln(\theta)\\ \theta=e^{\eta} \] 此时,\(A(\eta)=e^{\eta}\)。 其他常见指数型分布族可参见维基百科词条。 由此可见,不少常见的分布如泊松分布、Beta分布、Gamma分布都是指数分布族中的一员。我们对指数族形式的推导都可以应用到这些概率分布上。 指数族的期望与方差的统一形式 指数族的期望 我们在定义指数型分布族时提过,\(A(\eta)\)作为Log配分函数(log partition function),实现了概率分布的归一化,即: \[ c(\theta)^{-1} = \int h(x) \exp\left\{\sum_{j=1}^k c_j(\theta)T_j(x)\right\} dx=e^{A(\theta)}\\ \Rightarrow A(\theta)=\ln\left\{\int h(x) \exp\left [\sum_{j=1}^k c_j(\theta)T_j(x)\right ] dx\right\} \] 由于\(\eta\)与\(\theta\)存在一一关系,我们用\(\eta\)替代\(\theta\)得到 \[ A(\eta)=\ln\left\{\int h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)] dx\right\} \] 指数族有一个特点,就是我们可以通过对\(A(η)\)求(偏)导来得到关于\(T(x)\)的矩,而一阶矩和二阶矩能够推导出概率分布的期望和方差。当\(T(x)=x\)或存在\(T_i(x)=x\)的分量时,我们就可以用求导或者求偏导得到关于\(x\)的期望和方差。具体做法如下,先\(A(\eta)\)求一阶导: \[ \begin{aligned} \frac{dA(\eta)}{d \eta}&=\frac{d}{d\eta}\ln\left\{\int h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)] dx\right\}\\ &=\frac{\int \mathbf{T}(x) h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)] dx}{\int h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)] dx}\\ &\because \int h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)] dx=e^{A(\eta)}\\ &=\int \mathbf{T}(x) h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)-A(\eta)] dx\\ &=E[\mathbf{T}(x)] \end{aligned}\tag{9} \] 可见,Log配分函数的一阶导就是\(T(x)\)的概率期望,显然当\(T(x)=x\)时,有\(E(T(x))=E(x)=\mu\)。对于伯努利分布、多项分布、泊松分布、高斯分布等这些\(T(x)=x\)的分布来说,\(A(\eta)\)的一阶导就是分布的均值\(\mu\)。 下面举两个例子。第一个多类别分布,其\(A(\eta)=\ln(\sum_{i=1}^me^{\eta_i})\),期望应该为\(\mathbf{\theta}=\begin{bmatrix}\theta_1\\\theta_2\\\vdots\\\theta_m\end{bmatrix}\)(很特殊,其期望是一个向量)。我们求\(A(\eta)\)的一阶导(\(\eta\)是向量,因此结果是向量导数)有: \[ \frac{d A(\eta)}{d\eta}=\frac{d \ln(\sum_{i=1}^me^{\eta_i})}{d\eta}=\frac{d\sum_{i=1}^me^{\eta_i}/d\eta}{\sum_{i=1}^me^{\eta_i}}\\ =\begin{bmatrix} \frac{e^{\eta_1}}{\sum_{i=1}^me^{\eta_i}}\\ \frac{e^{\eta_2}}{\sum_{i=1}^me^{\eta_i}}\\ \vdots\\ \frac{e^{\eta_m}}{\sum_{i=1}^me^{\eta_i}} \end{bmatrix}=\begin{bmatrix}\theta_1\\\theta_2\\\vdots\\\theta_m\end{bmatrix} \] 即\(\frac{d A(\eta)}{d\eta}=E[x]\)。 第二个例子,我们来看均值方差皆未知的高斯分布,有\(\eta=\mathbf{C}(\theta)\)中的分量\(\eta_1=c_1(\mu,\sigma)=\mu/\sigma^2,\eta_2=c_2(\mu,\sigma)=-1/2\sigma^2\)表示,即 \[ A(\mathbf{\eta})=\frac{-\eta_1^2}{4\eta_2}-\frac{1}{2}\log(-2\eta_2)\tag{8.2} \] 其\(T(x)=[x\quad x^2]^T\),如果我们仅对\(x\)那一项对应的\(\eta_1\)求偏导,就可以得到概率分布的均值: \[ \frac{\partial A(\eta)}{\partial \eta_1}=\frac{-2\eta_1}{4\eta_2}=\frac{-\mu/\sigma^2}{2\times (-{1\over 2\sigma^2})}=\mu \] 即\(\frac{\partial A(\eta)}{\partial \eta_1}=\mu\)。 指数族的方差 在一阶导数的基础上,我们可以求出\(A(\eta)\)的二阶导,由式(9)继续求(偏)导: \[ \begin{aligned} \frac{d^2A(\eta)}{d\eta^2}&=\frac{d}{d\eta}\int \mathbf{T}(x) h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)-A(\eta)] dx\\ &=\int \mathbf{T}(x) h(x) \frac{d}{d\eta}\{\exp[\mathbf{\eta}^T\mathbf{T}(x)-A(\eta)]\} dx\\ &=\int \mathbf{T}(x) h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)-A(\eta)](\mathbf{T}(x)-\underbrace{\frac{d}{d\eta}A(\eta))}_{E[T(x)]} dx\\ &=\int \mathbf{T}^2(x) h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)-A(\eta)] dx\\ &-E[\mathbf{T}(x)]\int \mathbf{T}(x) h(x) \exp[\mathbf{\eta}^T\mathbf{T}(x)-A(\eta)] dx\\ &=E[\mathbf{T}^2(x)]-E[\mathbf{T}(x)]^2\\ &=\mathrm{Var}[\mathbf{T}(x)] \end{aligned}\tag{10} \] 从上式可知,\(A(η)\)的二阶导数正好是\(T(x)\)的方差,对于\(T(x)=x\)的分布,就是概率分布的方差。 我们来看均值方差皆未知的高斯分布,对\(\eta_1\)求两次偏导: \[ \frac{\partial^2 A(\eta)}{\partial \eta_1^2}=\frac{-2}{4\eta_2}=\frac{-2}{4\times (-{1\over 2\sigma^2})}=\sigma^2 \] 显然就是高斯分布的方差。 我们再举一个泊松分布的例子,其\(A(\eta)=e^\eta\)。显然,其对\(\eta\)求任意阶导数,都是\(e^\eta=\theta\),而泊松分布的均值和方差也都是\(\eta\)。 \(\theta\)与\(\eta\)的一一对应缘由 我们发现现函数\(A(η)\)的二阶导数是\(T(x)\)的方差,我们都知道方差肯定是大于等于0的,一个函数的二阶导数大于等于0,证明这个函数是一个凸函数(convex,碗状的), 对于凸函数,其一阶导数单调递增。而其一阶导数正好又是\(\mu=E[T(x)]\),因此一阶导数结果\(\mu\)和函数自变量\(\eta\)是一一对应的,\(\eta\)可以用\(\mu\)的反函数表示。此外在指数型分布族中,\(\mu\)和原分布中的参数\(\theta\)有着很简单的关系,且是一一对应的。因此,\(\eta\)与参数\(\theta\)也是一一对应关系。总结来时就是: \[ \eta\stackrel{一一对应}{\longleftrightarrow}\mu\stackrel{一一对应}{\longleftrightarrow} \theta\tag{11} \] 指数型分布族的最大似然估计 现在我们讨论下指数族的最大似然估计,我们知道指数族的自然参数\(η\)和特定分布的原始参数\(θ\)是一一对应的,二者是存在可逆关系的,所有只要我们能估计出自然参数\(η\),就一定能通过逆函数\(c(⋅)^{−1}\)得到分布的真实参数\(θ\)的估计值,也就是说对于指数族,我们只需要推导自然参数的估计量\(\eta\)就能求出原始参数\(\theta\)。 我们在指数型分布族中同样可以使用最大似然估计来估计自然参数(标准参数)\(\eta\)。按照最大似然估计的套路(详细可见概率统计随机过程之最大似然估计拓展),我们需要假设这些样本都是独立同分布(i.i.d)的,用符号\(\mathcal{D}\)表示随机变量的一个观测样本集,样本容量是\(N\)。根据式(5)的指数型分布族表达式 \[ p(x;\eta)=h(x)\exp\left\{\eta^T\mathbf{T}(x)-A(\eta)\right\}\tag{5} \] 可得样本的联合概率密度为: \[ \begin{aligned} L(\eta;\mathcal{D})&=\prod_{k=1}^N \left\{h(x_k)\exp[\eta^T\mathbf{T}(x_k)-A(\eta)]\right\}\\ &=\prod_{k=1}^N h(x_k)\times\exp\left\{\eta^T\sum_{k=1}^N\mathbf{T}(x_k)-NA(\eta)\right\} \end{aligned}\tag{12} \] 对比一下,我们发现指数族分布的联合概率仍然是指数族,只是每一个部分有了变化: \[ h_{ML}(\mathbf{x})=\prod_{k=1}^N h(x_k)\\ \eta_{ML}=\eta\\ T_{ML}(\mathbf{x})=\sum_{k=1}^N\mathbf{T}(x_k)\\ A_{ML}(\eta)=NA(\eta) \] 除了标准参数\(\eta\)没有改变,其他部分都发生了变化,但总体还是属于指数型分布族。 按照最大似然估计的步骤,我们对式(12)取对数\(\ln(\log)\)有: \[ \begin{aligned} l(\eta;\mathcal{D})&=\ln(L(\eta;\mathcal{D}))\\ &=\sum_{k=1}^n\ln(h(x_k))+\eta^T \sum_{k=1}^N\mathbf{T}(x_k)-NA(\eta) \end{aligned}\tag{13} \] 接下来,为了求\(\eta\)的极值,我们对式(13)求\(\eta\)的导数并令其等于0: \[ \nabla_\eta l(\eta;\mathcal{D})=\sum_{k=1}^N\mathbf{T}(x_k)-N\nabla_\eta A(\eta)=0\\ \Rightarrow \nabla_\eta A(\eta)=\frac{1}{N}\sum_{k=1}^N\mathbf{T}(x_k)\tag{14} \] 由于\(\eta\)可能是向量,对于向量的导数,我们使用梯度\(\nabla_\eta\)表示。又由式(9)可知\(A(η)\)的一阶导数等于\(T(x)\)的期望\(E[T(x)]\),即\(E[T(x)]=\frac{d A(\eta)}{d \eta}=\nabla_\eta A(\eta)\),令其结果为\(\mu_{ML}\),结合公式(14)有: \[ \mu_{ML}=E[T(x)]=\frac{1}{N}\sum_{k=1}^N\mathbf{T}(x_k)\tag{15} \] 从式(15)可以看出,指数族分布\(T(x)\)期望值(均值参数\(\mu\))的最大似然估计等于样本的平均值。且均值参数的最大似然估计值,只和样本的统计量\(\sum_{k=1}^N=T(x_k)\)有关,而不再依赖样本的其它信息,所以\(\sum_{k=1}^N=T(x_k)\)(或者说\(T(x)\))是指数族的充分统计量。对于满足\(T(x)=x\)的分布,比如伯努利分布、多项式分布、泊松分布等等,样本的均值就是\(T(x)\)的均值,样本的均值就是均值参数的最大似然估计值。同理,对于单变量的高斯分布,样本的方差就是方差参数的最大似然估计值。 最后,我们结合式(11)知道,\(\eta,\mu,\theta\)是有一一对应关系的,可以通过函数和反函数相互计算。最大似然估计给出了\(μ_{ML}\)的估计值,我们就是可以换算出\(η_{ML},\theta_{ML}\)。 自然指数族 我们在式(5)中给出了指数型分布族的一般形式 \[ p(x;\eta)=h(x)\exp\left\{\eta^T\mathbf{T}(x)-A(\eta)\right\}\tag{5} \] 但是对于广义线性模型的应用场景而言,还是复杂了一些,因此有一种简化的自然指数族。在自然指数族中,\(\mathbf{T}(\mathbf{x})=\mathbf{x}\),不存在类似于\(x^2,x^3,\log(x),\frac{1}{x}\)这种带有函数关系的充分统计量,其可以简化写成: \[ p(x;\eta)=h(x)\exp\left\{\eta^T\mathbf{x}-A(\eta)\right\}\tag{16} \] 二项分布,负二项分布,伯努利分布,泊松分布,参数\(\alpha\)已知的Gamma分布,已知方差的高斯分布,参数\(\lambda\)已知的逆高斯分布(又称Wald分布)等都可以写成自然指数族形式,其他分布如卡方分布、Beta分布、帕累托分布,对数正态分布,一般正态分布,一般Gamma分布则无法写成自然指数族的形式。他们是否是自然指数族的核心就在于是不是充分统计量\(T(x)=x\)。 指数分散族 在自然指数族的基础上,研究者们为了方便探究分布的期望和方差,对自然指数族做了少些变形得到指数分散族。其处理方法是将自然指数族的规范形式(式(16))的规范(自然)参数\(\eta\)拆分成与位置(期望)相关的位置函数\(b(\vartheta)\)以及和方差相关的分散函数\(a(\phi)\)。其形式如下: \[ p(x;\vartheta)=\exp\{\frac{\vartheta^T x-b(\vartheta)}{a(\phi)}+c(x,\phi)\}\tag{17} \] 这种形式的指数族通常被称为指数分散族(exponential dispersion family,EDF),\(a(ϕ)\)称为分散函数(dispersion function),是已知的。\(ϕ\)称为分散参数(dispersion parameter)。\(\vartheta\)仍然叫自然参数(natural parameter)或者规范参数(canonical parameter),它和自然指数族中参数差了个系数,因为两种模式中\(\vartheta^T x,\eta^Tx\)的模式都是参数\(\times\)充分统计量,所以不难发现,实际上我们对自然参数做一个\(\frac{1}{a(\phi)}\)倍的缩放。 指数分散族形式本质上是对自然指数族的参数\(\eta\)进行了拆分,把期望参数和方差参数拆分开。使得自然参数\(\vartheta\)仅和期望\(μ\)相关,分散参数\(ϕ\)和分布的方差参数相关。分拆后,规范参数\(\vartheta\)仅和分布的期望参数\(μ\)相关,并且和\(μ\)之间存在一一映射的函数关系,换句话说,\(\vartheta\)和\(μ\)可以互相转化。 \[ \vartheta=f(\mu)\\ \mu=f^{−1}(\vartheta)\tag{18} \] 后面在配分函数\(b(\vartheta)\)的讨论中可以证明这一点。 分散参数讨论 \(a(ϕ)\)的函数形式并没有严格的要求,其函数形式并不重要。在大多数文献中,\(a(\phi)\)被定义为: \[ a_i(\phi)=\frac{\phi}{w_i} \] 其中\(w_i\)是观测样本的权重,一般是已知的。不同的样本可以拥有不同的权重值,比如进行参数估计时,对于某些样本设置成\(w_i=0\),这就相当于抛弃了这些样本。如果不需要对样本进行加权(大多数场景),那么直接令 \[ a(\phi)=\phi \] 即可。分散参数和分布的方差相关,它影响着方差的大小。此外,由于随机变量\(x\)不变,在指数分布族和自然分布族中,其自然参数之间差\(\frac{1}{a(\phi)}\)倍。 \[ \eta=\frac{\vartheta}{a(\phi)} \] 配分函数讨论 在指数分散族中,我们将\(b(\vartheta)\)也称为配分函数,和一般形态的配分函数\(A(\eta)\)显然有如下关系: \[ A(\eta)=\frac{b(\vartheta)}{a(\phi)} \] 在指数型分布族中,我们可以用\(A(\eta)\)的导数求出分布的矩,一阶导数是分布的期望,二阶导数是分布的方差。\(b(\vartheta)\)也有类似的作用。由于\(\eta=\frac{\vartheta}{a(\phi)},A(\eta)=\frac{b(\vartheta)}{a(\phi)}=\frac{b(\eta\cdot a(\phi))}{a(\phi)}\),所以概率分布的期望为: \[ E[X]=\frac{dA(\eta)}{d\eta}=\frac{d\frac{b(\vartheta)}{a(\phi)}}{d\eta}=\frac{d\frac{b(\vartheta)}{a(\phi)}}{d\frac{\vartheta}{a(\phi)}}\\ \Rightarrow E[X]=\frac{d b(\vartheta)}{d\vartheta}=b'(\vartheta)=\mu\tag{19} \] 同样的,我们可以推导出概率分布的方差: \[ \mathrm{Var}[X]=A''(\eta)=\frac{d^2\frac{b(\vartheta)}{a(\phi)}}{d[\frac{\vartheta}{a(\phi)}]^2}\\ 又\because A'(\eta)=b'(\vartheta)\\ \Rightarrow \mathrm{Var}[X]=\frac{d{b'(\vartheta)}}{d\frac{\vartheta}{a(\phi)}}=\frac{1}{a(\phi)}\frac{db'(\vartheta)}{d\vartheta}\\ \Rightarrow \mathrm{Var}[X]=a(\phi)b''(\vartheta)\tag{20} \] 由于\(b(\vartheta)\)是在\(A(η)\)的基础上拆分出去\(a(ϕ)\),所以\(b(\vartheta)\)的二阶导数不再等于分布的方差,需要再乘上\(a(ϕ)\)才能得到分布的方差。 从期望和方差的关系,我们能发现\(\vartheta\)与\(\mu\)也是一一对应关系。根据式(19)可知,\(\vartheta\)与\(\mu\)有函数关系,且由于\(b'(\vartheta)\)的导数\(b''(\vartheta)\)是方差(恒大于0)乘以一个已知数\(a(\phi)\)(式(20)结论),因此\(b'(\vartheta)\)的导数必然恒为正数或负数(取决于已知数\(a(\phi)\)),即\(b'(\vartheta)\)必为单调函数,而单调函数必存在反函数,推得必存在\(b'^{-1}\),使得\(\vartheta=b'^{-1}(\mu)\)。因此\(\vartheta\)与\(\mu\)是一一对应的。 指数分散族的方差 在指数分散族中,分布的方差可以表示成两部分的乘积,一部分是分散函数\(a(ϕ)\),另一部分是配分函数的二阶导数\(b''(\vartheta)\)。其中,函数\(b(\vartheta)\)是一个关于\(\vartheta\)的函数, 其二阶导数要么是一个常数,要么是一个关于自然参数\(\vartheta\)的函数。 而自然参数\(\vartheta\)和均值参数\(μ\)存在一一对应关系,所以一定可以把\(\vartheta\)替换成\(μ\)。 我们定义配分函数\(b(\vartheta)\)的二阶导数为方差函数(variance function),方差函数是一个关于期望\(μ\)的函数,即 \[ b''(\vartheta)=\nu(μ)\tag{21} \] 方差函数\(ν(μ)\)存在两种情况: 方差函数是一个常量值,\(ν(μ)=b''(\vartheta)=C\),此时分布的方差与均值无关。典型的分布就是正态分布。 方差函数是一个关于均值\(μ\)的函数,\(ν(μ)=b''(\vartheta)\),此时分布的方差与均值有关。 方差函数,是一个平滑函数,它把分布的均值参数\(μ\)和分布的方差关联在一起。如果其值一个常数值,说明均值和方差是独立无关的;反之,如果是\(μ\)的函数,说明均值和方差是相关联的。 例如,在高斯分布中,\(b''(\vartheta)=1\),所以方差和均值是相互独立的,对于其他分布,这是不成立的,高斯分布是特例。 影响方差的,除了方差函数\(ν(μ)\)以外,还有分散参数\(a(ϕ)=ϕ\),它起到一个缩放的作用。 参数\(\vartheta\)和\(ϕ\)本质上是位置和尺度参数,位置参数反映数据的均值,尺度参数反映数据方差。 常见分布的方差函数表