深度学习：Xavier and Kaiming Initialization

姜雪飞

137 人赞同了该文章

目前deep learning存在这样几种模型初始化策略：

Constant Initialization；
Random Initialization；
Xavier Initialization；
Kaiming Initialization；

下面简单介绍Constant Initialization和Random Initialization，重点推导Xavier和Kaiming初始化。

1. Constant Initialization

将神经网络中的模型全部初始化为某个常数，意味着将所有计算单元初始化为完全相同的状态，这会使每个计算单元对同一样例的输出和反向更新的梯度存在某种对称关系或甚至完全相同，导致神经网络的灵活性大打折扣。

2. Random Initialization

Random Initialization将每个计算单元初始化成不同的状态，但却无法很好选择概率模型中的超参数，例如正态分布 $W \sim N o r m a l (μ, σ^{2})$ 中的 $μ$ 和 $σ$ ，均匀分布 $W \sim U n i f o r m (a, b)$ 中的 $a$ 和 $b$ 。Xavier Initialization和Kaiming Initialization正是为了解决这个问题而提出的。

3. Xavier Initialization

Xavier Initialization和Kaiming Initialization的motivation是使信号强度（使用Variance度量）在神经网络训练的过程中保持不变。

下面以FC节点为例来说明，Conv计算同理。

1.1 Forward

$Y = W X + B$

其中， $Y$ 、 $W$ 、 $X$ 和 $B$ 为随机变量（Random Variable，简称r.v.），且 $w \in R^{u \times d}$ ， $x \in R^{d}$ ， $y, b \in R^{u}$ 。

要满足前向计算信号强度不变，就需要满足： $V a r (Y_{i}) = V a r (X_{j})$ 。

引入假设：

$W$ 、 $X$ 、 $B$ are independent of each other；
$W_{i j}$ i.i.d. and $E [W_{i j}] = 0$ （i.i.d.，独立同分布，independent and identically distributed，这里表示每个神经元之间相互独立，每个神经元内部的模型也相互独立。）
$B_{i}$ i.i.d. and $V a r (B_{i}) = 0$ ；
$X_{j}$ i.i.d. and $E [X_{j}] = 0$ ；

假设1说明输入数据和模型无相关性；假设2、3和4说明输入数据内部和模型内部的数据无相关性，且均值为0（个人认为后面3个假设过强，可能与实际情况不符）；

$\begin{aligned} V a r (Y_{i}) & = V a r (W_{i} X + B_{i}) \\ = V a r (\sum_{j = 1}^{d} W_{i j} X_{j} + B_{i}) \\ = d \times V a r (W_{i j} X_{j}) \\ = d \times (E [W_{i j}^{2}] E [X_{j}^{2}] - E^{2} [W_{i j}] E^{2} [X_{j}]) \\ = d \times V a r (W_{i j}) V a r (X_{j}) \end{aligned}$

其中， $d$ 是输入向量的维度。若要实现 $V a r (Y_{i}) = V a r (X_{j})$ ，则必须满足 $d \times V a r (W_{i j}) = 1$ ，即： $V a r (W_{i j}) = \frac{1}{d}$ ，进一步得出初始化方式：

若 $W_{i j}$ 服从正态分布，则 $W_{i j} \sim N o r m a l (0, \frac{1}{d})$ ；
若 $W_{i j}$ 服从均匀分布，则 $W_{i j} \sim U n i f o r m (- \sqrt{\frac{3}{d}}, \sqrt{\frac{3}{d}})$ ；

1.2 Backward

$Δ X = W^{T} Δ Y$

其中， $W$ 、 $Δ Y$ 和 $Δ X$ 是r.v.， $w \in R^{u \times d}$ ， $Δ y \in R^{u}$ ， $Δ x \in R^{d}$ 。

若要做到后向计算信号强度不变，就需要满足： $V a r (Δ X_{j}) = V a r (Δ Y_{i})$ 。

引入假设：

$Δ Y$ and $W$ are independent of each other；
$Δ Y_{i}$ i.i.d. and $E [Δ Y_{i}] = 0$ ；
$W_{i j}$ i.i.d. and $E [W_{i j}] = 0$ ；

同样，个人认为假设2和3过强了，可能与现实不符。

其中， $u$ 是FC这一层的神经元个数，也就是FC前向输出的维度。若要满足 $V a r (Δ X_{j}) = V a r (Δ Y_{i})$ ，必须保证 $u \times V a r (W_{i j}) = 1$ ，即 $V a r (W_{i j}) = \frac{1}{u}$ ，进一步得出初始化方式：

若 $W_{i j}$ 服从正态分布，则 $W_{i j} \sim N o r m a l (0, \frac{1}{u})$ ；
若 $W_{i j}$ 服从均匀分布，则 $W_{i j} \sim U n i f o r m (- \sqrt{\frac{3}{u}}, \sqrt{\frac{3}{u}})$ ；

1.3 取调和平均数

根据上面的推导可以看出，除非 $d = u$ ，否则我们无法同时保证前后向信号的Variance不发生变化，所以原论文中对 $V a r (W_{i j})$ 取了一个调和平均数： $V a r (W_{i j}) = \frac{2}{d + u}$ ，进一步得到模型初始化方式：

若 $W_{i j}$ 服从正态分布，则 $W_{i j} \sim N o r m a l (0, \frac{2}{d + u})$ ；
若 $W_{i j}$ 服从均匀分布，则 $W_{i j} \sim U n i f o r m (- \sqrt{\frac{6}{d + u}}, \sqrt{\frac{6}{d + u}})$ ；

4. Kaiming Initialization

Xavier初始化假设网络中没有激活函数，而激活函数会改变神经网络中流动数据的分布，Kaiming Initialization正是为了解决这个问题而提出的。

下面以FC + ReLU这个组合为例推导下Kaiming Initialization。ReLU激活函数如下图所示：

1.1 Forward

$Z = f (X)$

$Y = W Z + B$

其中， $X$ 、 $Z$ 、 $Y$ 、 $X$ 和 $B$ 为r.v.， $f$ 为ReLU激活函数，且 $w \in R^{u \times d}$ ， $x, z \in R^{d}$ ， $y, b \in R^{u}$ 。

在Xavier Initialization的基础上引入一条新假设：

$X_{j}$ has a symmetric distribution around zero；

若要做到前向计算信号强度不变，就需要满足： $V a r (Y_{i}) = V a r (X_{j})$ ，根据上面新加的假设有： $V a r (Z_{j}) = \frac{1}{2} V a r (X_{j})$ ，然后沿着Xaiver的逻辑推导得出：

若 $W_{i j}$ 服从正态分布，则 $W_{i j} \sim N o r m a l (0, \frac{2}{d})$ ；
若 $W_{i j}$ 服从均匀分布，则 $W_{i j} \sim U n i f o r m (- \sqrt{\frac{6}{d}}, \sqrt{\frac{6}{d}})$ ；

2.2 Backward

同理可推导Backward，需要指出的是FC前向的推导使用的是FC前面的激活函数，后向的推导应该使用FC后面的激活函数，这里也假设是ReLU，这里直接写出结论：

若 $W_{i j}$ 服从正态分布，则 $W_{i j} \sim N o r m a l (0, \frac{2}{u})$ ；
若 $W_{i j}$ 服从均匀分布，则 $W_{i j} \sim U n i f o r m (- \sqrt{\frac{6}{u}}, \sqrt{\frac{6}{u}})$ ；

2.3 其他激活函数

其他激活函数同理可推导，主要是理解激活函数对数据分布的影响，后面有时间再补充吧。

5. 总结

从数理统计角度出发去分析神经网络并不是一件轻松的事情，需要加上一些强假设才能够分析下去，而且这些假设往往与实际情况有出入，例如在推导Xaiver初始化方式时，前向我们假设 $X_{j}$ i.i.d，这几乎是不可能的，因为 $X$ 可能是上一个FC的结果，也就是同一个输入经过不同神经元的结果，必然会引入相关性；又如在多次迭代后， $W$ 的分布也必然发生变化，只能说影响较小。但是这个方法work了，accuracy也上去了，DL大法真是好！

深度学习（Deep Learning）