自然梯度(一):Fisher信息矩阵作为黎曼度量
在一般的梯度下降中,我们认为目标函数梯度的负方向可以最小化一步更新后的目标函数值,这里隐含地假设了参数空间是欧氏空间,且参数构成了一组正交归一的坐标系统。在很多情况下,这一假设是不成立的,作为结果,优化过程的收敛效率可能受到影响。 作为解决这一问题的一种思路,自然梯度使用Fisher信息矩阵(的逆)作为梯度的pre-conditioner来矫正梯度的方向。本文将分为两篇,在第一篇中,我们从Fisher信息矩阵(FIM)的定义出发,推导出Fisher矩阵与KL散度的关系,并建立如下结论:FIM可以作为概率模型的参数空间的一种黎曼度量。在第二篇中,我们推导自然梯度中为何引入FIM来修正梯度方向,以及自然梯度的一些性质。 Score function与FIM 假设我们有一个由$\theta$参数化的概率模型,模型分布为$p(x|\theta)$,记对数似然函数为$\ell(\theta|x):=\log p(x|\theta)$。与对数似然函数相关的有两个定义,score function和fisher information。 定义1(score function):score function $s(\theta|x)$被定义为对数似然函数关于参数$\theta$的梯度 $$ s(\theta|x)=\nabla_\theta \ell(\theta|x) $$ 一些文章会提到score function是用来为参数的好坏打分(score),这是不严谨的。score function中的「score」其实不是为参数打分,而是在Fisher研究的遗传统计问题中给基因异常家庭的「打分」(参见:Interpretation of “score”)。因此,score function只是约定俗成的一种名称,其实质就是似然函数的梯度,描述的是似然函数对于参数变化的敏感程度。 性质1:Score function期望为0 $$ \mathbb{E}_{p(x|\theta)}[s(\theta|x)]=\boldsymbol{0} $$ proof ...