行归一化取代 Muon?
Prologue 最近有一些工作认为使用行归一化对梯度矩阵做 Precondition,可以替代 Muon 的正交化达到接近甚至超越的结果。例如前段时间 Yiping 做的Row/Column Normalization and Hyperparameter Transfer。虽然论文给了一些有趣的理论结果,但是当时我对他们的实验 setting 是有一些质疑的。最近又有新的工作RMNP,声称使用行归一化达到了超越 Muon 的结果。 事实果真如此吗?按照笔者的经验,行归一化的效果其实跟 Adam 更接近,没有超越 Muon。本篇文章以 RMNP 为例来讨论下。 RMNP 假设梯度的 Momentum 矩阵是 $V_t$,Muon 使用: $$ \Delta W\propto (V_tV_t^\top)^{-1/2}V_t. $$ 而 RMNP 的作者认为,因为 $V_tV_t^\top$ 大概率是一个对角主导的矩阵(对角线元素远大于非对角线元素),因此可以用如下的近似: $$ \Delta W\propto \operatorname{diag}(V_tV_t^\top)^{-1/2}V_t. $$ 这等价于对 Momentum 矩阵每一行单独归一化。 这个假设不难理解,实际上就是非常经典的维度灾难的问题,我对作者的这个假设先按下不表。看看作者的实验效果如何: RMNP 实验效果 这里有个很有意思的结论,作者从“行归一化与正交化在高维下渐进等价”这个角度出发,用行归一化取代 Muon,取得了超越 Muon 的结果。这就好像「在模仿吴亦凡的比赛中吴亦凡获得了第二名」,听起来令人匪夷所思。 渐进等价的逻辑漏洞 RMNP 的核心逻辑是:因为 $$ V_tV_t^\top \approx \operatorname{diag}(V_tV_t^\top), $$ 所以可以用后者替代前者,效果差不多。这里其实有一个比较明显的漏洞,即便对称矩阵 $A$ 如果在 rms norm 的意义下近似于一个对角矩阵 $D$,使用 $A^{-1/2}$ 和 $D^{-1/2}$ 作为 preconditioner 的效果却可能差之千里。 ...