nil9.net
archives
search
tags
Archive
2025
7
March
2
简记:Muon中设计Newton-Schulz迭代的系数?
2025-03-08
· Tianyang Lin
从约束视角看深度学习优化若干新进展
2025-03-05
· Tianyang Lin
February
4
为什么LLM一般使用较大的权重衰减系数?
2025-02-26
· Tianyang Lin
Tensor Product Attention (TPA) 导读
2025-02-13
· Tianyang Lin
自然梯度(二):黎曼距离下的最速下降
2025-02-06
· Tianyang Lin
自然梯度(一):Fisher信息矩阵作为黎曼度量
2025-02-05
· Tianyang Lin
January
1
关于语言建模中的Tied Embeddings的一点探讨
2025-01-18
· Tianyang Lin