2025  7

March  2

简记:Muon中设计Newton-Schulz迭代的系数?

2025-03-08 · Tianyang Lin

从约束视角看深度学习优化若干新进展

2025-03-05 · Tianyang Lin

February  4

为什么LLM一般使用较大的权重衰减系数?

2025-02-26 · Tianyang Lin

Tensor Product Attention (TPA) 导读

2025-02-13 · Tianyang Lin

自然梯度(二):黎曼距离下的最速下降

2025-02-06 · Tianyang Lin

自然梯度(一):Fisher信息矩阵作为黎曼度量

2025-02-05 · Tianyang Lin

January  1

关于语言建模中的Tied Embeddings的一点探讨

2025-01-18 · Tianyang Lin