2025  9

April  1

自定义CUDA kernel加速Muon优化器

2025-04-25 · Tianyang Lin

March  3

谱条件:如何衡量神经网络参数空间中的距离?

2025-03-31 · Tianyang Lin

简记:Muon中设计Newton-Schulz迭代的系数?

2025-03-08 · Tianyang Lin

从约束视角看深度学习优化若干新进展

2025-03-05 · Tianyang Lin

February  4

为什么LLM一般使用较大的权重衰减系数?

2025-02-26 · Tianyang Lin

Tensor Product Attention (TPA) 导读

2025-02-13 · Tianyang Lin

自然梯度(二):黎曼距离下的最速下降

2025-02-06 · Tianyang Lin

自然梯度(一):Fisher信息矩阵作为黎曼度量

2025-02-05 · Tianyang Lin

January  1

关于语言建模中的Tied Embeddings的一点探讨

2025-01-18 · Tianyang Lin