Archive | nil9.net

2025 ¹⁰

May ¹

简记：Attention Logits究竟如何放缩？

2025-05-22 · Tianyang Lin

April ¹

自定义CUDA kernel加速Muon优化器

2025-04-25 · Tianyang Lin

March ³

谱条件：如何衡量神经网络参数空间中的距离？

2025-03-31 · Tianyang Lin

简记：Muon中设计Newton-Schulz迭代的系数？

2025-03-08 · Tianyang Lin

从约束视角看深度学习优化若干新进展

2025-03-05 · Tianyang Lin

February ⁴

为什么LLM一般使用较大的权重衰减系数？

2025-02-26 · Tianyang Lin

Tensor Product Attention (TPA) 导读

2025-02-13 · Tianyang Lin

自然梯度（二）：黎曼距离下的最速下降

2025-02-06 · Tianyang Lin

自然梯度（一）：Fisher信息矩阵作为黎曼度量

2025-02-05 · Tianyang Lin

January ¹

关于语言建模中的Tied Embeddings的一点探讨

2025-01-18 · Tianyang Lin