Polar Express:用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍

在 Muon 优化器:矩阵正交化驱动的梯度更新 中,我们建立了 msign 算子的数学骨架:把梯度矩阵 GG 投影到最近的正交矩阵 msign(G)=UVT\text{msign}(G) = UV^T,并用 Newton-Schulz 迭代避免完整的 SVD。这套方案已经在 Kimi K2 上实现了 2× 训练加速,但它有一个隐疾:Newton-Schulz 在矩阵奇异值跨度大时,前十几步几乎不动。 ...

2026年5月18日 · 16 分钟 · LexHsu

Muon 优化器:矩阵正交化驱动的梯度更新

在前两篇文章中,我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合,谱范数量化了最大拉伸因子,条件数决定了优化的难易程度。现在,我们将这些概念串联起来,理解一个正在改变大模型训练范式的优化器——Muon。 ...

2026年3月14日 · 25 分钟 · LexHsu

谱范数、条件数与优化景观

在上一篇文章中,我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布",还定义了两个极其重要的量:谱范数和条件数。谱范数衡量矩阵的最大拉伸能力,条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度,谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...

2026年3月7日 · 11 分钟 · LexHsu

奇异值分解与低秩近似:从矩阵压缩到 LoRA 微调

线性代数中,矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式,QR 分解揭示了正交性的力量,而奇异值分解(Singular Value Decomposition, SVD)则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求,却能揭示矩阵最本质的几何结构。 ...

2026年2月28日 · 17 分钟 · LexHsu
访客 704 人次 · 访问 1065 次