Spectral-Norm

Muon 优化器：矩阵正交化驱动的梯度更新

在前两篇文章中，我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合，谱范数量化了最大拉伸因子，条件数决定了优化的难易程度。现在，我们将这些概念串联起来，理解一个正在改变大模型训练范式的优化器——Muon。 ...

谱范数、条件数与优化景观

在上一篇文章中，我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布"，还定义了两个极其重要的量：谱范数和条件数。谱范数衡量矩阵的最大拉伸能力，条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度，谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...