Polar Express:用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍
在 Muon 优化器:矩阵正交化驱动的梯度更新 中,我们建立了 msign 算子的数学骨架:把梯度矩阵 GG 投影到最近的正交矩阵 msign(G)=UVT\text{msign}(G) = UV^T,并用 Newton-Schulz 迭代避免完整的 SVD。这套方案已经在 Kimi K2 上实现了 2× 训练加速,但它有一个隐疾:Newton-Schulz 在矩阵奇异值跨度大时,前十几步几乎不动。 ...