Mathematics

旋转约束下的压缩：从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache：每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用，其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时，KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题，但它自身面临另一个挑战：当模型需要处理训练时未见过的更长序列时，位置编码会发生什么？这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键，在于苏剑林提出的一个深刻类比：RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

旋转位置编码的几何本质：从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变，这意味着同一个句子打乱词序后，自注意力的计算逻辑完全不变。然而语言的本质是序列性的，“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命，就是将序的结构注入一个天生无视顺序的机制中。 ...

Muon 优化器：矩阵正交化驱动的梯度更新

在前两篇文章中，我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合，谱范数量化了最大拉伸因子，条件数决定了优化的难易程度。现在，我们将这些概念串联起来，理解一个正在改变大模型训练范式的优化器——Muon。 ...

谱范数、条件数与优化景观

在上一篇文章中，我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布"，还定义了两个极其重要的量：谱范数和条件数。谱范数衡量矩阵的最大拉伸能力，条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度，谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...

奇异值分解与低秩近似：从矩阵压缩到 LoRA 微调

线性代数中，矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式，QR 分解揭示了正交性的力量，而奇异值分解（Singular Value Decomposition, SVD）则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求，却能揭示矩阵最本质的几何结构。 ...