旋转约束下的压缩:从 RoPE 到 DeepSeek MLA
Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...
Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...
引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...
本文聚焦工程视角。 MLA 的数学推导(从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导)详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容,只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...