Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导(从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导)详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容,只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...

2025年9月13日 · 5 分钟 · LexHsu
访客 704 人次 · 访问 1065 次