旋转约束下的压缩:从 RoPE 到 DeepSeek MLA
Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...
Transformer 推理的一个核心瓶颈是 KV Cache:每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用,其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时,KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...
引言:一个尚未命名的瓶颈 给一张密集人群照片到任意 frontier 多模态模型,问「图里有多少人」,错误率会显著高于稀疏场景;给一张复杂电路图问空间位置关系,答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高,能看清每个细节。一个被反复观察到但很少被独立分析的现象是:模型在用自然语言构建多步思维链时,「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标,注意力随推理步数累积漂移。 ...
RoPE 优雅地解决了"用绝对编码实现相对位置"的问题,但它自身面临另一个挑战:当模型需要处理训练时未见过的更长序列时,位置编码会发生什么?这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键,在于苏剑林提出的一个深刻类比:RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...
引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...
位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变,这意味着同一个句子打乱词序后,自注意力的计算逻辑完全不变。然而语言的本质是序列性的,“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命,就是将序的结构注入一个天生无视顺序的机制中。 ...
Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...
1. 动机:传统几何重建在什么地方失效 一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声,IMU 漂移开始累积,前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题:相机相对于隧道结构的位姿是什么?前方 30 米处那个反射点距离车头多远? ...
Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...
在前两篇文章中,我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合,谱范数量化了最大拉伸因子,条件数决定了优化的难易程度。现在,我们将这些概念串联起来,理解一个正在改变大模型训练范式的优化器——Muon。 ...
Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析,系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优,而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...