Xu'Blog

旋转约束下的压缩：从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache：每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用，其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时，KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

DeepSeek 以视觉原语思考：让多模态大模型学会「用手指着推理」

引言：一个尚未命名的瓶颈给一张密集人群照片到任意 frontier 多模态模型，问「图里有多少人」，错误率会显著高于稀疏场景；给一张复杂电路图问空间位置关系，答案常在多步推理中漂移1。这不一定是感知问题——大多数前沿模型的视觉编码器分辨率足够高，能看清每个细节。一个被反复观察到但很少被独立分析的现象是：模型在用自然语言构建多步思维链时，「左边那个大的」「靠近中央的红色物体」这类模糊描述在密集场景中无法精确锚定目标，注意力随推理步数累积漂移。 ...

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题，但它自身面临另一个挑战：当模型需要处理训练时未见过的更长序列时，位置编码会发生什么？这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键，在于苏剑林提出的一个深刻类比：RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

X-Cache：小鹏自动驾驶世界模型的推理加速 Infra

引言：世界模型的 Infra 瓶颈自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA（Vision-Language-Action）系统。在这个新范式中，世界模型（World Model）正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

旋转位置编码的几何本质：从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变，这意味着同一个句子打乱词序后，自注意力的计算逻辑完全不变。然而语言的本质是序列性的，“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命，就是将序的结构注入一个天生无视顺序的机制中。 ...

SceneVerse++: Lifting Unlabeled Internet Videos into 3D Scene Understanding Training Data

Introduction The central paradox of 3D scene understanding — the task of enabling machines to perceive, reason about, and interact with three-dimensional environments — is that while the internet provides an effectively unlimited supply of video data depicting real-world indoor scenes, existing annotated datasets remain bottlenecked at a scale of thousands of scenes collected through expensive, instrumented capture pipelines. ScanNet, the de facto benchmark for 3D perception, has stagnated at ~1,500 scenes since 2017. ARKitScenes, despite leveraging consumer-grade depth sensors, covers only single-room apartments captured under constrained protocols. This data scarcity fundamentally limits progress: models trained on small datasets overfit to domain-specific biases, fail to generalize across scene types, and cannot leverage the scale advantages that have driven breakthroughs in 2D vision and NLP. ...

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机：传统几何重建在什么地方失效一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声，IMU 漂移开始累积，前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题：相机相对于隧道结构的位姿是什么？前方 30 米处那个反射点距离车头多远？ ...

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览：14B MoE DiT + Flow Matching + 3D VAE，详见 Wan2.2 GitHub 1. 承诺：视频生成即世界模拟当 OpenAI 在 2024 年初发布 Sora 时，其叙事框架经过了精心设计：这不仅仅是一个视频生成器，而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段，物体以合理的方式碰撞和变形，镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型，在某种层面上，必然理解世界是如何运作的。 ...

Muon 优化器：矩阵正交化驱动的梯度更新

在前两篇文章中，我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合，谱范数量化了最大拉伸因子，条件数决定了优化的难易程度。现在，我们将这些概念串联起来，理解一个正在改变大模型训练范式的优化器——Muon。 ...

Qwen3.5 vs Qwen3: A Deep Architectural Comparison

Figure from Qwen3.5-Omni Technical Report 本文基于 Qwen3.5 官方技术文档及代码结构分析，系统梳理 Qwen3.5 相较于 Qwen3 在架构层面的代际演进。两者之间的差异远非简单的参数调优，而是在注意力机制、多模态融合方式、稀疏化策略和位置编码等多个维度上进行了根本性的设计重构。 ...