Xu'Blog

ReconVLA：用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM，用 next-token cross-entropy 监督，推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题：散。VLA 看场景跟看哪个具体物体之间没区分，attention 几乎均匀铺在整个 frame 上。 ...

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界，是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列，但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度，却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归（STAR）架构弥合了这一鸿沟，融合了两种范式的优势。 ...

Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvement

引言将强化学习（Reinforcement Learning, RL）集成到端到端自动驾驶系统中，已成为突破监督学习轨迹规划能力天花板的可行方向。然而标准 RL 算法在驾驶任务上的直接应用面临三重基本挑战：日志回放环境中难以弥合的 sim-to-real gap、在线仿真造成的计算瓶颈，以及为连续轨迹生成定义稠密 reward signal 的固有困难。 ...

Multi-Head Latent Attention: DeepSeek V2/V3 工程视角

本文聚焦工程视角。 MLA 的数学推导（从 RoPE 出发到 latent 投影、partial RoPE 的兼容性证明、权重吸收的代数推导）详见 https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/。本文不重复这些数学内容，只讨论 DeepSeek V2/V3 实际部署中关心的工程数字与设计取舍。 ...

Alpamayo：面向自动驾驶的推理-动作对齐 VLA 系统

引言端到端自动驾驶近年来取得了显著进展，然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。基本困难有四。其一，多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化，而非仅处理静态快照。其二，驾驶决策必须是因果性的：模型必须建模为何采取某动作，而非仅学习场景与动作之间的统计相关性。其三，预测轨迹必须在满足运动学和动力学约束的同时保持多模态性，且足够高效以实现实时推理。其四，推理过程必须与动作输出紧密对齐——推理不应是事后合理化，而必须可被实际执行的动作验证和约束。 ...

Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPO

1. 为什么端到端驾驶需要强化学习 Figure from AlphaDrive: GRPO-based RL for Autonomous Driving 监督学习——无论是通过模仿学习（imitation learning）还是行为克隆（behavior cloning）——只能将自动驾驶系统带到一定水平。其根本局限在于分布性：训练数据来自专家演示，训练与部署之间的任何分布偏移都会导致误差累积。更关键的是，监督目标与驾驶的真正目标存在错位。最小化与真实轨迹的 L2 距离会同等严厉地惩罚安全偏差和危险偏差，且没有机制让模型发现比数据集中更好的轨迹。 ...

End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言自动驾驶架构的演进经历了一次范式转换：从经典的模块化流水线（感知 →\to 预测 →\to 规划 →\to 控制）转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识：模块化接口会施加信息瓶颈，而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 ...

Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigm

Figure from DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving 自回归（Autoregressive, AR）轨迹生成——将驾驶轨迹预测为离散 token 的序列，就像语言模型预测文本一样——已成为端到端自动驾驶的强大范式。但如何将连续轨迹转化为离散 token？如何确保分词后的表示保留足够的规划保真度？AR 范式又如何与扩散模型和强化学习结合以产生 SOTA 结果？本文将完整梳理整个流程，从分词理论到 RL 后训练。 ...

Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Driving

轨迹规划器是自动驾驶系统的决策核心。其任务为：给定当前场景，输出一条安全、舒适且高效的未来轨迹。当今大多数生产系统使用某种形式的回归——最小化预测轨迹与真值轨迹之间的距离。然而，越来越多的研究和工程证据表明，这种方法存在一个基本缺陷：它假设可行集(Feasible Set)是凸的，而事实上它绝非如此。本文阐述从第一性原理出发的论证：为什么生成式方法（扩散、自回归）是必要的范式转换，而非仅仅是改进。 ...