Autonomous Driving: End-to-End, VLA, and Beyond

Technical deep dives into the evolution of autonomous driving from modular pipelines to end-to-end systems, VLA architectures, and generative planning.

Foundational Arguments

Article	Core Thesis
Why Generative Planning?	The feasible set is non-convex; regression fundamentally fails
Trajectory Tokenization for AR Planning	Clustering, matching, and the AR+Diffusion paradigm
RL Policy Optimization for E2E	From REINFORCE to GRPO for driving
E2E Architecture Evolution	V2.0 decoder selection to V3.0 VLA integration

Model Architecture & Conditioning

Article	Topic
Alpamayo VLA	Vision-Language-Action for driving
RL: DPO to Self-Improvement	Post-training pipeline for driving
Condition Consumption in Planning	From timestep τ to navigation injection
VLM Temporal Memory	Temporal memory mechanisms for VLMs

End-to-End Driving

Article	Topic
ReflectDrive-2	Discrete diffusion for end-to-end driving (Li Auto)

Training & Scaling

Article	Topic
VLA Train Recipe at Billion Scale	Mapping TRI co-training findings (arXiv:2602.01067) + Qwen-VLA recipe to driving VLA at billion-sample scale

Generative Planning

Article	Topic
扩散模型与自动驾驶规划	From denoising mathematics to trajectory generation
Flow Matching 训练的三轴分解	Cone 几何下三轴正交分解（数据广度深度 / schedule / 物理 horizon），endBend 是 depth 在三轴乘性 dilute 后的可观察残余

Flow Matching 训练的广度、深度与物理 horizon：cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象：trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint，最后两三个点会往内或往外偏一个肉眼可见的角度，定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule：Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0，inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端，第一个 Euler 步因此在欠训区间上做了一次大跳，误差被后续步序放大。这个自洽，但只是表象。 ...

从 million 到 billion：VLA 训练 recipe 在量级跃迁上的工程层重构

VLA（vision-language-action）训练这一两年走到一个尴尬阶段：架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里，data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省，业界各家给出的答案差异显著，且大多是后置工程经验，缺少同条件下的横向 ablation。 ...

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...

Affordance vs Symbolic Perception in AD：二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分：一边 “label-free / pure E2E / affordance”——人开车不靠语言思考，模型也不应该有 caption 或 detection head，photons 直接到 trajectory；另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注，必须保 V-L 对齐能力。Wayve / Tesla 一档，Mobileye 一档，蔚小理在中间。 ...

Dense Latent Predictive Supervision in AD VLA：为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone？打开任一篇 NAVSIM 93 PDMS 一档的 paper：监督信号是未来 12-16 个 (x,y)(x, y) waypoints，一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert（典型 500M），总可学习参数 2.5B 量级。 ...

自动驾驶 VLA 的 3D 视觉表征：从能力边界到工程注入

引言：这篇为什么写写在前面：本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D：视觉表征的本体论问题》讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题；《4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视》用信息瓶颈五条件审计了九种 4D encoder 方案；《X-World：小鹏可控自车视角多相机世界模型》拆解了重型 latent video diffusion 的生成派世界模型路径；Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视

引言：4D 输入与 VLA 序列瓶颈的矛盾自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token，乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理（约 100 ms 预算）和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

VLA 语义下的导航信息注入：从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中，导航信息回答了一个根本问题：车应该往哪走？没有它，模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...

VLM 时序记忆机制：从视频压缩到长短时记忆融合

引言视觉语言模型（VLM）在处理单帧图像上已趋于成熟，但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知，还是具身智能中的长任务执行，核心挑战都在于：如何在不引爆 token 预算的前提下，保留对决策真正有价值的时序信息。 ...

ReflectDrive-2：理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言：离散扩散 + 端到端驾驶 = 新范式？ 2025-2026 年，端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。自回归(AR)派以 GPT-driver 和 VLA 系列为代表，token-by-token 顺序输出轨迹，串行解码慢，端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表，在连续空间去噪生成轨迹，但通常需要额外的 anchor 或 goal 系统辅助，破坏了原始数据分布。 ...

扩散模型与自动驾驶规划：从去噪的数学到轨迹的生成

为什么自动驾驶需要扩散模型？自动驾驶规划的核心难题在于"找到正确的轨迹分布"，而非仅仅是"找到一条轨迹"。考虑一个简单场景：自车接近一个无信号灯的 T 字路口。存在三种合理选项——左转、右转、直行通过。传统回归模型（L1/L2 损失）训练后面对此场景会输出三条轨迹的平均值：一条斜向路口中央的无意义曲线。这是损失函数的结构性局限，而非模型的能力缺陷——L2 回归在多模态分布上的最优解恰好是条件均值，而条件均值在物理上可能根本不可行。 ...

Reinforcement Learning for End-to-End Autonomous Driving: From Offline DPO to Iterative Self-Improvement

引言将强化学习（Reinforcement Learning, RL）集成到端到端自动驾驶系统中，已成为突破监督学习轨迹规划能力天花板的可行方向。然而标准 RL 算法在驾驶任务上的直接应用面临三重基本挑战：日志回放环境中难以弥合的 sim-to-real gap、在线仿真造成的计算瓶颈，以及为连续轨迹生成定义稠密 reward signal 的固有困难。 ...

Alpamayo：面向自动驾驶的推理-动作对齐 VLA 系统

引言端到端自动驾驶近年来取得了显著进展，然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。基本困难有四。其一，多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化，而非仅处理静态快照。其二，驾驶决策必须是因果性的：模型必须建模为何采取某动作，而非仅学习场景与动作之间的统计相关性。其三，预测轨迹必须在满足运动学和动力学约束的同时保持多模态性，且足够高效以实现实时推理。其四，推理过程必须与动作输出紧密对齐——推理不应是事后合理化，而必须可被实际执行的动作验证和约束。 ...

Policy Optimization for End-to-End Autonomous Driving: From REINFORCE to GRPO

1. 为什么端到端驾驶需要强化学习 Figure from AlphaDrive: GRPO-based RL for Autonomous Driving 监督学习——无论是通过模仿学习（imitation learning）还是行为克隆（behavior cloning）——只能将自动驾驶系统带到一定水平。其根本局限在于分布性：训练数据来自专家演示，训练与部署之间的任何分布偏移都会导致误差累积。更关键的是，监督目标与驾驶的真正目标存在错位。最小化与真实轨迹的 L2 距离会同等严厉地惩罚安全偏差和危险偏差，且没有机制让模型发现比数据集中更好的轨迹。 ...

End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言自动驾驶架构的演进经历了一次范式转换：从经典的模块化流水线（感知 →\to 预测 →\to 规划 →\to 控制）转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识：模块化接口会施加信息瓶颈，而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 ...

Trajectory Tokenization for Autoregressive Planning: Clustering, Matching, and the AR+Diffusion Paradigm

Figure from DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving 自回归（Autoregressive, AR）轨迹生成——将驾驶轨迹预测为离散 token 的序列，就像语言模型预测文本一样——已成为端到端自动驾驶的强大范式。但如何将连续轨迹转化为离散 token？如何确保分词后的表示保留足够的规划保真度？AR 范式又如何与扩散模型和强化学习结合以产生 SOTA 结果？本文将完整梳理整个流程，从分词理论到 RL 后训练。 ...

Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Driving

轨迹规划器是自动驾驶系统的决策核心。其任务为：给定当前场景，输出一条安全、舒适且高效的未来轨迹。当今大多数生产系统使用某种形式的回归——最小化预测轨迹与真值轨迹之间的距离。然而，越来越多的研究和工程证据表明，这种方法存在一个基本缺陷：它假设可行集(Feasible Set)是凸的，而事实上它绝非如此。本文阐述从第一性原理出发的论证：为什么生成式方法（扩散、自回归）是必要的范式转换，而非仅仅是改进。 ...

Foundational Arguments#

Model Architecture & Conditioning#

End-to-End Driving#

Training & Scaling#

Generative Planning#

Foundational Arguments

Model Architecture & Conditioning

End-to-End Driving

Training & Scaling

Generative Planning