End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言

自动驾驶架构的演进经历了一次范式转换：从经典的模块化流水线（感知 $\to$ 预测 $\to$ 规划 $\to$ 控制）转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识：模块化接口会施加信息瓶颈，而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。

这一演化大致可以分为三个阶段：

V1.0——模块化端到端：各独立模块（检测、跟踪、预测）通过可微接口进行端到端训练，但整体架构仍保留模块化结构，信息流由人工设计。
V2.0——单阶段端到端：单一模型直接从多模态传感器输入预测轨迹。核心研究问题变为：规划器的最优解码器头部是什么？
V3.0——VLA 原生端到端：动作空间原生集成于视觉-语言-动作(Vision-Language-Action)模型中，驾驶决策与语言推理涌现于同一表征基底之上。

本文聚焦于 V2.0 $\to$ V3.0 的过渡。我们考察三种主流解码器范式——自回归(Autoregressive, AR)、扩散(Diffusion)和流匹配(Flow Matching)——分析它们在多样性、稳定性和实时可行性方面的权衡，并讨论 V3.0 中的 VLA 范式如何解决 V2.0 架构中持续存在的根本性矛盾。

V2.0：规划器解码器选择问题

单阶段端到端系统中的核心设计决策是规划器解码器头部(Planner Decoder Head)：将模型学习到的场景表征解码为可驾驶轨迹的机制。与分类或检测头部不同，轨迹解码必须同时满足多个相互竞争的约束：

多模态性(Multi-modality)：在任意给定场景中，存在多条合理轨迹（保持车道、变道、让行）。解码器必须表征这种多模态分布，而不能坍缩到单一模式。
时序一致性(Temporal Consistency)：连续帧必须产生一致的轨迹；帧间抖动对乘客舒适性和安全性是不可接受的。
运动学可行性(Kinematic Feasibility)：预测的轨迹必须满足车辆动力学约束（曲率、加速度、加加速度）。
实时推理(Real-time Inference)：解码器必须在车辆控制环路延迟预算内（通常 $\leq 100$ ms）生成轨迹。

三族解码器架构已成为主要候选方案：自回归令牌预测、基于扩散的生成和流匹配。我们依次分析。

自回归(AR)解码

自回归方法将轨迹生成视为下一个令牌预测(Next-token Prediction)问题，直接借鉴了在大语言模型中被证明极其成功的范式。给定一条被离散化为动作令牌的轨迹 $\tau = (a_1, a_2, \ldots, a_T)$ ，模型生成：

p(\tau) = \prod_{t=1}^{T} p(a_t \mid a_{<t}, \mathbf{x})

其中 $\mathbf{x}$ 表示场景编码（视觉特征、地图信息、自车状态）。这一形式以 MotionLM [1] 为代表，该模型将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测构建为语言建模任务。

AR 解码的关键优势在于其表达性多模态：通过自回归地建模完整的条件分布，解码器可以自然地表征多样的轨迹结果。然而，这一优势也有代价：

帧间不一致性：由于每一帧的轨迹独立地从同一条件分布中生成，场景编码中的微小扰动可能导致帧间模式切换，产生自车轨迹中典型的"抖动"或"摇摆"现象。
误差累积(Error Accumulation)：自回归误差沿轨迹时间范围复合累积，尤其对于长时预测更为严重。

近期工作尝试通过强化学习来缓解抖动问题。具体而言，使用帧一致性奖励的 GRPO（组相对策略优化, Group Relative Policy Optimization）可以降低帧间变异性。然而，这种方法引入了新的病态：通过惩罚与前一帧轨迹的偏差，模型变得过于保守，变道触发指标退化——模型学会了通过完全避免变道来"求稳"。

基于扩散的解码

扩散模型通过从高斯先验迭代去噪来生成轨迹：

\tau_0 \sim p_\theta(\tau_0 \mid \mathbf{x}) = \int p(\tau_K) \prod_{k=K}^{1} p_\theta(\tau_{k-1} \mid \tau_k, \mathbf{x}) \, d\tau_1 \ldots d\tau_K

其中 $K$ 是去噪步数， $\tau_K \sim \mathcal{N}(0, \mathbf{I})$ 。

DiffusionDrive [2] 引入了一项关键创新：基于锚点的截断扩散(Anchor-based Truncated Diffusion)。模型不从纯噪声开始去噪，而是从一组代表不同驾驶意图（保持车道、左变道、右变道）的锚点轨迹开始。扩散调度被截断——从中间噪声水平而非纯噪声开始——这大幅减少了所需的去噪步数，同时保持了多模态性。

截断策略解决了朴素扩散在驾驶场景中的根本局限：从 $\tau_K$ 的完全去噪既计算昂贵，又容易在分布高度集中时出现模式坍缩。通过以锚点为条件并截断调度，DiffusionDrive 实现了带多模态输出的实时推理。

然而，基于锚点的方法引入了一个微妙的问题：类 AR 的抖动在锚点选择层级重新出现。当模型在连续帧之间切换锚点时，所产生的轨迹表现出与 AR 解码相同的不一致性。

流匹配解码

流匹配学习一个连续时间向量场(ODE)，将简单先验分布传输到目标轨迹分布：

\frac{d\tau}{dt} = v_\theta(\tau_t, t, \mathbf{x}), \quad t \in [0, 1]

其中 $v_\theta$ 是学习到的速度场，轨迹通过从 $t=0$ 到 $t=1$ 求解 ODE 获得。这一形式在驾驶语境中被称为 FlowDrive，具有以下吸引人的性质：

平滑轨迹：由于 ODE 求解器产生连续轨迹，输出天然是平滑的。在实践中，流匹配产生三种方法中最平滑、最"丝滑"的轨迹。
确定性推理：在相同初始条件下，ODE 求解器是确定性的，消除了采样噪声。

流匹配的关键弱点是ODE 采样导致的模式坍缩(Mode Collapse)。由于向量场训练旨在最小化流匹配损失：

\mathcal{L}_{FM} = \mathbb{E}_{t, \tau_0, \tau_1} \left[ \| v_\theta(\tau_t, t, \mathbf{x}) - (\tau_1 - \tau_0) \|^2 \right]

学习到的流倾向于将所有先验样本传输到主导模式，特别是在轨迹分布高度集中的区域。这与扩散模型有根本区别——扩散中的随机采样过程天然地维持多样性。

将 GRPO 强化学习应用于流匹配面临一个尤为严重的"全有或全无(All-or-nothing)“问题：RL 信号倾向于将整个批次推向好的模式或坏的模式，而非改善平均情况。这种双模态训练动态使得 GRPO 在流匹配上实践不稳定。

三方权衡

三种方法可以在三个轴的权衡空间中定位：轨迹多样性、时序一致性和推理确定性：

下表总结了在复现实验中观察到的定量权衡：

属性	AR (MotionLM 式)	流匹配	DiffusionDrive	AR + 扩散
轨迹多样性	高	低（模式坍缩）	中等	高
帧间一致性	低（抖动）	最优（平滑）	中等（锚点抖动）	中高
GRPO 兼容性	好（但损害变道）	差（全有或全无）	中等	好
推理速度	快（单次前向）	快（少量 ODE 步）	中等（ $K$ 步去噪）	中等
实时可行性	是	是	截断条件下：是	是

AR + 扩散：最优组合

实验证据表明，混合 AR + 扩散策略是单阶段端到端驾驶最有效的解码器。直觉很直接：AR 解码提供多样性保证，而扩散去噪过程充当一致性正则化器，平滑纯 AR 的模式切换伪影。

在 NavSim 基准上，Chainflow-VLA 系统（结合 AR 轨迹令牌化与链式扩散精修）获得了 94.05 的 PDMS 分数，在提交时排名 NavSim v1 navtest 排行榜首位 [3]。这一结果为混合方法提供了强有力的实证支持。

关键洞察在于两个组件处理互补的失效模式：

AR 防止流匹配以及较小程度上扩散所困扰的模式坍缩。
扩散去噪通过沿轨迹序列而非单帧内去噪来平滑 AR 抖动。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
Algorithm: AR + Diffusion Decoding
Input: Scene encoding x, anchors A = {a_1, ..., a_M}
Output: Trajectory tau

1. // AR phase: generate coarse trajectory tokens
2. for t = 1 to T do
3.   a_t ~ p_theta(a_t | a_{<t}, x)
4. end
5. tau_coarse = TokenToTrajectory(a_1, ..., a_T)
6.
7. // Diffusion refinement phase
8. tau_noisy = AddNoise(tau_coarse, sigma_K)
9. for k = K to 1 do
10.  tau_{k-1} = DenoiseStep(tau_k, x, A)
11. end
12. return tau_0

应当指出，Chainflow-VLA 的确切架构在公开文档中并未完全详述；上述描述反映了与所报告方法一致的 AR 初始化扩散精修的一般原理。建议读者参阅原始来源以获取精确的架构细节。

V3.0：VLA 架构——动作集成的两种哲学

从 V2.0 到 V3.0 的过渡标志着一个根本性的架构转变：视觉-语言-动作(Vision-Language-Action, VLA)模型的引入，其中驾驶动作在与处理视觉和语言输入的同一大模型中原生生成的。这并非简单地"给 VLM 加一个动作头”——它需要重新深入思考动作表征如何与模型内部语义相关联。

边缘案例动机

V3.0 的主要动机是边缘案例(Corner Case)问题。在自动驾驶中，边缘案例是具有以下三个特性的场景：

极小视觉差异(Minimal Visual Difference)：安全与不安全场景之间的感知区别可能极其微妙（例如，行人看手机过马路与有目的地行走）。
高决策重要性(High Decision Significance)：尽管感知差异极小，正确的动作可能在性质上完全不同（紧急制动与适度减速）。
时序上下文依赖(Temporal Context Dependence)：正确的决策无法仅从单帧确定；它需要理解场景的时序演化。

这些特性使得边缘案例根本不适用于 V2.0 范式——在该范式中，规划器解码器在单帧场景编码上操作。VLA 方法通过将动作锚定于包含时序推理和因果理解的更丰富语义表征来解决这一问题。

两种架构哲学

将动作集成到 VLA 模型中允许两种根本不同的架构哲学，取决于对语义理解与动作生成之间关系的假设：

哲学一：动作需要深度语义对齐（Concat-KV）

如果认为驾驶动作需要多层语义抽象——理解情况为何危险，而不仅仅是存在什么——那么动作令牌应与文本令牌一起集成到 LLM 的键值缓存(Key-Value Cache)中。在这种方法中，动作令牌对全部视觉和语言令牌序列进行注意力操作，同时也被其注意，使模型能将其动作锚定于支持推理的同一深度语义表征之上。

\text{KV}_{\text{action}} = \text{Concat}(\text{KV}_{\text{vision}}, \text{KV}_{\text{language}}, \text{KV}_{\text{action}})

优势在于动作完全锚定于模型的语义理解。风险在于动作头部继承了 LLM 注意力模式的全部复杂性，使得训练不稳定且推理昂贵。OpenDriveVLA [4] 体现了这一方法，采用层次化视觉-语言对齐过程，在动作解码前将 2D 和 3D 视觉特征投影到语言嵌入空间。

哲学二：VLM 作为特征提取器 + 下游动作模块

如果认为驾驶动作主要是一个低维条件生成问题——场景理解被 VLM 的视觉编码器"解决"，动作模块只需要在稳定的场景特征条件下从条件分布中采样——那么解耦架构更为合适。VLM 作为冻结的特征提取器，轻量级动作模块以 VLM 的输出特征为条件生成轨迹。

\mathbf{z} = \text{VLM}_{\text{encoder}}(\mathbf{x}), \quad \tau \sim p_\theta(\tau \mid \mathbf{z})

优势在于训练稳定性：VLM 编码器不受动作训练信号干扰，动作模块可以用标准的模仿学习或 RL 独立训练。风险在于动作模块可能无法访问 VLM 语义理解的全部深度，限制了其处理需要因果推理的边缘案例的能力。

这两种哲学之间的选择尚未定论。它取决于一个更深问题的实证答案：*驾驶动作从根本上是一个语义推理问题还是一个条件生成问题？*如果是前者，Concat-KV 是合理的；如果是后者，解耦方法更高效、更稳定。

工程实践：从研究到生产

从研究原型到生产级端到端驾驶系统的过渡需要解决一系列独特的工程挑战。以下各节记录了在真实部署中观察到的关键实践。

数据基础设施

单阶段端到端模型的质量上限取决于其训练数据。数据基础设施挑战有多个维度：

格式统一：多个数据源（感知标注、驾驶行为、导航指令）必须统一为单一训练格式。“六合一"统一格式将五个独立流水线（目标检测、占据率、车道线检测、交通灯、驾驶行为）的感知数据整合到单一模式中，支持来自异构源的 1.5M+ 片段联合训练。

数据质量：验证工作流至关重要。每个数据源都有其自身的失效模式（标注错误的边界框、不一致的车道拓扑、错误的交通灯状态）。结构化的数据验收流程——结合自动化健全性检查和人工审核——在系统性错误污染训练之前将其捕获。

分布平衡：真实驾驶数据严重不均衡：高速公路巡航占主导，而城市交叉路口和边缘案例则代表性不足。显式的分布构建——通过有针对性的数据采集、增强和重加权——对于确保模型不会退化为"直行"策略是必要的。

训练优化

扩展到百万片段训练集需要大量的基础设施投入：

分布式训练：代码库必须支持 16+ GPU 节点上 1M+ 片段的近线性扩展训练。关键瓶颈通常是梯度同步和数据加载，而非计算。
训练效率：通过架构和流水线优化，1M 片段的训练时间可从 8 天缩短至 5 天（约 30% 的改善），主要通过混合精度训练、梯度累积和优化数据加载实现。
渐进式收益：典型的改进分为两个阶段：
1. 数据扩展：将训练数据从 25K 增加到 750K 片段，结合模型结构优化，Ego ADE（平均位移误差, Average Displacement Error）降低 10% 以上，从 3.0m 降至 2.6m。
2. 特征蒸馏：移除不必要的结构化信息（如显式目标提案），使用带专家监督的纯特征表征，Ego ADE 进一步降低 7.6%，从 2.6m 降至 2.4m。

第二阶段尤其值得关注：它表明显式结构化表征（目标框、车道线）对规划器可能不是必需的，经过适当监督的学习密集特征可能更具信息量。

评估系统

开环指标(ADE, FDE)对评估驾驶质量是必要但不充分的。一个全面的评估系统必须评估多个维度：

维度	指标	描述
安全性	TTC（碰撞时间, Time-to-Collision）	与任意动态物体的最小碰撞时间
舒适性	加加速度(Jerk)、横向加速度	乘客舒适度指标
效率	进度、速度偏差	自车到达目的地的效率
合规性	交通灯遵守、车道保持	对交通规则的遵守
一致性	轨迹重叠率	连续帧预测之间的一致性

基准构建：由 1200 个覆盖多样场景（城市、高速、交叉路口、恶劣天气）的片段组成的专用测试集为可复现评估提供基础。

效率：评估流水线优化可将每个片段的评估时间从 10 分钟缩短至 10 秒，实现开发期间的快速迭代。

半闭环指标：纯开环评估可能遗漏仅在模型自身动作下才出现的失效模式。半闭环指标——其中模型预测的轨迹被"展开"若干步而不影响环境——提供了折中方案。关键指标包括无真值 TTC（安全性）、舒适度度量和效率，在模型自身轨迹而非真值未来下计算。

实车部署

从仿真到实车测试的过渡揭示了任何开环或半闭环指标都无法捕获的额外挑战。在真实车辆上成功部署单阶段模型需要：

延迟优化：模型必须在车辆控制周期（ $\leq$ 100ms）内生成轨迹，包括所有预处理、推理和后处理。
回退机制：当模型置信度较低时（如分布外场景），系统必须优雅地回退到基于规则的规划器或紧急停车。
监控与日志：对模型输入、输出和内部状态的全面日志记录对于失效案例的事后分析至关重要。

架构演化总结

从模块化系统经 V2.0 单阶段模型到 V3.0 VLA 原生系统的完整架构演化可如下可视化：

讨论与开放问题

随着领域向 V3.0 迈进，若干根本性问题仍然开放：

1. 边缘案例问题主要是表征问题还是数据问题？ 如果边缘案例源于训练分布覆盖不足，那么更多数据（或更好的增强）是解决方案。如果它们源于模型无法表征相关区分，那么架构变更（如 VLA）是必要的。真相可能是两者的结合，但相对重要性决定了 V3.0 是质的飞跃还是增量改进。

2. 两种 VLA 哲学能否统一？ Concat-KV 和解耦方法代表了谱系的两端。一个有前景的方向是自适应锚定(Adaptive Grounding)：对需要深度推理的场景（由不确定性或复杂性估计器检测）使用 Concat-KV，对常规驾驶使用解耦方法。这将以架构复杂性为代价获得两者的优势。

3. 如何评估边缘案例性能？ 当前基准（NavSim, nuScenes）以常规驾驶场景为主导。专用边缘案例基准 [5] 正在涌现，但标准化评估仍是开放问题。WM-MoE 框架 [6] 提出使用世界模型生成边缘案例，但这些生成场景与真实边缘案例的保真度尚未得到验证。

4. 强化学习的角色是什么？ GRPO 和类似的 RL 方法可以改善特定指标（帧一致性、变道触发），但通常引入新的失效模式。驾驶的 RL 奖励设计从根本上比语言更难：不存在"有用性"的简单类比来捕获安全、高效和舒适驾驶的所有方面。

参考文献

[1] MotionLM: Multi-Agent Motion Forecasting as Language Modeling. Waymo Research, ICCV 2023. arXiv:2309.16534

[2] DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving. Liao et al., 2024. arXiv:2411.15139

[3] Chainflow-VLA: AR-initialized chain-of-diffusion for end-to-end driving. NavSim v1 navtest leaderboard, PDMS 94.05. The author was unable to independently verify the leaderboard ranking from publicly accessible sources as of this writing; the score is reported as cited in internal engineering documentation.

[4] OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision-Language-Action Model. 2025. arXiv:2503.23463

[5] Driving in Corner Case: A Real-World Adversarial Driving Benchmark for End-to-End Autonomous Driving. 2025. arXiv:2512.16055

[6] WM-MoE: Addressing corner cases in autonomous driving with a world model-based Mixture of Experts. Transportation Research Part C, 2026. DOI:10.1016/j.trc.2025.105607

[7] NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking. Da et al., CoRL 2024. arXiv:2406.15349

[8] GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving. CVPR 2025.

[9] A Survey on Vision-Language-Action Models for Autonomous Driving. Jiang et al., ICCV 2025 Workshop. arXiv:2512.16760

[10] GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving. 2025. arXiv:2511.18729

引言#

V2.0：规划器解码器选择问题#

自回归(AR)解码#

基于扩散的解码#

流匹配解码#

三方权衡#

AR + 扩散：最优组合#

V3.0：VLA 架构——动作集成的两种哲学#

边缘案例动机#

两种架构哲学#

工程实践：从研究到生产#

数据基础设施#

训练优化#

评估系统#

实车部署#

架构演化总结#

讨论与开放问题#

参考文献#

引言