Survey

引言自动驾驶架构的演进经历了一次范式转换：从经典的模块化流水线（感知 →\to 预测 →\to 规划 →\to 控制）转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识：模块化接口会施加信息瓶颈，而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。这一演化大致可以分为三个阶段： V1.0——模块化端到端：各独立模块（检测、跟踪、预测）通过可微接口进行端到端训练，但整体架构仍保留模块化结构，信息流由人工设计。 V2.0——单阶段端到端：单一模型直接从多模态传感器输入预测轨迹。核心研究问题变为：规划器的最优解码器头部是什么？ V3.0——VLA 原生端到端：动作空间原生集成于视觉-语言-动作(Vision-Language-Action)模型中，驾驶决策与语言推理涌现于同一表征基底之上。本文聚焦于 V2.0 →\to V3.0 的过渡。我们考察三种主流解码器范式——自回归(Autoregressive, AR)、扩散(Diffusion)和流匹配(Flow Matching)——分析它们在多样性、稳定性和实时可行性方面的权衡，并讨论 V3.0 中的 VLA 范式如何解决 V2.0 架构中持续存在的根本性矛盾。 V2.0：规划器解码器选择问题单阶段端到端系统中的核心设计决策是规划器解码器头部(Planner Decoder Head)：将模型学习到的场景表征解码为可驾驶轨迹的机制。与分类或检测头部不同，轨迹解码必须同时满足多个相互竞争的约束：多模态性(Multi-modality)：在任意给定场景中，存在多条合理轨迹（保持车道、变道、让行）。解码器必须表征这种多模态分布，而不能坍缩到单一模式。时序一致性(Temporal Consistency)：连续帧必须产生一致的轨迹；帧间抖动对乘客舒适性和安全性是不可接受的。运动学可行性(Kinematic Feasibility)：预测的轨迹必须满足车辆动力学约束（曲率、加速度、加加速度）。实时推理(Real-time Inference)：解码器必须在车辆控制环路延迟预算内（通常 ≤100\leq 100 ms）生成轨迹。三族解码器架构已成为主要候选方案：自回归令牌预测、基于扩散的生成和流匹配。我们依次分析。自回归(AR)解码自回归方法将轨迹生成视为下一个令牌预测(Next-token Prediction)问题，直接借鉴了在大语言模型中被证明极其成功的范式。给定一条被离散化为动作令牌的轨迹 τ=(a1,a2,…,aT)\tau = (a_1, a_2, \ldots, a_T)，模型生成： p(τ)=∏t=1Tp(at∣a<t,x)p(\tau) = \prod_{t=1}^{T} p(a_t \mid a_{<t}, \mathbf{x})其中 x\mathbf{x} 表示场景编码（视觉特征、地图信息、自车状态）。这一形式以 MotionLM [1] 为代表，该模型将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测构建为语言建模任务。 AR 解码的关键优势在于其表达性多模态：通过自回归地建模完整的条件分布，解码器可以自然地表征多样的轨迹结果。然而，这一优势也有代价：帧间不一致性：由于每一帧的轨迹独立地从同一条件分布中生成，场景编码中的微小扰动可能导致帧间模式切换，产生自车轨迹中典型的"抖动"或"摇摆"现象。误差累积(Error Accumulation)：自回归误差沿轨迹时间范围复合累积，尤其对于长时预测更为严重。近期工作尝试通过强化学习来缓解抖动问题。具体而言，使用帧一致性奖励的 GRPO（组相对策略优化, Group Relative Policy Optimization）可以降低帧间变异性。然而，这种方法引入了新的病态：通过惩罚与前一帧轨迹的偏差，模型变得过于保守，变道触发指标退化——模型学会了通过完全避免变道来"求稳"。基于扩散的解码扩散模型通过从高斯先验迭代去噪来生成轨迹： τ0∼pθ(τ0∣x)=∫p(τK)∏k=K1pθ(τk−1∣τk,x) dτ1…dτK\tau_0 \sim p_\theta(\tau_0 \mid \mathbf{x}) = \int p(\tau_K) \prod_{k=K}^{1} p_\theta(\tau_{k-1} \mid \tau_k, \mathbf{x}) \, d\tau_1 \ldots d\tau_K其中 KK 是去噪步数，τK∼N(0,I)\tau_K \sim \mathcal{N}(0, \mathbf{I})。 ...