End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言 自动驾驶架构的演进经历了一次范式转换:从经典的模块化流水线(感知 →\to 预测 →\to 规划 →\to 控制)转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识:模块化接口会施加信息瓶颈,而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 这一演化大致可以分为三个阶段: V1.0——模块化端到端:各独立模块(检测、跟踪、预测)通过可微接口进行端到端训练,但整体架构仍保留模块化结构,信息流由人工设计。 V2.0——单阶段端到端:单一模型直接从多模态传感器输入预测轨迹。核心研究问题变为:规划器的最优解码器头部是什么? V3.0——VLA 原生端到端:动作空间原生集成于视觉-语言-动作(Vision-Language-Action)模型中,驾驶决策与语言推理涌现于同一表征基底之上。 本文聚焦于 V2.0 →\to V3.0 的过渡。我们考察三种主流解码器范式——自回归(Autoregressive, AR)、扩散(Diffusion)和流匹配(Flow Matching)——分析它们在多样性、稳定性和实时可行性方面的权衡,并讨论 V3.0 中的 VLA 范式如何解决 V2.0 架构中持续存在的根本性矛盾。 V2.0:规划器解码器选择问题 单阶段端到端系统中的核心设计决策是规划器解码器头部(Planner Decoder Head):将模型学习到的场景表征解码为可驾驶轨迹的机制。与分类或检测头部不同,轨迹解码必须同时满足多个相互竞争的约束: 多模态性(Multi-modality):在任意给定场景中,存在多条合理轨迹(保持车道、变道、让行)。解码器必须表征这种多模态分布,而不能坍缩到单一模式。 时序一致性(Temporal Consistency):连续帧必须产生一致的轨迹;帧间抖动对乘客舒适性和安全性是不可接受的。 运动学可行性(Kinematic Feasibility):预测的轨迹必须满足车辆动力学约束(曲率、加速度、加加速度)。 实时推理(Real-time Inference):解码器必须在车辆控制环路延迟预算内(通常 ≤100\leq 100 ms)生成轨迹。 三族解码器架构已成为主要候选方案:自回归令牌预测、基于扩散的生成和流匹配。我们依次分析。 自回归(AR)解码 自回归方法将轨迹生成视为下一个令牌预测(Next-token Prediction)问题,直接借鉴了在大语言模型中被证明极其成功的范式。给定一条被离散化为动作令牌的轨迹 τ=(a1,a2,…,aT)\tau = (a_1, a_2, \ldots, a_T),模型生成: p(τ)=∏t=1Tp(at∣a<t,x)p(\tau) = \prod_{t=1}^{T} p(a_t \mid a_{<t}, \mathbf{x})其中 x\mathbf{x} 表示场景编码(视觉特征、地图信息、自车状态)。这一形式以 MotionLM [1] 为代表,该模型将连续轨迹表示为离散运动令牌序列,并将多智能体运动预测构建为语言建模任务。 AR 解码的关键优势在于其表达性多模态:通过自回归地建模完整的条件分布,解码器可以自然地表征多样的轨迹结果。然而,这一优势也有代价: 帧间不一致性:由于每一帧的轨迹独立地从同一条件分布中生成,场景编码中的微小扰动可能导致帧间模式切换,产生自车轨迹中典型的"抖动"或"摇摆"现象。 误差累积(Error Accumulation):自回归误差沿轨迹时间范围复合累积,尤其对于长时预测更为严重。 近期工作尝试通过强化学习来缓解抖动问题。具体而言,使用帧一致性奖励的 GRPO(组相对策略优化, Group Relative Policy Optimization)可以降低帧间变异性。然而,这种方法引入了新的病态:通过惩罚与前一帧轨迹的偏差,模型变得过于保守,变道触发指标退化——模型学会了通过完全避免变道来"求稳"。 基于扩散的解码 扩散模型通过从高斯先验迭代去噪来生成轨迹: τ0∼pθ(τ0∣x)=∫p(τK)∏k=K1pθ(τk−1∣τk,x) dτ1…dτK\tau_0 \sim p_\theta(\tau_0 \mid \mathbf{x}) = \int p(\tau_K) \prod_{k=K}^{1} p_\theta(\tau_{k-1} \mid \tau_k, \mathbf{x}) \, d\tau_1 \ldots d\tau_K其中 KK 是去噪步数,τK∼N(0,I)\tau_K \sim \mathcal{N}(0, \mathbf{I})。 ...

2025年5月1日 · 5 分钟 · LexHsu