Autonomous Driving

Vision-Language-Action Models for Autonomous Driving: The Cosmos-Reason Approach

引言端到端自动驾驶近年来取得了显著进展，然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。根本性困难有四。其一，多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化，而非仅处理静态快照。其二，驾驶决策必须是因果性的：模型必须建模为何采取某动作，而非仅学习场景与动作之间的统计相关性。其三，预测轨迹必须在满足运动学和动力学约束的同时保持多模态性，且足够高效以实现实时推理。其四，推理过程必须与动作输出紧密对齐——推理不应是事后合理化，而必须可被实际执行的动作验证和约束。 Cosmos-Reason 系统，亦称 Alpamayo，通过跨结构、数据、训练和强化学习的精心协同设计来应对这些挑战。该系统不孤立地优化各模块，而是将推理-动作对齐、自车捷径规避(Ego-shortcut Avoidance)和实时多模态轨迹生成作为联合设计目标。本文提供 Cosmos-Reason 方法的技术概述，涵盖其系统架构、视觉编码器设计、轨迹解码策略、训练流水线、变化因(Cause-of-Change, COC)数据集范式和强化学习微调。系统架构 Cosmos-Reason 系统以多相机、多时间戳的视觉观测、用户导航指令和历史自车运动（速度、轨迹历史）为输入。它产生三类输出：解释决策背后的关键物体、因果关系和环境变化的推理轨迹(Reason Trace)；指定高级语义动作（如停车、让行、跟随、变道）的元动作(Meta Action)；以及运动学可行且可执行的未来轨迹。一个关键设计原则支配着自车信息的角色。自车状态被视为*条件信号(Conditioning Signal)*而非决策的主要因果源。这一区分对避免自车捷径问题至关重要——在该问题中，模型学会从自身运动学状态推断决策（如"我停下了，所以一定有红灯"），而非从真正的环境理解出发。通过在结构上将自车信息从因果驱动因素降级为条件上下文，系统迫使模型将推理锚定于外部观测。视觉编码器设计视觉编码器必须满足一组严格的约束：它必须产生紧凑的令牌表征，在保持环境相关语义信息的同时满足 VLA 驾驶系统的实时要求。环视相机的三平面压缩对于环视相机输入，系统采用三平面(Tri-plane)压缩策略。编码器不是朴素地拼接多相机视图的令牌——这将导致令牌爆炸——而是将所有视图的信息投影到三个正交平面（XY、XZ、YZ）上。这种三平面表征将多视图信息统一为连贯的 3D 场景语义，同时保持令牌数量可控。该方法基于以下观察：3D 结构信息可以高效地分解为低维投影而不产生显著的语义损失，类似于三平面表征在神经辐射场中的应用。时序压缩驾驶视频流中的连续帧包含大量冗余信息。系统通过将时间视为额外维度并执行联合时空编码来解决这一问题。跨时间步联合编码模块结合基于全局注意力的压缩（称为 Flex）使模型能够从冗余背景中蒸馏出时序显著变化。这一设计确保令牌预算用于实际变化且与决策相关的信息，而非在各时间步重复编码静态环境。可学习查询结构化特征表征（如三平面）施加了可能限制模型表达能力的归纳偏置(Inductive Bias)。为此，系统引入可学习查询令牌(Learnable Query Token)，使模型能够自主选择并关注最相关的信息。这些查询在结构化表征之上操作，提供了一种灵活的特征提取机制，而不受三平面固定空间结构的约束。推理时令牌剪枝在推理时，系统应用训练后令牌剪枝(Post-training Token Pruning)技术以进一步降低计算成本。对最终预测贡献较小的令牌被识别并移除，使模型能够更快运行而不产生显著的性能退化。轨迹解码器动作表征系统不直接预测原始轨迹坐标——这将容易受到传感器噪声影响且难以施加运动学约束。取而代之的是使用基于自行车模型(Bicycle Model)的控制级表征。这一选择确保预测动作天然满足动力学约束，有利于多模态轨迹建模，并提高输出轨迹的稳定性和可解释性。保真度保真度(Fidelity)指通过推理-动作-控制编码和解码流水线的信息保持程度。高保真度意味着高级决策意图（体现在推理轨迹和元动作中）忠实地反映在低级控制指令中。系统设计旨在最小化该流水线各阶段的信息损失，确保执行轨迹是模型推理的真实实现。专家解码器：“大脑-小脑"架构解码阶段采用双专家架构。VLA 模型（“大脑”）处理感知、推理和元动作生成，输出编码决策上下文的键值(Key-Value, KV)表征。一个独立的动作专家(Action Expert)（“小脑”）接收这些 KV 表征，通过流匹配(Flow Matching)将其解码为高精度、平滑的连续控制指令。这种关注点分离使 VLA 专注于高级认知任务，而动作专家专精于细粒度轨迹生成，类似于小脑精炼来自皮层意图的运动指令。训练策略离散动作令牌选择离散动作令牌(Discrete Action Token)有三个目的。其一，使模型适用于强化学习：离散动作空间允许直接应用策略梯度方法（如 GRPO）来优化推理质量和一致性。其二，离散令牌与语言令牌共享相同的表征空间，为推理-动作对齐提供了天然基础。其三，离散表征用于训练稳定性与流匹配用于推理时精度和多模态性的组合，产生了一个在训练期间鲁棒、在部署时富有表达力的系统。训练解耦训练过程遵循解耦策略。VLA 模型（感知与推理）首先训练。收敛后，其参数被冻结，KV 表征被导出。动作专家随后在这些冻结表征上单独训练。这种解耦防止了低级控制任务的噪声和梯度信号污染高级推理模块，保持了学习到的推理轨迹的质量。 COC 数据集变化因(Cause-of-Change, COC)数据集范式是系统推理质量方法的核心。关键洞察在于：现有驾驶数据集包含的推理标注模糊、事后生成，且与实际执行的动作脱节。在此类数据上训练的模型学会了做什么而非为什么，产生的推理轨迹本质上是回顾性辩解，而非真正的因果解释。 COC 范式强制执行显式的因果结构。每个标注必须指定哪个环境变化和哪个关键物体导致了当前的决策和动作。这不仅仅是生成更长的推理轨迹；而是施加严格的因果模板，要求模型将解释锚定于可观测的环境因素。 ...

End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言自动驾驶架构的演进经历了一次范式转换：从经典的模块化流水线（感知 →\to 预测 →\to 规划 →\to 控制）转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识：模块化接口会施加信息瓶颈，而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。这一演化大致可以分为三个阶段： V1.0——模块化端到端：各独立模块（检测、跟踪、预测）通过可微接口进行端到端训练，但整体架构仍保留模块化结构，信息流由人工设计。 V2.0——单阶段端到端：单一模型直接从多模态传感器输入预测轨迹。核心研究问题变为：规划器的最优解码器头部是什么？ V3.0——VLA 原生端到端：动作空间原生集成于视觉-语言-动作(Vision-Language-Action)模型中，驾驶决策与语言推理涌现于同一表征基底之上。本文聚焦于 V2.0 →\to V3.0 的过渡。我们考察三种主流解码器范式——自回归(Autoregressive, AR)、扩散(Diffusion)和流匹配(Flow Matching)——分析它们在多样性、稳定性和实时可行性方面的权衡，并讨论 V3.0 中的 VLA 范式如何解决 V2.0 架构中持续存在的根本性矛盾。 V2.0：规划器解码器选择问题单阶段端到端系统中的核心设计决策是规划器解码器头部(Planner Decoder Head)：将模型学习到的场景表征解码为可驾驶轨迹的机制。与分类或检测头部不同，轨迹解码必须同时满足多个相互竞争的约束：多模态性(Multi-modality)：在任意给定场景中，存在多条合理轨迹（保持车道、变道、让行）。解码器必须表征这种多模态分布，而不能坍缩到单一模式。时序一致性(Temporal Consistency)：连续帧必须产生一致的轨迹；帧间抖动对乘客舒适性和安全性是不可接受的。运动学可行性(Kinematic Feasibility)：预测的轨迹必须满足车辆动力学约束（曲率、加速度、加加速度）。实时推理(Real-time Inference)：解码器必须在车辆控制环路延迟预算内（通常 ≤100\leq 100 ms）生成轨迹。三族解码器架构已成为主要候选方案：自回归令牌预测、基于扩散的生成和流匹配。我们依次分析。自回归(AR)解码自回归方法将轨迹生成视为下一个令牌预测(Next-token Prediction)问题，直接借鉴了在大语言模型中被证明极其成功的范式。给定一条被离散化为动作令牌的轨迹 τ=(a1,a2,…,aT)\tau = (a_1, a_2, \ldots, a_T)，模型生成： p(τ)=∏t=1Tp(at∣a<t,x)p(\tau) = \prod_{t=1}^{T} p(a_t \mid a_{<t}, \mathbf{x})其中 x\mathbf{x} 表示场景编码（视觉特征、地图信息、自车状态）。这一形式以 MotionLM [1] 为代表，该模型将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测构建为语言建模任务。 AR 解码的关键优势在于其表达性多模态：通过自回归地建模完整的条件分布，解码器可以自然地表征多样的轨迹结果。然而，这一优势也有代价：帧间不一致性：由于每一帧的轨迹独立地从同一条件分布中生成，场景编码中的微小扰动可能导致帧间模式切换，产生自车轨迹中典型的"抖动"或"摇摆"现象。误差累积(Error Accumulation)：自回归误差沿轨迹时间范围复合累积，尤其对于长时预测更为严重。近期工作尝试通过强化学习来缓解抖动问题。具体而言，使用帧一致性奖励的 GRPO（组相对策略优化, Group Relative Policy Optimization）可以降低帧间变异性。然而，这种方法引入了新的病态：通过惩罚与前一帧轨迹的偏差，模型变得过于保守，变道触发指标退化——模型学会了通过完全避免变道来"求稳"。基于扩散的解码扩散模型通过从高斯先验迭代去噪来生成轨迹： τ0∼pθ(τ0∣x)=∫p(τK)∏k=K1pθ(τk−1∣τk,x) dτ1…dτK\tau_0 \sim p_\theta(\tau_0 \mid \mathbf{x}) = \int p(\tau_K) \prod_{k=K}^{1} p_\theta(\tau_{k-1} \mid \tau_k, \mathbf{x}) \, d\tau_1 \ldots d\tau_K其中 KK 是去噪步数，τK∼N(0,I)\tau_K \sim \mathcal{N}(0, \mathbf{I})。 ...

Why Generative Planning? The Non-Convexity Argument Against Regression in Autonomous Driving

轨迹规划器是自动驾驶系统的决策核心。其任务为：给定当前场景，输出一条安全、舒适且高效的未来轨迹。当今大多数生产系统使用某种形式的回归——最小化预测轨迹与真值轨迹之间的距离。然而，越来越多的研究和工程证据表明，这种方法存在一个根本性缺陷：它假设可行集(Feasible Set)是凸的，而事实上它绝非如此。本文阐述从第一性原理出发的论证：为什么生成式方法（扩散、自回归）不仅仅是改进，而是必要的范式转换。 1. 可行域的非凸性集合 SS 是凸的(Convex)，如果对于任意两点 A,B∈SA, B \in S，连接它们的线段上的每一点也属于 SS。在驾驶中，这一性质戏剧性地失效了： Obs Ego A: left detour (feasible) B: right detour (feasible) C = (A+B)/2: CRASH 轨迹 A 从障碍物左侧绕行；轨迹 B 从右侧绕行。两者都是可行的。它们的平均 A+B2\frac{A+B}{2} 径直撞向障碍物——不可行。可行域不是凸的，任何正则化都无法改变这一几何事实。 ...