Vision-Language-Action Models for Autonomous Driving: The Cosmos-Reason Approach
引言 端到端自动驾驶近年来取得了显著进展,然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。根本性困难有四。其一,多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化,而非仅处理静态快照。其二,驾驶决策必须是因果性的:模型必须建模为何采取某动作,而非仅学习场景与动作之间的统计相关性。其三,预测轨迹必须在满足运动学和动力学约束的同时保持多模态性,且足够高效以实现实时推理。其四,推理过程必须与动作输出紧密对齐——推理不应是事后合理化,而必须可被实际执行的动作验证和约束。 Cosmos-Reason 系统,亦称 Alpamayo,通过跨结构、数据、训练和强化学习的精心协同设计来应对这些挑战。该系统不孤立地优化各模块,而是将推理-动作对齐、自车捷径规避(Ego-shortcut Avoidance)和实时多模态轨迹生成作为联合设计目标。本文提供 Cosmos-Reason 方法的技术概述,涵盖其系统架构、视觉编码器设计、轨迹解码策略、训练流水线、变化因(Cause-of-Change, COC)数据集范式和强化学习微调。 系统架构 Cosmos-Reason 系统以多相机、多时间戳的视觉观测、用户导航指令和历史自车运动(速度、轨迹历史)为输入。它产生三类输出:解释决策背后的关键物体、因果关系和环境变化的推理轨迹(Reason Trace);指定高级语义动作(如停车、让行、跟随、变道)的元动作(Meta Action);以及运动学可行且可执行的未来轨迹。 一个关键设计原则支配着自车信息的角色。自车状态被视为*条件信号(Conditioning Signal)*而非决策的主要因果源。这一区分对避免自车捷径问题至关重要——在该问题中,模型学会从自身运动学状态推断决策(如"我停下了,所以一定有红灯"),而非从真正的环境理解出发。通过在结构上将自车信息从因果驱动因素降级为条件上下文,系统迫使模型将推理锚定于外部观测。 视觉编码器设计 视觉编码器必须满足一组严格的约束:它必须产生紧凑的令牌表征,在保持环境相关语义信息的同时满足 VLA 驾驶系统的实时要求。 环视相机的三平面压缩 对于环视相机输入,系统采用三平面(Tri-plane)压缩策略。编码器不是朴素地拼接多相机视图的令牌——这将导致令牌爆炸——而是将所有视图的信息投影到三个正交平面(XY、XZ、YZ)上。这种三平面表征将多视图信息统一为连贯的 3D 场景语义,同时保持令牌数量可控。该方法基于以下观察:3D 结构信息可以高效地分解为低维投影而不产生显著的语义损失,类似于三平面表征在神经辐射场中的应用。 时序压缩 驾驶视频流中的连续帧包含大量冗余信息。系统通过将时间视为额外维度并执行联合时空编码来解决这一问题。跨时间步联合编码模块结合基于全局注意力的压缩(称为 Flex)使模型能够从冗余背景中蒸馏出时序显著变化。这一设计确保令牌预算用于实际变化且与决策相关的信息,而非在各时间步重复编码静态环境。 可学习查询 结构化特征表征(如三平面)施加了可能限制模型表达能力的归纳偏置(Inductive Bias)。为此,系统引入可学习查询令牌(Learnable Query Token),使模型能够自主选择并关注最相关的信息。这些查询在结构化表征之上操作,提供了一种灵活的特征提取机制,而不受三平面固定空间结构的约束。 推理时令牌剪枝 在推理时,系统应用训练后令牌剪枝(Post-training Token Pruning)技术以进一步降低计算成本。对最终预测贡献较小的令牌被识别并移除,使模型能够更快运行而不产生显著的性能退化。 轨迹解码器 动作表征 系统不直接预测原始轨迹坐标——这将容易受到传感器噪声影响且难以施加运动学约束。取而代之的是使用基于自行车模型(Bicycle Model)的控制级表征。这一选择确保预测动作天然满足动力学约束,有利于多模态轨迹建模,并提高输出轨迹的稳定性和可解释性。 保真度 保真度(Fidelity)指通过推理-动作-控制编码和解码流水线的信息保持程度。高保真度意味着高级决策意图(体现在推理轨迹和元动作中)忠实地反映在低级控制指令中。系统设计旨在最小化该流水线各阶段的信息损失,确保执行轨迹是模型推理的真实实现。 专家解码器:“大脑-小脑"架构 解码阶段采用双专家架构。VLA 模型(“大脑”)处理感知、推理和元动作生成,输出编码决策上下文的键值(Key-Value, KV)表征。一个独立的动作专家(Action Expert)(“小脑”)接收这些 KV 表征,通过流匹配(Flow Matching)将其解码为高精度、平滑的连续控制指令。这种关注点分离使 VLA 专注于高级认知任务,而动作专家专精于细粒度轨迹生成,类似于小脑精炼来自皮层意图的运动指令。 训练策略 离散动作令牌 选择离散动作令牌(Discrete Action Token)有三个目的。其一,使模型适用于强化学习:离散动作空间允许直接应用策略梯度方法(如 GRPO)来优化推理质量和一致性。其二,离散令牌与语言令牌共享相同的表征空间,为推理-动作对齐提供了天然基础。其三,离散表征用于训练稳定性与流匹配用于推理时精度和多模态性的组合,产生了一个在训练期间鲁棒、在部署时富有表达力的系统。 训练解耦 训练过程遵循解耦策略。VLA 模型(感知与推理)首先训练。收敛后,其参数被冻结,KV 表征被导出。动作专家随后在这些冻结表征上单独训练。这种解耦防止了低级控制任务的噪声和梯度信号污染高级推理模块,保持了学习到的推理轨迹的质量。 COC 数据集 变化因(Cause-of-Change, COC)数据集范式是系统推理质量方法的核心。关键洞察在于:现有驾驶数据集包含的推理标注模糊、事后生成,且与实际执行的动作脱节。在此类数据上训练的模型学会了做什么而非为什么,产生的推理轨迹本质上是回顾性辩解,而非真正的因果解释。 COC 范式强制执行显式的因果结构。每个标注必须指定哪个环境变化和哪个关键物体导致了当前的决策和动作。这不仅仅是生成更长的推理轨迹;而是施加严格的因果模板,要求模型将解释锚定于可观测的环境因素。 ...