引言

端到端自动驾驶近年来取得了显著进展,然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。根本性困难有四。其一,多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化,而非仅处理静态快照。其二,驾驶决策必须是因果性的:模型必须建模为何采取某动作,而非仅学习场景与动作之间的统计相关性。其三,预测轨迹必须在满足运动学和动力学约束的同时保持多模态性,且足够高效以实现实时推理。其四,推理过程必须与动作输出紧密对齐——推理不应是事后合理化,而必须可被实际执行的动作验证和约束。

Cosmos-Reason 系统,亦称 Alpamayo,通过跨结构、数据、训练和强化学习的精心协同设计来应对这些挑战。该系统不孤立地优化各模块,而是将推理-动作对齐、自车捷径规避(Ego-shortcut Avoidance)和实时多模态轨迹生成作为联合设计目标。本文提供 Cosmos-Reason 方法的技术概述,涵盖其系统架构、视觉编码器设计、轨迹解码策略、训练流水线、变化因(Cause-of-Change, COC)数据集范式和强化学习微调。

系统架构

Cosmos-Reason 系统以多相机、多时间戳的视觉观测、用户导航指令和历史自车运动(速度、轨迹历史)为输入。它产生三类输出:解释决策背后的关键物体、因果关系和环境变化的推理轨迹(Reason Trace);指定高级语义动作(如停车、让行、跟随、变道)的元动作(Meta Action);以及运动学可行且可执行的未来轨迹

一个关键设计原则支配着自车信息的角色。自车状态被视为*条件信号(Conditioning Signal)*而非决策的主要因果源。这一区分对避免自车捷径问题至关重要——在该问题中,模型学会从自身运动学状态推断决策(如"我停下了,所以一定有红灯"),而非从真正的环境理解出发。通过在结构上将自车信息从因果驱动因素降级为条件上下文,系统迫使模型将推理锚定于外部观测。

视觉编码器设计

视觉编码器必须满足一组严格的约束:它必须产生紧凑的令牌表征,在保持环境相关语义信息的同时满足 VLA 驾驶系统的实时要求。

环视相机的三平面压缩

对于环视相机输入,系统采用三平面(Tri-plane)压缩策略。编码器不是朴素地拼接多相机视图的令牌——这将导致令牌爆炸——而是将所有视图的信息投影到三个正交平面(XY、XZ、YZ)上。这种三平面表征将多视图信息统一为连贯的 3D 场景语义,同时保持令牌数量可控。该方法基于以下观察:3D 结构信息可以高效地分解为低维投影而不产生显著的语义损失,类似于三平面表征在神经辐射场中的应用。

时序压缩

驾驶视频流中的连续帧包含大量冗余信息。系统通过将时间视为额外维度并执行联合时空编码来解决这一问题。跨时间步联合编码模块结合基于全局注意力的压缩(称为 Flex)使模型能够从冗余背景中蒸馏出时序显著变化。这一设计确保令牌预算用于实际变化且与决策相关的信息,而非在各时间步重复编码静态环境。

可学习查询

结构化特征表征(如三平面)施加了可能限制模型表达能力的归纳偏置(Inductive Bias)。为此,系统引入可学习查询令牌(Learnable Query Token),使模型能够自主选择并关注最相关的信息。这些查询在结构化表征之上操作,提供了一种灵活的特征提取机制,而不受三平面固定空间结构的约束。

推理时令牌剪枝

在推理时,系统应用训练后令牌剪枝(Post-training Token Pruning)技术以进一步降低计算成本。对最终预测贡献较小的令牌被识别并移除,使模型能够更快运行而不产生显著的性能退化。

轨迹解码器

动作表征

系统不直接预测原始轨迹坐标——这将容易受到传感器噪声影响且难以施加运动学约束。取而代之的是使用基于自行车模型(Bicycle Model)的控制级表征。这一选择确保预测动作天然满足动力学约束,有利于多模态轨迹建模,并提高输出轨迹的稳定性和可解释性。

保真度

保真度(Fidelity)指通过推理-动作-控制编码和解码流水线的信息保持程度。高保真度意味着高级决策意图(体现在推理轨迹和元动作中)忠实地反映在低级控制指令中。系统设计旨在最小化该流水线各阶段的信息损失,确保执行轨迹是模型推理的真实实现。

专家解码器:“大脑-小脑"架构

解码阶段采用双专家架构。VLA 模型(“大脑”)处理感知、推理和元动作生成,输出编码决策上下文的键值(Key-Value, KV)表征。一个独立的动作专家(Action Expert)(“小脑”)接收这些 KV 表征,通过流匹配(Flow Matching)将其解码为高精度、平滑的连续控制指令。这种关注点分离使 VLA 专注于高级认知任务,而动作专家专精于细粒度轨迹生成,类似于小脑精炼来自皮层意图的运动指令。

训练策略

离散动作令牌

选择离散动作令牌(Discrete Action Token)有三个目的。其一,使模型适用于强化学习:离散动作空间允许直接应用策略梯度方法(如 GRPO)来优化推理质量和一致性。其二,离散令牌与语言令牌共享相同的表征空间,为推理-动作对齐提供了天然基础。其三,离散表征用于训练稳定性与流匹配用于推理时精度和多模态性的组合,产生了一个在训练期间鲁棒、在部署时富有表达力的系统。

训练解耦

训练过程遵循解耦策略。VLA 模型(感知与推理)首先训练。收敛后,其参数被冻结,KV 表征被导出。动作专家随后在这些冻结表征上单独训练。这种解耦防止了低级控制任务的噪声和梯度信号污染高级推理模块,保持了学习到的推理轨迹的质量。

COC 数据集

变化因(Cause-of-Change, COC)数据集范式是系统推理质量方法的核心。关键洞察在于:现有驾驶数据集包含的推理标注模糊、事后生成,且与实际执行的动作脱节。在此类数据上训练的模型学会了做什么而非为什么,产生的推理轨迹本质上是回顾性辩解,而非真正的因果解释。

COC 范式强制执行显式的因果结构。每个标注必须指定哪个环境变化和哪个关键物体导致了当前的决策和动作。这不仅仅是生成更长的推理轨迹;而是施加严格的因果模板,要求模型将解释锚定于可观测的环境因素。

为大规模构建 COC 数据,系统结合高质量人工标注与自动化教师-学生流水线。人工标注覆盖设计域——天气、光照和道路条件——并包含关于关键物体的显式因果推理。自动化流水线使用大语言模型(如 Qwen)作为教师来生成自车行为推理和动作预测,受禁止自车触发解释、要求引用外部物体和环境变化的提示约束。

RL 微调

目标

强化学习阶段旨在通过基于模型自身展开(Rollout)优化推理和动作来提供显式推理反馈。系统使用组相对策略优化(Group Relative Policy Optimization, GRPO),将优化目标与当前模型的在线展开对齐。

奖励设计

奖励函数包含三个组件。第一是推理质量,由作为评判者的专家 LLM 评估,惩罚幻觉和因果空洞的解释。第二是推理-动作一致性,通过将生成的轨迹逆向求解为元动作并与推理轨迹中声明的元动作比较来验证推理轨迹与执行轨迹之间的对齐。第三是轨迹质量,通过基于规则的指标计算,包括碰撞、边界违反、舒适度和效率。

成本高效的 RL

在线策略采样(On-policy Sampling)计算昂贵。为此,系统构建专用的后训练数据集,使用模型对数(Logit)和奖励信号估计样本价值。关键指标是当前策略与参考策略之间的 KL 散度:散度越高的样本对训练的信息量越大。这使系统能够优先处理高价值样本并减少所需的总展开次数。Cosmos-RL 框架为这一高效 RL 流水线提供基础设施。

讨论

Cosmos-Reason 系统的核心贡献不在于任何单一模块,而在于跨架构、数据、训练和强化学习的联合优化。自车信息的结构性降级防止了捷径学习。COC 数据集范式强制执行真正的因果推理而非事后解释。解耦训练策略在保证推理质量的同时实现高保真轨迹生成。GRPO 微调阶段通过对推理质量和推理-动作一致性的直接反馈闭环。

若干开放问题仍然存在。视觉编码器中令牌压缩与信息保持之间的权衡可能随着系统扩展到更长时序范围而变得更加尖锐。COC 标注过程虽然有效,但依赖大语言模型作为教师,引发了通过蒸馏可达到的推理质量上限问题。RL 微调流水线的迭代性质虽然相对于完全在线 RL 具有成本效率,但仍需要仔细安排采样和训练迭代。最后,自车捷径规避策略向更复杂多智能体交互的泛化值得进一步研究。

参考文献

  1. NVIDIA. “Cosmos-Reason: Reasoning and Action Alignment for Autonomous Driving.” Technical Report, 2025.
  2. NVIDIA. “Cosmos-RL: A Framework for Reinforcement Learning with Vision-Language Models.” 2025. Available at: https://nvidia-cosmos.github.io/cosmos-rl/
  3. Chan, E.R., Lin, C.Z., Chan, M.A., et al. “Efficient Geometry-aware 3D Generative Adversarial Networks.” CVPR, 2022. (Tri-plane representation)
  4. Lipman, Y., Chen, R.T.Q., Ben-Hamu, H., et al. “Flow Matching for Generative Modeling.” ICLR, 2023.
  5. Shao, Z., Wang, P., Zhu, Q., et al. “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.” arXiv:2402.03300, 2024. (GRPO)
  6. Rafailov, R., Sharma, A., Mitchell, E., et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” NeurIPS, 2023. (DPO)