自动驾驶世界模型 × Action：六范式在 NAVSIM 上的落地与跨域对偶

引言

上一篇从预测未来到驱动行动：机器人世界模型的架构与评测以 NTU/UC Berkeley/Stanford 联合综述为底本，把世界模型与策略的耦合方式归纳为六个范式：解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇：把同一套理论骨架带到自动驾驶，看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。

这五篇是 DriveLaW（华科+小米，NAVSIM v1 89.1）、DriveWorld-VLA（北交大+小米，v1 91.3 / v2 86.8）、LaST-VLA（清华+小米EV+澳大，v1 91.3 / v2 87.1）、Latent-WAM（中科院+长安，v2 89.3）、Uni-World VLA（理想，v1 89.4）。它们覆盖了从 2025 年 12 月到 2026 年 3 月的时间窗，团队来自学界与车企的不同组合，但收敛到一个共同关切：在 BEV、视频 latent、3D 几何特征里挑一个空间，把世界预测目标内化进端到端规划。

本文回答四个问题。AD 场景的物理约束如何重塑机器人那套范式的权衡（§1）？五篇分别落在六范式的哪个位置，以及 Uni-World VLA 提出的"交错生成"是否构成第七范式（§2）？哪些跨域结论稳健、哪些被场景差异翻转（§3）？NAVSIM 的 PDMS 与机器人侧的 closed-loop success rate 是否同样存在同构指标问题（§4）？最后是对实际工作的几条指引（§5）。

1. 从机器人到自动驾驶：场景差异决定权衡差异

机器人侧综述在 §4 列出三大挑战：因果条件化差距、推理效率瓶颈、物理 grounding。把这三条原样搬到 AD 不会出错，但权重需要重新分配。

接触 vs 几何的 grounding 侧重。机器人接触丰富任务要求触觉、本体感觉、力反馈与视觉互补——视频预测无法稳定恢复夹爪是否真的接触。AD 场景没有接触物理（碰撞即灾难，模型的任务恰恰是避免它），grounding 的全部重量压在视觉与几何侧：BEV 占据栅格、单目深度、3D 几何重建。Depth Anything 3 [3] 和 VGGT [4] 在 AD 场景里是 grounding 的主角，触觉模态不在场。LaST-VLA 用 VGGT 作为几何适配器的对齐目标、Latent-WAM 用 WorldMirror 做几何蒸馏、Uni-World VLA 用 Depth Anything 3 做深度融合——三家不同团队、三种方法，都把 3D 几何作为世界模型的强先验。

安全裕度反转。机器人允许重试，夹取失败可以重置回原位再试。AD 不允许——一次碰撞、压实线、闯红灯就是任务失败。这一差异让"反事实想象"（基于不同候选动作推演不同未来）在 AD 上比在机器人上更被重视。DriveWorld-VLA 的 Stage 3 专门做未来引导的闭环评估：先预测动作，再用 DiT 分支以预测动作为条件推演未来 BEV，引入 reward function 评分，把高分轨迹的梯度权重抬高。这种"想象多条 rollout、选最优、再训"的循环在机器人综述里也存在，但在 AD 上是核心训练目标而非附加优化。

控制频率约束反转。机器人操作任务通常 10-30 Hz 闭环，每一拍可以容许 30-100 ms 的模型推理。AD 在高速场景下决策延迟必须低于 100 ms，逼近 GPU 单步推理极限。这一约束直接传导到架构选择：Latent-WAM 把推理参数压到 104M、完全跳过显式视频生成；DriveLaW 用 LTX-Video 的 32×32×8 高压缩潜空间（1:192 压缩比）；Fast-WAM 的 train-imagine-execute-fast 思路（训练时学未来、推理时不算未来）在 AD 上被独立验证。机器人综述里 Fast-WAM 的结论是亮点，AD 综述里同款结论已经成为基础设施。

数据分布差异。机器人数据集 GigaWorld 用 10k 小时具身视频，覆盖第一视角操作。AD 用 nuScenes + nuPlan + Waymo Open Motion，规模到百万小时但场景分布偏窄——主要是城市道路 + 高速。这导致 AD 世界模型的"想象"任务比机器人简单（车辆运动遵循刚体动力学、道路结构服从交通规则）但泛化要求更高（必须覆盖罕见 corner case）。DriveLaW 的消融显示视频预训练数据从 0 扩到 7.6M 帧带来 PDMS 从 85.9 到 89.1 的单调提升，预训练规模在 AD 上的收益尚未饱和。

这四条差异不是孤立的。它们解释了为什么 AD 的五篇工作集中在统一 VLA 与 Latent-space 两个范式上——既要 grounding 强、又要 inference 快、又要支持反事实评估、又要在大规模数据上保持训练效率。

2. AD 五篇 × 六范式映射

把五篇逐个放进机器人综述给出的范式空间。

论文	主要范式	视觉表征	动作预测	NAVSIM 成绩
DriveLaW	MoE/MoT 串联变体	LTX-Video latent (32×32×8)	133M Action DiT (flow matching)	v1 89.1
DriveWorld-VLA	统一 VLA + Latent reward	BEV (ResNet-34/Swin-T)	InternVL3-2B + Action Decoder	v1 91.3, v2 86.8
LaST-VLA	统一 VLA（结构化预测）	Cosmos + VGGT 对齐特征	InternVL3 + waypoints	v1 91.3, v2 87.1
Latent-WAM	Latent-space	DINOv2-Base + WorldMirror 蒸馏	4 层 Transformer Decoder	v2 89.3
Uni-World VLA	交错生成（新范式候选）	MagVIT-v2 + DA3 深度融合	交错的 frame/action token	v1 89.4

2.1 DriveLaW：视频 → 动作的串联 MoE/MoT

DriveLaW 把世界模型与规划器从"并行训练"重组为"串联推理"：先训 2B 参数的 LTX-Video 视频模型，再让 133M 参数的 Action DiT 读取 Video DiT 在第一次去噪时每一层 transformer block 的隐特征 $\{f_1, f_2, \ldots, f_B\}$ ，把它们作为 cross-attention 的 condition。三阶段训练对应"低分辨率长帧学动作规律 → 高分辨率短帧提质 → 视频与动作联合训"。

形式上，给定 latent video $z_t$ 、条件 $c$ （导航指令 + 自车状态），

z_{t-1} = \Psi_\theta(z_t, t, c), \qquad h_t = \phi_\theta(z_t)

$\Psi_\theta$ 是 Video DiT 的去噪步骤， $\phi_\theta$ 是从去噪过程抽取隐特征的算子。Action DiT 接受 $(h_{t=1}, t, \text{ego}, \text{cmd})$ 作为输入预测轨迹。

把它放回机器人综述的六范式：视觉流（Video DiT）与动作流（Action DiT）保持独立结构、独立参数，通过共享隐特征交互——这是 MoE/MoT 的形态。但与典型 MoE/MoT 的并行去噪不同，DriveLaW 是串联的：视频在时间上领先动作，Action DiT 在 Video DiT 完成第一步去噪后才取特征。这种串联让 Action DiT 可以利用视频模型在大规模视频上预训练的世界知识，但代价是 Action 必须等 Video 的第一步去噪——推理路径上多了一道顺序依赖。

值得一提的细节是 Noise Reinjection：训练时不全局加噪声、只给高频细节区域（车道线、车灯、车辆边缘、路面纹理）有选择地重新注入少量噪声，强迫模型主动重绘这些细节而不是平滑掉。这一技巧在机器人侧没有对应——机器人场景的高频细节是接触点与物体边缘，主要靠触觉数据补全，没有人在视频侧做类似处理。

DriveWorld-VLA 把所有模态都接到 InternVL3-2B 的潜空间里：多视角图片、BEV 特征、历史动作、文本指令。VLM 输出共享潜在特征 $\mathcal{H}_t$ ，由两个不同的 head 分头使用——预测未来 BEV $\mathcal{B}_{t+\Delta t}$ 、预测动作 $\mathcal{A}'_{t+\Delta t}$ 。这是典型的统一 VLA 形态：

\mathcal{L}_{s_1} = \mathcal{L}_{\text{seg}} + \mathcal{L}_{\text{act}}

但它在 Stage 2 与 Stage 3 走出了机器人侧综述未覆盖的一步。Stage 2 把未来的真实多视角图像送入冻结的 BEV 编码器拿到"真实未来 BEV 潜在状态" $\mathcal{B}_{t+\Delta t}$ 作为监督信号，用第二个 DiT 分支（Action-conditioned Denoiser）在未来动作条件下推演未来 BEV：

\mathcal{L}_{\text{FM}} = \left\| \text{DiT}_\theta\bigl(\mathcal{B}_t', \mathcal{A}_{t+\Delta t}, x_k, k/N\bigr) - \bigl(\mathcal{B}_{t+\Delta t} - x_0\bigr) \right\|^2

这一损失函数是 flow matching 的标准形式（参见 Flow Matching 与一致性模型），但条件里有动作 $\mathcal{A}_{t+\Delta t}$ 这一项——意味着 denoiser 学到的是"给定动作时未来 BEV 长什么样"的条件分布，这正是因果条件化（control-consistent future）的具体实现。

Stage 3 把这个能力反过来用：先用 denoiser 第一分支预测未来 BEV $\mathcal{B}_{t+\Delta t}$ ，再用 DiT 第二分支以预测动作为条件推演动作条件未来 BEV $\mathcal{B}'_{t+\Delta t}$ ，引入 reward function $r_{t+\Delta t} = \mathcal{R}(\mathcal{B}'_{t+\Delta t}, \mathcal{B}_{t+\Delta t}, \mathcal{A}'_{t+\Delta t})$ 评估二者一致性，把高分轨迹的梯度权重抬高：

\mathcal{L}'_{\text{act}} = \hat{r}_{t+\Delta t} \cdot \|\mathcal{A}'_{t+\Delta t} - \mathcal{A}_{t+\Delta t}\|^2

这是机器人综述里讨论的 rollout evaluation 在 AD 上的形态——但具体到 NAVSIM 上还多了一步：真实奖励分数通过把轨迹丢进 NAVSIM 仿真器在线评估得到。机器人侧很少有类似 closed-loop simulator 的反馈渠道，AD 因为 NAVSIM 的存在多了这一手。

2.3 LaST-VLA：预测 Cosmos + VGGT 对齐特征的统一 VLA

LaST-VLA 与 DriveWorld-VLA 在范式归属上是同类（都是统一 VLA），区别在于预测目标的选择。DriveWorld-VLA 预测 BEV（人造的 2D 鸟瞰栅格），LaST-VLA 预测两个基础模型的中间特征：Cosmos（视频世界模型）的表征空间通过 Dynamics Adapter 对齐、VGGT（3D 基础模型）的密集特征空间通过 Geometry Adapter 对齐。

形式上 VLM 输出隐式 CoT 序列 $H = \{h_k\}_{k=1}^K = \pi_\theta(E_{\text{img}}, E_L)$ ，划分为动态流（3×12 token，对应短/中/长期运动状态）和几何流（12 token），分别走两个适配器：

\mathcal{L}_{\text{WM}} = \|p^{\text{dyn}} - F_{\text{Cosmos}}\|_2^2, \qquad \mathcal{L}_{\text{3D}} = \|p^{\text{geo}} - F_{\text{VGGT}}\|_2^2

\mathcal{L}_{\text{total}} = \lambda_{\text{action}} \mathcal{L}_{\text{CE}} + \lambda_{\text{WM}} \mathcal{L}_{\text{WM}} + \lambda_{\text{3D}} \mathcal{L}_{\text{3D}}

Stage 1 设 $\lambda_{\text{WM}} = \lambda_{\text{3D}} = 1.0 \gg \lambda_{\text{action}} = 0.01$ ，强制隐式 CoT 严格对齐教师模型特征——“学会思考”。Stage 2 权重反转——“学会行动”。这与机器人综述里讨论的 DreamVLA 是同型工作：预测结构化世界知识（动态区域、深度、语义）而非原始像素。AD 侧 LaST-VLA 把这一思路推得更彻底：用两个独立的基础模型作为教师，让 CoT 在两个正交维度（dynamic、geometric）上同时被约束。

两个特殊的注意力 mask 设计——隐式互掩码（动态隐式特征与几何隐式特征相互屏蔽）、视觉瓶颈掩码（动作 token 禁止直接关注原始图像特征）——是确保隐式 CoT 真的承担推理责任的工程化保险。如果不做这两个 mask，模型会偷懒：把空间信息和时间信息混杂、或者绕过隐式特征直接从视觉特征生成动作。这两个 mask 在机器人侧没有对应——大概是因为机器人侧的隐式 CoT 还没复杂到需要这种正交化约束。

2.4 Latent-WAM：完全潜在空间的世界模型

Latent-WAM 是五篇里最干净的 Latent-space 范式实例。整个 pipeline 不做任何像素级别的视频生成，全部在 DINOv2 + 几何蒸馏的潜在空间运转。Spatial-Aware Compressive World Encoder（SCWE）是 DINOv2-Base + 几何对齐到 WorldMirror 的输出：

\mathcal{L}_{\text{align}} = 1 - \cos\bigl(\text{LN}(\phi(\hat{X})), \text{LN}(f_g(I))\bigr)

Dynamic Latent World Model（DLWM）用 4 层 Transformer Decoder + 3D-RoPE，把过去几帧的 $S_{\text{world}}$ 作为 KV 缓存，用随机初始化的 future query 提取未来信息。世界模型损失 $\mathcal{L}_{\text{wm}}$ 用 MSE 监督 DLWM 预测的未来状态向 EMA 老师模型给出的真值靠拢。

最重要的是推理路径：只用 World Encoder + 轨迹解码器，DLWM 在推理时被裁掉——和 Fast-WAM 在机器人侧的设计完全同构。总推理参数 104M，是五篇里最小的。NAVSIM v2 上 89.3 的成绩证明：在 AD 上，Fast-WAM “训练时学未来、推理时不算未来” 的结论同样成立，而且压缩到 104M 参数仍然能跑出 v2 89.3 的 EPDMS。

这一跨域结论很硬。如果 Fast-WAM 与 Latent-WAM 在两个完全不同的场景（机器人桌面操作 vs 城市道路驾驶）都证明视频分支在推理时可以裁掉，那这就不再是"某个范式的特例"——而是"世界建模在 VLA 训练中起的是正则化作用、不是 inference-time 的预测作用"这一更普遍命题的两次独立证据。

2.5 Uni-World VLA：交错生成是否构成第七范式

Uni-World VLA 用统一大模型交替生成帧 token 和动作 token：在每一步循环里先预测 $\hat{d}_{t+k}$ （下一帧 token），再预测 $\hat{a}_{t+k}$ （下一动作 token），下一帧的预测基于已生成的帧与动作历史，下一动作的预测又基于已生成的帧（含新预测的那一帧）：

\hat{d}_{t+k} \sim p_\theta(d_{t+k} \mid \hat{d}_{\le t+k-1}, \hat{a}_{\le t+k-1})

\hat{a}_{t+k} \sim p_\theta(a_{t+k} \mid \hat{d}_{\le t+k}, \hat{a}_{\le t+k-1})

这种交错生成跟机器人综述里六范式的任何一个都不完全吻合。它不是 MoE/MoT——视觉流和动作流是同一个大模型而非两个独立流。它不是统一 VLA——后者把预测目标作为辅助损失内化，Uni-World 直接把帧 token 作为 first-class 输出。它也不是单骨干生成——后者并行去噪所有 token，Uni-World 是严格的因果交错。

机器人侧最接近的工作是 LingBot-VA（蚂蚁灵波），它在自回归扩散框架里把视频和动作交错放进一个序列。但 LingBot-VA 是双流 MoT（视频 DiT + 动作 DiT，宽度不同）+ 共享的因果注意力，本质上仍是 MoE/MoT 的因果变体。Uni-World VLA 是真正的单一大模型 + 模态间因果分隔，更激进。

把它归类为"交错生成"是否构成第七范式，取决于六范式的划分粒度。如果把 MoE/MoT 理解为"任何形式的多模态因果交互"，Uni-World 可以塞进去；如果坚持 MoE/MoT 要求模态流物理分离，Uni-World 就需要独立的范式标签。本文倾向后者——单一大模型 + 模态间因果分隔是足够独立的设计选择，应当被识别为 candidate 第七范式。这一判断的落地证据：理想团队报告的 NAVSIM v1 89.4 是该范式下的最高分，未来若有更多团队走相同路线、且成绩稳定在 90 分以上，这一范式就坐实了。

值得注意的辅助设计是 Uni-World 的 MagVIT-v2 双路编码——一路高清慢编码成上下文 token（看环境结构）、一路低清快编码成动态 token（看运动变化）。这是对"AD 场景里运动信息与结构信息的时间尺度差异"的工程响应，机器人侧场景结构变化慢、不需要这一区分。

3. 同范式跨域对偶

把 AD 五篇与机器人侧综述提到的代表性工作做配对，看哪些跨域结论稳健、哪些被场景差异翻转。

对偶一：Fast-WAM ↔ Latent-WAM。两者都验证"训练时学未来、推理时跳过"。Fast-WAM 在 LIBERO 与 RoboTwin 上证明这一思路的可行性，Latent-WAM 在 NAVSIM v2 上跑出 89.3 EPDMS。结论稳健，已经从"某个范式的特例"上升为"跨域 robust insight"。对工作的启示：在自家 AD 系统里如果显式 video rollout 占用推理预算，可以放心剪掉、只在训练阶段保留视频共训。

对偶二：DreamVLA ↔ LaST-VLA。两者都是统一 VLA 的"预测结构化知识"变体，不是预测原始像素。机器人侧 DreamVLA 预测动态区域 + 深度 + 语义，AD 侧 LaST-VLA 预测 Cosmos + VGGT 对齐特征。结论：在统一 VLA 范式下，预测目标的"语义结构化程度"决定上限——预测原始像素信息量过载、预测低维 BEV 信息量不足、预测基础模型对齐特征居中且 grounding 强。对工作的启示：选择预测目标时，向"已经被基础模型提炼过"的特征空间靠拢，比向原始像素或人工设计的 BEV 靠拢更可能拿到高分。

对偶三：GigaWorld-Policy ↔ Uni-World VLA。两者都是交错生成范式的代表，分别在 Wan2.2 5B 基座与理想自研基座上实现。GigaWorld 用 5B 参数 + 10k 小时具身预训练在 RoboTwin 上拿 92.9，Uni-World 用未公开规模的基座在 NAVSIM v1 拿 89.4。对工作的启示：交错生成可能是六范式之外值得跟踪的第七条线，2026 H2 应当关注是否会有更多团队走这一路线。

对偶四：LingBot-VA ↔ DriveWorld-VLA。两者都引入 reward refinement 做闭环优化。机器人侧 LingBot-VA 通过自回归 + KV cache 实现推理时的闭环修正，AD 侧 DriveWorld-VLA 通过 NAVSIM 仿真器的在线评分实现训练时的 reward weighting。关键场景差异：机器人侧的"闭环"主要发生在推理期（实际机械臂的状态反馈），AD 侧的"闭环"主要发生在训练期（NAVSIM 仿真器作为奖励来源）。AD 的部署时推理仍然是开环——因为高速场景下没有时间做多步 rollout 比较。

对偶五：VLA-JEPA ↔ Latent-WAM。两者都用 JEPA-style 潜在空间预测，机器人侧 VLA-JEPA 在 V-JEPA 2 上做、AD 侧 Latent-WAM 在 DINOv2 + 几何蒸馏上做。结论稳健：潜在空间预测是高效世界模型的共同选择，在两个场景里都能跑到该范式下的 SOTA 附近。对工作的启示：如果自家系统的推理预算紧张，Latent-space 范式是当前最可行的高分路线。

翻转的结论

不是所有机器人侧的结论都直接搬过来。

反例一：触觉/力觉 grounding 在 AD 上完全不适用。机器人综述强调触觉数据集不足是 grounding 的瓶颈，AD 侧这一问题不存在——AD 场景不需要触觉。AD 的对应瓶颈是"罕见 corner case 数据稀疏"——长尾分布问题。

反例二：单骨干生成范式在 AD 五篇里完全缺席。机器人侧 UVA、UWA、Cosmos Policy、GigaWorld-Policy 多个工作走单骨干路线，AD 侧没有任何一篇这样做。可能的原因：AD 数据规模虽大但场景分布窄，单骨干联合优化容易让动作模态被视觉模态压制；机器人侧的接触物理给动作模态独立的 grounding 信号，更耐受单骨干的模态挤压。这是一个尚未被充分讨论的场景差异。

反例三：符号/规划器范式在 AD 侧也基本缺席。机器人侧 TD-MPC2、LeWorldModel 走梯度规划，AD 侧没有对应工作。这并非因为 AD 不需要符号——交通规则、车道拓扑都是符号——而是因为 AD 数据驱动方法已经把符号信息隐式编码进 BEV 表征里，显式符号推理还没被证明能在 NAVSIM 这类大规模 benchmark 上拿到竞争性成绩。

4. NAVSIM PDMS 是同构指标吗

机器人综述的 §6 指出一个被低估的开放问题：closed-loop success rate 是 single-scalar 同构指标，把世界模型的多个独立责任压成一个数字。这个批判可以平移到 NAVSIM 的 PDMS 与 EPDMS 上吗？

NAVSIM v1 的 PDMS 是这样定义的：

\text{PDMS} = \text{NC} \times \text{DAC} \times \text{TTC} \times \text{CF} \times \text{EP}

NC 是 no-collision、DAC 是 drivable area compliance、TTC 是 time-to-collision、CF 是 comfort、EP 是 ego progress。乘积形式意味着任何一项掉到 0 就整体清零。NAVSIM v2 的 EPDMS 把 NC 拆成 NC 与 DDC（driving direction compliance），把 EP 拆成 EP 与 TLC（traffic light compliance）等更细维度，但底层仍是若干 sub-metric 的乘积或加权。

表面上看 PDMS 比 success rate 更精细——它已经把"避碰、车道、舒适、进度"几个责任分开度量。但从机器人综述提的 disentangled metric 视角看，PDMS 仍然有同构问题，只是粒度更细：

问题一：PDMS 是乘积，不是和。一个在 NC、DAC、TTC、CF 上都 99 分但 EP 只有 50 分的模型，PDMS 大约 48；一个在所有维度上都 80 分的模型，PDMS 也大约 33。PDMS 的差异主要由短板决定，模型的真实长板在指标里被吞掉。

问题二：sub-metric 不正交。DAC 与 NC 高度相关——偏离可行驶区域大概率会引起碰撞。TTC 与 NC 也高度相关。把这些相关性强的 metric 直接相乘，等于在同一个轴上重复罚分。

问题三：世界模型的真正能力没有被任何一个 sub-metric 直接度量。DriveLaW 与 LaST-VLA 在 PDMS 上分数相近（89.1 vs 91.3），但前者预测 LTX-Video 的视频 latent、后者预测 Cosmos + VGGT 对齐特征——这两种预测在"对未来的因果理解"上完全不同。PDMS 没有任何一项专门评估"预测的未来是否反映真实 forward dynamics"，所以模型可以视频预测错得离谱，只要最后输出的轨迹凑巧通过 NAVSIM 检测就拿高分。

机器人综述在 §6 提的 disentangled metric——dynamics correctness、action feasibility、physical plausibility 分开度量——可以对应到 AD 的 disentangled metric：predicted scene dynamics fidelity（预测的他车轨迹是否与 NAVSIM 仿真器的真实他车轨迹一致）、counterfactual action validity（对替代候选动作的反事实想象是否物理合理）、long-horizon stability（5s 以上的预测是否仍稳定）。这三项目前都不在 NAVSIM 的指标里。WoTE [5] 与 Ctrl-World 在做的工作部分指向这一方向，但还远未形成评测共识。

对工作的启示：在自家 AD 系统的内部评测里，除了跑 NAVSIM 拿 PDMS，应当显式加上 disentangled 指标——至少包括 scene dynamics fidelity 与 counterfactual validity。这两项不会出现在 leaderboard 上，但会决定模型在真实路况下的鲁棒性边界。

5. 对工作的几条具体指引

把前四节的分析合并成可以落到日常工作里的几条 takeaway。

指引一：统一 VLA 范式在 AD 上是当前主流（DriveWorld-VLA + LaST-VLA 占据 v1 91.3 双榜首）。如果从零起步选范式，统一 VLA + 结构化预测目标（向 Cosmos / VGGT / DA3 这类基础模型的对齐特征靠拢）是当前最稳健的路线。预测原始视频或低维 BEV 是次优——前者信息过载、后者信息不足。

指引二：Latent-space 范式在 AD 上已经在 104M 参数（Latent-WAM）跑到 v2 89.3。这给推理预算紧张的部署场景指出一条明确的路径——用 DINOv2 / DA3 这类视觉基模做 SCWE + 几何蒸馏，把世界模型分支只在训练时用、推理时裁掉。

指引三：交错生成（Uni-World VLA）是值得跟踪的新兴范式。如果团队有定制基座的能力，可以尝试把帧 token 与动作 token 在因果序列里交错的设计。但需要警惕：这一范式当前只有理想一家在做，未经第三方独立复现验证。

指引四：反事实想象（DriveWorld-VLA Stage 3）的工程价值被低估。在 NAVSIM 仿真器仍然可用的训练环境下，把"想象多条动作 rollout、用仿真器给奖励、按奖励加权梯度"作为额外训练阶段，是当前所有五篇里收益/成本比最高的训练 trick——Stage 3 单独贡献了 DriveWorld-VLA 从 89.5 到 91.3 的提升。

指引五：PDMS 是同构指标。在内部评测里增加 disentangled metric（dynamics fidelity、counterfactual validity、long-horizon stability），否则一个在 PDMS 上看似优秀的模型可能在真实路况下出问题——同样的 89 分背后可能是非常不同的世界建模能力。

6. 系列内位置

graph TD
    RW["机器人侧综述
预测-行动接口（机器人）"]
    AD["本文
自动驾驶侧对偶（AD）"]
    VG["VGGT
3D 几何重建"] --> AD
    DA["DA3
逐像素深度"] --> AD
    VJ["V-JEPA 2.1
潜在空间预测"] --> AD
    DJ["Driving JEPA
驾驶世界模型"] --> AD
    WA["Wan2.2
视频生成边界"] --> AD
    XC["X-Cache
推理加速"] --> AD
    RW <--> AD

    style RW fill:#d5f5e3,stroke:#1abc9c
    style AD fill:#d5f5e3,stroke:#1abc9c
    style VG fill:#d4efdf,stroke:#27ae60
    style DA fill:#d4efdf,stroke:#27ae60
    style VJ fill:#d4efdf,stroke:#27ae60
    style WA fill:#fadbd8,stroke:#e74c3c
    style DJ fill:#d6eaf8,stroke:#3498db
    style XC fill:#fdebd0,stroke:#e67e22

这一对偶完成了世界模型 × Action 的两侧 mapping——机器人侧由 NTU/Berkeley/Stanford 联合综述领衔，AD 侧由 2026 H1 的五篇 NAVSIM 工作领衔。两侧共享六范式骨架，但在场景约束（接触 vs 几何、安全裕度、控制频率、数据分布）下做出不同的权衡。共同的开放问题是 disentangled metric——把世界模型的若干独立责任拆开打分，而非折叠进 success rate 或 PDMS 这类同构出口。

参考文献

[1] 从预测未来到驱动行动：机器人世界模型的架构与评测. 本系列文章

[2] Wan2.2 and the Boundary of Video World Models. 本系列文章

[3] Depth Anything 3: Geometric Grounding for World Models. 本系列文章

[4] VGGT: 几何重建作为世界模型的 reconstruct 维度. 本系列文章

[5] Li, B., et al. WoTE: World-on-the-Edge for End-to-End Driving Trajectory Evaluation. ICCV 2025.

[6] DriveLaW: Unifying Planning and Video Generation in a Latent Driving World. 华科 + 小米, 2025.12.

[7] DriveWorld-VLA: Unified Latent-Space World Modeling with Vision–Language–Action for Autonomous Driving. 北交大 + 小米, 2026.2.

[8] LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving. 清华 + 小米EV + 澳大, 2026.3.

[9] Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving. 中科院 + 长安, 2026.3.

[10] Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving. 理想, 2026.3.

[11] Yuan, T., Dong, Z., Liu, Y., Zhao, H. Fast-WAM: Do World Action Models Need Test-time Future Imagination? 2026.3.

[12] Causal World Modeling for Robot Control (LingBot-VA). 蚂蚁灵波, 2026.1.

[13] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model. 中科大, 2026.2.

[14] World Guidance (WoG): World Modeling in Condition Space for Action Generation. 字节 Seed + HKU, 2026.2.

[15] GigaWorld-Policy: An Efficient Action-Centered World–Action Model. 2026.3.

[16] NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking. Dauner et al., NeurIPS 2024.

引言#

1. 从机器人到自动驾驶：场景差异决定权衡差异#

2. AD 五篇 × 六范式映射#

2.1 DriveLaW：视频 → 动作的串联 MoE/MoT#

2.2 DriveWorld-VLA：统一 VLA + Latent reward refinement#

2.3 LaST-VLA：预测 Cosmos + VGGT 对齐特征的统一 VLA#

2.4 Latent-WAM：完全潜在空间的世界模型#

2.5 Uni-World VLA：交错生成是否构成第七范式#

3. 同范式跨域对偶#

翻转的结论#

4. NAVSIM PDMS 是同构指标吗#

5. 对工作的几条具体指引#

6. 系列内位置#

参考文献#

相关文章

引言