从预测未来到驱动行动：机器人世界模型的架构与评测

引言

在本系列前作中，V-JEPA 2.1 在潜在空间中做语义预测 [1]，Wan2.2 在像素空间中渲染视觉上合理的未来 [2]，VGGT 从 2D 观测中逆推 3D 几何 [3]，DA3 把空间结构蒸馏为逐像素深度 [4]，Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5]，2D 到 4D 综述梳理了视觉基模的几何觉醒 [6]，DINOv3 展示了自监督规模化对 dense feature 的突破 [7]，X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开，回答的都是表征侧的问题：世界模型应该长什么样。

NTU、UC Berkeley、Stanford、Oxford、ETH Zurich 等机构的综述 “World Model for Robot Learning” [9] 接续的是另一个正交切面：当世界模型必须服务于机器人控制时，预测未来与驱动行动之间的接口应当如何组织。综述覆盖 160+ 篇论文，对机器人学习提出的论断很直接——评判世界模型的尺度应当落在"想象出的未来能否用于控制"上，而把"能不能想象未来"这一视觉保真度问题降格为前置条件。本文沿此思路梳理：闭环动机（§1）、六范式对比（§2）、评测转向（§3）、三大挑战（§4）、闭环图（§5），最后给出一段关于评测同构性的批判（§6）。

1. 闭环动机：为什么世界模型必须服务于 action

形式上，世界模型 $\mathcal{W}$ 接收观测 $o_t$ 与语言指令 $l$ ，输出未来观测序列：

\hat{o}_{t+1:t+H} = \mathcal{W}(o_t, l)

更一般地，预测可在潜在空间进行： $\hat{z}_{t+1:t+H} = \mathcal{W}(\mathrm{E}_{\mathrm{img}}(o_t), \mathrm{E}_{\mathrm{text}}(l))$ 。综述把对机器人学习有操作性的世界模型归纳为三类核心能力。Foresight：预见动作后果，回答"如果这样做，世界会变成什么样"。Imagination-driven planning：对候选动作集合 $\{a^{(i)}\}$ 想象多条 rollout，挑选评估函数 $V$ 下最优的一条：

a^* = \arg\max_{a^{(i)}} V(\hat{o}^{(i)}_{t+1:t+H}, l)

Data amplification：用合成 rollout 扩充训练分布， $D_{\text{train}} = D_{\text{real}} \cup D_{\text{synth}}$ 。

与之对照的是当前主流 VLA 范式 $\pi(a_t | o_t, l)$ ——单次前向把观测和语言映射成动作，对未来状态的预判全部内化在参数里。VLA 在数据充足、任务短时域的设置下足够高效，但在稀疏奖励、长时域规划或安全敏感的设置下，缺少可检验的未来预测意味着错误诊断与候选行为比较都失去抓手。这里有一个常被略过的细节：当下被广泛使用的"world model is action-conditioned video generation"叙事，把视觉保真度当成代理指标——视觉上合理但与动作因果不一致的未来，对闭环决策几乎没有价值。世界模型与 VLA 的差别正在于这一点是否被显式建模。

2. 六范式：四个正交轴上的不同权衡

综述从联合分布 $p(o_{t+1:t+k}, a_{t+1:t+k} \mid o_t, l)$ 出发，把世界模型与策略的耦合方式归纳为六种。与其把它们排成从弱到强的链条，不如沿四个正交轴来看每种范式的权衡——视觉保真度、动作一致性、物理合理性、泛化能力——每种范式在不同轴上有不同 trade-off。

解耦式（两阶段）：先 $\hat{o}_{t+1:t+H} = \mathcal{W}(o_t, l)$ ，再 $a_t = \text{IDM}(\hat{o}_{t+1}, o_t)$ 。代表 UniPi [10] 与后续 VidMan、Gen2Act、VPP、AVDC。视觉保真度轴上得分最高（直接复用预训练视频生成模型），但 IDM 接口把动作一致性压在最后一公里。

单骨干生成：视觉与动作表示拼接 $\mathbf{x} = [z^v; z^a]$ ，由共享扩散/流匹配骨干联合去噪。代表 UVA、UWA、VideoVLA、Cosmos Policy、DreamZero、GigaWorld-Policy。视觉与动作共享表示消除了 IDM 接口，但两种模态在优化方向上可能彼此挤压。

MoE/MoT 专家混合：视频、动作、语言保留独立流，通过共享注意力或交叉注意力交互，逐层交互算子写作 $(\mathbf{h}^v_{\ell+1}, \mathbf{h}^a_{\ell+1}) = \mathcal{F}^{\mathrm{mix}}_\ell(\mathbf{h}^v_\ell, \mathbf{h}^a_\ell; o_t, l)$ 。代表 GE-Act、Motus、LingBot-VA、BagelVLA、LDA-1B。Fast-WAM [11] 的消融在这一范式里给出了一个反直觉结论：训练时视频共训的收益超过推理时显式想象——意味着视频分支在推理期间可以裁掉，世界建模主要以训练正则化的形式起作用。

统一 VLA：把预测目标内化进 VLA 的训练损失 $\mathcal{L} = \mathcal{L}_{\text{action}} + \lambda \mathcal{L}_{\text{predict}}$ 。代表 GR-1 [12]（联合预测动作与未来图像）、UP-VLA、WorldVLA、DreamVLA [13]（预测结构化世界知识：动态区域、深度、语义而非原始像素）、UniVLA、CoWVLA、F1、TriVLA。端到端训练消除了模块接口，但世界建模的深度受限于 VLA 骨干容量。

Latent-space 世界模型：完全不做显式图像生成，把未来预测压缩到潜在空间。代表 FLARE、VLA-JEPA、JEPA-VLA、WoG、DIAL。推理效率最高、与 JEPA 系列自监督框架天然兼容，但潜在表示的语义与人类直觉对齐困难。

符号/规划器整合：神经预测与经典控制/符号推理混合。在对象关系、可供性或因果过程上做抽象转移模型，由符号规划器查询产生高级技能序列。代表 TD-MPC2、LeWorldModel、梯度规划。物理合理性轴得分最高，但规模化与可微化仍是开放问题。

四个轴上的对比

范式	视觉保真度	动作一致性	物理合理性	泛化与可复用	推理成本
解耦式	高	低（IDM 瓶颈）	中	高（模块复用）	低
单骨干生成	高	中	中	中	低-中
MoE/MoT	中-高	中-高	中	中	中
统一 VLA	中	高	中	中（骨干受限）	中-高
Latent-space	不涉及	高	低（无显式几何）	高	高
符号/规划器	不涉及	中	高	低（结构化先验）	高

把这张表读成"哪条线胜出"是误读。综述本身也没给定胜负。真正起作用的是把任务的约束条件代入——数据规模、控制频率、安全要求、推理预算——再去匹配权衡。Fast-WAM 的结论尤其值得注意：它在 MoE 范式下论证了一个跨范式的更强主张，即视频分支在推理时未必需要保持活跃。如果这一结论稳健，那么解耦式与单骨干生成的"必须显式 rollout"假设就需要被重新考察。

把表里的离散评级换成五轴雷达，更能看出每种范式的形状——没有哪种范式在所有轴上 dominate，但它们各自的"包络形状"清晰地反映了设计取舍。

六范式雷达图：五轴权衡

Loading visualization...

五轴：视觉保真度 / 动作一致性 / 物理合理性 / 泛化与可复用 / 推理速度（=1/推理成本）。每种范式画一条多边形。点击下方 legend 可切换显示/隐藏，hover 多边形顶点显示该轴具体得分。原文给出的是离散评级（高/中/低），这里映射到 [1, 5] 数值；轴的方向统一为'更靠外=更好'。

const W = container.clientWidth;
const H = container.clientHeight;
const cx = W / 2;
const cy = H / 2 - 16;
const R = Math.min(W, H) * 0.34;

const svg = d3.select(container).append("svg").attr("width", W).attr("height", H);
svg.append("rect").attr("width", W).attr("height", H).attr("fill", "#1a1a2e");

const angle = i => -Math.PI/2 + i * 2 * Math.PI / N;
const point = (i, v) => [cx + Math.cos(angle(i)) * R * v / 5, cy + Math.sin(angle(i)) * R * v / 5];

// Grid rings
[1, 2, 3, 4, 5].forEach(k => {
  const pts = d3.range(N).map(i => point(i, k).join(",")).join(" ");
  svg.append("polygon").attr("points", pts).attr("fill", "none").attr("stroke", "#334155").attr("stroke-width", 0.8).attr("opacity", 0.6);
});
// Axis lines
d3.range(N).forEach(i => {
  const [x2, y2] = point(i, 5);
  svg.append("line").attr("x1", cx).attr("y1", cy).attr("x2", x2).attr("y2", y2).attr("stroke", "#334155").attr("stroke-width", 0.8);
  const lx = cx + Math.cos(angle(i)) * (R + 22);
  const ly = cy + Math.sin(angle(i)) * (R + 22);
  svg.append("text").attr("x", lx).attr("y", ly + 4).attr("text-anchor", "middle").attr("fill", "#f1f5f9").attr("font-size", 12).text(axes[i]);
});

const polysG = svg.append("g");
const tip = d3.select(container).append("div").attr("style", "position:absolute; padding:5px 9px; background:rgba(15,23,42,0.95); border:1px solid #475569; color:#e2e8f0; font-size:12px; border-radius:4px; pointer-events:none; display:none;");

3. 评测转向：从 open-loop FID/FVD 到 closed-loop success rate

传统视频生成评测使用 FID（Fréchet Inception Distance）与 FVD（Fréchet Video Distance），度量的是 open-loop visual fidelity——给定动作序列，生成的视频是否视觉合理。这套指标在 text-to-video 场景里足够好用，但在机器人场景里失效得很彻底：一段视觉上流畅的操作视频，可能恰好在接触时刻夹爪没夹住物体，或者碰撞响应完全偏离真实物理。视觉上合理但动作不一致的未来，对闭环决策几乎没有任何价值。

综述提出的评测重组沿四条路径展开。Rollout evaluation：世界模型生成多条候选 rollout，前瞻排序选择最优动作（GPC、IRASim）。模型预测控制：在潜在空间运行 MPC，TD-MPC2、LeWorldModel 在这一路径上证明潜在预测可检测物理上不可行的事件。策略评估器：世界模型作为离线评估器估计候选策略的真实表现，Gemini Robotics + Veo 与 WorldEval 在这一路径上展示了 sim-to-real 之外的另一种评估手段。反馈头：World-Env 与 RISE 在世界模型上挂载显式奖励/价值预测头。

具体到 benchmark，目前最被频繁引用的是 LIBERO 与 CALVIN 两个长时域操作套件。GR-1 [12] 在 CALVIN 上把基线 success rate 从 88.9% 拉到 94.9%，在 zero-shot unseen scene 设置下从 53.3% 拉到 85.4%。DreamVLA [13] 在 CALVIN ABC-D 上 average length 达到 4.44，在真机任务上 76.7%。Fast-WAM [11] 在 LIBERO 与 RoboTwin 2.0 上保持与 imagine-then-execute 变体接近的成功率，同时把推理延迟压到 190ms——比同类快 4 倍以上，但消融里去掉视频共训会让性能显著退化。这三组数据构成了一个三角：success rate、推理延迟、视频分支的训练/推理角色。WorldArena 进一步明确把策略评估识别为核心下游用途，把感知质量与功能效用统一到同一套指标体系下。

4. 三大挑战：不依赖"四阶段"叙事的三个独立 case

4.1 因果条件化差距

世界模型必须准确反映动作带来的状态变化，而非生成视觉上合理但与动作因果脱节的未来。WoVR 的实验里，幻觉与长时域误差会同时降低视觉质量与评估信号的可靠性——评估的对象本身被污染。Ctrl-World 证明动作忠实推演可以支撑想象中的策略评估，但当前模型在动作条件化下经常无法准确反映动作的真实因果后果。从相关性建模走向因果性建模——生成 control-consistent futures——是这一挑战的核心，也是 Wan2.2 文章中讨论的"条件化于结果描述 vs 条件化于原因"在控制场景下的具体化 [2]。

4.2 推理效率瓶颈

视频扩散在每一步推理需要多步去噪，闭环控制频率往往承担不起。综述列出的缓解策略沿"视觉分支在控制期间保留多少活跃度"这一轴展开：Fast-WAM 直接把推理期的视频分支裁掉、只在训练期保留；GigaWorld-Policy 因果设计使视觉分支推理可选；UVA 的轻量解头条绕开显式视频生成；BagelVLA 用单步去噪替代完整 rollout；Latent-space 范式则彻底放弃显式像素生成。这与本系列 X-Cache 文章关心的 KV cache 复用是同一问题在两个尺度上的表现 [8]：一个在序列内、一个在模态间。

4.3 物理 grounding

当前世界模型主要依赖视觉观测，触觉、本体感觉、力反馈的整合不足。视频预测无法替代接触丰富任务中的力觉信息——夹爪是否真的接触、接触力多大、表面纹理粗糙程度——这些信息从视频生成里无法稳定恢复。FreeTacMan、VTDexManip、Hoi! 等触觉数据集仍处于早期，规模远不及视觉。这一挑战与 DA3 的逐像素深度 [4] 和 VGGT 的 3D 几何重建 [3] 互补：深度与几何是视觉侧的 grounding，力觉与触觉是接触侧的 grounding，两者在闭环控制中缺一不可。

5. 系列内的位置

graph TD
    VJ["V-JEPA 2.1
潜在空间语义预测"] --> RW
    DA["DA3
逐像素深度测量"] --> RW
    VG["VGGT
3D 几何重建"] --> RW
    WA["Wan2.2
像素级生成的边界"] --> RW
    DJ["Driving JEPA
具身驾驶世界模型"] --> RW
    V2["2D→4D 综述
几何觉醒"] --> RW
    DI["DINOv3
自监督规模化"] --> RW
    XC["X-Cache
推理加速"] --> RW
    RW["本文
预测-行动接口"]

    style RW fill:#d5f5e3,stroke:#1abc9c
    style VJ fill:#d4efdf,stroke:#27ae60
    style DA fill:#d4efdf,stroke:#27ae60
    style VG fill:#d4efdf,stroke:#27ae60
    style WA fill:#fadbd8,stroke:#e74c3c
    style DJ fill:#d6eaf8,stroke:#3498db
    style V2 fill:#fef9e7,stroke:#f39c12
    style DI fill:#e8daef,stroke:#8e44ad
    style XC fill:#fdebd0,stroke:#e67e22

本系列的八篇文章并非从感知到行动的线性传递，而是同一个问题——可用于行动的世界模型——的若干个正交切面。V-JEPA 2.1 与 DINOv3 在追问"如何在潜在空间表征语义"，DA3 与 VGGT 在追问"如何从 2D 观测恢复几何"，Wan2.2 在追问"像素级未来生成的边界在哪里"，Driving JEPA 在驾驶切面把表征改造为可滚动世界模型，X-Cache 在推理效率切面给出工程回答。本篇综述提供的是又一个正交切面：当世界模型必须服务于机器人控制时，架构与评测应当如何重新组织。

本文聚焦机器人侧。把同一套六范式骨架带到自动驾驶场景，详见姊妹篇自动驾驶世界模型 × Action：六范式在 NAVSIM 上的落地与跨域对偶——以 2026 H1 的 DriveLaW、DriveWorld-VLA、LaST-VLA、Latent-WAM、Uni-World VLA 五篇为锚，对比同范式在两个场景下的不同 trade-off。

6. 一个批判：closed-loop success rate 是同构指标

回到 §3 列出的 benchmark 全景。LIBERO、CALVIN、RoboTwin、SIMPLER 几乎清一色用 closed-loop success rate 作为唯一的核心指标——给定任务，机器人是否完成。这套指标的好处是直接对齐部署目标，但代价是把世界模型的多个误差源压进了同一个标量。Grasp 类任务允许多种近邻 trajectory，只要末端 pose 落进 tolerance、夹爪闭合时机大致正确，success rate 就计为 1。在这种情况下，一个视觉保真度完美但动作一致性错误的模型，与一个动作完全正确但视觉发生 mode collapse 的模型，可能拿到几乎相同的 success rate。从评测信号上看不出差别，但两种模型的下游含义截然不同——前者把"如果这样做会发生什么"答错了却恰好抓住了物体，后者答对了但不可解释。

更严重的是：当 Fast-WAM 这类工作论证"视频分支在推理时可以裁掉"时，它依赖的恰恰是 success rate 上的接近——而 success rate 对视频分支的真实贡献并不敏感。如果换一套指标——例如把 dynamics correctness（预测的中间帧是否真实反映 forward dynamics）、action feasibility（候选动作在物理引擎下是否可执行）、physical plausibility（预测轨迹是否违反质量守恒、接触约束）分开度量——Fast-WAM 的结论可能被显著修正。当前评测体系真正缺失的并非更多 benchmark——缺的是 disentangled metric：把世界模型应当承担的几种独立责任拆开打分，而非把它们折叠进 success rate 这一个出口。这一点上 WorldArena 把功能效用与感知质量分开评估的尝试是正确方向，但仍需更细颗粒的拆分——尤其是把"预测的未来在 dynamics 层面是否正确"作为一个独立的可核查指标。

从本系列的视角反观这一缺口：V-JEPA 与 DA3、VGGT 各自在表征侧追求 disentangle——语义、深度、几何分别在不同维度上度量。表征侧已经形成这种习惯，控制侧的评测却仍停留在 single-scalar 阶段。这或许是这一领域目前最被低估的开放问题。

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

[1] V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel. 本系列文章

[2] Wan2.2 and the Boundary of Video World Models. 本系列文章

[3] VGGT: 3D Reconstruction as Inverse World Modeling. 本系列文章

[4] DepthAnything3: Geometric Measurement as the Distillation of Spatial Structure. 本系列文章

[5] Driving JEPA: From General Video Understanding to Embodied Driving World Model. 本系列文章

[6] From 2D to 4D: The Geometric Awakening of Vision Foundation Models. 本系列文章

[7] DINOv3: Self-Supervised Scaling Breakthrough. 本系列文章

[8] X-Cache: World Model Inference Acceleration. 本系列文章

[9] Hou, B., Li, G., Jia, J., et al. World Model for Robot Learning: A Comprehensive Survey. arXiv:2605.00080, 2026.

[10] Du, Y., Yang, M., Dai, B., et al. Learning Universal Policies via Text-Guided Video Generation. arXiv:2302.00111, NeurIPS 2023.

[11] Yuan, T., Dong, Z., Liu, Y., Zhao, H. Fast-WAM: Do World Action Models Need Test-time Future Imagination? arXiv:2603.16666, 2026.

[12] Wu, H., Jing, Y., Cheang, C., et al. Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation (GR-1). arXiv:2312.13139, 2023.

[13] Zhang, W., Liu, J., et al. DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge. arXiv:2507.04447, 2025.

引言#

1. 闭环动机：为什么世界模型必须服务于 action#

2. 六范式：四个正交轴上的不同权衡#

四个轴上的对比#

3. 评测转向：从 open-loop FID/FVD 到 closed-loop success rate#

4. 三大挑战：不依赖"四阶段"叙事的三个独立 case#

4.1 因果条件化差距#

4.2 推理效率瓶颈#

4.3 物理 grounding#

5. 系列内的位置#

6. 一个批判：closed-loop success rate 是同构指标#

参考文献#

相关文章

引言