引言
在本系列前作中,V-JEPA 2.1 在潜在空间中做语义预测 [1],Wan2.2 在像素空间中渲染视觉上合理的未来 [2],VGGT 从 2D 观测中逆推 3D 几何 [3],DA3 把空间结构蒸馏为逐像素深度 [4],Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5],2D 到 4D 综述梳理了视觉基模的几何觉醒 [6],DINOv3 展示了自监督规模化对 dense feature 的突破 [7],X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开,回答的都是表征侧的问题:世界模型应该长什么样。
NTU、UC Berkeley、Stanford、Oxford、ETH Zurich 等机构的综述 “World Model for Robot Learning” [9] 接续的是另一个正交切面:当世界模型必须服务于机器人控制时,预测未来与驱动行动之间的接口应当如何组织。综述覆盖 160+ 篇论文,对机器人学习提出的论断很直接——评判世界模型的尺度应当落在"想象出的未来能否用于控制"上,而把"能不能想象未来"这一视觉保真度问题降格为前置条件。本文沿此思路梳理:闭环动机(§1)、六范式对比(§2)、评测转向(§3)、三大挑战(§4)、闭环图(§5),最后给出一段关于评测同构性的批判(§6)。
1. 闭环动机:为什么世界模型必须服务于 action
形式上,世界模型 接收观测 与语言指令 ,输出未来观测序列:
更一般地,预测可在潜在空间进行:。综述把对机器人学习有操作性的世界模型归纳为三类核心能力。Foresight:预见动作后果,回答"如果这样做,世界会变成什么样"。Imagination-driven planning:对候选动作集合 想象多条 rollout,挑选评估函数 下最优的一条:
Data amplification:用合成 rollout 扩充训练分布,。
与之对照的是当前主流 VLA 范式 ——单次前向把观测和语言映射成动作,对未来状态的预判全部内化在参数里。VLA 在数据充足、任务短时域的设置下足够高效,但在稀疏奖励、长时域规划或安全敏感的设置下,缺少可检验的未来预测意味着错误诊断与候选行为比较都失去抓手。这里有一个常被略过的细节:当下被广泛使用的"world model is action-conditioned video generation"叙事,把视觉保真度当成代理指标——视觉上合理但与动作因果不一致的未来,对闭环决策几乎没有价值。世界模型与 VLA 的差别正在于这一点是否被显式建模。
2. 六范式:四个正交轴上的不同权衡
综述从联合分布 出发,把世界模型与策略的耦合方式归纳为六种。与其把它们排成从弱到强的链条,不如沿四个正交轴来看每种范式的权衡——视觉保真度、动作一致性、物理合理性、泛化能力——每种范式在不同轴上有不同 trade-off。
解耦式(两阶段):先 ,再 。代表 UniPi [10] 与后续 VidMan、Gen2Act、VPP、AVDC。视觉保真度轴上得分最高(直接复用预训练视频生成模型),但 IDM 接口把动作一致性压在最后一公里。
单骨干生成:视觉与动作表示拼接 ,由共享扩散/流匹配骨干联合去噪。代表 UVA、UWA、VideoVLA、Cosmos Policy、DreamZero、GigaWorld-Policy。视觉与动作共享表示消除了 IDM 接口,但两种模态在优化方向上可能彼此挤压。
MoE/MoT 专家混合:视频、动作、语言保留独立流,通过共享注意力或交叉注意力交互,逐层交互算子写作 。代表 GE-Act、Motus、LingBot-VA、BagelVLA、LDA-1B。Fast-WAM [11] 的消融在这一范式里给出了一个反直觉结论:训练时视频共训的收益超过推理时显式想象——意味着视频分支在推理期间可以裁掉,世界建模主要以训练正则化的形式起作用。
统一 VLA:把预测目标内化进 VLA 的训练损失 。代表 GR-1 [12](联合预测动作与未来图像)、UP-VLA、WorldVLA、DreamVLA [13](预测结构化世界知识:动态区域、深度、语义而非原始像素)、UniVLA、CoWVLA、F1、TriVLA。端到端训练消除了模块接口,但世界建模的深度受限于 VLA 骨干容量。
Latent-space 世界模型:完全不做显式图像生成,把未来预测压缩到潜在空间。代表 FLARE、VLA-JEPA、JEPA-VLA、WoG、DIAL。推理效率最高、与 JEPA 系列自监督框架天然兼容,但潜在表示的语义与人类直觉对齐困难。
符号/规划器整合:神经预测与经典控制/符号推理混合。在对象关系、可供性或因果过程上做抽象转移模型,由符号规划器查询产生高级技能序列。代表 TD-MPC2、LeWorldModel、梯度规划。物理合理性轴得分最高,但规模化与可微化仍是开放问题。
四个轴上的对比
| 范式 | 视觉保真度 | 动作一致性 | 物理合理性 | 泛化与可复用 | 推理成本 |
|---|---|---|---|---|---|
| 解耦式 | 高 | 低(IDM 瓶颈) | 中 | 高(模块复用) | 低 |
| 单骨干生成 | 高 | 中 | 中 | 中 | 低-中 |
| MoE/MoT | 中-高 | 中-高 | 中 | 中 | 中 |
| 统一 VLA | 中 | 高 | 中 | 中(骨干受限) | 中-高 |
| Latent-space | 不涉及 | 高 | 低(无显式几何) | 高 | 高 |
| 符号/规划器 | 不涉及 | 中 | 高 | 低(结构化先验) | 高 |
把这张表读成"哪条线胜出"是误读。综述本身也没给定胜负。真正起作用的是把任务的约束条件代入——数据规模、控制频率、安全要求、推理预算——再去匹配权衡。Fast-WAM 的结论尤其值得注意:它在 MoE 范式下论证了一个跨范式的更强主张,即视频分支在推理时未必需要保持活跃。如果这一结论稳健,那么解耦式与单骨干生成的"必须显式 rollout"假设就需要被重新考察。
把表里的离散评级换成五轴雷达,更能看出每种范式的形状——没有哪种范式在所有轴上 dominate,但它们各自的"包络形状"清晰地反映了设计取舍。
3. 评测转向:从 open-loop FID/FVD 到 closed-loop success rate
传统视频生成评测使用 FID(Fréchet Inception Distance)与 FVD(Fréchet Video Distance),度量的是 open-loop visual fidelity——给定动作序列,生成的视频是否视觉合理。这套指标在 text-to-video 场景里足够好用,但在机器人场景里失效得很彻底:一段视觉上流畅的操作视频,可能恰好在接触时刻夹爪没夹住物体,或者碰撞响应完全偏离真实物理。视觉上合理但动作不一致的未来,对闭环决策几乎没有任何价值。
综述提出的评测重组沿四条路径展开。Rollout evaluation:世界模型生成多条候选 rollout,前瞻排序选择最优动作(GPC、IRASim)。模型预测控制:在潜在空间运行 MPC,TD-MPC2、LeWorldModel 在这一路径上证明潜在预测可检测物理上不可行的事件。策略评估器:世界模型作为离线评估器估计候选策略的真实表现,Gemini Robotics + Veo 与 WorldEval 在这一路径上展示了 sim-to-real 之外的另一种评估手段。反馈头:World-Env 与 RISE 在世界模型上挂载显式奖励/价值预测头。
具体到 benchmark,目前最被频繁引用的是 LIBERO 与 CALVIN 两个长时域操作套件。GR-1 [12] 在 CALVIN 上把基线 success rate 从 88.9% 拉到 94.9%,在 zero-shot unseen scene 设置下从 53.3% 拉到 85.4%。DreamVLA [13] 在 CALVIN ABC-D 上 average length 达到 4.44,在真机任务上 76.7%。Fast-WAM [11] 在 LIBERO 与 RoboTwin 2.0 上保持与 imagine-then-execute 变体接近的成功率,同时把推理延迟压到 190ms——比同类快 4 倍以上,但消融里去掉视频共训会让性能显著退化。这三组数据构成了一个三角:success rate、推理延迟、视频分支的训练/推理角色。WorldArena 进一步明确把策略评估识别为核心下游用途,把感知质量与功能效用统一到同一套指标体系下。
4. 三大挑战:不依赖"四阶段"叙事的三个独立 case
4.1 因果条件化差距
世界模型必须准确反映动作带来的状态变化,而非生成视觉上合理但与动作因果脱节的未来。WoVR 的实验里,幻觉与长时域误差会同时降低视觉质量与评估信号的可靠性——评估的对象本身被污染。Ctrl-World 证明动作忠实推演可以支撑想象中的策略评估,但当前模型在动作条件化下经常无法准确反映动作的真实因果后果。从相关性建模走向因果性建模——生成 control-consistent futures——是这一挑战的核心,也是 Wan2.2 文章中讨论的"条件化于结果描述 vs 条件化于原因"在控制场景下的具体化 [2]。
4.2 推理效率瓶颈
视频扩散在每一步推理需要多步去噪,闭环控制频率往往承担不起。综述列出的缓解策略沿"视觉分支在控制期间保留多少活跃度"这一轴展开:Fast-WAM 直接把推理期的视频分支裁掉、只在训练期保留;GigaWorld-Policy 因果设计使视觉分支推理可选;UVA 的轻量解头条绕开显式视频生成;BagelVLA 用单步去噪替代完整 rollout;Latent-space 范式则彻底放弃显式像素生成。这与本系列 X-Cache 文章关心的 KV cache 复用是同一问题在两个尺度上的表现 [8]:一个在序列内、一个在模态间。
4.3 物理 grounding
当前世界模型主要依赖视觉观测,触觉、本体感觉、力反馈的整合不足。视频预测无法替代接触丰富任务中的力觉信息——夹爪是否真的接触、接触力多大、表面纹理粗糙程度——这些信息从视频生成里无法稳定恢复。FreeTacMan、VTDexManip、Hoi! 等触觉数据集仍处于早期,规模远不及视觉。这一挑战与 DA3 的逐像素深度 [4] 和 VGGT 的 3D 几何重建 [3] 互补:深度与几何是视觉侧的 grounding,力觉与触觉是接触侧的 grounding,两者在闭环控制中缺一不可。
5. 系列内的位置
graph TD
VJ["V-JEPA 2.1
潜在空间语义预测"] --> RW
DA["DA3
逐像素深度测量"] --> RW
VG["VGGT
3D 几何重建"] --> RW
WA["Wan2.2
像素级生成的边界"] --> RW
DJ["Driving JEPA
具身驾驶世界模型"] --> RW
V2["2D→4D 综述
几何觉醒"] --> RW
DI["DINOv3
自监督规模化"] --> RW
XC["X-Cache
推理加速"] --> RW
RW["本文
预测-行动接口"]
style RW fill:#d5f5e3,stroke:#1abc9c
style VJ fill:#d4efdf,stroke:#27ae60
style DA fill:#d4efdf,stroke:#27ae60
style VG fill:#d4efdf,stroke:#27ae60
style WA fill:#fadbd8,stroke:#e74c3c
style DJ fill:#d6eaf8,stroke:#3498db
style V2 fill:#fef9e7,stroke:#f39c12
style DI fill:#e8daef,stroke:#8e44ad
style XC fill:#fdebd0,stroke:#e67e22本系列的八篇文章并非从感知到行动的线性传递,而是同一个问题——可用于行动的世界模型——的若干个正交切面。V-JEPA 2.1 与 DINOv3 在追问"如何在潜在空间表征语义",DA3 与 VGGT 在追问"如何从 2D 观测恢复几何",Wan2.2 在追问"像素级未来生成的边界在哪里",Driving JEPA 在驾驶切面把表征改造为可滚动世界模型,X-Cache 在推理效率切面给出工程回答。本篇综述提供的是又一个正交切面:当世界模型必须服务于机器人控制时,架构与评测应当如何重新组织。
本文聚焦机器人侧。把同一套六范式骨架带到自动驾驶场景,详见姊妹篇 自动驾驶世界模型 × Action:六范式在 NAVSIM 上的落地与跨域对偶——以 2026 H1 的 DriveLaW、DriveWorld-VLA、LaST-VLA、Latent-WAM、Uni-World VLA 五篇为锚,对比同范式在两个场景下的不同 trade-off。
6. 一个批判:closed-loop success rate 是同构指标
回到 §3 列出的 benchmark 全景。LIBERO、CALVIN、RoboTwin、SIMPLER 几乎清一色用 closed-loop success rate 作为唯一的核心指标——给定任务,机器人是否完成。这套指标的好处是直接对齐部署目标,但代价是把世界模型的多个误差源压进了同一个标量。Grasp 类任务允许多种近邻 trajectory,只要末端 pose 落进 tolerance、夹爪闭合时机大致正确,success rate 就计为 1。在这种情况下,一个视觉保真度完美但动作一致性错误的模型,与一个动作完全正确但视觉发生 mode collapse 的模型,可能拿到几乎相同的 success rate。从评测信号上看不出差别,但两种模型的下游含义截然不同——前者把"如果这样做会发生什么"答错了却恰好抓住了物体,后者答对了但不可解释。
更严重的是:当 Fast-WAM 这类工作论证"视频分支在推理时可以裁掉"时,它依赖的恰恰是 success rate 上的接近——而 success rate 对视频分支的真实贡献并不敏感。如果换一套指标——例如把 dynamics correctness(预测的中间帧是否真实反映 forward dynamics)、action feasibility(候选动作在物理引擎下是否可执行)、physical plausibility(预测轨迹是否违反质量守恒、接触约束)分开度量——Fast-WAM 的结论可能被显著修正。当前评测体系真正缺失的并非更多 benchmark——缺的是 disentangled metric:把世界模型应当承担的几种独立责任拆开打分,而非把它们折叠进 success rate 这一个出口。这一点上 WorldArena 把功能效用与感知质量分开评估的尝试是正确方向,但仍需更细颗粒的拆分——尤其是把"预测的未来在 dynamics 层面是否正确"作为一个独立的可核查指标。
从本系列的视角反观这一缺口:V-JEPA 与 DA3、VGGT 各自在表征侧追求 disentangle——语义、深度、几何分别在不同维度上度量。表征侧已经形成这种习惯,控制侧的评测却仍停留在 single-scalar 阶段。这或许是这一领域目前最被低估的开放问题。
参考文献
本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。
[1] V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel. 本系列文章
[2] Wan2.2 and the Boundary of Video World Models. 本系列文章
[3] VGGT: 3D Reconstruction as Inverse World Modeling. 本系列文章
[4] DepthAnything3: Geometric Measurement as the Distillation of Spatial Structure. 本系列文章
[5] Driving JEPA: From General Video Understanding to Embodied Driving World Model. 本系列文章
[6] From 2D to 4D: The Geometric Awakening of Vision Foundation Models. 本系列文章
[7] DINOv3: Self-Supervised Scaling Breakthrough. 本系列文章
[8] X-Cache: World Model Inference Acceleration. 本系列文章
[9] Hou, B., Li, G., Jia, J., et al. World Model for Robot Learning: A Comprehensive Survey. arXiv:2605.00080, 2026.
[10] Du, Y., Yang, M., Dai, B., et al. Learning Universal Policies via Text-Guided Video Generation. arXiv:2302.00111, NeurIPS 2023.
[11] Yuan, T., Dong, Z., Liu, Y., Zhao, H. Fast-WAM: Do World Action Models Need Test-time Future Imagination? arXiv:2603.16666, 2026.
[12] Wu, H., Jing, Y., Cheang, C., et al. Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation (GR-1). arXiv:2312.13139, 2023.
[13] Zhang, W., Liu, J., et al. DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge. arXiv:2507.04447, 2025.