从预测未来到驱动行动:机器人世界模型的架构与评测

引言 在本系列前作中,V-JEPA 2.1 在潜在空间中做语义预测 [1],Wan2.2 在像素空间中渲染视觉上合理的未来 [2],VGGT 从 2D 观测中逆推 3D 几何 [3],DA3 把空间结构蒸馏为逐像素深度 [4],Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5],2D 到 4D 综述梳理了视觉基模的几何觉醒 [6],DINOv3 展示了自监督规模化对 dense feature 的突破 [7],X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开,回答的都是表征侧的问题:世界模型应该长什么样。 ...

2026年5月15日 · 14 分钟 · LexHsu

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...

2026年3月14日 · 27 分钟 · LexHsu

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界,是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列,但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度,却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归(STAR)架构弥合了这一鸿沟,融合了两种范式的优势。 ...

2025年10月25日 · 7 分钟 · LexHsu
访客 704 人次 · 访问 1065 次