本系列探讨世界模型这一新兴领域——从视觉数据中学习预测、模拟和理解物理世界的系统。核心问题是:什么样的架构原则能让模型捕捉现实的因果结构,而非仅仅记忆表面统计?

这里没有单一的叙事线索。四个不同的维度从截然不同的角度切入世界表征这一核心问题:

  1. V-JEPA 2.1 — 语义预测:在潜在空间而非像素空间中学习世界的结构

  2. Wan2.2 — 生成式模拟:直接在像素空间中渲染合理的未来

  3. VGGT — 几何重建:从 2D 观察中恢复 3D 世界

  4. DepthAnything3 — 几何测量:将世界的空间结构蒸馏为每个像素的一条深度射线

  5. Driving JEPA — 具身迁移:将 JEPA 从通用视频理解改造成可部署的驾驶世界模型

  6. X-Cache — 推理加速:小鹏自动驾驶世界模型的 KV Cache 优化策略

  7. X-World — 量产工程化:DiT-based latent video diffusion + 两阶段蒸馏 + 7 路相机 + 22 秒不发散,把世界模型推到 production loop

  8. 从 2D 到 4D — 几何觉醒:当 V-JEPA 2.1、DINOv3、DA3、VGGT 都在往 depth 走,视觉基模正从 2D 语义理解走向 3D 几何感知,并最终迈向 4D 世界模型

  9. DINOv3 — 自监督规模化:Gram anchoring 解决大规模训练中 dense feature 退化,7B 参数纯自监督模型首次在 dense 任务上全面超越蒸馏模型

  10. 机器人世界模型综述 — 行动闭环:从"预测未来"到"驱动行动"的桥梁,六大架构范式、四阶段演进与评测从视觉保真度到任务效用的根本转向

  11. 自动驾驶世界模型 × Action — AD 对偶篇:把机器人综述六范式平移到 driving 场景,五篇 NAVSIM 87-91 PDMS 工作 × 六范式映射 + 跨域对偶五对

  12. LeJEPA — 地基重铸:把 JEPA 从依赖 stop-gradient、teacher-student、EMA 等启发式的工程产物,拉回到可证明最优的理论框架——SIGReg 通过随机切片把嵌入分布对齐到各向同性高斯,单超参、线性复杂度、约 50 行代码

每篇文章独立成篇,阅读顺序不限。