World Model Series: Four Dimensions of World Representation

本系列探讨世界模型这一新兴领域——从视觉数据中学习预测、模拟和理解物理世界的系统。核心问题是：什么样的架构原则能让模型捕捉现实的因果结构，而非仅仅记忆表面统计？

这里没有单一的叙事线索。四个不同的维度从截然不同的角度切入世界表征这一核心问题：

V-JEPA 2.1 — 语义预测：在潜在空间而非像素空间中学习世界的结构
Wan2.2 — 生成式模拟：直接在像素空间中渲染合理的未来
VGGT — 几何重建：从 2D 观察中恢复 3D 世界
DepthAnything3 — 几何测量：将世界的空间结构蒸馏为每个像素的一条深度射线
Driving JEPA — 具身迁移：将 JEPA 从通用视频理解改造成可部署的驾驶世界模型
X-Cache — 推理加速：小鹏自动驾驶世界模型的 KV Cache 优化策略
X-World — 量产工程化：DiT-based latent video diffusion + 两阶段蒸馏 + 7 路相机 + 22 秒不发散，把世界模型推到 production loop
从 2D 到 4D — 几何觉醒：当 V-JEPA 2.1、DINOv3、DA3、VGGT 都在往 depth 走，视觉基模正从 2D 语义理解走向 3D 几何感知，并最终迈向 4D 世界模型
DINOv3 — 自监督规模化：Gram anchoring 解决大规模训练中 dense feature 退化，7B 参数纯自监督模型首次在 dense 任务上全面超越蒸馏模型
机器人世界模型综述 — 行动闭环：从"预测未来"到"驱动行动"的桥梁，六大架构范式、四阶段演进与评测从视觉保真度到任务效用的根本转向
自动驾驶世界模型 × Action — AD 对偶篇：把机器人综述六范式平移到 driving 场景，五篇 NAVSIM 87-91 PDMS 工作 × 六范式映射 + 跨域对偶五对
LeJEPA — 地基重铸：把 JEPA 从依赖 stop-gradient、teacher-student、EMA 等启发式的工程产物，拉回到可证明最优的理论框架——SIGReg 通过随机切片把嵌入分布对齐到各向同性高斯，单超参、线性复杂度、约 50 行代码

每篇文章独立成篇，阅读顺序不限。

X-World：小鹏可控自车视角多相机世界模型——量产驾驶世界模型的工程化

引言：从 Vista / DriveDreamer 到 X-World 的鸿沟驾驶世界模型这两年的论文非常密集，但把它们摆到一起，会发现一条很尴尬的分水岭：左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率；DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成；MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入；MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西：7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...

自动驾驶世界模型 × Action：六范式在 NAVSIM 上的落地与跨域对偶

引言上一篇从预测未来到驱动行动：机器人世界模型的架构与评测以 NTU/UC Berkeley/Stanford 联合综述为底本，把世界模型与策略的耦合方式归纳为六个范式：解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇：把同一套理论骨架带到自动驾驶，看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

从预测未来到驱动行动：机器人世界模型的架构与评测

引言在本系列前作中，V-JEPA 2.1 在潜在空间中做语义预测 [1]，Wan2.2 在像素空间中渲染视觉上合理的未来 [2]，VGGT 从 2D 观测中逆推 3D 几何 [3]，DA3 把空间结构蒸馏为逐像素深度 [4]，Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5]，2D 到 4D 综述梳理了视觉基模的几何觉醒 [6]，DINOv3 展示了自监督规模化对 dense feature 的突破 [7]，X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开，回答的都是表征侧的问题：世界模型应该长什么样。 ...

X-Cache：小鹏自动驾驶世界模型的推理加速 Infra

引言：世界模型的 Infra 瓶颈自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA（Vision-Language-Action）系统。在这个新范式中，世界模型（World Model）正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...

VGGT: 几何重建作为世界模型的 reconstruct 维度

1. 动机：传统几何重建在什么地方失效一辆自动驾驶车驶入隧道。GNSS 信号在 50 米内衰减为噪声，IMU 漂移开始累积，前向 6 路相机持续以 10 Hz 输入。系统需要在 100 ms 内回答两个问题：相机相对于隧道结构的位姿是什么？前方 30 米处那个反射点距离车头多远？ ...

Wan2.2 and the Boundary of Video World Models

Wan2.2 架构概览：14B MoE DiT + Flow Matching + 3D VAE，详见 Wan2.2 GitHub 1. 承诺：视频生成即世界模拟当 OpenAI 在 2024 年初发布 Sora 时，其叙事框架经过了精心设计：这不仅仅是一个视频生成器，而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段，物体以合理的方式碰撞和变形，镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型，在某种层面上，必然理解世界是如何运作的。 ...

从 2D 到 4D：视觉表征的本体论问题

文章定位本文讨论 4D 视觉表征的本体论问题：什么是 4D？为什么 4D 是 world model 的关键？spatial-temporal joint vs decoupled 在表征空间几何上意味着什么？这些问题既不能从单个 paper 推出，也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...

Driving JEPA 综述：V-JEPA 系列方法在自动驾驶场景的应用

文章定位本文是 V-JEPA 系列方法在自动驾驶场景的应用综述，与 V-JEPA 2.1 paper 精读视角区分——后者讲方法本身的数学（context loss、距离加权、deep self-supervision、multi-modal tokenizer）和训练细节（VisionMix-163M、两阶段训练、cool-down 配置），本文聚焦 driving benchmark 的 fine-tune 结果与变体设计：nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略（motion-aware mask、temporal-coherent mask、causal future mask），以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基：深度为何是世界模型的基石一个无法度量距离的世界模型，也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时，决策的核心依赖于一个几何量：与前方障碍物的距离。当机械臂伸手去拿咖啡杯时，运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时，大脑持续估计球的距离和速度以计算拦截点。在每一个例子中，支配行动的物理推理都锚定在几何之上，而几何始于深度。 ...

LeJEPA：当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点：智能体的核心能力是在抽象表征空间里预测自己行动的后果，再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

DINOv3：自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象：规模越大，特征越差自监督视觉学习的叙事长期以来被一个乐观的假设驱动：更大的模型、更多的数据、更长的训练，必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%，在 ADE20K 语义分割上达到 49.5 mIoU，证明了自监督学习的可扩展性 [1]。 ...

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题：全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构（JEPA）视为通向自主机器智能的核心路径 [3]，其基本假设优雅而有力：预测应当在潜在空间中进行，而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域，取得了令人瞩目的成果，在动作识别（Kinetics-400: 87.3%）和视频-文本检索任务上均达到了当时的最佳水平。 ...