Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub

1. 承诺:视频生成即世界模拟

当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。

这个论断迷人却经不起推敲。预测像素不等于预测物理。一个渲染出逼真弹跳效果的视频模型,并不一定编码了 F=maF = ma;它可能只是见过足够多的弹跳球,从而学会了复现其视觉特征。这一差异对于那些希望将视频生成用于规划、仿真或机器人的人来说至关重要。如果模型仅仅在训练样本之间进行插值,那么恰恰在你最需要它的时候——在需要真正物理理解的罕见场景的长尾分布中——它会失效。

Wan2.2 [1] 由阿里巴巴通义实验室于 2025 年 7 月发布,代表了开源视频生成的当前最高水准。凭借 14B 激活参数的 Mixture-of-Experts 架构、flow matching 训练目标,以及超过 Sora 的 84.7% VBench 得分,它是目前功能最强的开放文本生成视频(T2V)、图像生成视频(I2V)和视频编辑系统。同时,由于其开放性,它也是我们探讨一个根本性问题的最佳实验室:视频生成与世界理解之间的边界究竟在哪里?

本文分为四个部分。第一部分详细剖析 Wan2.2 的架构——DiT 骨干网络、flow matching 目标、MoE 设计以及 3D VAE 压缩。第二部分审视边界本身:阻碍任何像素预测模型成为真正世界模型的三个根本局限。第三部分调研试图弥合这一差距的新兴方法,从 DreamZero 的双输出方案到 VGGT-World 的隐式几何路径。第四部分讨论这一切对自动驾驶意味着什么——在世界建模中犯错的代价是生存性的,而非审美性的。

2. Wan2.2 架构深度解析

2.1 DiT 骨干网络

Wan2.2 基于 Diffusion Transformer (DiT) 架构构建,取代了此前在视频 diffusion 模型中占主导地位的 U-Net。这一选择意义重大。U-Net 的归纳偏置——融合多尺度特征的 skip connection、固定的感受野结构——是为图像中密集的像素级预测而设计的。视频生成提出了不同的要求:需要推理长时序序列,需要在数十帧之间维持一致性,需要随序列长度的增加优雅地扩展。Transformer 凭借其全局 attention 和已被验证的 scaling 特性,是更自然的选择。

核心 WanModel 处理由 3D VAE 编码器产生的隐式表征。每个 transformer block 包含使用 Flash Attention 优化的多头 self-attention、覆盖时间与空间维度的 RoPE (Rotary Position Embedding),以及用于 text、audio 或 image 特征条件化的 cross-attention 层。Diffusion 过程的时间步 tt 通过可学习的 embedding 注入。结果是,模型可以同时 attend 到隐式序列中的每个时空位置,而不受 U-Net 卷积所施加的局部性约束。

这对世界建模至关重要,因为物理现象在时间上是非局部的。在时刻 t0t_0 抛出的球,其轨迹由可能相距甚远的初始条件决定。具有全局 attention 的 Transformer 原则上可以捕获这些依赖关系。而 U-Net 受限于其有限的感受野,必须通过 skip connection 传递信息,这一过程可能恰好丢失物理推理所需的远程相关性。

2.2 Flow Matching:穿越隐式空间的直线路径

Wan2.2 使用 flow matching 替代了传统的 DDPM (Denoising Diffusion Probabilistic Models) 训练目标。两者的差异是几何上的。在 DDPM 中,前向过程沿随机微分方程 (SDE) 用高斯噪声腐蚀数据,模型逐步学习逆转这一过程。由此产生的采样轨迹是隐式空间中弯曲的随机游走,通常需要数百个采样步骤。

Flow matching 用确定性常微分方程 (ODE) 替代了这一过程。核心洞见是在噪声和数据之间定义直线插值:

xt=(1t)x0+tx1,t[0,1]\mathbf{x}_t = (1 - t) \mathbf{x}_0 + t \mathbf{x}_1, \quad t \in [0, 1]

其中 x0\mathbf{x}_0 是噪声样本,x1\mathbf{x}_1 是数据样本。模型被训练来预测这条线上每个点的速度向量 vt=dxtdt=x1x0\mathbf{v}_t = \frac{d\mathbf{x}_t}{dt} = \mathbf{x}_1 - \mathbf{x}_0。训练目标为:

L=Et,x0,x1[vθ(xt,t)(x1x0)2]\mathcal{L} = \mathbb{E}_{t, \mathbf{x}_0, \mathbf{x}_1} \left[ \| \mathbf{v}_\theta(\mathbf{x}_t, t) - (\mathbf{x}_1 - \mathbf{x}_0) \|^2 \right]

其中 vθ\mathbf{v}_\theta 是网络的预测。直线路径允许更大的积分步长,这就是为什么 Wan2.2 只需要 20–50 个采样步骤,而基于 DDPM 的系统需要数百步。这不仅是效率的提升;它改变了所学流形的几何性质。当轨迹是直线时,模型被激励去学习一个良态的向量场,其中邻近点具有相似的速度,而非 DDPM 那种高度弯曲的轨迹——后者可能引入数值不稳定性和 mode collapse。

对于世界建模,这一几何性质至关重要。Flow-matched 模型实际上学习的是噪声分布和数据分布之间的最优传输映射。如果我们将数据分布视为物理上合理的视频空间,那么传输映射在该空间上定义了一种自然几何——在这种几何中,两个物理场景之间的插值产生物理上介于两者之间的场景,而非模糊或损坏的结果。

下面的交互可视化直接对比两种动力学在二维上的样本路径:FM 学到的是固定向量场,10 条粒子沿直线插值前进;DDPM 学到的是 SDE,10 条粒子的轨迹是叠加了高斯噪声的随机游走。两者都把噪声分布映到同一个目标 cluster,但向量场的几何性质截然不同——这正是 Wan2.2 选择 flow matching 的根本原因。

Flow Matching ODE vs DDPM SDE:粒子轨迹对比
Loading visualization...
左:FM 学到的直线确定性轨迹(ODE 积分,10 条粒子各自走直线插值)。右:DDPM 学到的随机游走轨迹(Euler-Maruyama SDE 积分,每步叠加高斯噪声)。拖动 step 滑块演化时间,或点击 Reset 重新采样起点。两者最终都收敛到目标分布,但 FM 学的是良态向量场,DDPM 学的是 score 的随机微分方程。

2.3 MoE 创新:噪声阶段特化

Wan2.2 在架构上最独特的设计是其 Mixture-of-Experts (MoE) 机制。T2V 和 I2V 模型包含 27B 总参数,但每次前向传播仅激活 14B,采用双 expert 路由方案。使这个 MoE 与众不同的是路由准则:按当前 diffusion 时间步的噪声水平路由,而非按 token 或内容。

路由阈值 tmoet_{\text{moe}} 由信噪比决定:

tmoe:SNR(tmoe)=SNRmin2t_{\text{moe}} : \quad \text{SNR}(t_{\text{moe}}) = \frac{\text{SNR}_{\min}}{2}

其中 SNRmin\text{SNR}_{\min} 是 denoising 过程开始时的信噪比。低于此阈值时,高噪声 expert 被激活;高于此阈值时,低噪声 expert 接管。

这一设计源于 denoising 过程中的关键不对称。在早期阶段,当输入几乎是纯噪声时,模型必须做出粗粒度的结构决策:物体放在哪里,它们如何运动,整体场景构图如何。这是一个全局性的、组合性的任务,与后期纹理、光照和细粒度细节的精修需要不同的表征策略。两个 expert 各自特化:

  • 高噪声 expert 从零开始训练,学习生成全局布局、大尺度运动和场景构图。
  • 低噪声 expert 从 Wan2.1 微调而来,专精于纹理、光照和细粒度细节。

训练策略反映了这一分工:高噪声 expert 随机初始化,必须从零学习组合结构;低噪声 expert 继承了 Wan2.1 已有的强纹理生成能力,只需微调。验证损失曲线证实,这种非对称初始化优于所有替代方案——将 Wan2.1 用作高噪声 expert,或使用无 MoE 的单一稠密模型。

这一设计对世界建模有一个微妙但重要的含义。高噪声 expert 实际上是一个组合规划器:它决定世界在物体及其关系层面上的样子。低噪声 expert 是一个渲染器:它填充视觉细节。如果我们认为世界模型需要同时具备结构理解(发生了什么)和表面理解(看起来怎样),MoE 设计显式地分离了这两个描述层次。这种分离究竟仅仅是工程上的便利,还是反映了物理仿真结构的一个本质事实,仍是一个开放问题。

2.4 3D VAE:时空数据的因果压缩

在原始视频像素与 DiT 骨干网络之间,是一个将视频压缩为隐式表征的 3D Variational Autoencoder。Wan2.2 使用两种 VAE 变体:

VAE空间压缩时间压缩总比率模型
Wan2.1-VAE8×88 \times 84×4 \times256×256 \timesT2V, I2V, S2V, Animate
Wan2.2-VAE16×1616 \times 164×4 \times1024×1024 \timesTI2V-5B

Wan2.2-VAE 在 patchification 后实现了 4096×4096 \times 的有效总压缩率,使 5B 稠密模型能够在单块消费级 GPU(RTX 4090,24GB 显存)上生成 720P 24FPS 视频。编码器使用 3D 因果卷积,确保每帧的编码仅依赖于之前的帧——这对于自回归视频生成和维持隐式空间中的时间因果性是关键性质。

VAE 使用混合损失函数训练,结合了 L1L_1 重建、KL 散度、LPIPS 感知损失和 GAN 判别器。特征缓存机制存储前一时间步的特征,使任意长度视频的生成不会出现质量退化——这一工程必需品有趣地呼应了物理仿真引擎跨时间步维护状态的方式。

2.5 文本编码与多模态条件化

所有 Wan2.2 变体使用 umT5 编码器进行文本条件化,原生支持中英文提示。文本 embedding 通过 cross-attention 注入 DiT,使模型能够在每个时空位置 attend 到相关的语言特征。S2V 变体通过 wav2vec2 编码音频,并通过额外的 cross-attention 层注入。Animate 变体使用 CLIP 和人脸编码器特征进行身份保持。

条件化架构是模块化的:同一个 DiT 骨干通过改变 cross-attention 输入来处理所有模态。这种统一性是工程上的优点,但也揭示了当前视频模型中条件化的本质。文本、音频和图像都通过相同的 cross-attention 机制进入,这意味着它们都被当作上下文而非因果输入来处理。模型可以被指示"一辆车左转"并生成汽车左转的视频,但它无法接受"施加转向角 θ=15°\theta = 15° 和油门 ϕ=0.3\phi = 0.3“的指令并生成物理上正确的轨迹仿真。描述结果与指定原因之间的这一区别——正是视频生成与世界建模之间边界的要害所在。

3. 边界:视频生成何时不再是世界模型

3.1 几何不一致:未被观测时物理是可选的

边界最显著的症状是互联网上所称的"物理糊弄”(physics slop)——生成视频在镜头角度或遮挡模式变化时产生物理上不可能的几何的诡异倾向。一个玻璃杯碎裂后碎片互相穿过;一个角色走到柱子后面却从错误的一侧出现;一面镜子里的反射显示了某人的后脑勺。

这些并非随机错误。它们遵循一个模式:模型在被直接观测时几何正确,在未被观测时几何出错。正面渲染的一张脸会有正确的比例;同一张脸在 3/4 角度下可能眼睛间距过大。从上方俯视的桌子腿的位置正确;从侧面看同一张桌子,腿可能悬空。

原因在于结构。视频生成模型被训练以最小化观测像素上的重建损失。当一个像素可见时,模型因预测错误而受罚。当一个像素被遮挡或当前视点下几何模糊时,不存在直接的监督信号。模型可以自由地幻觉出任何产生看起来合理图像的几何,而"看起来合理"是比"物理上正确"弱得多的约束。

这就是关键的不对称:观测约束几何,但观测的缺失完全不约束几何。一个真正的世界模型必须在任何视点下维持一致的 3D 几何,因为物理世界在任何视点下都有一致的 3D 几何。视频生成模型只需要为当前视点产生正确的 2D 投影,它可以通过记忆外观模式而非构建 3D 表征来实现这一点。

Kang 等人 [5] 最近的系统研究提供了严格的证据。他们由确定性经典力学支配的 2D 仿真测试平台揭示了:视频生成模型在分布内场景上表现完美,在组合泛化上随 scaling 有可测量但不完全的提升,在分布外物理场景上则完全失败。关键在于,失败模式呈现系统性的"案例式"推理,而非随机噪声:模型检索视觉上最相似的训练样本并复现其动态,无论物理定律是否匹配。检索优先级遵循表面视觉特征——颜色优先于尺寸优先于速度优先于形状——而非动量或能量守恒等物理不变量。

3.2 动作鸿沟:条件化于描述,而非原因

Ha 和 Schmidhuber 以及 LeCun 所定义的世界模型,是一个可以被动作驱动的仿真器。给定状态 sts_t 和动作 ata_t,它应该预测下一状态 st+1s_{t+1}。这正是它对规划有用的原因:你可以尝试不同的动作,观察其预测结果,选择通向期望结果的那一个。

当前的视频生成模型做不到这一点。它们可以以文本(“一辆车左转”)、图像(起始帧)或音频(用于动画的语音)为条件,但无法以因果意义上的物理动作为条件。当你写下"一辆车左转",模型生成看起来像车在左转的视频。但这个左转不是由施加于动力学系统的转向输入引起的;它是由文本提示引起的。模型不知道车左转是因为司机向左打了方向盘,还是因为道路向左弯曲,还是因为一阵风将车推向了左边。它只知道视觉结果应该看起来像左转。

这就是动作鸿沟:条件化于结果描述与条件化于产生该结果的原因之间的差异。形式化地说,视频模型近似的是:

p(ot+1:To0:t,c)p(\mathbf{o}_{t+1:T} \mid \mathbf{o}_{0:t}, \mathbf{c})

其中 o\mathbf{o} 是观测(视频帧),c\mathbf{c} 是文本条件。世界模型需要的是:

p(st+1st,at)p(\mathbf{s}_{t+1} \mid \mathbf{s}_t, \mathbf{a}_t)

其中 s\mathbf{s} 是状态表征,at\mathbf{a}_t 是动作。这是根本不同的分布。视频模型对所有可能产生所描述结果的原因进行边际化;世界模型以特定原因为条件,预测其特定效果。

在安全敏感领域,这一区别变得至关重要。如果你让视频模型生成"一辆车在红灯前停下",它会生成车停下的视频。但它无法告诉你这辆车是在 50 米外温和刹车停下的,是在 10 米外紧急刹车停下的,还是熄火滑行停下的。三种情况在视频中看起来相似。只有以特定刹车输入为条件的动力学模型才能区分它们。在自动驾驶中,温和刹车与紧急刹车之间的区别就是安全停车与追尾碰撞之间的区别——这不是学术问题。

3.3 叠加问题:模拟所有未来,而非一个未来

存在一个比几何不一致或动作鸿沟更深层的问题,它受到的关注较少,但可能更为根本。视频生成模型被训练来近似与条件一致的所有可能视频的分布 p(oc)p(\mathbf{o} \mid \mathbf{c})。当你以"一个球被掷向墙壁"提示它时,它必须学习一个包含球所有可能弹跳方式的分布:可能弹得高、低、偏左、偏右,可能碎裂,可能完全没打中墙。训练中,模型被鼓励在这个完整分布上最小化损失,这意味着它学习了所有可能未来的加权平均。

推理时,采样过程从该分布中选择一条轨迹。但模型的内部表征——决定生成内容的隐式状态——同时包含许多可能未来的信息。这就是叠加问题:模型以叠加态模拟所有可能未来,然后在采样时坍缩到一个。

相比之下,世界模型应该模拟由特定初始条件和特定动作决定的一个特定未来。差异不仅仅在于采样;在于表征的结构。世界模型的状态空间应该分解为当前状态和动力学函数,使得未来由 (st,at)(s_t, a_t) 唯一确定。视频模型的隐式空间不具有这种结构。它编码的是未来的分布,而非单一确定性演化的状态。

实际后果是,视频模型在分布的极端处不可靠。当提示唯一确定结果时(“一个红球在平坦桌面上滚动”),模型可以可靠地生成正确的物理,因为只存在一个合理的未来。当提示欠定时(“一个球弹跳”),模型必须在许多合理未来中选择,其选择由训练数据的统计决定,而非任何物理原理。这就是为什么视频世界模型的失败不是随机的——它们系统性地偏向最常见的训练样本,无论这些样本对于特定场景是否物理正确。

3.4 时间一致性 vs. 物理一致性

值得区分在视频世界模型的讨论中经常被混为一谈的两种一致性。时间一致性意味着连续帧看起来属于同一段视频——相同的物体出现,光照相似,镜头平滑移动。物理一致性意味着所描绘的事件遵循物理定律——物体以正确速率下落,碰撞守恒动量,反射显示正确几何。

Wan2.2 与其他现代视频生成器一样,实现了令人印象深刻的时间一致性。其 3D 因果 VAE、DiT 中的时间 attention 和 flow matching 目标共同促成了流畅连贯的视频。但时间一致性是比物理一致性更弱的条件。一段视频可以在时间上一致——无闪烁、无消失物体、平滑运动——但在物理上不可能。一个弹得比落下位置更高的球看起来流畅连贯;它只是违反了能量守恒。

这种混同是危险的,因为时间一致性比物理一致性更容易评估也更容易实现。VBench 等基准通过指标(如时间闪烁和运动平滑度)衡量时间一致性,但衡量物理一致性的能力有限(“人类动作"和"多物体"类别提供了一些信号,但远非全面)。这造成了评估鸿沟:模型看起来在作为世界模型进步,因为其时间一致性在提升,但其物理一致性的改善可能缓慢得多,甚至没有改善。

Kang 等人 [5] 的研究提供了这一差距最严格的论证。通过在受已知物理定律支配的数据上训练视频生成模型,然后在那些定律预测特定结果的场景上测试,他们表明 scaling 改善了分布内性能(主要是时间一致性),但未能解决分布外物理推理。模型变得更擅长生成看起来像训练数据的视频;它并没有变得更擅长理解训练数据为什么看起来是这样。

3.5 隐式替代路径:V-JEPA 的路线

像素空间预测的局限性催生了替代方案:在隐式空间而非像素空间中预测。V-JEPA [4] 及其最近升级的 V-JEPA 2.1 体现了这一理念。V-JEPA 不生成像素,而是学习在学到的隐式空间中预测缺失视频区域的表征。训练目标在特征上运行,而非像素,这意味着模型永远不需要将容量浪费在渲染无关的视觉细节上。

优势在于效率:隐式预测可以将容量集中在下游任务真正重要的信息上。劣势在于世界模型的质量完全由隐式表征的质量决定。V-JEPA 2 正如我们在之前文章中所讨论的,遭受了 context token 坍缩问题——可见区域的 token 收敛为近乎相同的全局聚合器,丢失了物理推理所需的空间精度。V-JEPA 2.1 通过密集预测损失解决了这个问题,该损失监督所有 token,按其到 mask 边界的距离加权,强制表征中的空间局部性。

隐式路径和像素路径并非竞争者;它们是互补的。像 Wan2.2 这样的像素空间模型产生视觉上引人注目的输出,但在几何和物理一致性上挣扎。像 V-JEPA 2.1 这样的隐式空间模型产生几何精确的表征,但缺乏生成可用视觉输出的渲染能力。一个真正的世界模型可能需要两者:一个维持几何和物理一致性的隐式骨干,加上一个产生视觉准确输出的渲染头。问题在于如何构建这样的系统而不继承两种方法的局限性。

4. 弥合差距:从视频到可操作的仿真

4.1 DreamZero:同时解码动作与世界

Jim Fan 的 NVIDIA 团队提出了最直接的桥梁。DreamZero [3] 是一个 World Action Model (WAM),基于 Wan2.1-I2V-14B 构建,在单次前向传播中联合预测未来视频帧和机器人动作。关键因式分解为:

π0(ol:l+H,al:l+Ho0:l,c,ql)DreamZero=π0(ol:l+Ho0:l,c,ql)Video predictionπ0(al:l+Ho0:l+H,ql)Inverse dynamics\underbrace{\pi_0(\mathbf{o}_{l:l+H}, \mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l)}_{\text{DreamZero}} = \underbrace{\pi_0(\mathbf{o}_{l:l+H} \mid \mathbf{o}_{0:l}, \mathbf{c}, \mathbf{q}_l)}_{\text{Video prediction}} \cdot \underbrace{\pi_0(\mathbf{a}_{l:l+H} \mid \mathbf{o}_{0:l+H}, \mathbf{q}_l)}_{\text{Inverse dynamics}}

第二个因子是逆动力学模型 (IDM):给定完整的观测轨迹(过去的和预测的未来),它提取产生该轨迹的动作。这是一个巧妙的设计,因为动作解码器不需要学习物理——它只需要学习从视觉轨迹到运动指令的映射,这是一个简单得多的函数。物理由视频预测组件处理,后者继承了大规模视频预训练中的物理先验。

结果令人瞩目。在 AgiBot G1 基准上,DreamZero 在已见任务上实现了 62.2% 的平均任务进度(最佳预训练 VLA 为 27.4%),在未见任务上为 39.5%(对比 16.3%)。仅用 30 分钟的游玩数据,它就能适应全新的机器人平台,同时保持零样本泛化。推理速度从每次动作 5.7 秒优化到 150ms,通过 DiT 缓存、torch 编译和 DreamZero-Flash 单步 denoising 方案的组合实现。

DreamZero 最重要的洞见是:提升机器人能力近似等价于提升视频生成质量。当 DreamZero 失败时,失败通常源于视频预测——模型幻觉出不可能的物理轨迹——而动作解码器忠实地执行了那条轨迹。动作头不是瓶颈;世界模型才是。这证实了核心论点:机器人能力的边界就是视频生成物理保真度的边界。

但 DreamZero 也揭示了边界所在。模型的动作是从预测的视觉未来中提取的,而非来自因果动力学模型。如果视频预测在物理上是错误的,动作也将是错误的。系统没有独立的机制来验证其预测在物理上是否合理。它实际上是一个模式匹配器,学会了将视觉未来与运动指令关联起来,却从未构建出产生这些未来的物理的显式模型。

4.2 InSpatio-World:视频生成的几何约束

InSpatio-World [6] 采取了互补的方法:它试图使视频本身几何一致,而非从视频中提取动作。基于 Wan2.1 骨干构建(训练代码参考了 Self-Forcing),InSpatio-World 是首个以参考视频为条件的 4D 世界模型,将单个视频转化为可自由探索、导航和重访的动态 3D 世界。

核心创新是将显式几何约束注入视频生成管线。InSpatio-World 不以纯像素驱动的方式生成视频,而是强制与底层 3D 结构一致。模型不仅产生 RGB 帧,还产生深度图、相机位姿和 3D 点云,且彼此一致。这意味着当你从新视点渲染场景时,几何保证是正确的——因为生成过程受显式几何表征约束。

InSpatio-World 的方法直接解决了几何不一致问题。通过将 3D 结构作为一等输出而非期望中的涌现性质,它消除了困扰无约束视频生成的"物理糊弄”。从柱子后面看到的汽车会从正确的一侧出现,因为柱子的 3D 位置是模型表征的一部分,而非可以被幻觉的可选细节。

局限在于,几何约束不等于物理约束。InSpatio-World 确保了生成场景的几何自洽,但并不确保动力学遵循物理定律。一个球可以弹得比落下位置更高,只要球及其环境的 3D 结构在几何上一致。模型解决了几何问题,但没有解决物理问题。

4.3 VGGT-World:在几何空间中预测

VGGT-World 采取了与视频生成范式最激进的偏离:它完全绕过像素生成。VGGT-World 不生成视频再提取几何信息,而是直接预测由冻结的几何基础模型 (VGGT) 产生的 3D 几何特征的时间演化。

架构优雅简洁。冻结的 VGGT 编码器 Φenc\Phi_{\text{enc}}(第 0–4 层)将每帧输入映射为高维几何状态 ztRN×1024\mathbf{z}_t \in \mathbb{R}^{N \times 1024}。轻量级时序 flow transformer FθF_\theta(仅 0.43B 可训练参数)以自回归方式预测未来几何状态,每次预测 4 帧。冻结的 VGGT 解码器 Φdec\Phi_{\text{dec}}(第 5–47 层)将预测的几何状态映射回深度图、点云和相机参数。

核心技术创新是 z-prediction:网络不预测 flow matching 过程的速度向量(v-prediction),而是直接预测干净的目标隐式状态。在 1024 维的 VGGT 特征空间中,v-prediction 会灾难性地失败,因为 flow matching 过程的各向同性高斯噪声主要沿与几何流形正交的方向扰动状态——这些方向不携带有用信息。Z-prediction 通过始终预测干净目标来规避这一问题,在训练中实现了显著更高的信噪比。

结果令人信服。在 KITTI 深度预测上,VGGT-World 实现了 0.065 AbsRel(短期)和 0.098 AbsRel(中期),而 Cosmos-12B 为 0.154 和 0.185——分别提升了 58% 和 47%。每帧推理时间为 1.9 秒,而 Cosmos-12B 为 9.5 秒。而且仅用 0.43B 可训练参数,对比 Cosmos 的 12B。

VGGT-World 证明了几何问题和动力学问题可以分离。通过在几何原生的隐式空间中预测,它构造性地实现了几何一致性。通过在该空间中使用 flow matching 目标,它捕获了时间动态。通过冻结几何编码器/解码器,它以最小的计算开销实现了这一切。

局限在于 VGGT-World 预测的是几何状态,而非 RGB 帧。要产生视觉上可用的仿真,预测的几何状态必须通过 VGGT 解码器渲染,后者产生深度图和点云,而非逼真的图像。这使其不适用于需要视觉保真度的应用(如感知系统的数据增强),但非常适合需要几何保真度的应用(如轨迹规划、碰撞检测)。

4.4 方法全景

这三种方法——DreamZero、InSpatio-World 和 VGGT-World——代表了由两个轴定义的设计空间中的三个点:表征(像素 vs. 隐式 vs. 几何)和因果性(无条件 vs. 动作条件化)。当前状态可总结如下:

方法表征动作条件化几何保真度物理保真度
Wan2.2像素否(仅文本)
DreamZero像素是(通过 IDM)低(继承自视频)
InSpatio-World像素 + 3D否(视角条件化)低-中
VGGT-World几何隐式
V-JEPA 2.1视觉隐式

没有现有方法同时实现高几何保真度和动作条件化。这是剩余的差距:一个可被动作驱动、维持一致 3D 几何、产生物理合理动力学的世界模型。弥合这一差距可能需要将 DreamZero 的动作条件化与 InSpatio-World 的几何约束或 VGGT-World 的隐式几何相结合。

5. 对自动驾驶的含义

自动驾驶在许多方面是视频世界模型的典型应用场景。自动驾驶汽车运行在必须被预测、规划和仿真的物理环境中。行业对仿真的迫切需求源于一个硬约束:你不能在公共道路上安全地测试边缘案例,也无法收集足够的真实数据来覆盖罕见场景的长尾分布。仿真是覆盖极端案例的唯一可扩展路径。

5.1 价值主张:数据增强与极端案例生成

视频生成模型为自动驾驶提供了一种诱人的能力:从文本描述生成合成驾驶场景。想测试感知系统在"夜间雨天中行人从停放的卡车后面走出来"上的表现?描述它,生成视频,你就有了一个标注好的测试用例。这比在测试场上布置这样的场景便宜得多,比等待它自然发生安全得多。

Wan2.2 级别的模型已经能够产生视觉上令人信服的驾驶场景。时间一致性、车辆和行人的逼真渲染、合理的运动模式——所有这些都使生成视频作为感知系统的数据增强工具具有实用价值。如果下游任务是目标检测或语义分割,生成视频的感知质量比其物理准确性更重要。生成行人周围的边界框训练检测器与真实行人的边界框一样好,只要生成的行人在视觉上足够逼真。

然而,对于规划而言,要求发生了根本变化。规划器不仅需要感知当前状态;它需要预测该状态在不同可能动作下的未来演化。这正是视频生成与世界建模的边界变得关键的所在。

5.2 为什么视频生成无法替代驾驶规划

驾驶规划器必须回答的问题是:“如果我施加转向角 θ\theta 和加速度 aa,2 秒后世界会是什么样子?“这是一个因果的、动作条件化的预测。正如我们所论述的,视频生成模型无法做出这种预测。它们可以生成看起来像车左转的视频,但无法预测施加特定转向输入后世界会变成什么样。

这一区别具有实际后果。考虑三个关键场景:

场景一:紧急制动。 自动驾驶车辆以 60 km/h 跟随前车,前车突然刹车。规划器必须决定:急刹(冒着被后车追尾的风险)还是变道(冒着与相邻车辆侧面碰撞的风险)。正确决策取决于两种动作下所有周围车辆的预测轨迹,这需要一个因果模型来描述每辆车如何响应自动驾驶车辆的操作。以"车辆急刹"为条件的视频模型会生成看起来合理的刹车视频;它不会告诉你相邻车辆看到你的刹车灯后是否可能变道进入你的车道。

场景二:无保护左转。 在对向来车的情况下左转需要预测对向车辆是否会避让、减速或保持速度。这些预测取决于交互的因果动力学——对方司机是否看到你、是否做出反应、是否调整行为?视频模型可以生成成功左转的视频,但它无法模拟反事实情形:“如果对向司机不让行会怎样?“因为生成是以结果(左转)为条件的,而非以因果机制(对方司机的反应)为条件的。

场景三:被遮挡的行人。 一个行人从停放的卡车后面走出来。规划器不仅要预测行人现在的位置,还要预测他下一秒会在哪里,这取决于当前速度、卡车的几何形状以及行人可能的意图。以"行人从卡车后面出现"为条件的视频模型会生成看起来合理的出现画面,但可能在时间、轨迹和几何上出错——有些在物理上可能但不太可能发生,有些在物理上不可能但看起来合理。

5.3 几何保真度要求

对自动驾驶而言,几何保真度是安全要求,而非锦上添花。在高速公路速度下 0.5 米的距离误判就是安全变道与碰撞的区别。50 米距离上 10% 的深度预测误差意味着 5 米的位置误差——足以将一辆车放在另一辆车的包围盒内。

这就是为什么像素空间视频模型的几何不一致性使其无法用于驾驶仿真。产生物理上不可能几何的仿真——车辆看起来合并、行人穿过障碍物、道路不可能弯曲——不能用于安全验证。仿真必须在构造上几何正确,而非碰巧几何正确。

InSpatio-World 和 VGGT-World 指向了解决方案。驾驶世界模型必须在几何锚定的表征中运作,其中 3D 结构是显式的,一致性是保证的。该结构渲染为像素是次要的;重要的是预测的 3D 状态在物理上合理,且在视点和时间上几何一致。

5.4 从 Wan2.2 到驾驶世界模型:剩余的步骤

从 Wan2.2 这样的视频生成器到驾驶世界模型的路径至少需要三个转变:

第一,模型必须在几何锚定的表征中运作。这不一定意味着在显式 3D 表征上运作;VGGT-World 在几何基础模型的隐式空间中运作的方法是可行的替代。关键在于表征以对视点不变且跨时间一致的方式编码 3D 结构。

第二,模型必须是动作条件化的。它必须将物理动作(转向、油门、刹车)作为因果输入并预测其对世界状态的效果。DreamZero 的逆动力学方法是起点,但它要求视频预测物理正确,这又回到了第一个要求。更有前景的方法可能是在几何隐式空间中直接训练动作条件化预测,将 DreamZero 的动作条件化与 VGGT-World 的几何表征相结合。

第三,模型必须产生物理上合理而非仅仅视觉上合理的预测。这需要显式物理约束(对能量、动量和几何的硬约束),或在物理违规与视觉伪影受到同等惩罚的数据上训练。Flow matching 目标可以通过目标分布的选择纳入此类约束,但这在很大程度上仍是未被探索的。

这三个转变并非独立的。几何锚定的表征使动作条件化更容易(因为动作作用于物理状态而非像素)。动作条件化使物理合理性更容易验证(因为你可以检查预测结果是否与施加的动作一致)。物理合理性使模型可用于规划(因为预测可以被信任)。

Wan2.2 与驾驶世界模型之间的差距不是规模问题。将 Wan2.2 做大十倍不会解决几何不一致、动作鸿沟或叠加问题。这些是架构层面的局限,需要架构层面的解决方案:不同的表征、不同的条件化机制、不同的训练目标。好消息是,这些解决方案的构建模块——像 VGGT 这样的几何基础模型、像 DreamZero 这样的动作条件化生成、像 V-JEPA 这样的隐式预测——已经存在。挑战在于将它们组装成一个继承各自优势而不继承各自弱点的系统。

6. 结论

Wan2.2 是一项卓越的工程成就。其基于 flow matching 的 DiT 骨干实现了最先进的视频生成质量。其噪声阶段 MoE 设计是真正的架构创新,利用了 denoising 过程的结构。其 4096×4096\times 有效压缩的 3D VAE 使消费级 GPU 上的 720P 推理成为可能。这些都是推动领域前进的贡献。

但 Wan2.2 不是一个世界模型。它是一个视频生成器,有时产生世界模型般的输出,因为物理一致性的视觉外观与真正的物理一致性相关联。当这种相关性成立时——当视觉上最合理的结果也是物理上正确的结果时——模型运作良好。当这种相关性断裂时——当物理上不可能的轨迹与正确轨迹视觉上无法区分时,或当多个物理上可能的轨迹与同一提示一致时——模型失败。

视频生成与世界建模之间的边界是一个区域,而非一条分界线。在这个区域中,我们已经识别的局限——几何不一致、动作鸿沟和叠加问题——可以通过几何约束(InSpatio-World)、动作条件化(DreamZero)和隐式预测(VGGT-World)等技术部分解决。但每种技术只解决了问题的一个维度。一个真正的世界模型必须同时解决所有三个维度,目前还没有任何系统能做到。

前进的道路需要不同的表征、不同的条件化机制和不同的训练目标,而非更多像素、更多参数或更多训练数据。像素是世界模型的错误原语。我们需要原生编码几何、因果地接受动作、构造性地强制物理一致性的表征。构建这些表征的模型将看起来与 Wan2.2 非常不同。但它们将建立在 Wan2.2 所例证的相同基本洞见之上:预测未来的能力就是建模世界的能力,而预测的质量取决于进行预测的表征的质量。

相关概念


References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

- [1] Wan2.2, GitHub: Wan-Video/Wan2.2, 2025.

- [2] Sora, OpenAI, 2024.

- [3] J. Fan et al., “DreamZero: World Action Models Are Zero-Shot Policies,” NVIDIA, 2026. arXiv:2602.15922

- [4] V-JEPA 2.1, Meta AI, 2026.

- [5] B. Kang et al., “How Far is Video Generation from World Model: A Physical Law Perspective,” ICML 2025. arXiv:2411.02385

- [6] InSpatio-World, arXiv:2604.07209, 2026.