Wan2.2 and the Boundary of Video World Models
Wan2.2 架构概览:14B MoE DiT + Flow Matching + 3D VAE,详见 Wan2.2 GitHub 1. 承诺:视频生成即世界模拟 当 OpenAI 在 2024 年初发布 Sora 时,其叙事框架经过了精心设计:这不仅仅是一个视频生成器,而是一个"世界模拟器"。模型生成了数字生物在物理环境中导航的长达一分钟的视频片段,物体以合理的方式碰撞和变形,镜头运动遵循三维空间的几何约束。潜台词非常明确——一个能够预测世界下一刻模样的模型,在某种层面上,必然理解世界是如何运作的。 ...