模拟一个随时间演化且可从任意视角观察的 4D 世界,是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列,但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度,却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归(STAR)架构弥合了这一鸿沟,融合了两种范式的优势。
本文基于论文(arXiv:2604.07209)和开源实现进行详细的技术分析。
Interactive Demo
以下查看器展示了圆轨道轨迹的完整管线输出。三个视频同步播放:原始输入、几何渲染条件和预测的新视角。
Controls: Play/pause all videos simultaneously. Drag the timeline to seek. Speed control: 0.5x–2.0x. Keyboard: Space = play/pause, Arrow keys = frame step.
1. 核心问题:为什么不直接生成视频?
视频生成模型(Sora、Wan、CogVideo)能产生时间连贯的帧,但缺乏 3D 几何概念。当你要求它们"将相机向左移动"时,它们会产生看似合理的幻觉运动,却与底层场景在几何上不一致。
InSpatio-World 指出了现有自回归世界模拟器的三种特定失效模式:
- 空间持久性退化(Spatial Persistence Degradation):随着自回归推演的延伸,模型会"遗忘"原始场景几何。物体漂移、纹理模糊、结构连贯性衰退。
- 合成到真实差距(Synthetic-to-Real Gap):在渲染(合成)数据上训练提供了精确的相机控制但产生伪影;在真实视频上训练产生逼真的帧但缺乏控制信号。两者单独都不够。
- 控制精度不足(Insufficient Control Precision):现有的轨迹条件模型无法准确跟随用户指定的相机路径,尤其在大角度旋转时。
2. 架构:STAR(时空自回归)
STAR 架构以 帧为单位(默认 3)逐块生成视频,每个块依赖三类信息作为条件:
块 的去噪过程为:
2.1 隐式 ST-Cache:全局空间锚点
参考潜变量(reference latent) 从源视频提取并注入每个块中,作为持久的空间锚点。这解决了空间持久性退化问题,确保模型始终能访问原始场景外观。
实现层面,这通过 KV 缓存机制完成:
| |
一个关键实现细节:位置编码锚定(position encoding anchoring)。参考块、历史块和当前块的 RoPE 位置索引分别锚定到固定的绝对位置,防止位置编码在自回归推演过程中因序列增长而漂移。
2.2 显式空间约束:深度 → 点云 → 渲染
显式几何管线分三阶段运行:
- 深度估计(Depth estimation):Depth-Anything-3(DA3)从源视频估计每帧深度图和相机位姿。
- 点云重建(Point cloud reconstruction):每帧深度图反投影为 3D 点云(每帧一个 PLY 文件)。
- 轨迹条件渲染(Trajectory-conditioned rendering):给定用户指定的相机轨迹,点云重新投影到新视角,生成
render_offline.mp4和mask_offline.mp4。
flowchart LR
A["Source
Video + Trajectory"] --> B["DA3
Depth + Pose
estimation"]
B --> C["Point Cloud
3D unproject
+ Reproject"]
C --> D["Geometry Cond.
render_video
+ mask_video"]
style A fill:#2a2a3a,stroke:#3498db,color:#fff
style B fill:#2a2a3a,stroke:#9b59b6,color:#fff
style C fill:#2a2a3a,stroke:#e67e22,color:#fff
style D fill:#2a2a3a,stroke:#2ecc71,color:#fff渲染视频提供了粗略的几何引导——指示物体在新视角下应该出现的位置,而掩码标记哪些像素具有有效几何信息。DiT 学习将这个粗糙渲染精修为照片级逼真帧。
2.3 轨迹定义
轨迹定义为简单的文本文件,包含三行:俯仰角(度)、偏航角(度)和位移缩放因子。sphere2pose 函数将球坐标转换为 4×4 相机到世界矩阵:
| |
关键帧使用 scipy.interpolate.UnivariateSpline 插值以获得平滑轨迹。系统根据总角度变化自适应调整帧数(每帧 0.3–0.8 度)。
3. JDMD:解决合成-真实差距
在合成数据(渲染的点云)上训练提供精确的相机控制但产生视觉伪影;在真实视频上训练产出精美帧但缺乏控制信号。InSpatio-World 的方案:同时在两者上训练。
JDMD(Joint Distribution Matching Distillation)损失函数:
- :潜空间上的标准 flow-matching 损失,应用于两个分支。
- :控制精度损失,仅在 V2V 分支计算,衡量生成的视频对指定相机轨迹的跟随程度。
这种双分支训练确保模型同时继承了几何准确性(来自合成数据)和视觉真实感(来自真实数据)。
4. 推理管线
完整的推理管线包含三个步骤:
Step 1: 标题生成
Florence-2 从源视频生成文本描述。该标题为模型的 T2V 组件提供语义上下文。
Step 2: 深度估计 + 几何渲染
DA3 估计深度图和相机位姿。深度图反投影为点云后,再从目标轨迹视角重渲染,生成几何条件视频。
Step 3: 自回归推理
Causal DiT 逐块生成新视角视频,每个块以参考潜变量、历史缓存和几何渲染结果为条件。
| |
主要推理选项:
| Flag | Purpose |
|---|---|
--relative_to_source | Combine trajectory relative to initial view (for driving) |
--rotation_only | Pan/tilt only, ignore translation |
--freeze_repeat N | Freeze time, repeat frame N times |
--use_tae | Tiny AutoEncoder for faster inference |
--compile_dit | torch.compile acceleration |
5. 性能
| Metric | Value |
|---|---|
| Model size | 1.3B parameters |
| FPS (H-series GPU) | 24 |
| FPS (RTX 4090) | 10 |
| WorldScore-Dynamic | 68.72 (SOTA among real-time methods) |
| Camera control precision | 81.51 |
| RE10K-Long FID | 42.68 |
| RE10K-Long FVD | 100.55 |
模型在保持与离线方法相当质量的同时实现了实时性能。分块因果架构支持流式输出——整个序列生成完毕之前,前几帧就已经可用。
6. 与自动驾驶的联系
InSpatio-World 与自动驾驶规划有天然联系。项目包含了 DrivoR 的集成文档——DrivoR 是一个基于 Transformer 的端到端规划器,在 NAVSIM-v1 上达到 PDMS 93.7。
核心思路:将 InSpatio-World 不用作规划器,而是用作未来观测生成器。给定来自 DrivoR 的候选轨迹,InSpatio-World 可以渲染自车如果跟随该轨迹将会看到什么画面,从而实现:
- 未来一致性评分(Future-consistency scoring):在 DrivoR scorer 中增加一项特征,评估预测的未来观测是否与规划的轨迹一致。
- 反事实数据增强(Counterfactual data augmentation):沿与真值不同的假设轨迹渲染新视角,为罕见场景生成训练数据。
- 轨迹条件世界模拟(Trajectory-conditioned world simulation):结合 DrivoR 的轨迹输出与 InSpatio-World 的渲染能力,构建闭环仿真环境。
这指向了一个更广泛的趋势:自动驾驶领域世界模型与规划模型的融合——世界模型回答"会发生什么",规划模型回答"我该做什么"。
7. 局限性与开放问题
- 长程一致性:虽然 ST-Cache 缓解了退化,但极长序列推演(数百帧)仍会出现渐进漂移。
- 360° 漫游:当前架构处理适度的视角变化效果良好,但在全景探索方面仍有困难。
- 动态物体:显式几何管线(点云重投影)将物体视为静态处理;场景中的移动物体仍是开放挑战。
- 驾驶场景的仿真-真实差距:尽管 JDMD 有所帮助,但由于复杂反射、透明表面和精细纹理的存在,驾驶场景的渲染与真实之间的差距比一般视频更大。
References
本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。
- InSpatio-World: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling (arXiv:2604.07209)
- Project Page
- Wan2.1: Open and Advanced Large-Scale Video Generation Models
- Depth-Anything-3: Monocular Depth Estimation
- DrivoR: Driving on Registers for End-to-End Autonomous Driving
- NAVSIM Benchmark
相关概念
- 4D 视觉的本体论 — InSpatio-World 的"4D simulation"对应的 Newtonian vs Minkowski 表征结构辨析,详见 https://xuquant.com/posts/world-models/vision-2d-to-4d/
- 视频世界模型的另一条路线 — Wan2.2 的视频生成与 InSpatio 的自回归 4D 模拟在世界建模上的分工,详见 https://xuquant.com/posts/world-models/wan2.2-video-world-model-boundary/