InSpatio-World Architecture Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

模拟一个随时间演化且可从任意视角观察的 4D 世界,是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列,但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度,却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归(STAR)架构弥合了这一鸿沟,融合了两种范式的优势。

本文基于论文(arXiv:2604.07209)和开源实现进行详细的技术分析。

Interactive Demo

以下查看器展示了圆轨道轨迹的完整管线输出。三个视频同步播放:原始输入、几何渲染条件和预测的新视角。

Controls: Play/pause all videos simultaneously. Drag the timeline to seek. Speed control: 0.5x–2.0x. Keyboard: Space = play/pause, Arrow keys = frame step.

1. 核心问题:为什么不直接生成视频?

视频生成模型(Sora、Wan、CogVideo)能产生时间连贯的帧,但缺乏 3D 几何概念。当你要求它们"将相机向左移动"时,它们会产生看似合理的幻觉运动,却与底层场景在几何上不一致。

Video Generation+ Photorealistic+ Temporal coherence- No 3D consistency- Geometry hallucinatedExamples: Sora, Wan2.1CogVideoX3D Reconstruction+ Geometric fidelity+ Multi-view consistent- Static scenes only- Not real-timeExamples: NeRF, 3DGSInstantNGPInSpatio-World+ Photorealistic+ 3D consistent+ Dynamic scenes+ Real-time (24 FPS)STAR + JDMD1.3B params

InSpatio-World 指出了现有自回归世界模拟器的三种特定失效模式:

  1. 空间持久性退化(Spatial Persistence Degradation):随着自回归推演的延伸,模型会"遗忘"原始场景几何。物体漂移、纹理模糊、结构连贯性衰退。
  2. 合成到真实差距(Synthetic-to-Real Gap):在渲染(合成)数据上训练提供了精确的相机控制但产生伪影;在真实视频上训练产生逼真的帧但缺乏控制信号。两者单独都不够。
  3. 控制精度不足(Insufficient Control Precision):现有的轨迹条件模型无法准确跟随用户指定的相机路径,尤其在大角度旋转时。

2. 架构:STAR(时空自回归)

STAR 架构以 NfN_f 帧为单位(默认 3)逐块生成视频,每个块依赖三类信息作为条件:

STAR: Block-wise Causal DenoisingReferencez_ref (global anchor)Source video latentHistoryz_{<i} (temporal ctx)Previous block outputGeometry[z_warp, mask]Explicit 3D constraintCausal DiT + KV CacheDenoise z_i | z_{<i}, z_ref, [z_warp, m]z_i (denoised)

ii 的去噪过程为:

z^i=Denoiseθ(zi,σz<i,zrefi,[zwarpi,mi])\hat{z}_i = \text{Denoise}_\theta(z_i, \sigma \mid z_{<i}, z_{\text{ref}_i}, [z_{\text{warp}_i}, m_i])

2.1 隐式 ST-Cache:全局空间锚点

参考潜变量(reference latent) zrefz_{\text{ref}} 从源视频提取并注入每个块中,作为持久的空间锚点。这解决了空间持久性退化问题,确保模型始终能访问原始场景外观。

实现层面,这通过 KV 缓存机制完成:

1
2
3
4
5
6
7
# Concatenate reference + history as context frames
context_frames = torch.cat([ref_block, last_pred_padded], dim=1)
# Reference block is prepended to every denoising step
denoised_pred, _ = denoise_block(
    noisy_current, context=context_frames,
    render_block=render_condition, ...
)

一个关键实现细节:位置编码锚定(position encoding anchoring)。参考块、历史块和当前块的 RoPE 位置索引分别锚定到固定的绝对位置,防止位置编码在自回归推演过程中因序列增长而漂移。

2.2 显式空间约束:深度 → 点云 → 渲染

显式几何管线分三阶段运行:

  1. 深度估计(Depth estimation):Depth-Anything-3(DA3)从源视频估计每帧深度图和相机位姿。
  2. 点云重建(Point cloud reconstruction):每帧深度图反投影为 3D 点云(每帧一个 PLY 文件)。
  3. 轨迹条件渲染(Trajectory-conditioned rendering):给定用户指定的相机轨迹,点云重新投影到新视角,生成 render_offline.mp4mask_offline.mp4
flowchart LR
    A["Source
Video + Trajectory"] --> B["DA3
Depth + Pose
estimation"] B --> C["Point Cloud
3D unproject
+ Reproject"] C --> D["Geometry Cond.
render_video
+ mask_video"] style A fill:#2a2a3a,stroke:#3498db,color:#fff style B fill:#2a2a3a,stroke:#9b59b6,color:#fff style C fill:#2a2a3a,stroke:#e67e22,color:#fff style D fill:#2a2a3a,stroke:#2ecc71,color:#fff

渲染视频提供了粗略的几何引导——指示物体在新视角下应该出现的位置,而掩码标记哪些像素具有有效几何信息。DiT 学习将这个粗糙渲染精修为照片级逼真帧。

2.3 轨迹定义

轨迹定义为简单的文本文件,包含三行:俯仰角(度)、偏航角(度)和位移缩放因子。sphere2pose 函数将球坐标转换为 4×4 相机到世界矩阵:

1
2
3
4
# x_y_circle_cycle.txt
0 0 ... 30 30 ... 0 0 ... -30 -30 ... 0 0
0 0 ... 45 45 ... 90 90 ... 45 45 ... 0 0
1.0 1.0 ... 1.0

关键帧使用 scipy.interpolate.UnivariateSpline 插值以获得平滑轨迹。系统根据总角度变化自适应调整帧数(每帧 0.3–0.8 度)。

3. JDMD:解决合成-真实差距

在合成数据(渲染的点云)上训练提供精确的相机控制但产生视觉伪影;在真实视频上训练产出精美帧但缺乏控制信号。InSpatio-World 的方案:同时在两者上训练

V2V Branch (Synthetic)Input: source video + trajectoryGT: re-rendered novel viewLearns: precise motion controlLoss: L_vis + lambda * L_ctrlRender artifacts OK as GT(geometry is correct)T2V Branch (Real)Input: text caption + videoGT: real video framesLearns: visual fidelityLoss: L_vis (standard diffusion)No geometry needed(photorealism is correct)Shared DiT Weights

JDMD(Joint Distribution Matching Distillation)损失函数:

LJDMD=Lvis+λctrlLctrl\mathcal{L}_{\text{JDMD}} = \mathcal{L}_{\text{vis}} + \lambda_{\text{ctrl}} \cdot \mathcal{L}_{\text{ctrl}}
  • Lvis\mathcal{L}_{\text{vis}}:潜空间上的标准 flow-matching 损失,应用于两个分支。
  • Lctrl\mathcal{L}_{\text{ctrl}}:控制精度损失,仅在 V2V 分支计算,衡量生成的视频对指定相机轨迹的跟随程度。

这种双分支训练确保模型同时继承了几何准确性(来自合成数据)和视觉真实感(来自真实数据)。

4. 推理管线

完整的推理管线包含三个步骤:

Step 1: 标题生成

Florence-2 从源视频生成文本描述。该标题为模型的 T2V 组件提供语义上下文。

Step 2: 深度估计 + 几何渲染

DA3 估计深度图和相机位姿。深度图反投影为点云后,再从目标轨迹视角重渲染,生成几何条件视频。

Step 3: 自回归推理

Causal DiT 逐块生成新视角视频,每个块以参考潜变量、历史缓存和几何渲染结果为条件。

1
2
3
4
# Run the complete pipeline
bash run_test_pipeline.sh \
  --input_dir ./test/example \
  --traj_txt_path ./traj/x_y_circle_cycle.txt

主要推理选项:

FlagPurpose
--relative_to_sourceCombine trajectory relative to initial view (for driving)
--rotation_onlyPan/tilt only, ignore translation
--freeze_repeat NFreeze time, repeat frame N times
--use_taeTiny AutoEncoder for faster inference
--compile_dittorch.compile acceleration

5. 性能

MetricValue
Model size1.3B parameters
FPS (H-series GPU)24
FPS (RTX 4090)10
WorldScore-Dynamic68.72 (SOTA among real-time methods)
Camera control precision81.51
RE10K-Long FID42.68
RE10K-Long FVD100.55

模型在保持与离线方法相当质量的同时实现了实时性能。分块因果架构支持流式输出——整个序列生成完毕之前,前几帧就已经可用。

6. 与自动驾驶的联系

InSpatio-World 与自动驾驶规划有天然联系。项目包含了 DrivoR 的集成文档——DrivoR 是一个基于 Transformer 的端到端规划器,在 NAVSIM-v1 上达到 PDMS 93.7。

核心思路:将 InSpatio-World 不用作规划器,而是用作未来观测生成器。给定来自 DrivoR 的候选轨迹,InSpatio-World 可以渲染自车如果跟随该轨迹将会看到什么画面,从而实现:

  1. 未来一致性评分(Future-consistency scoring):在 DrivoR scorer 中增加一项特征,评估预测的未来观测是否与规划的轨迹一致。
  2. 反事实数据增强(Counterfactual data augmentation):沿与真值不同的假设轨迹渲染新视角,为罕见场景生成训练数据。
  3. 轨迹条件世界模拟(Trajectory-conditioned world simulation):结合 DrivoR 的轨迹输出与 InSpatio-World 的渲染能力,构建闭环仿真环境。

这指向了一个更广泛的趋势:自动驾驶领域世界模型与规划模型的融合——世界模型回答"会发生什么",规划模型回答"我该做什么"。

7. 局限性与开放问题

  • 长程一致性:虽然 ST-Cache 缓解了退化,但极长序列推演(数百帧)仍会出现渐进漂移。
  • 360° 漫游:当前架构处理适度的视角变化效果良好,但在全景探索方面仍有困难。
  • 动态物体:显式几何管线(点云重投影)将物体视为静态处理;场景中的移动物体仍是开放挑战。
  • 驾驶场景的仿真-真实差距:尽管 JDMD 有所帮助,但由于复杂反射、透明表面和精细纹理的存在,驾驶场景的渲染与真实之间的差距比一般视频更大。

References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

相关概念

  • 4D 视觉的本体论 — InSpatio-World 的"4D simulation"对应的 Newtonian vs Minkowski 表征结构辨析,详见 https://xuquant.com/posts/world-models/vision-2d-to-4d/
  • 视频世界模型的另一条路线 — Wan2.2 的视频生成与 InSpatio 的自回归 4D 模拟在世界建模上的分工,详见 https://xuquant.com/posts/world-models/wan2.2-video-world-model-boundary/