InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

InSpatio-World Architecture Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

模拟一个随时间演化且可从任意视角观察的 4D 世界，是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列，但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度，却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归（STAR）架构弥合了这一鸿沟，融合了两种范式的优势。

本文基于论文（arXiv:2604.07209）和开源实现进行详细的技术分析。

Interactive Demo

以下查看器展示了圆轨道轨迹的完整管线输出。三个视频同步播放：原始输入、几何渲染条件和预测的新视角。

Controls: Play/pause all videos simultaneously. Drag the timeline to seek. Speed control: 0.5x–2.0x. Keyboard: Space = play/pause, Arrow keys = frame step.

1. 核心问题：为什么不直接生成视频？

视频生成模型（Sora、Wan、CogVideo）能产生时间连贯的帧，但缺乏 3D 几何概念。当你要求它们"将相机向左移动"时，它们会产生看似合理的幻觉运动，却与底层场景在几何上不一致。

InSpatio-World 指出了现有自回归世界模拟器的三种特定失效模式：

空间持久性退化（Spatial Persistence Degradation）：随着自回归推演的延伸，模型会"遗忘"原始场景几何。物体漂移、纹理模糊、结构连贯性衰退。
合成到真实差距（Synthetic-to-Real Gap）：在渲染（合成）数据上训练提供了精确的相机控制但产生伪影；在真实视频上训练产生逼真的帧但缺乏控制信号。两者单独都不够。
控制精度不足（Insufficient Control Precision）：现有的轨迹条件模型无法准确跟随用户指定的相机路径，尤其在大角度旋转时。

2. 架构：STAR（时空自回归）

STAR 架构以 $N_f$ 帧为单位（默认 3）逐块生成视频，每个块依赖三类信息作为条件：

块 $i$ 的去噪过程为：

\hat{z}_i = \text{Denoise}_\theta(z_i, \sigma \mid z_{<i}, z_{\text{ref}_i}, [z_{\text{warp}_i}, m_i])

2.1 隐式 ST-Cache：全局空间锚点

参考潜变量（reference latent） $z_{\text{ref}}$ 从源视频提取并注入每个块中，作为持久的空间锚点。这解决了空间持久性退化问题，确保模型始终能访问原始场景外观。

实现层面，这通过 KV 缓存机制完成：

1
2
3
4
5
6
7
# Concatenate reference + history as context frames
context_frames = torch.cat([ref_block, last_pred_padded], dim=1)
# Reference block is prepended to every denoising step
denoised_pred, _ = denoise_block(
    noisy_current, context=context_frames,
    render_block=render_condition, ...
)

一个关键实现细节：位置编码锚定（position encoding anchoring）。参考块、历史块和当前块的 RoPE 位置索引分别锚定到固定的绝对位置，防止位置编码在自回归推演过程中因序列增长而漂移。

2.2 显式空间约束：深度 → 点云 → 渲染

显式几何管线分三阶段运行：

深度估计（Depth estimation）：Depth-Anything-3（DA3）从源视频估计每帧深度图和相机位姿。
点云重建（Point cloud reconstruction）：每帧深度图反投影为 3D 点云（每帧一个 PLY 文件）。
轨迹条件渲染（Trajectory-conditioned rendering）：给定用户指定的相机轨迹，点云重新投影到新视角，生成 render_offline.mp4 和 mask_offline.mp4。

flowchart LR
    A["Source
Video + Trajectory"] --> B["DA3
Depth + Pose
estimation"]
    B --> C["Point Cloud
3D unproject
+ Reproject"]
    C --> D["Geometry Cond.
render_video
+ mask_video"]
    style A fill:#2a2a3a,stroke:#3498db,color:#fff
    style B fill:#2a2a3a,stroke:#9b59b6,color:#fff
    style C fill:#2a2a3a,stroke:#e67e22,color:#fff
    style D fill:#2a2a3a,stroke:#2ecc71,color:#fff

渲染视频提供了粗略的几何引导——指示物体在新视角下应该出现的位置，而掩码标记哪些像素具有有效几何信息。DiT 学习将这个粗糙渲染精修为照片级逼真帧。

2.3 轨迹定义

轨迹定义为简单的文本文件，包含三行：俯仰角（度）、偏航角（度）和位移缩放因子。sphere2pose 函数将球坐标转换为 4×4 相机到世界矩阵：

1
2
3
4
# x_y_circle_cycle.txt
0 0 ... 30 30 ... 0 0 ... -30 -30 ... 0 0
0 0 ... 45 45 ... 90 90 ... 45 45 ... 0 0
1.0 1.0 ... 1.0

关键帧使用 scipy.interpolate.UnivariateSpline 插值以获得平滑轨迹。系统根据总角度变化自适应调整帧数（每帧 0.3–0.8 度）。

3. JDMD：解决合成-真实差距

在合成数据（渲染的点云）上训练提供精确的相机控制但产生视觉伪影；在真实视频上训练产出精美帧但缺乏控制信号。InSpatio-World 的方案：同时在两者上训练。

JDMD（Joint Distribution Matching Distillation）损失函数：

\mathcal{L}_{\text{JDMD}} = \mathcal{L}_{\text{vis}} + \lambda_{\text{ctrl}} \cdot \mathcal{L}_{\text{ctrl}}

$\mathcal{L}_{\text{vis}}$ ：潜空间上的标准 flow-matching 损失，应用于两个分支。
$\mathcal{L}_{\text{ctrl}}$ ：控制精度损失，仅在 V2V 分支计算，衡量生成的视频对指定相机轨迹的跟随程度。

这种双分支训练确保模型同时继承了几何准确性（来自合成数据）和视觉真实感（来自真实数据）。

4. 推理管线

完整的推理管线包含三个步骤：

Step 1: 标题生成

Florence-2 从源视频生成文本描述。该标题为模型的 T2V 组件提供语义上下文。

Step 2: 深度估计 + 几何渲染

DA3 估计深度图和相机位姿。深度图反投影为点云后，再从目标轨迹视角重渲染，生成几何条件视频。

Step 3: 自回归推理

Causal DiT 逐块生成新视角视频，每个块以参考潜变量、历史缓存和几何渲染结果为条件。

1
2
3
4
# Run the complete pipeline
bash run_test_pipeline.sh \
  --input_dir ./test/example \
  --traj_txt_path ./traj/x_y_circle_cycle.txt

主要推理选项：

Flag	Purpose
`--relative_to_source`	Combine trajectory relative to initial view (for driving)
`--rotation_only`	Pan/tilt only, ignore translation
`--freeze_repeat N`	Freeze time, repeat frame N times
`--use_tae`	Tiny AutoEncoder for faster inference
`--compile_dit`	torch.compile acceleration

5. 性能

Metric	Value
Model size	1.3B parameters
FPS (H-series GPU)	24
FPS (RTX 4090)	10
WorldScore-Dynamic	68.72 (SOTA among real-time methods)
Camera control precision	81.51
RE10K-Long FID	42.68
RE10K-Long FVD	100.55

模型在保持与离线方法相当质量的同时实现了实时性能。分块因果架构支持流式输出——整个序列生成完毕之前，前几帧就已经可用。

6. 与自动驾驶的联系

InSpatio-World 与自动驾驶规划有天然联系。项目包含了 DrivoR 的集成文档——DrivoR 是一个基于 Transformer 的端到端规划器，在 NAVSIM-v1 上达到 PDMS 93.7。

核心思路：将 InSpatio-World 不用作规划器，而是用作未来观测生成器。给定来自 DrivoR 的候选轨迹，InSpatio-World 可以渲染自车如果跟随该轨迹将会看到什么画面，从而实现：

未来一致性评分（Future-consistency scoring）：在 DrivoR scorer 中增加一项特征，评估预测的未来观测是否与规划的轨迹一致。
反事实数据增强（Counterfactual data augmentation）：沿与真值不同的假设轨迹渲染新视角，为罕见场景生成训练数据。
轨迹条件世界模拟（Trajectory-conditioned world simulation）：结合 DrivoR 的轨迹输出与 InSpatio-World 的渲染能力，构建闭环仿真环境。

这指向了一个更广泛的趋势：自动驾驶领域世界模型与规划模型的融合——世界模型回答"会发生什么"，规划模型回答"我该做什么"。

7. 局限性与开放问题

长程一致性：虽然 ST-Cache 缓解了退化，但极长序列推演（数百帧）仍会出现渐进漂移。
360° 漫游：当前架构处理适度的视角变化效果良好，但在全景探索方面仍有困难。
动态物体：显式几何管线（点云重投影）将物体视为静态处理；场景中的移动物体仍是开放挑战。
驾驶场景的仿真-真实差距：尽管 JDMD 有所帮助，但由于复杂反射、透明表面和精细纹理的存在，驾驶场景的渲染与真实之间的差距比一般视频更大。

References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

Interactive Demo#

1. 核心问题：为什么不直接生成视频？#

2. 架构：STAR（时空自回归）#

2.1 隐式 ST-Cache：全局空间锚点#

2.2 显式空间约束：深度 → 点云 → 渲染#

2.3 轨迹定义#

3. JDMD：解决合成-真实差距#

4. 推理管线#

Step 1: 标题生成#

Step 2: 深度估计 + 几何渲染#

Step 3: 自回归推理#

5. 性能#

6. 与自动驾驶的联系#

7. 局限性与开放问题#

References#

相关概念#

相关文章