文章定位

本文讨论 4D 视觉表征的本体论问题:什么是 4D?为什么 4D 是 world model 的关键?spatial-temporal joint vs decoupled 在表征空间几何上意味着什么?这些问题既不能从单个 paper 推出,也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。

读者寻找的是工程实践视角下的 4D encoder 综述——Tri-plane、Flex、MEM、BEV、V-JEPA、DA3、VGGT 等具体方案的信息瓶颈对比与车端 token 预算——请参见 4D Vision Encoder for Autonomous Driving。本文与该综述形成对位:那篇答"怎么做",本文问"做的是什么"。


一、一个不诚实的命名:4D 到底是什么的 4D?

“4D 视觉"这个词在 2025-2026 年的文献里有两种用法,它们指的不是同一件事。

用法 A:4D = 3D 空间 + 时间。 这是当前自动驾驶与机器人社区的主流用法。InSpatio-World [1] 把"4D simulation"定义为"动态 3D 场景在时间轴上的演化”;Drive-JEPA、VLA-JEPA 类工作把"4D feature"理解为"对每个空间位置 × 每个时间步的 dense representation"。在这种用法下,4D 是 3D 加上一个新的标量维度(时间),数学上是 R3×R\mathbb{R}^3 \times \mathbb{R}

用法 B:4D = 多视角联合 + 几何一致性。 这是 3D 视觉重建社区(VGGT、DA3、4D Gaussian Splatting)的隐含用法。这里的"4D"指的是"在不同视角、不同时刻的观测必须互相一致"——它的核心要求是 3D 重建在时序上满足微分约束,而非简单给 3D 添加一个独立的时间标量维度。数学上这更接近一个流形:M4R3+1\mathcal{M}^4 \subset \mathbb{R}^{3+1},其上的度量结构由观测一致性决定,非 Cartesian product 形式。

两种用法被混用是因为它们在工程实现层面常常等价——给定 TT 时刻、NN 个相机视角,重建出"4D Gaussian field"也好、“4D dense feature"也好,得到的数据结构表面上都是 (t,x,y,z)feature(t, x, y, z) \mapsto \text{feature} 的映射。但它们对表征几何的内在要求是不同的

用法 A 的 4D 是一个 Cartesian product:时间维与空间维是正交的、可分解的。用法 B 的 4D 是一个 fiber bundle 或 Minkowski-style manifold:时间维通过物理因果性与空间维耦合,不可任意切片。这一区别决定了 representation learning 应该如何设计 inductive bias——是把时间作为一个独立的位置编码维度(RoPE 时间频率),还是把时间作为一个 group action(SE(3) 微分约束 + 时序连续性)。

当前所有工作都在用法 A 的意义上谈"4D”——包括把时间作为 RoPE 的第三/第四维、用 3D Conv 跨时间做卷积、用 dense feature 加 EMA target encoder 做 latent prediction。但 driving / robotics / embodied AI 真正需要的是用法 B 的意义——观测的时序一致性,而非"空间维 + 时间维"的简单堆叠。这是一个被命名问题所掩盖的概念缺口。


二、为什么 4D 是 world model 的关键

一个世界模型最低限度的功能是:给定历史观测,预测未来观测的分布。要做到这点,表征空间必须同时承载三种结构:

空间结构(spatial structure)。 哪里是物体、哪里是空隙、相对位置关系如何。这是 dense feature 解决的部分——每个空间位置编码独立语义,使得"在哪里"成为可问的问题。但仅有 dense feature 不够,因为它没有度量——dense feature 告诉你 patch ii 和 patch jj 语义不同,但不告诉你它们在物理世界里相距多远。

几何度量(geometric measurement)。 物理单位下的距离、深度、形状。这是 DA3 的 depth-ray、VGGT 的 3D Gaussian 解决的部分——把语义表征锚定到欧氏空间。

时序一致性(temporal coherence)。 同一物体在不同时刻的表征必须可识别地"连续"。仅有 spatial + geometric 还不够——一个 3D 重建可以是 TT 时刻的精确快照,但下一秒物体的位置由动力学决定,这一动力学必须被表征本身编码或显式建模。

**4D 的本体论意义在于:它是同时承载这三种结构的最小表征空间。**降到 3D(去掉时间)则无法做预测;降到 2D(去掉深度)则无法做物理交互;把时间当作独立的 batch 维度(每帧独立 3D 重建)则无法保证物体的跨帧同一性。

从"为了方便"才用 4D 这个角度看是错的——它是世界建模问题本身要求的最小结构。一个能识别"前车正在减速"的系统,需要的并非"t1t_1 时刻有一辆车" + “t2t_2 时刻有一辆车” 两个独立 3D 重建,它需要的是"同一辆车的状态在 4D 时空中的连续演化"。这种连续性必须在表征几何中被显式编码——否则模型会把 t1t_1t2t_2 的车视为两个无关物体,“减速"这个概念就根本无法被 representation 出来。


三、Spatial-Temporal Joint vs Decoupled:两种表征几何

承认"4D 是必要的"之后,下一个问题是:4D 表征应该是 spatial-temporal joint 的(时空联合编码),还是 decoupled 的(空间维与时间维分开编码再融合)?这是一个被工程文献严重忽视、但在表征几何上具有结构性差异的问题。

Joint 路线:3D RoPE / spatial-temporal attention

V-JEPA 2.1、4D Gaussian Splatting 走的是 joint 路线。具体说:

  • V-JEPA 用 3D RoPE(t,h,wt, h, w 三维位置编码)+ 跨时空的 multi-block masking + EMA target encoder。Token (t1,h5,w8)(t_1, h_5, w_8) 和 token (t2,h5,w8)(t_2, h_5, w_8) 在 attention 层里通过同一套位置编码与所有其它 token 交互。
  • 4D Gaussian Splatting 把每个 Gaussian 参数化为 (μt,σt,t)(\mu_t, \sigma_t, t),时间作为 Gaussian 的内在属性,渲染时整个 4D Gaussian field 同时优化。

Joint 路线的隐含假设是:时间维与空间维在表征上是同质的——它们都是"另一个用于索引的维度”。把时间当作 RoPE 的第三维与把它当作空间的第三维在数学结构上是对称的。

Decoupled 路线:空间 encoder + 时序 module

InSpatio-World、Wan2.2、大部分视频 diffusion 模型走的是 decoupled 路线:先用空间 encoder(2D ViT 或 3D ViT)处理单帧或短窗口,再用独立的 temporal module(causal attention、state-space model、time-conditioned diffusion)处理跨时序的演化。

Decoupled 路线的隐含假设是:时间维与空间维在表征上是异质的——空间编码"是什么、在哪里",时间编码"如何演化",两者用不同的数学结构表示更自然。

几何上的区别:流形结构 vs 直积结构

Joint 路线把 4D 表征空间视为 Rd\mathbb{R}^d 上的单一向量场——所有 token 用同一套 attention 与位置编码交互,时间与空间在 representation level 是平权的。这对应于把 4D 视为 Cartesian product R3×R\mathbb{R}^3 \times \mathbb{R}

Decoupled 路线把 4D 表征空间视为"空间表征上的时序动力系统"——空间 representation 是一个底空间,时序模块在其上引入一个 group action。这对应于把 4D 视为 fiber bundle:π:M4Mspatial3\pi: \mathcal{M}^4 \to \mathcal{M}^3_{\text{spatial}},其中 fiber 是时间方向。

这两种几何结构在做 inductive bias 时有本质区别。Joint 路线假设时空可交换(commutative)——先做空间 attention 再做时间 attention,与先做时间再做空间,结果相同(attention 的 permutation invariance 保证)。Decoupled 路线允许时空不可交换——时序模块(如 causal attention)可以施加非交换的算子结构。

Driving / robotics 的物理世界里,时空是不交换的——因果性约束使得"先发生 A 再发生 B"和"先发生 B 再发生 A"在物理上不同。这暗示 decoupled 路线在表征几何上更贴近物理结构。但 joint 路线在工程实现上更简单(attention 可以高度并行化),因此实际上占主流。这是表征几何与工程效率的张力,没有被任何 paper 系统讨论过。


四、批判:4D 这个命名本身是不是 conceptually 有问题?

经过 §一-三 的讨论,可以回到一个被刻意推迟的问题:“4D” 这个命名本身在 representation learning 语境下是否是 conceptually 干净的?

物理学里的 4D 有两个截然不同的含义。Newtonian 4D 时空R3×R\mathbb{R}^3 \times \mathbb{R}——三维空间和一维时间的 Cartesian product,时间是绝对的、与空间正交的。Minkowski 4D 时空(R4,ημν)(\mathbb{R}^4, \eta_{\mu\nu}),其中 η=diag(1,1,1,1)\eta = \text{diag}(-1, 1, 1, 1) 是 Minkowski 度量;时间与空间通过光锥结构耦合,可以做 Lorentz 变换混合时空坐标,“同时性"本身不是绝对概念。

当前 representation learning 里的"4D"几乎清一色对应 Newtonian 视角——把时间作为独立维度堆在 3D 空间之外。3D RoPE 的第四个频率维度、4D Gaussian 的 (μ,σ,t)(\mu, \sigma, t) 参数化、video transformer 的时序位置编码——这些都默认了"时间是一个可独立索引的标量”。

但驾驶场景的物理真实更接近 Minkowski 结构——以下两个具体例子说明:

例 1:因果性约束。 在车端推理时,自车的"未来"在物理上不可访问,但"过去"可以无限延伸。这是一个内在的光锥结构——representation 应该编码"哪些信息可以影响哪些信息"的偏序关系。Newtonian 视角下,时间维是对称的(过去与未来在数学上等价),但 Minkowski 视角下,时间维有严格方向性(光锥分前向/后向)。当前所有 V-JEPA 系列方案在 random mask 下训练时,实际上违反了这一物理结构——预训练时让 student encoder 自由地用 “未来 token” 预测 “过去 token”,这是 Newtonian 假设,与部署时的 Minkowski 因果完全不符。

例 2:观察者依赖性。 Minkowski 时空里没有"绝对帧"——每个观察者有自己的局部 frame。在驾驶场景里,自车与他车有各自的 ego frame,“同一时刻"在不同 frame 下对应不同的 4D 切片。当前 BEV 类表征强制以自车 frame 作为绝对帧,所有他车被表示为"相对自车的位置 + 时间”。这在工程上 work,但隐藏了一个 conceptual 问题:他车的视角下、它自己的 ego frame 里,世界的 4D 结构是另一套——表征应该是 frame-invariant 的(如 Galilean / Lorentz invariance)还是 frame-anchored 的?现有方案没有给出统一答案。

更深一层,把"3D + 1(时间)“叫做 4D 是一种伪结构——它暗示 4 个维度是同质的,可以用同样的数学工具处理。但 representation learning 真正需要的 4D 是一个有结构的流形:三个空间维度服从欧氏度量(局部),一个时间维度服从单向偏序与有限传播速度(causal cone)。把这两者堆在一起叫"4D”,等同于把 3 个苹果加 1 根香蕉叫"4 个水果"——计数上没错,但失去了类别信息。

一个真正诚实的命名可能是 (3+1)D 时空表征causal spatio-temporal representation,明确点出空间维与时间维的异质性。Minkowski 流形上的 representation learning(如何在 attention 里编码光锥约束、如何让 representation 自然支持 frame transformation)是几乎完全未被探索的方向——这是 4D world model 在表征理论上真正的下一步。


五、World Model 系列中的本文位置

本系列将世界表征划分为四个平行维度:V-JEPA 2.1 的语义预测、Wan2.2 的视频模拟、VGGT 的3D 重建、DA3 的几何测量。这四个维度都涉及 4D 视觉,但它们对"4D 是什么"给出了不同的隐含答案。

方向隐含的 4D 定义时空耦合方式物理结构契合度
V-JEPA 2.1(语义预测)3D RoPE + 时间维度Joint(time as 4th RoPE dim)Newtonian
Wan2.2(视频模拟)2D + temporal diffusionDecoupled(spatial + temporal)Newtonian
VGGT(3D 重建)多视角联合的静态 3D无时间维度(单时刻)N/A
DA3(几何测量)per-frame depth-ray无时间维度(单帧)N/A
Driving-JEPA(应用)causal future mask工程上 decoupled接近 Minkowski

观察到一个 pattern:真正向 Minkowski 结构靠近的方向不来自基础方法本身,而来自 driving 应用层。 Drive-JEPA 类方案通过 causal future mask 在 fine-tune 阶段引入了时间方向性——这是 application 层补回了基础方法层缺失的 inductive bias。这种补丁式做法是有效的(NAVSIM v1 上 PDMS 93.3),但它印证了上一节的论点:基础视觉表征在"4D"的概念设计上是不够的,需要从 representation learning 的根上重新思考。

VGGT 与 DA3 主动放弃了时间维度,把自己定位为"3D 静态结构"专家——这其实是一种诚实的选择,承认了"加上时间"是一个 non-trivial 的扩展,远超简单的维度堆叠。从 3D 到 4D 的跃迁并不只是数据维度从 N×3N \times 3 变成 N×4N \times 4——它引入了 causal structure 与 dynamics 这套全新数学结构。

相关概念

  • 工程实现视角下的 4D encoder 综述 — Tri-plane / Flex / MEM / BEV / V-JEPA / DA3 / VGGT 等具体方案的信息瓶颈对比与车端 token 预算分析,详见 4D Vision Encoder for Autonomous Driving
  • 方法本身的数学 — V-JEPA 2.1 的 dense predictive loss、3D RoPE 等设计的完整推导,详见 V-JEPA 2.1 paper 精读
  • 几何测量维度 — DA3 的 depth-ray 作为最小几何表征,详见 Depth Anything 3
  • 静态 3D 重建 — VGGT 作为逆向世界建模,详见 VGGT

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

[1] InSpatio-World Team. InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling. arXiv:2604.07209, 2026.

[2] Mur-Labadia, L., et al. V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482, 2026.

[3] Depth Anything Model Team. Depth Anything 3: Recovering the Visual Space from Any Views. arXiv:2511.10647, 2025.

[4] Wang, J., et al. VGGT: Visual Geometry Grounded Transformer. CVPR 2025 Best Paper. arXiv:2503.11651.

[5] Goodale, M.A. & Milner, A.D. Separate visual pathways for perception and action. Trends in Neurosciences, 15(1):20-25, 1992.

[6] LeCun, Y. A Path Towards Autonomous Machine Intelligence. OpenReview, 2022.

[7] Minkowski, H. Raum und Zeit. Physikalische Zeitschrift, 10, 1909.