从 2D 到 4D：视觉表征的本体论问题

文章定位

本文讨论 4D 视觉表征的本体论问题：什么是 4D？为什么 4D 是 world model 的关键？spatial-temporal joint vs decoupled 在表征空间几何上意味着什么？这些问题既不能从单个 paper 推出，也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。

读者寻找的是工程实践视角下的 4D encoder 综述——Tri-plane、Flex、MEM、BEV、V-JEPA、DA3、VGGT 等具体方案的信息瓶颈对比与车端 token 预算——请参见 4D Vision Encoder for Autonomous Driving。本文与该综述形成对位：那篇答"怎么做"，本文问"做的是什么"。

一、一个不诚实的命名：4D 到底是什么的 4D？

“4D 视觉"这个词在 2025-2026 年的文献里有两种用法，它们指的不是同一件事。

用法 A：4D = 3D 空间 + 时间。 这是当前自动驾驶与机器人社区的主流用法。InSpatio-World [1] 把"4D simulation"定义为"动态 3D 场景在时间轴上的演化”；Drive-JEPA、VLA-JEPA 类工作把"4D feature"理解为"对每个空间位置 × 每个时间步的 dense representation"。在这种用法下，4D 是 3D 加上一个新的标量维度（时间），数学上是 $\mathbb{R}^3 \times \mathbb{R}$ 。

用法 B：4D = 多视角联合 + 几何一致性。 这是 3D 视觉重建社区（VGGT、DA3、4D Gaussian Splatting）的隐含用法。这里的"4D"指的是"在不同视角、不同时刻的观测必须互相一致"——它的核心要求是 3D 重建在时序上满足微分约束，而非简单给 3D 添加一个独立的时间标量维度。数学上这更接近一个流形： $\mathcal{M}^4 \subset \mathbb{R}^{3+1}$ ，其上的度量结构由观测一致性决定，非 Cartesian product 形式。

两种用法被混用是因为它们在工程实现层面常常等价——给定 $T$ 时刻、 $N$ 个相机视角，重建出"4D Gaussian field"也好、“4D dense feature"也好，得到的数据结构表面上都是 $(t, x, y, z) \mapsto \text{feature}$ 的映射。但它们对表征几何的内在要求是不同的。

用法 A 的 4D 是一个 Cartesian product：时间维与空间维是正交的、可分解的。用法 B 的 4D 是一个 fiber bundle 或 Minkowski-style manifold：时间维通过物理因果性与空间维耦合，不可任意切片。这一区别决定了 representation learning 应该如何设计 inductive bias——是把时间作为一个独立的位置编码维度（RoPE 时间频率），还是把时间作为一个 group action（SE(3) 微分约束 + 时序连续性）。

当前所有工作都在用法 A 的意义上谈"4D”——包括把时间作为 RoPE 的第三/第四维、用 3D Conv 跨时间做卷积、用 dense feature 加 EMA target encoder 做 latent prediction。但 driving / robotics / embodied AI 真正需要的是用法 B 的意义——观测的时序一致性，而非"空间维 + 时间维"的简单堆叠。这是一个被命名问题所掩盖的概念缺口。

二、为什么 4D 是 world model 的关键

一个世界模型最低限度的功能是：给定历史观测，预测未来观测的分布。要做到这点，表征空间必须同时承载三种结构：

空间结构（spatial structure）。 哪里是物体、哪里是空隙、相对位置关系如何。这是 dense feature 解决的部分——每个空间位置编码独立语义，使得"在哪里"成为可问的问题。但仅有 dense feature 不够，因为它没有度量——dense feature 告诉你 patch $i$ 和 patch $j$ 语义不同，但不告诉你它们在物理世界里相距多远。

几何度量（geometric measurement）。 物理单位下的距离、深度、形状。这是 DA3 的 depth-ray、VGGT 的 3D Gaussian 解决的部分——把语义表征锚定到欧氏空间。

时序一致性（temporal coherence）。 同一物体在不同时刻的表征必须可识别地"连续"。仅有 spatial + geometric 还不够——一个 3D 重建可以是 $T$ 时刻的精确快照，但下一秒物体的位置由动力学决定，这一动力学必须被表征本身编码或显式建模。

**4D 的本体论意义在于：它是同时承载这三种结构的最小表征空间。**降到 3D（去掉时间）则无法做预测；降到 2D（去掉深度）则无法做物理交互；把时间当作独立的 batch 维度（每帧独立 3D 重建）则无法保证物体的跨帧同一性。

从"为了方便"才用 4D 这个角度看是错的——它是世界建模问题本身要求的最小结构。一个能识别"前车正在减速"的系统，需要的并非" $t_1$ 时刻有一辆车" + “ $t_2$ 时刻有一辆车” 两个独立 3D 重建，它需要的是"同一辆车的状态在 4D 时空中的连续演化"。这种连续性必须在表征几何中被显式编码——否则模型会把 $t_1$ 和 $t_2$ 的车视为两个无关物体，“减速"这个概念就根本无法被 representation 出来。

三、Spatial-Temporal Joint vs Decoupled：两种表征几何

承认"4D 是必要的"之后，下一个问题是：4D 表征应该是 spatial-temporal joint 的（时空联合编码），还是 decoupled 的（空间维与时间维分开编码再融合）？这是一个被工程文献严重忽视、但在表征几何上具有结构性差异的问题。

Joint 路线：3D RoPE / spatial-temporal attention

V-JEPA 2.1、4D Gaussian Splatting 走的是 joint 路线。具体说：

V-JEPA 用 3D RoPE（ $t, h, w$ 三维位置编码）+ 跨时空的 multi-block masking + EMA target encoder。Token $(t_1, h_5, w_8)$ 和 token $(t_2, h_5, w_8)$ 在 attention 层里通过同一套位置编码与所有其它 token 交互。
4D Gaussian Splatting 把每个 Gaussian 参数化为 $(\mu_t, \sigma_t, t)$ ，时间作为 Gaussian 的内在属性，渲染时整个 4D Gaussian field 同时优化。

Joint 路线的隐含假设是：时间维与空间维在表征上是同质的——它们都是"另一个用于索引的维度”。把时间当作 RoPE 的第三维与把它当作空间的第三维在数学结构上是对称的。

Decoupled 路线：空间 encoder + 时序 module

InSpatio-World、Wan2.2、大部分视频 diffusion 模型走的是 decoupled 路线：先用空间 encoder（2D ViT 或 3D ViT）处理单帧或短窗口，再用独立的 temporal module（causal attention、state-space model、time-conditioned diffusion）处理跨时序的演化。

Decoupled 路线的隐含假设是：时间维与空间维在表征上是异质的——空间编码"是什么、在哪里"，时间编码"如何演化"，两者用不同的数学结构表示更自然。

几何上的区别：流形结构 vs 直积结构

Joint 路线把 4D 表征空间视为 $\mathbb{R}^d$ 上的单一向量场——所有 token 用同一套 attention 与位置编码交互，时间与空间在 representation level 是平权的。这对应于把 4D 视为 Cartesian product $\mathbb{R}^3 \times \mathbb{R}$ 。

Decoupled 路线把 4D 表征空间视为"空间表征上的时序动力系统"——空间 representation 是一个底空间，时序模块在其上引入一个 group action。这对应于把 4D 视为 fiber bundle： $\pi: \mathcal{M}^4 \to \mathcal{M}^3_{\text{spatial}}$ ，其中 fiber 是时间方向。

这两种几何结构在做 inductive bias 时有本质区别。Joint 路线假设时空可交换（commutative）——先做空间 attention 再做时间 attention，与先做时间再做空间，结果相同（attention 的 permutation invariance 保证）。Decoupled 路线允许时空不可交换——时序模块（如 causal attention）可以施加非交换的算子结构。

Driving / robotics 的物理世界里，时空是不交换的——因果性约束使得"先发生 A 再发生 B"和"先发生 B 再发生 A"在物理上不同。这暗示 decoupled 路线在表征几何上更贴近物理结构。但 joint 路线在工程实现上更简单（attention 可以高度并行化），因此实际上占主流。这是表征几何与工程效率的张力，没有被任何 paper 系统讨论过。

四、批判：4D 这个命名本身是不是 conceptually 有问题？

经过 §一-三的讨论，可以回到一个被刻意推迟的问题：“4D” 这个命名本身在 representation learning 语境下是否是 conceptually 干净的？

物理学里的 4D 有两个截然不同的含义。Newtonian 4D 时空是 $\mathbb{R}^3 \times \mathbb{R}$ ——三维空间和一维时间的 Cartesian product，时间是绝对的、与空间正交的。Minkowski 4D 时空是 $(\mathbb{R}^4, \eta_{\mu\nu})$ ，其中 $\eta = \text{diag}(-1, 1, 1, 1)$ 是 Minkowski 度量；时间与空间通过光锥结构耦合，可以做 Lorentz 变换混合时空坐标，“同时性"本身不是绝对概念。

当前 representation learning 里的"4D"几乎清一色对应 Newtonian 视角——把时间作为独立维度堆在 3D 空间之外。3D RoPE 的第四个频率维度、4D Gaussian 的 $(\mu, \sigma, t)$ 参数化、video transformer 的时序位置编码——这些都默认了"时间是一个可独立索引的标量”。

但驾驶场景的物理真实更接近 Minkowski 结构——以下两个具体例子说明：

例 1：因果性约束。 在车端推理时，自车的"未来"在物理上不可访问，但"过去"可以无限延伸。这是一个内在的光锥结构——representation 应该编码"哪些信息可以影响哪些信息"的偏序关系。Newtonian 视角下，时间维是对称的（过去与未来在数学上等价），但 Minkowski 视角下，时间维有严格方向性（光锥分前向/后向）。当前所有 V-JEPA 系列方案在 random mask 下训练时，实际上违反了这一物理结构——预训练时让 student encoder 自由地用 “未来 token” 预测 “过去 token”，这是 Newtonian 假设，与部署时的 Minkowski 因果完全不符。

例 2：观察者依赖性。 Minkowski 时空里没有"绝对帧"——每个观察者有自己的局部 frame。在驾驶场景里，自车与他车有各自的 ego frame，“同一时刻"在不同 frame 下对应不同的 4D 切片。当前 BEV 类表征强制以自车 frame 作为绝对帧，所有他车被表示为"相对自车的位置 + 时间”。这在工程上 work，但隐藏了一个 conceptual 问题：他车的视角下、它自己的 ego frame 里，世界的 4D 结构是另一套——表征应该是 frame-invariant 的（如 Galilean / Lorentz invariance）还是 frame-anchored 的？现有方案没有给出统一答案。

更深一层，把"3D + 1（时间）“叫做 4D 是一种伪结构——它暗示 4 个维度是同质的，可以用同样的数学工具处理。但 representation learning 真正需要的 4D 是一个有结构的流形：三个空间维度服从欧氏度量（局部），一个时间维度服从单向偏序与有限传播速度（causal cone）。把这两者堆在一起叫"4D”，等同于把 3 个苹果加 1 根香蕉叫"4 个水果"——计数上没错，但失去了类别信息。

一个真正诚实的命名可能是 (3+1)D 时空表征 或 causal spatio-temporal representation，明确点出空间维与时间维的异质性。Minkowski 流形上的 representation learning（如何在 attention 里编码光锥约束、如何让 representation 自然支持 frame transformation）是几乎完全未被探索的方向——这是 4D world model 在表征理论上真正的下一步。

五、World Model 系列中的本文位置

本系列将世界表征划分为四个平行维度：V-JEPA 2.1 的语义预测、Wan2.2 的视频模拟、VGGT 的3D 重建、DA3 的几何测量。这四个维度都涉及 4D 视觉，但它们对"4D 是什么"给出了不同的隐含答案。

方向	隐含的 4D 定义	时空耦合方式	物理结构契合度
V-JEPA 2.1（语义预测）	3D RoPE + 时间维度	Joint（time as 4th RoPE dim）	Newtonian
Wan2.2（视频模拟）	2D + temporal diffusion	Decoupled（spatial + temporal）	Newtonian
VGGT（3D 重建）	多视角联合的静态 3D	无时间维度（单时刻）	N/A
DA3（几何测量）	per-frame depth-ray	无时间维度（单帧）	N/A
Driving-JEPA（应用）	causal future mask	工程上 decoupled	接近 Minkowski

观察到一个 pattern：真正向 Minkowski 结构靠近的方向不来自基础方法本身，而来自 driving 应用层。 Drive-JEPA 类方案通过 causal future mask 在 fine-tune 阶段引入了时间方向性——这是 application 层补回了基础方法层缺失的 inductive bias。这种补丁式做法是有效的（NAVSIM v1 上 PDMS 93.3），但它印证了上一节的论点：基础视觉表征在"4D"的概念设计上是不够的，需要从 representation learning 的根上重新思考。

VGGT 与 DA3 主动放弃了时间维度，把自己定位为"3D 静态结构"专家——这其实是一种诚实的选择，承认了"加上时间"是一个 non-trivial 的扩展，远超简单的维度堆叠。从 3D 到 4D 的跃迁并不只是数据维度从 $N \times 3$ 变成 $N \times 4$ ——它引入了 causal structure 与 dynamics 这套全新数学结构。

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

[1] InSpatio-World Team. InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling. arXiv:2604.07209, 2026.

[2] Mur-Labadia, L., et al. V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482, 2026.

[3] Depth Anything Model Team. Depth Anything 3: Recovering the Visual Space from Any Views. arXiv:2511.10647, 2025.

[4] Wang, J., et al. VGGT: Visual Geometry Grounded Transformer. CVPR 2025 Best Paper. arXiv:2503.11651.

[5] Goodale, M.A. & Milner, A.D. Separate visual pathways for perception and action. Trends in Neurosciences, 15(1):20-25, 1992.

[6] LeCun, Y. A Path Towards Autonomous Machine Intelligence. OpenReview, 2022.

[7] Minkowski, H. Raum und Zeit. Physikalische Zeitschrift, 10, 1909.

文章定位#

一、一个不诚实的命名：4D 到底是什么的 4D？#

二、为什么 4D 是 world model 的关键#

三、Spatial-Temporal Joint vs Decoupled：两种表征几何#

Joint 路线：3D RoPE / spatial-temporal attention#

Decoupled 路线：空间 encoder + 时序 module#

几何上的区别：流形结构 vs 直积结构#

四、批判：4D 这个命名本身是不是 conceptually 有问题？#

五、World Model 系列中的本文位置#

相关概念#

参考文献#

相关文章