Vision-Tower

引言：这篇为什么写写在前面：本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D：视觉表征的本体论问题》讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题；《4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视》用信息瓶颈五条件审计了九种 4D encoder 方案；《X-World：小鹏可控自车视角多相机世界模型》拆解了重型 latent video diffusion 的生成派世界模型路径；Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...