Depth Anything 3 Architecture Figure from Depth Anything 3: Recovering the Visual Space from Any Views

几何地基:深度为何是世界模型的基石

一个无法度量距离的世界模型,也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时,决策的核心依赖于一个几何量:与前方障碍物的距离。当机械臂伸手去拿咖啡杯时,运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时,大脑持续估计球的距离和速度以计算拦截点。在每一个例子中,支配行动的物理推理都锚定在几何之上,而几何始于深度。

神经科学在数十年前就已知晓这一点。灵长类视觉系统通过两条功能上独立的通路处理信息 [1]。腹侧通路(ventral stream)从初级视觉皮层(V1)经 V2、V4 投射至下颞叶皮层(IT),专精于物体识别、颜色处理和语义分类——视觉的"是什么"。背侧通路(dorsal stream)从 V1 经 V2、MT 投射至后顶叶皮层(PPC),专精于空间定位、运动处理和深度感知——视觉的"在哪里"和"怎么做"。这两条通路是互补的,而非冗余。腹侧通路受损导致视觉失认症(无法识别物体),但伸手抓取的能力得以保留;背侧通路受损导致光学共济失调(无法准确伸手触及视觉目标),尽管物体识别能力完好。

当前的视觉模型,实质上已经构建了一条精巧的腹侧通路。DINOv2 [2]、CLIP [3]、SigLIP [4] 等模型能够以超越人类的精度识别物体、描述场景、检索图像。V-JEPA 2.1 的 dense features [5] 提供了空间锚定的语义表征,保留了局部结构——但它们止步于产出度量几何。V-JEPA 2.1 在位置 (x,y)(x, y) 处的特征告诉你这个像素与邻域不同、属于某个语义类别;它不会告诉你到表面的距离。Dense features 是使几何推理成为可能的 pre-depth 表征;depth-ray 则是使几何推理变得可行的 post-depth 表征。背侧通路的等价物——一个能从视觉输入中提取精确几何结构的通用系统——至今仍相对薄弱。深度估计模型当然存在,但它们一直是狭窄的工具:这里做 monocular depth estimation,那里做 multi-view stereo,还有地方做 structure from motion。每个任务都需要自己的架构、自己的训练管线、自己对输入的一套假设。

这种碎片化不仅不便,更在哲学上是错误的。世界的几何是统一的。3D 空间中的一个点,无论你从一台相机还是十台相机观察它,无论你要的是它的深度还是它的 pose,无论你在重建场景还是合成新视角,它都只有一组坐标。这些任务被独立处理,反映的是专业研究社区的历史偶然,而非底层计算的根本独立性。

一个自然的问题是:world model 是否是"根本性地视觉的"——物理智能是否锚定于视觉预测而非语言推理。如果 world model 在根本上是视觉的,那么它在逻辑上也必然是几何的。视觉不仅分类世界;它度量世界。而最基本的度量就是深度。

来自字节跳动 Seed 团队的 Depth Anything 3 (DA3) [6] 是第一个在表征层面认真对待这种统一性的模型。它并非仅仅将现有深度估计范式组合进一个多任务框架。它识别出一种单一表征——depth-ray——从中可以导出所有几何任务,并构建了一种单一架构,无需结构修改即可处理任意数量的输入视角。结果是一个在 monocular depth estimation、multi-view reconstruction、camera pose estimation 和 novel view synthesis 上均达到 state-of-the-art 的模型,且全部来自一次前向传播。

本文将 DA3 既作为一项技术贡献、也作为一个关于深度估计对 world model 意味着什么的概念论证来分析。DA3 是本系列从四个维度探讨世界表征之一:V-JEPA 2.1 在 latent space 中预测世界的语义结构,Wan2.2 在像素空间中模拟合理的未来,VGGT [7] 从多视角重建 3D 世界,DA3 从任意输入——甚至单张图像——度量几何世界。它们并非分层组织或管线阶段;它们是对同一根本问题——如何表征物理现实——的正交视角。


Depth-Ray:一种最小充分表征

DA3 的核心创新是 depth-ray 表征。给定图像中的一个像素,对应的 3D 点 PP 在世界坐标系中被参数化为:

P=o+dr^ P = o + d \cdot \hat{r}

其中 oo 是射线原点(相机中心),r^\hat{r} 是射线方向(由像素坐标和相机内参确定),dd 是模型预测的标量深度值。这作为几何事实并不新鲜——它就是针孔相机模型。真正的新意在于将此参数化作为通用深度模型的唯一预测目标。

P=o+dr^P = o + d\cdot \hat{r} 这条公式画进 3D 场景:原点处一台相机,图像平面上每个像素格子发出一条射线,击中场景里散落的几何体(球、立方体、torus、地面)。每条射线按击中距离上色(近红、远蓝),命中点用同色小球标出。拖拽视角看一圈,DA3 要学的「逐像素深度」其实就是这一整张「射线 → 命中点」的几何映射——一个标量深度值只是这条映射在像素上的标量投影。

Depth = Ray + Hit:把逐像素深度展开成 100 条 3D 射线
Loading 3D scene...
每个像素对应一条 3D 射线加一个命中点,DA3 学到的就是这套「射线 → 命中」的几何映射。射线颜色由击中距离决定(红=近,蓝=远);未命中的射线延伸到远裁剪面。可调 grid 密度,开关 frustum / image plane,复位视角。

要理解为何这一选择重要,考虑替代方案。3D 点云将每个点表示为世界坐标中的 (x,y,z)(x, y, z),几何上完备但表征上冗余:三个坐标相互纠缠,相机 pose 的变化同时影响所有三个。深度图将每个像素表示为距相机平面的标量距离,对单视角高效但无法跨视角直接组合,也无法不经额外计算用于 pose estimation。

Depth-ray 表征处于这两个极端之间的甜蜜点。它将 3D 位置分解为两个因子:方向 r^\hat{r},完全由相机几何确定因而是先验已知的;标量深度 dd,是模型唯一需要预测的量。这一分解有几个重要推论。

首先,几何与视角自然解耦。预测的深度 dd 编码场景的几何结构;射线方向 r^\hat{r} 编码观察它的视角。这种分离意味着同一深度预测可以通过施加适当的相机变换,直接重投影到任何坐标帧,而无需重新运行模型。

其次,该表征在理论上足以恢复所有感兴趣的几何量。给定两个或更多视角的 depth-ray,相机外参——旋转 RR 和平移 tt——可以通过标准几何求解器恢复。具体而言,来自两个视角的对应 depth-ray 定义了一组方程:

o1+d1r^1=R(o2+d2r^2)+t o_1 + d_1 \hat{r}_1 = R(o_2 + d_2 \hat{r}_2) + t

其中 (o1,r^1,d1)(o_1, \hat{r}_1, d_1)(o2,r^2,d2)(o_2, \hat{r}_2, d_2) 在两个相机帧中参数化同一个 3D 点,RR 是两个相机帧之间的相对旋转矩阵,tt 是它们之间的平移。给定足够的对应关系,这个方程组可以同时求解 RRtt 和相机内参 KK。Depth-ray 不仅仅是一种方便的输出格式;它是相机-场景系统完整几何状态的最小充分统计量。

第三,也是最微妙的,depth-ray 表征对预测问题的结构施加了一种自然先验。因为 dd 是每条射线的一个标量,模型的输出空间在每个像素上是一维的——3D 结构最简单的参数化。这种最小性不仅优雅,更具功能性。一个拥有更多自由度的表征——比如每个像素一个完整 3D 坐标——将允许模型在本应独立的坐标之间编码虚假的相关性。Depth-ray 将输出约束为恰好是那些无法从相机几何单独推导的信息。

这个想法——正确的表征是能捕获所有非输入已有信息的最小表征——对 world model 有深远含义。下一个世界状态应该以对任务最自然的模态来预测,而非继承自语言模型的通用表征。Depth-ray 正是这种用于几何预测的自然表征:它只预测未知的(深度),给定已知的(相机几何),从这个最小预测出发,整个几何大厦可以被重建。

可能有人会反驳 depth-ray 过于最小——无法表征不确定性,或丢失了可能深度分布的信息。这没错,但方向偏了。Depth-ray 不是信念表征;它是预测目标。不确定性可以单独表征,正如 DA3 通过其 confidence head 所做的,无需使核心表征复杂化。要点在于预测的几何内容——流入下游几何推理的部分——完全由 depth-ray 捕获,无需更多。


架构:一个 Transformer,任意视角

如果 depth-ray 是正确的输出表征,下一个问题是:什么架构能从任意数量的输入视角产出它?DA3 的回答简洁得引人注目:一个带有输入自适应跨视角注意力的单一 Vision Transformer。

骨干网络是 DINOv2 的 ViT [2],不做任何结构修改。这一选择是刻意的。DINOv2 通过自监督目标在大规模多样化图像语料上预训练,其特征已被证明编码了强几何和语义信息。原样使用 DINOv2,DA3 继承了这些表征而无需从头重训骨干,并能利用关于 DINOv2 特征性质的大量已有工作。

无论输入视角数量多少,输入处理遵循一致的模式。每张输入图像被分割为 patch 并线性投影为 token embedding,遵循标准 ViT 管线。位置编码被加入以保留空间信息。关键的架构创新在于多视角 token 如何在 transformer 内交互。

对于单一输入视角,模型作为标准 ViT 运行:token 通过全自注意力相互关注,输出 token 由 DPT (Dense Prediction Transformer) [9] head 处理以生成逐像素深度预测。架构中没有任何东西阻止这种单视角模式;它只是跨视角注意力退化为单视角内自注意力的退化情形。

对于多个输入视角,DA3 引入了一种分离注意力方案。Transformer 层被分为两组。前 LsL_s 层通过标准自注意力独立处理每个视角——来自不同视角的 token 互不交互。剩余的 LgL_g 层执行跨所有视角的联合注意力——每个视角的 token 关注来自其他所有视角的 token。自注意力层提取视角特定特征;联合注意力层跨视角融合信息。

这种分离并非任意。它实现了一个在神经科学和机器学习中都有深厚根基的计算原理。在灵长类视觉系统中,早期视觉区域(V1、V2)分别处理每只眼的输入,然后 V3 和 MT 中的双眼神经元合并来自双眼的信号。早期单眼处理提取视角依赖的特征——边缘、纹理、局部几何——而后期双眼处理推导视角不变的表征——深度、表面朝向、3D 形状。DA3 的分离注意力镜像了这一组织:前 LsL_s 层学习提取强逐视角特征,最后 LgL_g 层学习将它们融合为连贯的多视角表征。

考虑替代方案时,这一设计的优雅之处变得显而易见。大多数多视角架构对每个视角使用独立的编码器,加上一个独立的融合模块——无论是 cross-attention 层、代价体积还是对应网络——来桥接编码后的特征。这种方法有两个问题。第一,独立编码器使参数量翻倍或三倍。第二,融合模块必须单独设计和训练,创造了一个包含众多活动部件的复杂工程管线。

DA3 避免了这两个问题。单一 transformer 同时充当逐视角编码器和多视角融合模块,两者之间的转换完全由注意力掩码中哪些 token 可见来控制。无额外参数,无单独训练,无工程复杂性。当仅提供一个视角时,模型自然退化为单视角模型;当提供多视角时,模型自然扩展为多视角输入。

解码 head 遵循 DPT 架构 [9],采用双分支设计。一个分支独立处理每个视角的 token 以生成逐视角深度图;另一个分支处理联合 token 表征以生成多视角一致的预测。双分支设计确保模型即使在不需要多视角一致性时也能产出高质量的逐视角深度,同时仍能在可用时利用跨视角信息。

DA3 论文中的消融实验量化了这一统一架构的优势。与使用独立逐视角编码器加融合模块的堆叠架构相比,统一 transformer 在多视角深度基准上实现了约 20% 的更高精度,同时使用更少的总参数量。改进归因于两个因素:共享骨干使从一个视角学到的特征有益于其他视角的处理(一种隐式数据增强形式),联合注意力使一个视角深度预测的梯度信号直接影响另一个视角的特征提取(一种隐式多视角监督形式)。


训练:合成教师与 RANSAC 对齐

训练通用深度模型面临的数据挑战与训练专用模型在性质上不同。Monocular depth estimation 需要带密集深度真值的大规模数据集,室内场景(NYUv2、KITTI)有但室外和无约束环境稀缺。Multi-view reconstruction 需要带精确相机 pose 的已标定多视角数据集,更是稀少。Pose estimation 需要真值相机参数已知的数据集,合成数据容易但真实图像困难。

DA3 通过四阶段训练策略解决这一问题,逐步将模型从合成数据提升到真实数据,同时保持几何一致性。

第一阶段在 Hypersim 数据集 [10] 的合成数据上训练一个指数深度教师模型,该数据集为渲染的室内场景提供完美深度真值。教师是在 depth-ray 目标上全监督训练的更大模型。其角色是为后续阶段的真实图像提供高质量伪标签,而非充当最终产品。

第二阶段将教师模型应用于真实图像,使用 RANSAC [11] 将教师的 metric-depth 预测与 monocular 模型通常产生的尺度模糊深度对齐。这一对齐至关重要:合成数据提供 metric depth(以米为单位的度量),但真实世界的 monocular depth estimation 在全局尺度因子下实际上是模糊的。RANSAC 鲁棒地估计最佳对齐教师预测与真实场景结构的尺度因子,过滤掉会破坏对齐的离群预测。

第三阶段使用 RANSAC 对齐后的伪标签作为监督,训练学生模型——最终的 DA3 模型。学生在合成数据(带真值)和真实数据(带伪标签)的混合上训练,同时学习前者的几何精度和后者的视觉多样性。

第四阶段在带已验证相机 pose 的高质量多视角数据集上微调学生模型,使用多视角一致性损失惩罚跨视角不一致的预测。正是这一阶段使得 pose estimation 和 novel view synthesis 成为可能:模型不仅学会预测深度,还学会预测在跨多视角投影时几何一致的深度。

这种教师-学生范式值得与 V-JEPA 2.1 的训练方法 [5] 比较。两者都使用 EMA 教师为学生提供目标:V-JEPA 2.1 的教师为学生 dense prediction loss 提供目标。两种方法都使用教师来提供直接获取过于昂贵或不可能的监督。但有一个关键区别。V-JEPA 2.1 的教师和学生在同一模态中运作——两者都预测 latent 表征——教师的标签按原样使用。DA3 的教师在不同数据制度中运作(合成 vs. 真实),对齐步骤(RANSAC)之所以需要,正是因为教师的预测不能直接迁移到学生的数据分布。这提醒我们教师-学生范式是一个通用框架,而非特定算法:教师如何训练、其预测如何对齐、学生如何正则化——所有这些细节取决于正在桥接的具体领域差距。

RANSAC 对齐步骤特别值得关注,因为它编码了一个重要的归纳偏置:即使仅由合成数据训练的模型预测,场景的深度结构在全局尺度上也近似正确。这一归纳偏置成立是因为深度主要由场景几何决定——表面、物体和遮挡边界的排列——这些在合成和真实环境之间是共享的。尺度因子捕获合成训练域和真实测试域之间在相机参数、场景尺度和度量单位上的差异。通过 RANSAC 显式建模这个尺度因子,DA3 将预测的几何内容(跨域迁移的部分)与 metric scale(不迁移的部分)分离开来。


深度估计作为世界模型的缺失拼图

本系列从四个正交维度审视了 world model。V-JEPA 2.1 通过 latent space 中的自监督预测学习理解视觉世界的语义结构。Wan2.2 [12] 通过像素级视频生成模拟视觉世界,揭示了纯视觉预测的力量和局限。VGGT [7] 从多张图像重建 3D 几何世界,证明了逆向渲染可以恢复完整几何结构。DA3 从任意数量的视角度量几何世界,提供将物理推理锚定于几何事实的深度场。

这些方法各自解决 world model 必须做什么的不同方面。但它们不是独立的;它们是互补的。当考虑每种方法缺少什么以及其它方法如何填补空白时,这种互补性最为清晰。

视频世界模型中的几何缺口

Wan2.2 和类似的视频生成模型产生视觉上令人信服的输出,往往还遵循物理定律——一种有时被称为"physics slop"的现象。球沿抛物线弧弹跳,水以合理的流线倾倒,镜像中反射图像出现在近似正确的角度。但"近似正确"不是"几何一致"。视频生成模型没有机制来强制执行表面深度在连续帧间必须一致的约束,或物体 3D 位置必须随时间平滑演化的约束。当模型犯几何错误——一个表面在帧间深度偏移,一个物体似乎在不靠近或远离的情况下改变大小——没有损失信号来纠正它,因为训练目标是像素级重建,而非几何一致性。

DA3 的 depth-ray 恰好提供了这种约束。给定一个视频帧,DA3 可以预测一个结构上几何一致的逐像素深度场——每个像素的深度是一个标量,可以投影到 3D 空间并对照相邻帧的深度预测进行验证。一个以 DA3 深度预测为条件或正则化的视频生成模型,将被约束产出不仅视觉合理而且几何有效的输出。

这不是假设性的集成。Depth-ray 表征被设计为可组合的:一帧的深度场可以投影到 3D,由预测的相机运动变换,再重投影到下一帧的坐标系。得到的深度预测作为下一帧生成的几何先验,确保生成的视频保持 3D 一致性。这种几何条件化已在 depth-conditioned 视频生成模型中探索,但 DA3 的通用深度预测——从任意数量的视角,无需推理时要求多视角输入——使得即使在单视角生成设置中也能应用几何条件化。

VGGT 与 DA3:重建 vs. 度量

VGGT 使用逆向渲染方法从已知图像重建 3D 几何。给定一个场景的多张带已知或估计相机 pose 的图像,VGGT 通过基于 transformer 的重建管线恢复完整 3D 结构。这种方法的优势在于其完备性:它恢复密集 3D 几何而不仅是深度,能处理复杂遮挡和多视角立体效应。

但 VGGT 需要多张输入图像才能运作。它是重建工具,不是度量工具。面对单张图像时,VGGT 没有足够信息来无歧义地恢复 3D 几何——从单一视角看深度是欠约束的。

DA3 填补了这一空白。在单视角和多视角数据上训练的 DA3 能以惊人的精度从单张图像预测深度,利用从多视角训练中学到的几何先验。在单视角设置中,DA3 不是从证据重建几何;它是从学到的关于 3D 世界的统计规律性推断几何。这是一种几何常识——模型学到了水平表面倾向于是地面,垂直表面倾向于是墙壁,图像底部的物体倾向于比顶部的更近。

因此,VGGT 和 DA3 之间的关系在精确意义上是互补的。当多视角可用且几何精度至关重要时 VGGT 出色;当视角有限且需要几何先验时 DA3 出色。在结合两种能力的世界模型中,VGGT 在数据支持时提供高保真重建,DA3 在不支持时提供深度先验。

更推测性地,DA3 的 depth-ray 可以作为 VGGT 风格模型在 latent space 中预测几何演化的监督信号。VGGT-World——VGGT 向世界建模的扩展——预测 3D 几何如何随时间演化。Depth-ray 作为几何状态的最小充分表征,为此预测提供了自然的损失函数:模型可以被训练来预测未来帧的 depth-ray 场,而非匹配 latent 表征,确保其几何预测锚定于可度量量。

灵长类论证与纯视觉几何

一个引人深思的论证是灵长类类比。猿猴没有语言。它们无法通过文本标注、动作描述或任何语言形式的任务规约来训练。然而猿猴展现出复杂的物理智能:它们在复杂 3D 环境中导航,准确判断距离,规划多步行动,通过观察学习使用工具。如果猿猴无需语言就能达到这种水平的物理智能,那么语言并非物理智能的必要条件。对 AI 的含义是:无语言的视觉学习应至少足以建立物理智能的几何基础。

DA3 为这一论证提供了实证支持。该模型完全在视觉输入——图像和深度图——上训练,没有任何语言监督。没有标注,没有场景描述,没有语义标签。唯一的监督信号是几何的:从相机到场景中每个点的距离。然而从这种纯视觉、纯几何的训练信号出发,模型学会了以足够精度预测深度,支撑 pose estimation、multi-view reconstruction 和 novel view synthesis——所有这些都需要复杂的几何理解。

这并非说语言与物理智能无关。语言提供了纯视觉学习无法轻易复制的组合推理、抽象规划和知识迁移机制。但灵长类论证表明语言不是物理智能的地基;它是在预存的几何理解之上后来添加的构建。DA3 表明这种几何基础可以仅从视觉数据构建,无需语言作为脚手架。

动作解码与深度作为结构化先验

一个更深层的议题是动作应如何解码——这是具身 AI 中最深刻的未解问题之一。当前方法范围从离散化 action token(如 VLA 模型)到连续控制信号(如 diffusion policy)。但所有这些方法共享一个共同困难:动作空间庞大而无结构。一个七自由度的机械臂可以执行几乎无限多的轨迹,从视觉观测到动作的映射高度欠约束。

DA3 的深度场为约束动作空间提供了自然结构。考虑一个伸手任务:深度场告诉模型目标物体相对于相机在 3D 空间中的位置,这约束了末端执行器的位置。深度场还告诉模型障碍物在哪里,这约束了末端执行器可以走的路径。实质上,深度场将动作搜索问题从 R7\mathbb{R}^7(或更高维)中的无约束优化缩减为避开被占 3D 区域路径上的约束优化。

这是一种面向动作的几何锚定。没有深度信息,动作解码器必须完全从数据中学习 2D 外观到 3D 动作的映射——这是一个模糊的映射,因为多种 3D 配置可以产生相同的 2D 外观。有了深度信息,模糊性被消除:3D 几何被显式表征,动作解码器可以在几何约束已知的空间中运作。

Depth-ray 表征特别适合这一角色,因为其最小性。完整 3D 重建会提供更多几何信息,但也会引入噪声和虚假细节。深度图恰好提供动作所需的信息——到每个可见表面的距离——而无需恢复完整 3D 几何的开销。Depth-ray 对几何锚定的意义,正如同 latent prediction 对语义锚定的意义:捕获与任务相关的全部信息的最小表征。

自动驾驶:天然栖息地

自动驾驶是深度估计与 world modeling 交汇最直接的领域,也是 DA3 的能力与实际需求最精确对齐的场景。

Monocular depth estimation 提供了最直接的应用。单张前向相机图像经过 DA3 处理,产出逐像素深度图,可用于 free-space 检测(识别场景中距离足够远、可安全通行的区域)、障碍物检测(识别距离过近的区域)和距离估计(提供到其他车辆、行人和物体的距离)。当前量产系统为此使用专用深度网络;DA3 的通用模型可以用单一、更精确的系统替代它们。

Multi-view depth fusion 将此扩展到环视设置。现代车辆有六台或更多覆盖 360 度视野的相机。DA3 的多视角架构可以通过联合注意力同时处理所有这些相机,产出覆盖整个车辆周围的全球一致深度场。这等同于环视 BEV(Bird’s Eye View)感知,但是从深度优先的公式推导,而非当前系统如 BEVFormer [13] 使用的 BEV-lift-squat 方法。深度优先公式的优势在于产出几何显式的输出——每个像素的深度是以公制单位表示的标量值——而非需要额外解码的隐式 BEV 特征。

Pose estimation 是 DA3 对驾驶最具标志性的能力。传统视觉里程计和 SLAM 系统通过特征匹配和 bundle adjustment 估计相机 pose——一个精确但计算昂贵且在无纹理或重复性环境中脆弱的管线。DA3 可以直接从帧间 depth-ray 对应关系估计相对相机 pose,有可能用神经网络单次前向传播替代视觉 SLAM 系统的前端。论文报告了 10 公里级 SLAM 轨迹上的结果,表明该方法能处理长期漂移——这一直是基于学习的 pose estimation 的阿喀琉斯之踵。

DA3 的深度优先方法与主流 BEV 范式之间的关系值得审视。BEV 方法将图像特征提升到俯视图,在此规范坐标帧中推理场景。这对车道检测和物体跟踪等任务有效,其俯视图与输出结构匹配。但 BEV 方法在提升过程中丢失了深度信息——它们沿深度轴投影特征,丢弃了 DA3 保留的细粒度深度结构。一种混合方法——DA3 提供深度场、BEV head 在深度投影特征上运作——可以结合两种范式的优势:DA3 的几何精度和 BEV 的空间推理。

局限性

DA3 并非没有局限。模型对 DINOv2 特征的依赖意味着它继承了 DINOv2 的偏差和失效模式,包括对预训练数据中罕见或缺失的物体产生不精确深度预测的倾向。Depth-ray 表征虽然最小,但不显式表征不确定性;confidence head 提供每像素一个标量,但这是对深度完整概率分布的贫乏替代。多视角注意力机制在联合注意力层中随输入视角数二次增长,可能限制其在拥有大量相机的场景中的适用性。模型在合成数据上的训练,尽管有 RANSAC 对齐步骤,仍可能从合成与真实图像之间的域差距引入系统偏差。

或许最根本的局限与所有 monocular depth estimation 方法共享:问题是不适定的。从单张图像出发,存在多个与观察外观一致的深度场。DA3 通过学到的先验解决这种歧义,但这些先验在与训练分布结构不同的场景上可能失败。多视角输入缓解了这一问题但并未消除,因为只在单一视角中可见区域的深度估计仍然是欠约束的。


世界表征的四个维度

本系列从四个正交维度审视了 world model。每个维度回应了关于如何表征物理现实的不同问题:

  • V-JEPA 2.1 问:模型如何无标签地学习视觉世界的语义结构?答案是 latent space 中的自监督预测,配以 dense supervision 以保留空间精度。

  • Wan2.2 问:直接在像素空间中运作的 world model 长什么样?答案是视频生成模型从数据中隐式学习物理,但在几何一致性和将叠加态坍缩为可行动预测的"量子问题"上挣扎。

  • VGGT 问:我们能从图像恢复世界的完整 3D 结构吗?答案是肯定的,给定足够视角,但该方法实际上是重建性而非预测性的——它告诉你世界长什么样,而非它将长什么样。

  • Depth Anything 3 问:捕获视觉世界几何结构的最小表征是什么?答案是 depth-ray:每像素一个标量,配合相机几何,足以支撑深度估计、pose 恢复、多视角重建和 novel view synthesis。

这些不是相互竞争的方法。它们是回答同一问题的四种独特方式:机器应如何表征物理世界?V-JEPA 2.1 通过预测 latent 结构回答。Wan2.2 通过生成像素级未来回答。VGGT 通过从观测重建 3D 几何回答。DA3 通过从任意视角度量几何深度回答。没有任何单一维度包含其他维度;每个都揭示了其他维度无法揭示的东西。

Jim Fan 的 World Action Model 论题提供了连接这些维度的框架:理解与行动不可分离。一个 world model 由它做什么来定义——无论那是预测、模拟、重建还是度量——而非由它表征了什么。Depth-ray 在此语境中不仅是深度估计模型的一种巧妙输出格式。它是回答几何锚定根本问题的一种方式。没有它,world model 可以模拟合理的未来;有了它,world model 可以模拟几何上可能的未来。

World model 的版图尚未收敛。我们仍处于研究时代。但四个维度已经可以辨识。而深度——最简单、最基本的几何量——结果以一种与其他三者互补而非依赖的方式,回答了世界表征的问题。

相关概念

  • 3D重建逆世界模型 — Depth-Ray与VGGT的3D重建从不同角度接近同一目标,详见VGGT
  • VLM时序记忆 — Depth-Ray为时序token聚合提供几何锚定,详见VLM时序记忆

References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

1. Mishkin, M., Ungerleider, L. G., and Macko, K. A., “Object vision and spatial vision: two cortical pathways,” Trends in Neurosciences, 6:414-417, 1983.

2. Oquab, M., Darcet, T., Moutakanni, T., et al., “DINOv2: Learning Robust Visual Features without Supervision,” arXiv:2304.07193, 2023.

3. Radford, A., Kim, J. W., Hallacy, C., et al., “Learning Transferable Visual Models from Natural Language Supervision,” ICML, 2021.

4. Zhai, X., Mustafa, B., Kolesnikov, A., and Beyer, L., “Sigmoid Loss for Language Image Pre-Training,” ICCV, 2023.

5. Mur-Labadia, X., et al., “V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning,” arXiv:2603.14482, 2026.

6. Depth Anything 3, “Depth Anything 3: Recovering the Visual Space from Any Views,” arXiv:2511.10647, 2025.

7. VGGT, “VGGT: Geometry-Aware Video Generation and Reconstruction,” CVPR Best Paper, 2025.

9. Ranftl, R., Bochkovskiy, A., and Koltun, V., “Vision Transformers for Dense Prediction,” ICCV, 2021.

10. Roberts, M., Ramapuram, J., Ranjan, A., et al., “Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding,” ICCV, 2021.

11. Fischler, M. A. and Bolles, R. C., “Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography,” Communications of the ACM, 24(6):381-395, 1981.

12. Wan2.2, Wan-Video/Wan2.2, 2026.

13. Li, Z., Wang, W., Li, H., et al., “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers,” ECCV, 2022.