核心问题:全局语义与局部定位的断裂
Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。
然而,地基上存在一道裂缝。当你检视 V-JEPA 2 的 context token 实际编码的内容——那些来自可见区域、作为预测基础的 token——你会发现一个令人不安的现象。主成分分析(PCA)显示,无论空间位置如何,这些 token 都坍缩为近乎相同的表征。帧左上角的 context token 与右下角的 context token 编码了实际上相同的信息。它们变成了全局聚合器,而非局部描述子。

对于一个世界模型而言,这是灾难性的。
物理世界是局部的。自动驾驶汽车前方的障碍物与头顶的天空无关。路面上像素 处的深度由其邻域内的几何结构决定,而非全局的场景类别。一个无法区分"这里"与"那里"的表征,不可能支撑物理交互所要求的空间推理。它可以告诉你场景中有一辆车,但无法告诉你车在哪里、距离多远、是否正在靠近你。
这是损失函数的结构性局限。V-JEPA 2 采用 masked prediction 目标进行训练,仅 masked 区域的 token 参与损失计算:
其中 为 masked token 索引集合, 为 EMA teacher 生成的目标表征, 为 student predictor 的输出。损失在表征空间中以 L1 距离(Mean Absolute Error)计算,而非像素空间。context token——那些位于可见区域的 token——仅出现在条件侧,不承受任何直接监督。在缺少空间精确信息编码压力的情况下,模型选择了阻力最小的路径:context token 收敛为可见区域的全局摘要,因为全局摘要已足以预测 masked 区域的平均属性。
其后果是:模型在全局特征主导的语义任务——分类、检索、动作识别——上表现出色,但在需要空间精度的密集预测任务上遭遇灾难性失败。V-JEPA 2 (ViT-g, 1B) 在 ADE20K 语义分割上仅取得 22.2 mIoU,在 NYUv2 深度估计上 RMSE 为 0.682。你无法分割你无法定位的物体;你无法在无法区分相邻像素的条件下估计深度。
V-JEPA 2.1 [1] 正是为解决这一问题而设计。但正如我们将看到的,这一修复揭示了更深层的洞察——关于视觉表征的本质,关于构建真正的世界模型需要什么,以及空间精确特征与深度估计所提供的几何理解之间的深刻联系。
创新点 1:Dense Predictive Loss(密集预测损失)
最直接的干预也是最富启示性的:对每一个 token 施加监督,而非仅针对 masked token。V-JEPA 2.1 引入了 context loss ,将预测目标扩展到可见的 context token,与标准的 masked prediction loss 并行:
然而,对每个 token 施加等权损失将适得其反。靠近 mask 边界的 context token 对预测最为关键——它们实质上定义了模型在可见与不可见之间需要跨越的鸿沟。远离边界的 context token 对预测任务的贡献较小,而在 V-JEPA 2 的无监督机制下,正是这些 token 最容易坍缩为全局聚合器。
V-JEPA 2.1 通过基于距离的加权策略解决了这一矛盾。对于每个 context token ,定义 为 token 到 masked 集合 中任意 token 在三维时空坐标空间 中的最小欧氏距离。token 被赋予的权重为:
其中 为全局缩放系数,并从第 15,000 次迭代到第 30,000 次迭代进行线性 warmup(前 15K 次迭代以 训练,即纯 V-JEPA 2 模式)。代码使用 torch.cdist(p=2) 在 (frame, height, width) token 坐标空间中计算精确的 L2 距离——这是真正的三维欧氏距离,而非简单的 patch 计数。context loss 的完整形式为:
其中 表示可见(context)token 的集合。

这一加权策略的精妙之处在于其与自然图像信息结构的对齐。靠近 mask 边界的 token 具有较小的 ,获得较大的权重,迫使模型维持精确的局部特征。远离 mask 边界的 token 具有较大的 ,获得较小的权重,允许其编码更抽象的全局信息。平方根衰减提供了一种柔和的插值:权重随距离衰减,但衰减速率不至于使仅边界相邻的 token 受到影响。
Lambda 消融实验
的取值与加权策略的选择至关重要。论文的消融实验(Table 2, ViT-L)揭示了完整的格局:
| Scheme | Warmup | ADE20K mIoU | SSv2 Acc | |
|---|---|---|---|---|
| 0 (V-JEPA 2) | constant | — | 22.2 | 72.8 |
| 0.05 | constant | — | 26.4 | 71.0 |
| 0.2 | constant | — | 29.6 | 62.5 |
| 0.5 | constant | — | 27.5 | 53.8 |
| 1.0 | constant | — | 24.6 | 51.1 |
| 0.2 | constant | yes | 30.5 | 60.5 |
| 0.5 | constant | yes | 32.2 | 61.5 |
| 0.5 | weighted | yes | 33.8 | 62.5 |
数据讲述了一个清晰的故事。在无 warmup 的条件下,增大 改善了密集任务(ADE20K: 22.2 → 29.6 at ),但灾难性地损害了全局语义(SSv2: 72.8 → 62.5)。超过 后,即使是密集任务也开始退化,因为模型损失了过多的语义理解。Warmup 之所以有效,在于它允许模型先建立全局表征,再施加局部精度约束。加权策略结合 与 warmup 实现了最佳的密集性能(33.8 mIoU),同时保留了合理的全局性能(62.5 SSv2)——尽管全局性能的惩罚仍然显著。恢复这一差距需要下一个创新。
创新点 2:Deep Self-Supervision(深层自监督)
密集监督下全局语义性能的退化揭示了第二个结构性问题。V-JEPA 2 的预测目标来自 teacher(EMA)网络的最后一层。这是语义抽象度最高的表征——经过了最多计算步骤、拥有最广全局感受野的层。当 student 网络被迫在每个空间位置匹配这些目标时,它必须在编码局部细节(密集监督所奖励的)与匹配全局目标(预测损失所奖励的)之间做出取舍。
这反映了深度神经网络的一个根本性质:不同层编码不同类型的信息。在 Vision Transformer 中,早期层保留空间结构——attention map 是局部的,token 表征与其空间位置紧密绑定。随着深度增加,attention 模式逐渐扩大,token 表征与全局上下文的纠缠加深。到最后一层,每个 token 已多次 attend 到整幅图像,其表征编码了局部与全局信息的混合体,但严重偏向全局。
V-JEPA 2.1 的解决方案是从多个层提取监督信号,而非仅使用最后一层。特征从四个等间距的中间 encoder block 中提取,通过可学习的投影进行融合。对于 ViT-G(depth=48),选定的层为 [11, 23, 37, 47];对于 ViT-L(depth=24),为 [5, 11, 17, 23]。四层输出沿通道维度拼接,每层独立 LayerNorm 后,由 MLP 压缩:
其中 表示沿通道维度的拼接,MLP 将 投影到 predictor 的输入维度(ViT-G 为 384)。相应地,predictor 在其自身的层级 [4, 11, 17, 23](depth=24)处产生四个输出,分别对应四个 encoder 层级。 和 均在所有四个层级上施加。
效果是显著的。在需要细粒度时序推理的 Something-Something V2(SSv2)上,仅加入密集监督的 V-JEPA 2 从 72.8% 降至 62.5% top-1。加入深层自监督后性能恢复至 72.1%——恢复了 9.6 个百分点,几乎弥合了差距,同时进一步改善了密集任务(ADE20K: 33.8 → 38.6 mIoU)。
为何如此有效?Vision Transformer 的每一层在压缩-保留的权衡中处于不同的平衡点。早期层保留空间细节但缺乏语义抽象;后期层为获取语义内容而抽象掉了空间细节。通过同时从多层施加监督,模型被迫维持一个在多个抽象层级上都具有信息量的表征。student 无法忽略局部特征,因为早期层监督惩罚空间信息的丢失;也无法放弃全局语义,因为后期层监督持续提供语义一致性的压力。
深层自监督有效地解开了信息瓶颈。与其将所有有用信息挤压通过最后一层这个单一节点,不如打开多个通道,每个通道承载不同频率的信息。其结果是一个同时具备局部精确性与全局一致性的表征——这正是世界模型所要求的性质。
这里还有一个更深的教训。单层目标无法同时支撑局部与全局理解,这一事实暗示了世界建模中"表征"作为单一张量的标准概念是不充分的。真正的世界模型可能需要一种结构化的表征,显式地分离不同抽象层级的信息——正如人类视觉系统维持着"what"(腹侧通路)与"where"(背侧通路)的并行处理流。V-JEPA 2.1 的多层融合是朝这一方向迈出的一步,尽管它仍然将所有信息投影到单一融合表征中,而非维持结构性的分离。
创新点 3:Multi-Modal Tokenizer(多模态分词器)
V-JEPA 2 对图像和视频使用同一个 3D 卷积 tokenizer。图像沿时间维度复制 16 次以匹配视频处理流水线——这一变通方案引入了错误的时序冗余并浪费了计算。静态图像(所有信息都是空间的)的最优 tokenization 与视频片段(时序冗余允许更激进的压缩)有着根本差异。
V-JEPA 2.1 通过专用 tokenizer 解决了这一问题:
| Modality | Tokenizer | Kernel Size | Tubelet Size | Output |
|---|---|---|---|---|
| Image | PatchEmbed3D | 16 × 16 | 1 | Spatial tokens only (1 frame) |
| Video | PatchEmbed3D | 16 × 16 | 2 | Spatial-temporal tokens |
二者投影到相同的嵌入空间,确保了兼容性。此外,encoder 和 predictor 的输入中加入了模态可学习 token,显式编码输入来自图像还是视频通路。这些模态嵌入以极小的尺度初始化(std=1e-6),暗示模态信号是渐进学习的,而非强制注入。图像和视频不会在同一 mini-batch 中混合——50% 的 GPU 处理图像,50% 处理视频,梯度在所有 rank 之间聚合。
位置编码使用3D Rotary Positional Embeddings(RoPE),跨越空间和时间两个维度,并辅以可学习的模态嵌入。
这一设计隐含了一个概念性推论。单 tokenizer 方案隐式地假设同一个潜在空间对静态预测和动态预测都是最优的。双 tokenizer 设计的成功暗示了另一种可能:空间预测(这个位置有什么?)的潜在空间与时序预测(接下来会发生什么?)的潜在空间可能具有不同的最优几何结构。共享嵌入空间确保了互操作性,而独立的 tokenizer 允许每种模态沿着信息量最大的维度映射到该空间。
创新点 4:Data, Scaling, and Cool-Down(数据、规模与冷却)
VisionMix-163M
V-JEPA 2.1 用 VisionMix-163M 替代了 V-JEPA 2 的 VideoMix-22M,数据构成发生了根本变化:
| Source | Type | V-JEPA 2 Weight | V-JEPA 2.1 Weight |
|---|---|---|---|
| SSv2 | Ego-video | 0.056 | 0.170 |
| Kinetics | Exo-video | 0.188 | 0.010 |
| HowTo100M | Exo-video | 0.318 | 0.100 |
| ImageNet | Images | 0.250 | 0 (removed) |
| YT-1B | Exo-video | 0.188 | 0.720 |
| LVD-142M | Curated images | — | 0 (new) |
这些权重调整是精心设计的:第一人称视角视频(SSv2)的权重提高了 3 倍,以强调与具身任务相关的 egocentric 视角;大规模未策展视频(YT-1B)占据主导地位,提供纯粹的多样性;ImageNet 被完全移除,以避免与视频理解冲突的静态图像偏置;LVD-142M 提供高质量的策展图像数据,而不带 ImageNet 的分类标签偏置。
两阶段训练
训练分为两个阶段:
阶段 1(主训练): 在 VisionMix-163M 上进行 135,000 次迭代(1000 epochs × 300 ipe),视频片段为 16 帧、256 × 256,图像为 256 × 256。图像和视频样本被分配到独立的 GPU 组(50/50 分割,rank_ratio=0.5),从不混合在同一 mini-batch 中,每次迭代后在所有 rank 之间聚合梯度。学习率遵循 warmup-constant 调度:从 warmup 40 个 epoch 至 ,之后保持恒定。Weight decay: 0.04(余弦调度)。EMA: 固定为 0.99925(无 ramp)。混合精度: bfloat16。
阶段 2(Cool-Down): 12,000 次迭代,更高分辨率和更长时序上下文:64 帧视频片段、384 × 384,图像 512 × 512。关键的是,距离加权在 cool-down 中被禁用(weight_distance_loss: false),学习率从 衰减至 。Cool-down 将时序感受野从 16 帧扩展至 64 帧,空间分辨率提高 50%,使密集特征在部署相关的尺度上得到精炼。
模型规模
V-JEPA 2.1 的最大模型为 ViT-Gigantic(2B 参数,embed_dim=1664,48 层,26 头):
| Model | Parameters | embed_dim | Depth | Heads | IN-1K | SSv2 | ADE20K | NYUv2 RMSE |
|---|---|---|---|---|---|---|---|---|
| ViT-L (student) | 300M | 1024 | 24 | 16 | 81.6 | 72.6 | 41.4 | 0.415 |
| ViT-g | 1B | 1408 | 40 | 16 | 84.8 | 76.9 | 47.8 | 0.350 |
| ViT-G | 2B | 1664 | 48 | 26 | 85.5 | 77.7 | 47.9 | 0.307 |
蒸馏使用冻结的 ViT-G teacher 训练紧凑的 ViT-B 和 ViT-L student。蒸馏仅在 teacher 的最后一层施加损失——不包含深层自监督——predictor 使用 12 个 block 加一个最终线性层以匹配 teacher 的嵌入维度。
累积消融实验

完整的消融实验(Table 1, ViT-L → ViT-G)展示了完整的演进轨迹:
| Configuration | IN-1K | SSv2 | NYUv2 ↓ | ADE20K |
|---|---|---|---|---|
| V-JEPA 2 baseline | 82.2 | 72.8 | 0.682 | 22.2 |
| + Context loss (weighted, warmup) | 72.6 | 62.5 | 0.474 | 33.8 |
| + Deep self-supervision | 80.8 | 72.1 | 0.463 | 38.6 |
| + VisionMix-163M | 81.6 | 72.6 | 0.418 | 40.8 |
| + Multi-modal tokenizer | 81.6 | 72.6 | 0.415 | 41.4 |
| + Model scaling (ViT-G) | 84.8 | 76.1 | 0.365 | 47.1 |
| + Cool-down | 85.5 | 77.7 | 0.307 | 47.9 |
这一演进过程揭示了完整的故事。仅添加 context loss 以全局语义换取局部精度——SSv2 从 72.8 暴跌至 62.5 是最戏剧性的证据。深层自监督恢复了损失的语义,同时保留了大部分空间增益。VisionMix 和多模态 tokenizer 进一步推动了密集任务的提升。扩展至 ViT-G(2B)在所有指标上全面领先。Cool-down 阶段,特别是从 16 帧扩展至 64 帧,带来了深度估计(NYUv2: 0.365 → 0.307)和时序理解(SSv2: 76.1 → 77.7)的最终增益。
最终模型在 ImageNet 上反而超越了 V-JEPA 2 基线(85.5 vs. 82.2),尽管密集监督最初损害了全局性能。短期的权衡通过互补的创新被化解,最终在每一维度上都超越了基线。
架构总览

架构图清晰地展示了数据流:模态特定的 tokenization(视频使用 tubelet_size=2 的 3D Conv,图像使用 tubelet_size=1)→ 3D RoPE + 可学习模态嵌入(以 std=1e-6 初始化)→ x-encoder 在层 [11, 23, 37, 47] 提取层级 block 输出 → 每层独立 LayerNorm → 沿通道维度拼接(4×1664 = 6656 维)→ MLP 融合至 predictor_embed_dim(384)→ predictor(深度 24)在其自身层 [4, 11, 17, 23] 产生层级输出 → 在每一层级施加双重损失。目标 encoder(EMA teacher)提供监督目标,以固定动量 0.99925 更新:
代码库中的值得注意的实现细节:(1)所有 Transformer block 使用权重重缩放 以维持 Post-LN 稳定性;(2)异常检测机制(loss_reg_std_mult)可在损失超出均值 + 的尾随损失时跳过优化器步骤;(3)predictor 在 predict_all=True 时为 masked token 和 context token 使用独立的投影头。
Dense Features 与深度估计:V-JEPA 2.1 — Depth Anything 3 的连接
V-JEPA 2.1 最引人注目的结果是深度估计的改善:NYUv2 RMSE 从 0.682 降至 0.307——降低了 55%,远超分割的提升(ADE20K: 22.2 → 47.9)和分类的增益(IN-1K: 82.2 → 85.5)。这并非偶然。密集特征与深度估计之间有着深层结构联系,V-JEPA 2.1 从一侧照亮了这种联系,而 Depth Anything 3(DA3)从另一侧照亮了它。
从表征到度量
V-JEPA 2.1 学习了保留空间信息的表征。位置 处的 dense feature 编码了该位置视觉内容的某些信息——它是空间特定的。但"空间特定"并不等于"几何精确"。特征告诉你这个像素与邻域不同,它属于某个语义类别,它靠近物体边界,但它不告诉你该像素处到表面的距离。
DA3 从 V-JEPA 2.1 停下的地方出发。它将空间感知的视觉特征转化为每个像素的一个几何量:depth-ray ,其中 3D 点参数化为 (原点 + 深度 × 方向)。depth-ray 是几何结构的最小充分统计量——其余的一切(位姿、多视图重建、新视角合成)都可以从中推导。
二者的关系一目了然:
| V-JEPA 2.1 | Depth Anything 3 | |
|---|---|---|
| 输出 | Dense latent features(高维) | 每像素 depth-ray(标量) |
| 保留的信息 | 空间特异性 + 语义内容 | 几何结构 |
| 丢弃的信息 | 精确的度量几何 | 语义类别信息 |
| 监督方式 | 自监督(无标签) | 几何监督(深度图) |
| 核心洞察 | 空间精度必须被工程化 | 深度是最小的几何表征 |
V-JEPA 2.1 表明空间精度并非从自监督预测中自发涌现——它需要显式的归纳偏置(dense loss、deep self-supervision、warmup)。DA3 表明一旦你拥有了空间精确的特征,最紧凑的几何摘要就是每个像素一个标量。这两个结果是互补的:V-JEPA 2.1 提供了使深度估计成为可能的前深度表征,DA3 提供了使几何推理变得可行的后深度表征。
深度估计管线作为证据
考察下游深度估计的结果。V-JEPA 2.1 在 NYUv2 和 KITTI 深度估计上的评估使用冻结的 encoder 加一个简单的 probe head。该 probe 在预训练期间没有接受任何几何监督——它仅仅学习从 V-JEPA 2.1 的 dense features 到度量深度的线性映射。这一映射在 NYUv2 上达到 RMSE 0.307(相比之下 V-JEPA 2 为 0.682),意味着 V-JEPA 2.1 的特征编码了足够的空间信息,可以通过线性读出推断深度。
这值得深思。模型在训练中从未见过深度图。它学习的是在潜在空间中预测 masked token。然而其特征包含了足够的几何信息来准确估计深度。这暗示 dense features 隐式编码了场景的某种三维结构信息——表面朝向、遮挡边界、相对距离——尽管损失函数从未直接奖励几何理解。
DA3 使这种隐式知识显式化。与其将几何信息编码在一个需要 probe 提取的高维潜在空间中,DA3 直接预测 depth-ray,以深度图作为监督。depth-ray 是捕捉 V-JEPA 2.1 dense features 中隐式几何信息的最小表征。
为何 Dense Features 支撑深度估计(而全局特征不行)
V-JEPA 2 上深度估计失败,原因在于其特征缺乏空间特异性,而非模型缺乏容量。当每个 context token 编码相同的全局摘要时,probe 没有空间信号可以映射到深度。NYUv2 RMSE 0.682 反映了这一根本局限:在特征中缺乏空间变异的条件下,深度估计退化为预测场景的平均深度。
V-JEPA 2.1 的 dense features 修复了这一问题,使每个 token 对其局部邻域具有信息量。probe 现在可以区分不同空间位置的 token,并学习从局部外观到局部深度的映射。ADE20K 的提升(22.2 → 47.9)与 NYUv2 的提升(0.682 → 0.307)是同一底层变化的两种表现:特征现在保留了空间信息。
机器人抓取:Dense Features 与深度估计的交汇
V-JEPA 2.1 → DA3 连接最直接的证据来自机器人抓取。V-JEPA 2.1 在 Franka Panda 机器人上将抓取成功率从 60% 提升至 80%,且改善集中体现在相机深度轴方向。这正是 V-JEPA 2 坍缩特征无法编码的维度:从相机到物体的距离。Dense features 提供了推断深度所需的空间信息,而深度决定了沿相机 z 轴的抓取能否成功。
DA3 将此推进一步。V-JEPA 2.1 的特征通过学习到的 probe 支撑深度推断,而 DA3 直接输出深度场。在抓取管线中,V-JEPA 2.1 提供"理解"(语义分割、物体识别),DA3 提供"度量"(精确的度量深度)。二者组合形成完整的感知体系:V-JEPA 2.1 告诉机器人它看到的是什么,DA3 告诉它距离有多远。
开放问题:Dense Features 能否替代深度监督?
V-JEPA 2.1 提出了一个诱人的问题:如果 dense features 隐式编码了深度信息,自监督预训练是否最终能替代显式的深度监督?目前的答案是否定的——V-JEPA 2.1 的深度估计仍落后于专用深度模型。但差距正在缩小。DA3 的 depth-ray 表征暗示,弥合差距的正确方式可能是设计潜在空间使 depth-ray 从表征中自然涌现,而非增加更多深度监督——正如物体分割从 DINOv2 的 attention map 中涌现一样。
这将是最终极的融合:一个通过自监督预测学习 dense features 的模型,且这些 dense features 的结构使得一个线性投影即可产生 depth-ray。V-JEPA 2.1 通过使特征空间精确迈出了第一步。DA3 定义了空间精度达到几何终局时的样貌。
V-JEPA 2.1 对世界模型的启示
LeCun 的赌注:在潜在空间中预测
LeCun 的 JEPA 宣言 [3] 提出了一个强主张:智能系统应当在学到的潜在空间中预测,而非在原始观测空间中。这一论证兼具经验与理论的双重支撑。经验上,预测像素的生成模型——VAE、扩散模型、自回归图像 Transformer——在无关细节上耗费了巨大的模型容量。理论上,当表征丢弃了与预测任务无关的信息时,预测的信息论内容达到最大化。
V-JEPA 2 验证了这一主张。但 V-JEPA 2.1 揭示了一个关键的细微之处:哪个潜在空间至关重要,以及它必须保留什么。一个丢弃了所有空间信息的潜在空间仍然是一个有效的潜在空间——它只是不适合需要空间推理的任务。JEPA 框架保证了潜在空间保留与预测目标相关的信息,但如果目标仅涉及在粗粒度层级上预测 masked 区域,潜在空间将不会保留细粒度的空间细节。预测目标的选择并非中性的:它决定了潜在空间编码什么,进而决定了世界模型能理解什么。
涌现的迷思
自监督学习中有一个诱人的叙事:有用的属性会从正确的训练目标中自发涌现。训练一个模型去预测 masked token,故事这样讲,它就会学会分割物体、估计深度、追踪运动——全部无需显式监督。DINO 和 DINOv2 似乎验证了这一叙事。
V-JEPA 2.1 提供了针对这一叙事的决定性反证——至少在其最强形式上。V-JEPA 2 的 context token 坍缩为全局聚合器这一事实表明,标准的 masked prediction 目标并不会自发产生空间精确的特征。密集预测能力——分割、深度、检测——不会从仅奖励语义预测的损失函数中涌现。它必须被显式地设计。
这是 V-JEPA 2.1 的核心教训:损失函数的架构编码了关于何种信息重要的归纳偏置。如果你只监督 masked 区域,模型将学习全局特征。如果你需要局部特征,你必须局部地监督。模型不会自己发现这一点。
DINO 和 DINOv2 在产生 dense features 上的表面成功,现在可以被理解为其特定训练设计的结果——self-distillation、centering 和 sharpening 各自隐式地将表征偏向空间特异性。V-JEPA 2 缺乏这些偏置,因此其特征发生了坍缩。教训在于 dense features 的涌现依赖于训练目标的特定归纳偏置。
自动驾驶:Dense Features 的实践
V-JEPA 2.1 的能力直接映射到自动驾驶感知:
语义分割 — ADE20K mIoU 从 22.2 提升至 47.9。对于自动驾驶汽车而言,这意味着从一个几乎无法区分路面与天空的模型,进化为一个能够以可用精度分割可行驶路面、人行道、车道标线和障碍物的模型。
深度估计 — NYUv2 RMSE 从 0.682 降至 0.307,KITTI 从 4.650 降至 2.461。KITTI 的改善尤为关键:它反映了户外、驾驶相关的深度估计,47% 的 RMSE 降低意味着障碍物距离估计的显著提升。
视频物体分割 — DAVIS-S 从 52.5 提升至 69.0,YT-VOS-S 从 53.7 提升至 72.7。这些提升对应动态障碍物追踪能力——在遮挡和外观变化下,跨帧维持行人或车辆的精确 mask。
机器人抓取 — 抓取成功率从 60% 提升至 80%,且改善集中在相机深度轴方向。这证实了 dense features 编码了精确空间交互所需的深度信息。
导航规划 — TartanDrive 基准:ViT-g 在 10.6 秒内达到 ATE 2.975,而 NWM 在 103.2 秒内 ATE 为 3.032。V-JEPA 2.1 快了 10 倍,因为它在潜在空间中预测而非渲染未来帧,且更准确因为其 dense features 捕获了空间地形结构。
局限与开放问题
V-JEPA 2.1 并非没有局限。基于距离的加权损失假设了规则的空间网格,使其扩展到不规则表征(LiDAR 点云)并非易事。“到 mask 边界的距离"这一概念在非结构化点云中没有直接的类比, 加权策略依赖于网格的规则性。
更深层的困难是,V-JEPA 2.1 并未解决世界建模的时序维度。Dense features 改善了帧内的空间精度,但它们本身并不保证跨帧的时序一致性。世界模型不仅要预测什么在哪里,还要预测它将如何运动。Cool-down 阶段(64 帧)提供了更长的时序上下文,但并未从根本上改变帧内空间聚焦的范式。将密集预测从空间扩展到时空仍是一个开放的研究方向。
结论
V-JEPA 2.1 证明了密集视觉特征是工程化的成果,而非自监督学习的涌现属性。四项创新——dense predictive loss( 加距离加权与 warmup)、deep self-supervision(4 层多层融合)、multi-modal tokenization(2D/3D Conv + 模态 token)、以及 scaling + cool-down(ViT-G 2B, 64 帧 384px)——每一项都针对 V-JEPA 2 基线的一个特定失败模式。
最重要的发现是它们共同揭示的原则:**空间精度与语义抽象是互补的,二者都必须被显式地工程化。**这一原则延伸到 V-JEPA 2.1 与 Depth Anything 3 的关系中。V-JEPA 2.1 提供了使几何推理成为可能的前深度表征;DA3 提供了使几何推理变得可行的后深度表征。Dense features 是语义理解与几何度量之间的桥梁——将特征提取器转化为世界模型的空间锚点。
LeCun 关于预测应在潜在空间中进行的论断是正确的。但 V-JEPA 2.1 表明,潜在空间必须被精心设计以保留物理推理所要求的信息。一个无法区分"这里"与"那里"的世界模型无法推理物理交互。Dense features 是第一步。Depth-ray 是它们通向的终点。
相关概念
- Dense Feature 退化的另一个解法 — DINOv3 的 Gram Anchoring 与本文的 Dense Predictive Loss 是同一问题的两种解法,详见 DINOv3
- Driving 上的应用综述 — V-JEPA 在 nuScenes / NAVSIM 等 driving benchmark 上的迁移结果与 causal future / motion-aware / temporal-coherent 三种 mask 变体的对比,详见 Driving JEPA 综述
References
本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。
- [1] Mur-Labadia et al., “V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning,” arXiv:2603.14482, 2026.
- [2] Assran et al., “V-JEPA 2: Self-Supervised Video Pretraining with Scalable Features,” 2025.
- [3] LeCun, “A Path Towards Autonomous Machine Intelligence,” 2022.