核心问题:全局语义与局部定位的断裂

Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。

然而,地基上存在一道裂缝。当你检视 V-JEPA 2 的 context token 实际编码的内容——那些来自可见区域、作为预测基础的 token——你会发现一个令人不安的现象。主成分分析(PCA)显示,无论空间位置如何,这些 token 都坍缩为近乎相同的表征。帧左上角的 context token 与右下角的 context token 编码了实际上相同的信息。它们变成了全局聚合器,而非局部描述子。

Figure 1: PCA visualization comparing V-JEPA 2 and V-JEPA 2.1 features. V-JEPA 2’s features collapse into spatially uniform representations, while V-JEPA 2.1 produces spatially coherent, semantically consistent dense features.

对于一个世界模型而言,这是灾难性的。

物理世界是局部的。自动驾驶汽车前方的障碍物与头顶的天空无关。路面上像素 (x,y)(x, y) 处的深度由其邻域内的几何结构决定,而非全局的场景类别。一个无法区分"这里"与"那里"的表征,不可能支撑物理交互所要求的空间推理。它可以告诉你场景中有一辆车,但无法告诉你车在哪里、距离多远、是否正在靠近你。

这是损失函数的结构性局限。V-JEPA 2 采用 masked prediction 目标进行训练,仅 masked 区域的 token 参与损失计算:

Lpredict=1MiMziz^i1 \mathcal{L}_{\text{predict}} = \frac{1}{|M|}\sum_{i \in M} \| z_i - \hat{z}_i \|_1

其中 MM 为 masked token 索引集合,ziz_i 为 EMA teacher 生成的目标表征,z^i\hat{z}_i 为 student predictor 的输出。损失在表征空间中以 L1 距离(Mean Absolute Error)计算,而非像素空间。context token——那些位于可见区域的 token——仅出现在条件侧,不承受任何直接监督。在缺少空间精确信息编码压力的情况下,模型选择了阻力最小的路径:context token 收敛为可见区域的全局摘要,因为全局摘要已足以预测 masked 区域的平均属性。

其后果是:模型在全局特征主导的语义任务——分类、检索、动作识别——上表现出色,但在需要空间精度的密集预测任务上遭遇灾难性失败。V-JEPA 2 (ViT-g, 1B) 在 ADE20K 语义分割上仅取得 22.2 mIoU,在 NYUv2 深度估计上 RMSE 为 0.682。你无法分割你无法定位的物体;你无法在无法区分相邻像素的条件下估计深度。

V-JEPA 2.1 [1] 正是为解决这一问题而设计。但正如我们将看到的,这一修复揭示了更深层的洞察——关于视觉表征的本质,关于构建真正的世界模型需要什么,以及空间精确特征与深度估计所提供的几何理解之间的深刻联系。


创新点 1:Dense Predictive Loss(密集预测损失)

最直接的干预也是最富启示性的:对每一个 token 施加监督,而非仅针对 masked token。V-JEPA 2.1 引入了 context loss Lctx\mathcal{L}_{\text{ctx}},将预测目标扩展到可见的 context token,与标准的 masked prediction loss 并行:

Ldense=Lpredict+Lctx \mathcal{L}_{\text{dense}} = \mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}}

然而,对每个 token 施加等权损失将适得其反。靠近 mask 边界的 context token 对预测最为关键——它们实质上定义了模型在可见与不可见之间需要跨越的鸿沟。远离边界的 context token 对预测任务的贡献较小,而在 V-JEPA 2 的无监督机制下,正是这些 token 最容易坍缩为全局聚合器。

V-JEPA 2.1 通过基于距离的加权策略解决了这一矛盾。对于每个 context token ii,定义 dmin(i,M)d_{\text{min}}(i, M) 为 token ii 到 masked 集合 MM 中任意 token 在三维时空坐标空间 (t,h,w)(t, h, w) 中的最小欧氏距离。token ii 被赋予的权重为:

λi=λdmin(i,M) \lambda_i = \frac{\lambda}{\sqrt{d_{\text{min}}(i, M)}}

其中 λ=0.5\lambda = 0.5 为全局缩放系数,并从第 15,000 次迭代到第 30,000 次迭代进行线性 warmup(前 15K 次迭代以 λ=0\lambda=0 训练,即纯 V-JEPA 2 模式)。代码使用 torch.cdist(p=2) 在 (frame, height, width) token 坐标空间中计算精确的 L2 距离——这是真正的三维欧氏距离,而非简单的 patch 计数。context loss 的完整形式为:

Lctx=1CiCλiziz^i1 \mathcal{L}_{\text{ctx}} = \frac{1}{|C|}\sum_{i \in C} \lambda_i \| z_i - \hat{z}_i \|_1

其中 CC 表示可见(context)token 的集合。

Figure 3: PCA visualization of the effect of context loss. Left: original images. Middle: V-JEPA 2 features show fragmented, spatially incoherent structure. Right: adding L_ctx produces features with coherent spatial structure where semantically similar regions map to consistent PCA components.

这一加权策略的精妙之处在于其与自然图像信息结构的对齐。靠近 mask 边界的 token 具有较小的 dmind_{\text{min}},获得较大的权重,迫使模型维持精确的局部特征。远离 mask 边界的 token 具有较大的 dmind_{\text{min}},获得较小的权重,允许其编码更抽象的全局信息。平方根衰减提供了一种柔和的插值:权重随距离衰减,但衰减速率不至于使仅边界相邻的 token 受到影响。

Lambda 消融实验

λ\lambda 的取值与加权策略的选择至关重要。论文的消融实验(Table 2, ViT-L)揭示了完整的格局:

λ\lambdaSchemeWarmupADE20K mIoUSSv2 Acc
0 (V-JEPA 2)constant22.272.8
0.05constant26.471.0
0.2constant29.662.5
0.5constant27.553.8
1.0constant24.651.1
0.2constantyes30.560.5
0.5constantyes32.261.5
0.5weightedyes33.862.5

数据讲述了一个清晰的故事。在无 warmup 的条件下,增大 λ\lambda 改善了密集任务(ADE20K: 22.2 → 29.6 at λ=0.2\lambda=0.2),但灾难性地损害了全局语义(SSv2: 72.8 → 62.5)。超过 λ=0.2\lambda=0.2 后,即使是密集任务也开始退化,因为模型损失了过多的语义理解。Warmup 之所以有效,在于它允许模型先建立全局表征,再施加局部精度约束。加权策略结合 λ=0.5\lambda=0.5 与 warmup 实现了最佳的密集性能(33.8 mIoU),同时保留了合理的全局性能(62.5 SSv2)——尽管全局性能的惩罚仍然显著。恢复这一差距需要下一个创新。


创新点 2:Deep Self-Supervision(深层自监督)

密集监督下全局语义性能的退化揭示了第二个结构性问题。V-JEPA 2 的预测目标来自 teacher(EMA)网络的最后一层。这是语义抽象度最高的表征——经过了最多计算步骤、拥有最广全局感受野的层。当 student 网络被迫在每个空间位置匹配这些目标时,它必须在编码局部细节(密集监督所奖励的)与匹配全局目标(预测损失所奖励的)之间做出取舍。

这反映了深度神经网络的一个根本性质:不同层编码不同类型的信息。在 Vision Transformer 中,早期层保留空间结构——attention map 是局部的,token 表征与其空间位置紧密绑定。随着深度增加,attention 模式逐渐扩大,token 表征与全局上下文的纠缠加深。到最后一层,每个 token 已多次 attend 到整幅图像,其表征编码了局部与全局信息的混合体,但严重偏向全局。

V-JEPA 2.1 的解决方案是从多个层提取监督信号,而非仅使用最后一层。特征从四个等间距的中间 encoder block 中提取,通过可学习的投影进行融合。对于 ViT-G(depth=48),选定的层为 [11, 23, 37, 47];对于 ViT-L(depth=24),为 [5, 11, 17, 23]。四层输出沿通道维度拼接,每层独立 LayerNorm 后,由 MLP 压缩:

z~i=MLP(k=14LayerNorm(zi(lk))) \tilde{z}_i = \text{MLP}\left(\bigoplus_{k=1}^{4} \text{LayerNorm}\left(z_i^{(l_k)}\right)\right)

其中 \bigoplus 表示沿通道维度的拼接,MLP 将 4×embed_dim4 \times \text{embed\_dim} 投影到 predictor 的输入维度(ViT-G 为 384)。相应地,predictor 在其自身的层级 [4, 11, 17, 23](depth=24)处产生四个输出,分别对应四个 encoder 层级。Lpredict\mathcal{L}_{\text{predict}}Lctx\mathcal{L}_{\text{ctx}} 均在所有四个层级上施加。

效果是显著的。在需要细粒度时序推理的 Something-Something V2(SSv2)上,仅加入密集监督的 V-JEPA 2 从 72.8% 降至 62.5% top-1。加入深层自监督后性能恢复至 72.1%——恢复了 9.6 个百分点,几乎弥合了差距,同时进一步改善了密集任务(ADE20K: 33.8 → 38.6 mIoU)。

为何如此有效?Vision Transformer 的每一层在压缩-保留的权衡中处于不同的平衡点。早期层保留空间细节但缺乏语义抽象;后期层为获取语义内容而抽象掉了空间细节。通过同时从多层施加监督,模型被迫维持一个在多个抽象层级上都具有信息量的表征。student 无法忽略局部特征,因为早期层监督惩罚空间信息的丢失;也无法放弃全局语义,因为后期层监督持续提供语义一致性的压力。

深层自监督有效地解开了信息瓶颈。与其将所有有用信息挤压通过最后一层这个单一节点,不如打开多个通道,每个通道承载不同频率的信息。其结果是一个同时具备局部精确性与全局一致性的表征——这正是世界模型所要求的性质。

这里还有一个更深的教训。单层目标无法同时支撑局部与全局理解,这一事实暗示了世界建模中"表征"作为单一张量的标准概念是不充分的。真正的世界模型可能需要一种结构化的表征,显式地分离不同抽象层级的信息——正如人类视觉系统维持着"what"(腹侧通路)与"where"(背侧通路)的并行处理流。V-JEPA 2.1 的多层融合是朝这一方向迈出的一步,尽管它仍然将所有信息投影到单一融合表征中,而非维持结构性的分离。


创新点 3:Multi-Modal Tokenizer(多模态分词器)

V-JEPA 2 对图像和视频使用同一个 3D 卷积 tokenizer。图像沿时间维度复制 16 次以匹配视频处理流水线——这一变通方案引入了错误的时序冗余并浪费了计算。静态图像(所有信息都是空间的)的最优 tokenization 与视频片段(时序冗余允许更激进的压缩)有着根本差异。

V-JEPA 2.1 通过专用 tokenizer 解决了这一问题:

ModalityTokenizerKernel SizeTubelet SizeOutput
ImagePatchEmbed3D16 × 161Spatial tokens only (1 frame)
VideoPatchEmbed3D16 × 162Spatial-temporal tokens

二者投影到相同的嵌入空间,确保了兼容性。此外,encoder 和 predictor 的输入中加入了模态可学习 token,显式编码输入来自图像还是视频通路。这些模态嵌入以极小的尺度初始化(std=1e-6),暗示模态信号是渐进学习的,而非强制注入。图像和视频不会在同一 mini-batch 中混合——50% 的 GPU 处理图像,50% 处理视频,梯度在所有 rank 之间聚合。

位置编码使用3D Rotary Positional Embeddings(RoPE,跨越空间和时间两个维度,并辅以可学习的模态嵌入。

这一设计隐含了一个概念性推论。单 tokenizer 方案隐式地假设同一个潜在空间对静态预测和动态预测都是最优的。双 tokenizer 设计的成功暗示了另一种可能:空间预测(这个位置有什么?)的潜在空间与时序预测(接下来会发生什么?)的潜在空间可能具有不同的最优几何结构。共享嵌入空间确保了互操作性,而独立的 tokenizer 允许每种模态沿着信息量最大的维度映射到该空间。


创新点 4:Data, Scaling, and Cool-Down(数据、规模与冷却)

VisionMix-163M

V-JEPA 2.1 用 VisionMix-163M 替代了 V-JEPA 2 的 VideoMix-22M,数据构成发生了根本变化:

SourceTypeV-JEPA 2 WeightV-JEPA 2.1 Weight
SSv2Ego-video0.0560.170
KineticsExo-video0.1880.010
HowTo100MExo-video0.3180.100
ImageNetImages0.2500 (removed)
YT-1BExo-video0.1880.720
LVD-142MCurated images0 (new)

这些权重调整是精心设计的:第一人称视角视频(SSv2)的权重提高了 3 倍,以强调与具身任务相关的 egocentric 视角;大规模未策展视频(YT-1B)占据主导地位,提供纯粹的多样性;ImageNet 被完全移除,以避免与视频理解冲突的静态图像偏置;LVD-142M 提供高质量的策展图像数据,而不带 ImageNet 的分类标签偏置。

两阶段训练

训练分为两个阶段:

阶段 1(主训练): 在 VisionMix-163M 上进行 135,000 次迭代(1000 epochs × 300 ipe),视频片段为 16 帧、256 × 256,图像为 256 × 256。图像和视频样本被分配到独立的 GPU 组(50/50 分割,rank_ratio=0.5),从不混合在同一 mini-batch 中,每次迭代后在所有 rank 之间聚合梯度。学习率遵循 warmup-constant 调度:从 10410^{-4} warmup 40 个 epoch 至 6×1046 \times 10^{-4},之后保持恒定。Weight decay: 0.04(余弦调度)。EMA: 固定为 0.99925(无 ramp)。混合精度: bfloat16。

阶段 2(Cool-Down): 12,000 次迭代,更高分辨率和更长时序上下文:64 帧视频片段、384 × 384,图像 512 × 512。关键的是,距离加权在 cool-down 中被禁用weight_distance_loss: false),学习率从 6×1046 \times 10^{-4} 衰减至 10610^{-6}。Cool-down 将时序感受野从 16 帧扩展至 64 帧,空间分辨率提高 50%,使密集特征在部署相关的尺度上得到精炼。

模型规模

V-JEPA 2.1 的最大模型为 ViT-Gigantic(2B 参数,embed_dim=1664,48 层,26 头):

ModelParametersembed_dimDepthHeadsIN-1KSSv2ADE20KNYUv2 RMSE
ViT-L (student)300M1024241681.672.641.40.415
ViT-g1B1408401684.876.947.80.350
ViT-G2B1664482685.577.747.90.307

蒸馏使用冻结的 ViT-G teacher 训练紧凑的 ViT-B 和 ViT-L student。蒸馏仅在 teacher 的最后一层施加损失——不包含深层自监督——predictor 使用 12 个 block 加一个最终线性层以匹配 teacher 的嵌入维度。

累积消融实验

Figure 5: Ablation recipe showing the cumulative effect of each component on segmentation and classification metrics.

完整的消融实验(Table 1, ViT-L → ViT-G)展示了完整的演进轨迹:

ConfigurationIN-1KSSv2NYUv2 ↓ADE20K
V-JEPA 2 baseline82.272.80.68222.2
+ Context loss (weighted, warmup)72.662.50.47433.8
+ Deep self-supervision80.872.10.46338.6
+ VisionMix-163M81.672.60.41840.8
+ Multi-modal tokenizer81.672.60.41541.4
+ Model scaling (ViT-G)84.876.10.36547.1
+ Cool-down85.577.70.30747.9

这一演进过程揭示了完整的故事。仅添加 context loss 以全局语义换取局部精度——SSv2 从 72.8 暴跌至 62.5 是最戏剧性的证据。深层自监督恢复了损失的语义,同时保留了大部分空间增益。VisionMix 和多模态 tokenizer 进一步推动了密集任务的提升。扩展至 ViT-G(2B)在所有指标上全面领先。Cool-down 阶段,特别是从 16 帧扩展至 64 帧,带来了深度估计(NYUv2: 0.365 → 0.307)和时序理解(SSv2: 76.1 → 77.7)的最终增益。

最终模型在 ImageNet 上反而超越了 V-JEPA 2 基线(85.5 vs. 82.2),尽管密集监督最初损害了全局性能。短期的权衡通过互补的创新被化解,最终在每一维度上都超越了基线。


架构总览

Figure 4: V-JEPA 2.1 architecture. Input images/videos are tokenized by modality-specific convolutions, augmented with 3D RoPE and modality embeddings. The x-encoder processes visible tokens and outputs multi-level embeddings (intermediate block outputs concatenated along channel dim). An MLP fuses these into a unified representation, which is combined with learnable mask tokens and fed to the predictor. The predictor produces multi-level predictions, and dual losses are applied: L1 on masked tokens and distance-weighted L1 on context tokens, both at all four encoder levels.

架构图清晰地展示了数据流:模态特定的 tokenization(视频使用 tubelet_size=2 的 3D Conv,图像使用 tubelet_size=1)→ 3D RoPE + 可学习模态嵌入(以 std=1e-6 初始化)→ x-encoder 在层 [11, 23, 37, 47] 提取层级 block 输出 → 每层独立 LayerNorm → 沿通道维度拼接(4×1664 = 6656 维)→ MLP 融合至 predictor_embed_dim(384)→ predictor(深度 24)在其自身层 [4, 11, 17, 23] 产生层级输出 → 在每一层级施加双重损失。目标 encoder(EMA teacher)提供监督目标,以固定动量 0.99925 更新:

θtarget0.99925θtarget+0.00075θcontext \theta_{\text{target}} \leftarrow 0.99925 \cdot \theta_{\text{target}} + 0.00075 \cdot \theta_{\text{context}}

代码库中的值得注意的实现细节:(1)所有 Transformer block 使用权重重缩放 weight÷2(l+1)\text{weight} \div \sqrt{2(l+1)} 以维持 Post-LN 稳定性;(2)异常检测机制(loss_reg_std_mult)可在损失超出均值 + n×stdn \times \text{std} 的尾随损失时跳过优化器步骤;(3)predictor 在 predict_all=True 时为 masked token 和 context token 使用独立的投影头。


Dense Features 与深度估计:V-JEPA 2.1 — Depth Anything 3 的连接

V-JEPA 2.1 最引人注目的结果是深度估计的改善:NYUv2 RMSE 从 0.682 降至 0.307——降低了 55%,远超分割的提升(ADE20K: 22.2 → 47.9)和分类的增益(IN-1K: 82.2 → 85.5)。这并非偶然。密集特征与深度估计之间有着深层结构联系,V-JEPA 2.1 从一侧照亮了这种联系,而 Depth Anything 3(DA3)从另一侧照亮了它。

从表征到度量

V-JEPA 2.1 学习了保留空间信息的表征。位置 (x,y)(x, y) 处的 dense feature 编码了该位置视觉内容的某些信息——它是空间特定的。但"空间特定"并不等于"几何精确"。特征告诉你这个像素与邻域不同,它属于某个语义类别,它靠近物体边界,但它不告诉你该像素处到表面的距离。

DA3 从 V-JEPA 2.1 停下的地方出发。它将空间感知的视觉特征转化为每个像素的一个几何量:depth-ray dd,其中 3D 点参数化为 P=o+dr^P = o + d \cdot \hat{r}(原点 + 深度 × 方向)。depth-ray 是几何结构的最小充分统计量——其余的一切(位姿、多视图重建、新视角合成)都可以从中推导。

二者的关系一目了然:

V-JEPA 2.1Depth Anything 3
输出Dense latent features(高维)每像素 depth-ray(标量)
保留的信息空间特异性 + 语义内容几何结构
丢弃的信息精确的度量几何语义类别信息
监督方式自监督(无标签)几何监督(深度图)
核心洞察空间精度必须被工程化深度是最小的几何表征

V-JEPA 2.1 表明空间精度并非从自监督预测中自发涌现——它需要显式的归纳偏置(dense loss、deep self-supervision、warmup)。DA3 表明一旦你拥有了空间精确的特征,最紧凑的几何摘要就是每个像素一个标量。这两个结果是互补的:V-JEPA 2.1 提供了使深度估计成为可能的前深度表征,DA3 提供了使几何推理变得可行的后深度表征。

深度估计管线作为证据

考察下游深度估计的结果。V-JEPA 2.1 在 NYUv2 和 KITTI 深度估计上的评估使用冻结的 encoder 加一个简单的 probe head。该 probe 在预训练期间没有接受任何几何监督——它仅仅学习从 V-JEPA 2.1 的 dense features 到度量深度的线性映射。这一映射在 NYUv2 上达到 RMSE 0.307(相比之下 V-JEPA 2 为 0.682),意味着 V-JEPA 2.1 的特征编码了足够的空间信息,可以通过线性读出推断深度。

这值得深思。模型在训练中从未见过深度图。它学习的是在潜在空间中预测 masked token。然而其特征包含了足够的几何信息来准确估计深度。这暗示 dense features 隐式编码了场景的某种三维结构信息——表面朝向、遮挡边界、相对距离——尽管损失函数从未直接奖励几何理解。

DA3 使这种隐式知识显式化。与其将几何信息编码在一个需要 probe 提取的高维潜在空间中,DA3 直接预测 depth-ray,以深度图作为监督。depth-ray 是捕捉 V-JEPA 2.1 dense features 中隐式几何信息的最小表征。

为何 Dense Features 支撑深度估计(而全局特征不行)

V-JEPA 2 上深度估计失败,原因在于其特征缺乏空间特异性,而非模型缺乏容量。当每个 context token 编码相同的全局摘要时,probe 没有空间信号可以映射到深度。NYUv2 RMSE 0.682 反映了这一根本局限:在特征中缺乏空间变异的条件下,深度估计退化为预测场景的平均深度。

V-JEPA 2.1 的 dense features 修复了这一问题,使每个 token 对其局部邻域具有信息量。probe 现在可以区分不同空间位置的 token,并学习从局部外观到局部深度的映射。ADE20K 的提升(22.2 → 47.9)与 NYUv2 的提升(0.682 → 0.307)是同一底层变化的两种表现:特征现在保留了空间信息。

机器人抓取:Dense Features 与深度估计的交汇

V-JEPA 2.1 → DA3 连接最直接的证据来自机器人抓取。V-JEPA 2.1 在 Franka Panda 机器人上将抓取成功率从 60% 提升至 80%,且改善集中体现在相机深度轴方向。这正是 V-JEPA 2 坍缩特征无法编码的维度:从相机到物体的距离。Dense features 提供了推断深度所需的空间信息,而深度决定了沿相机 z 轴的抓取能否成功。

DA3 将此推进一步。V-JEPA 2.1 的特征通过学习到的 probe 支撑深度推断,而 DA3 直接输出深度场。在抓取管线中,V-JEPA 2.1 提供"理解"(语义分割、物体识别),DA3 提供"度量"(精确的度量深度)。二者组合形成完整的感知体系:V-JEPA 2.1 告诉机器人它看到的是什么,DA3 告诉它距离有多远

开放问题:Dense Features 能否替代深度监督?

V-JEPA 2.1 提出了一个诱人的问题:如果 dense features 隐式编码了深度信息,自监督预训练是否最终能替代显式的深度监督?目前的答案是否定的——V-JEPA 2.1 的深度估计仍落后于专用深度模型。但差距正在缩小。DA3 的 depth-ray 表征暗示,弥合差距的正确方式可能是设计潜在空间使 depth-ray 从表征中自然涌现,而非增加更多深度监督——正如物体分割从 DINOv2 的 attention map 中涌现一样。

这将是最终极的融合:一个通过自监督预测学习 dense features 的模型,且这些 dense features 的结构使得一个线性投影即可产生 depth-ray。V-JEPA 2.1 通过使特征空间精确迈出了第一步。DA3 定义了空间精度达到几何终局时的样貌。


V-JEPA 2.1 对世界模型的启示

LeCun 的赌注:在潜在空间中预测

LeCun 的 JEPA 宣言 [3] 提出了一个强主张:智能系统应当在学到的潜在空间中预测,而非在原始观测空间中。这一论证兼具经验与理论的双重支撑。经验上,预测像素的生成模型——VAE扩散模型、自回归图像 Transformer——在无关细节上耗费了巨大的模型容量。理论上,当表征丢弃了与预测任务无关的信息时,预测的信息论内容达到最大化。

V-JEPA 2 验证了这一主张。但 V-JEPA 2.1 揭示了一个关键的细微之处:哪个潜在空间至关重要,以及它必须保留什么。一个丢弃了所有空间信息的潜在空间仍然是一个有效的潜在空间——它只是不适合需要空间推理的任务。JEPA 框架保证了潜在空间保留与预测目标相关的信息,但如果目标仅涉及在粗粒度层级上预测 masked 区域,潜在空间将不会保留细粒度的空间细节。预测目标的选择并非中性的:它决定了潜在空间编码什么,进而决定了世界模型能理解什么。

涌现的迷思

自监督学习中有一个诱人的叙事:有用的属性会从正确的训练目标中自发涌现。训练一个模型去预测 masked token,故事这样讲,它就会学会分割物体、估计深度、追踪运动——全部无需显式监督。DINO 和 DINOv2 似乎验证了这一叙事。

V-JEPA 2.1 提供了针对这一叙事的决定性反证——至少在其最强形式上。V-JEPA 2 的 context token 坍缩为全局聚合器这一事实表明,标准的 masked prediction 目标并不会自发产生空间精确的特征。密集预测能力——分割、深度、检测——不会从仅奖励语义预测的损失函数中涌现。它必须被显式地设计。

这是 V-JEPA 2.1 的核心教训:损失函数的架构编码了关于何种信息重要的归纳偏置。如果你只监督 masked 区域,模型将学习全局特征。如果你需要局部特征,你必须局部地监督。模型不会自己发现这一点。

DINO 和 DINOv2 在产生 dense features 上的表面成功,现在可以被理解为其特定训练设计的结果——self-distillation、centering 和 sharpening 各自隐式地将表征偏向空间特异性。V-JEPA 2 缺乏这些偏置,因此其特征发生了坍缩。教训在于 dense features 的涌现依赖于训练目标的特定归纳偏置。

自动驾驶:Dense Features 的实践

V-JEPA 2.1 的能力直接映射到自动驾驶感知:

语义分割 — ADE20K mIoU 从 22.2 提升至 47.9。对于自动驾驶汽车而言,这意味着从一个几乎无法区分路面与天空的模型,进化为一个能够以可用精度分割可行驶路面、人行道、车道标线和障碍物的模型。

深度估计 — NYUv2 RMSE 从 0.682 降至 0.307,KITTI 从 4.650 降至 2.461。KITTI 的改善尤为关键:它反映了户外、驾驶相关的深度估计,47% 的 RMSE 降低意味着障碍物距离估计的显著提升。

视频物体分割 — DAVIS-S 从 52.5 提升至 69.0,YT-VOS-S 从 53.7 提升至 72.7。这些提升对应动态障碍物追踪能力——在遮挡和外观变化下,跨帧维持行人或车辆的精确 mask。

机器人抓取 — 抓取成功率从 60% 提升至 80%,且改善集中在相机深度轴方向。这证实了 dense features 编码了精确空间交互所需的深度信息。

导航规划 — TartanDrive 基准:ViT-g 在 10.6 秒内达到 ATE 2.975,而 NWM 在 103.2 秒内 ATE 为 3.032。V-JEPA 2.1 快了 10 倍,因为它在潜在空间中预测而非渲染未来帧,且更准确因为其 dense features 捕获了空间地形结构。

局限与开放问题

V-JEPA 2.1 并非没有局限。基于距离的加权损失假设了规则的空间网格,使其扩展到不规则表征(LiDAR 点云)并非易事。“到 mask 边界的距离"这一概念在非结构化点云中没有直接的类比,λ/d\lambda / \sqrt{d} 加权策略依赖于网格的规则性。

更深层的困难是,V-JEPA 2.1 并未解决世界建模的时序维度。Dense features 改善了帧内的空间精度,但它们本身并不保证跨帧的时序一致性。世界模型不仅要预测什么在哪里,还要预测它将如何运动。Cool-down 阶段(64 帧)提供了更长的时序上下文,但并未从根本上改变帧内空间聚焦的范式。将密集预测从空间扩展到时空仍是一个开放的研究方向。


结论

V-JEPA 2.1 证明了密集视觉特征是工程化的成果,而非自监督学习的涌现属性。四项创新——dense predictive loss(λ=0.5\lambda=0.5 加距离加权与 warmup)、deep self-supervision(4 层多层融合)、multi-modal tokenization(2D/3D Conv + 模态 token)、以及 scaling + cool-down(ViT-G 2B, 64 帧 384px)——每一项都针对 V-JEPA 2 基线的一个特定失败模式。

最重要的发现是它们共同揭示的原则:**空间精度与语义抽象是互补的,二者都必须被显式地工程化。**这一原则延伸到 V-JEPA 2.1 与 Depth Anything 3 的关系中。V-JEPA 2.1 提供了使几何推理成为可能的前深度表征;DA3 提供了使几何推理变得可行的后深度表征。Dense features 是语义理解与几何度量之间的桥梁——将特征提取器转化为世界模型的空间锚点。

LeCun 关于预测应在潜在空间中进行的论断是正确的。但 V-JEPA 2.1 表明,潜在空间必须被精心设计以保留物理推理所要求的信息。一个无法区分"这里"与"那里"的世界模型无法推理物理交互。Dense features 是第一步。Depth-ray 是它们通向的终点。

相关概念

  • Dense Feature 退化的另一个解法 — DINOv3 的 Gram Anchoring 与本文的 Dense Predictive Loss 是同一问题的两种解法,详见 DINOv3
  • Driving 上的应用综述 — V-JEPA 在 nuScenes / NAVSIM 等 driving benchmark 上的迁移结果与 causal future / motion-aware / temporal-coherent 三种 mask 变体的对比,详见 Driving JEPA 综述

References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

- [1] Mur-Labadia et al., “V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning,” arXiv:2603.14482, 2026.

- [2] Assran et al., “V-JEPA 2: Self-Supervised Video Pretraining with Scalable Features,” 2025.

- [3] LeCun, “A Path Towards Autonomous Machine Intelligence,” 2022.