V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题：全局语义与局部定位的断裂

Yann LeCun 将联合嵌入预测架构（JEPA）视为通向自主机器智能的核心路径 [3]，其基本假设优雅而有力：预测应当在潜在空间中进行，而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域，取得了令人瞩目的成果，在动作识别（Kinetics-400: 87.3%）和视频-文本检索任务上均达到了当时的最佳水平。

然而，地基上存在一道裂缝。当你检视 V-JEPA 2 的 context token 实际编码的内容——那些来自可见区域、作为预测基础的 token——你会发现一个令人不安的现象。主成分分析（PCA）显示，无论空间位置如何，这些 token 都坍缩为近乎相同的表征。帧左上角的 context token 与右下角的 context token 编码了实际上相同的信息。它们变成了全局聚合器，而非局部描述子。

Figure 1: PCA visualization comparing V-JEPA 2 and V-JEPA 2.1 features. V-JEPA 2’s features collapse into spatially uniform representations, while V-JEPA 2.1 produces spatially coherent, semantically consistent dense features.

对于一个世界模型而言，这是灾难性的。

物理世界是局部的。自动驾驶汽车前方的障碍物与头顶的天空无关。路面上像素 $(x, y)$ 处的深度由其邻域内的几何结构决定，而非全局的场景类别。一个无法区分"这里"与"那里"的表征，不可能支撑物理交互所要求的空间推理。它可以告诉你场景中有一辆车，但无法告诉你车在哪里、距离多远、是否正在靠近你。

这是损失函数的结构性局限。V-JEPA 2 采用 masked prediction 目标进行训练，仅 masked 区域的 token 参与损失计算：

\mathcal{L}_{\text{predict}} = \frac{1}{|M|}\sum_{i \in M} \| z_i - \hat{z}_i \|_1

其中 $M$ 为 masked token 索引集合， $z_i$ 为 EMA teacher 生成的目标表征， $\hat{z}_i$ 为 student predictor 的输出。损失在表征空间中以 L1 距离（Mean Absolute Error）计算，而非像素空间。context token——那些位于可见区域的 token——仅出现在条件侧，不承受任何直接监督。在缺少空间精确信息编码压力的情况下，模型选择了阻力最小的路径：context token 收敛为可见区域的全局摘要，因为全局摘要已足以预测 masked 区域的平均属性。

其后果是：模型在全局特征主导的语义任务——分类、检索、动作识别——上表现出色，但在需要空间精度的密集预测任务上遭遇灾难性失败。V-JEPA 2 (ViT-g, 1B) 在 ADE20K 语义分割上仅取得 22.2 mIoU，在 NYUv2 深度估计上 RMSE 为 0.682。你无法分割你无法定位的物体；你无法在无法区分相邻像素的条件下估计深度。

V-JEPA 2.1 [1] 正是为解决这一问题而设计。但正如我们将看到的，这一修复揭示了更深层的洞察——关于视觉表征的本质，关于构建真正的世界模型需要什么，以及空间精确特征与深度估计所提供的几何理解之间的深刻联系。

创新点 1：Dense Predictive Loss（密集预测损失）

最直接的干预也是最富启示性的：对每一个 token 施加监督，而非仅针对 masked token。V-JEPA 2.1 引入了 context loss $\mathcal{L}_{\text{ctx}}$ ，将预测目标扩展到可见的 context token，与标准的 masked prediction loss 并行：

\mathcal{L}_{\text{dense}} = \mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}}

然而，对每个 token 施加等权损失将适得其反。靠近 mask 边界的 context token 对预测最为关键——它们实质上定义了模型在可见与不可见之间需要跨越的鸿沟。远离边界的 context token 对预测任务的贡献较小，而在 V-JEPA 2 的无监督机制下，正是这些 token 最容易坍缩为全局聚合器。

V-JEPA 2.1 通过基于距离的加权策略解决了这一矛盾。对于每个 context token $i$ ，定义 $d_{\text{min}}(i, M)$ 为 token $i$ 到 masked 集合 $M$ 中任意 token 在三维时空坐标空间 $(t, h, w)$ 中的最小欧氏距离。token $i$ 被赋予的权重为：

\lambda_i = \frac{\lambda}{\sqrt{d_{\text{min}}(i, M)}}

其中 $\lambda = 0.5$ 为全局缩放系数，并从第 15,000 次迭代到第 30,000 次迭代进行线性 warmup（前 15K 次迭代以 $\lambda=0$ 训练，即纯 V-JEPA 2 模式）。代码使用 torch.cdist(p=2) 在 (frame, height, width) token 坐标空间中计算精确的 L2 距离——这是真正的三维欧氏距离，而非简单的 patch 计数。context loss 的完整形式为：

\mathcal{L}_{\text{ctx}} = \frac{1}{|C|}\sum_{i \in C} \lambda_i \| z_i - \hat{z}_i \|_1

其中 $C$ 表示可见（context）token 的集合。

Figure 3: PCA visualization of the effect of context loss. Left: original images. Middle: V-JEPA 2 features show fragmented, spatially incoherent structure. Right: adding L_ctx produces features with coherent spatial structure where semantically similar regions map to consistent PCA components.

这一加权策略的精妙之处在于其与自然图像信息结构的对齐。靠近 mask 边界的 token 具有较小的 $d_{\text{min}}$ ，获得较大的权重，迫使模型维持精确的局部特征。远离 mask 边界的 token 具有较大的 $d_{\text{min}}$ ，获得较小的权重，允许其编码更抽象的全局信息。平方根衰减提供了一种柔和的插值：权重随距离衰减，但衰减速率不至于使仅边界相邻的 token 受到影响。

Lambda 消融实验

$\lambda$ 的取值与加权策略的选择至关重要。论文的消融实验（Table 2, ViT-L）揭示了完整的格局：

$\lambda$	Scheme	Warmup	ADE20K mIoU	SSv2 Acc
0 (V-JEPA 2)	constant	—	22.2	72.8
0.05	constant	—	26.4	71.0
0.2	constant	—	29.6	62.5
0.5	constant	—	27.5	53.8
1.0	constant	—	24.6	51.1
0.2	constant	yes	30.5	60.5
0.5	constant	yes	32.2	61.5
0.5	weighted	yes	33.8	62.5

数据讲述了一个清晰的故事。在无 warmup 的条件下，增大 $\lambda$ 改善了密集任务（ADE20K: 22.2 → 29.6 at $\lambda=0.2$ ），但灾难性地损害了全局语义（SSv2: 72.8 → 62.5）。超过 $\lambda=0.2$ 后，即使是密集任务也开始退化，因为模型损失了过多的语义理解。Warmup 之所以有效，在于它允许模型先建立全局表征，再施加局部精度约束。加权策略结合 $\lambda=0.5$ 与 warmup 实现了最佳的密集性能（33.8 mIoU），同时保留了合理的全局性能（62.5 SSv2）——尽管全局性能的惩罚仍然显著。恢复这一差距需要下一个创新。

创新点 2：Deep Self-Supervision（深层自监督）

密集监督下全局语义性能的退化揭示了第二个结构性问题。V-JEPA 2 的预测目标来自 teacher（EMA）网络的最后一层。这是语义抽象度最高的表征——经过了最多计算步骤、拥有最广全局感受野的层。当 student 网络被迫在每个空间位置匹配这些目标时，它必须在编码局部细节（密集监督所奖励的）与匹配全局目标（预测损失所奖励的）之间做出取舍。

这反映了深度神经网络的一个根本性质：不同层编码不同类型的信息。在 Vision Transformer 中，早期层保留空间结构——attention map 是局部的，token 表征与其空间位置紧密绑定。随着深度增加，attention 模式逐渐扩大，token 表征与全局上下文的纠缠加深。到最后一层，每个 token 已多次 attend 到整幅图像，其表征编码了局部与全局信息的混合体，但严重偏向全局。

V-JEPA 2.1 的解决方案是从多个层提取监督信号，而非仅使用最后一层。特征从四个等间距的中间 encoder block 中提取，通过可学习的投影进行融合。对于 ViT-G（depth=48），选定的层为 [11, 23, 37, 47]；对于 ViT-L（depth=24），为 [5, 11, 17, 23]。四层输出沿通道维度拼接，每层独立 LayerNorm 后，由 MLP 压缩：

\tilde{z}_i = \text{MLP}\left(\bigoplus_{k=1}^{4} \text{LayerNorm}\left(z_i^{(l_k)}\right)\right)

其中 $\bigoplus$ 表示沿通道维度的拼接，MLP 将 $4 \times \text{embed\_dim}$ 投影到 predictor 的输入维度（ViT-G 为 384）。相应地，predictor 在其自身的层级 [4, 11, 17, 23]（depth=24）处产生四个输出，分别对应四个 encoder 层级。 $\mathcal{L}_{\text{predict}}$ 和 $\mathcal{L}_{\text{ctx}}$ 均在所有四个层级上施加。

效果是显著的。在需要细粒度时序推理的 Something-Something V2（SSv2）上，仅加入密集监督的 V-JEPA 2 从 72.8% 降至 62.5% top-1。加入深层自监督后性能恢复至 72.1%——恢复了 9.6 个百分点，几乎弥合了差距，同时进一步改善了密集任务（ADE20K: 33.8 → 38.6 mIoU）。

为何如此有效？Vision Transformer 的每一层在压缩-保留的权衡中处于不同的平衡点。早期层保留空间细节但缺乏语义抽象；后期层为获取语义内容而抽象掉了空间细节。通过同时从多层施加监督，模型被迫维持一个在多个抽象层级上都具有信息量的表征。student 无法忽略局部特征，因为早期层监督惩罚空间信息的丢失；也无法放弃全局语义，因为后期层监督持续提供语义一致性的压力。

深层自监督有效地解开了信息瓶颈。与其将所有有用信息挤压通过最后一层这个单一节点，不如打开多个通道，每个通道承载不同频率的信息。其结果是一个同时具备局部精确性与全局一致性的表征——这正是世界模型所要求的性质。

这里还有一个更深的教训。单层目标无法同时支撑局部与全局理解，这一事实暗示了世界建模中"表征"作为单一张量的标准概念是不充分的。真正的世界模型可能需要一种结构化的表征，显式地分离不同抽象层级的信息——正如人类视觉系统维持着"what"（腹侧通路）与"where"（背侧通路）的并行处理流。V-JEPA 2.1 的多层融合是朝这一方向迈出的一步，尽管它仍然将所有信息投影到单一融合表征中，而非维持结构性的分离。

V-JEPA 2 对图像和视频使用同一个 3D 卷积 tokenizer。图像沿时间维度复制 16 次以匹配视频处理流水线——这一变通方案引入了错误的时序冗余并浪费了计算。静态图像（所有信息都是空间的）的最优 tokenization 与视频片段（时序冗余允许更激进的压缩）有着根本差异。

V-JEPA 2.1 通过专用 tokenizer 解决了这一问题：

Modality	Tokenizer	Kernel Size	Tubelet Size	Output
Image	PatchEmbed3D	16 × 16	1	Spatial tokens only (1 frame)
Video	PatchEmbed3D	16 × 16	2	Spatial-temporal tokens

二者投影到相同的嵌入空间，确保了兼容性。此外，encoder 和 predictor 的输入中加入了模态可学习 token，显式编码输入来自图像还是视频通路。这些模态嵌入以极小的尺度初始化（std=1e-6），暗示模态信号是渐进学习的，而非强制注入。图像和视频不会在同一 mini-batch 中混合——50% 的 GPU 处理图像，50% 处理视频，梯度在所有 rank 之间聚合。

位置编码使用3D Rotary Positional Embeddings（RoPE），跨越空间和时间两个维度，并辅以可学习的模态嵌入。

这一设计隐含了一个概念性推论。单 tokenizer 方案隐式地假设同一个潜在空间对静态预测和动态预测都是最优的。双 tokenizer 设计的成功暗示了另一种可能：空间预测（这个位置有什么？）的潜在空间与时序预测（接下来会发生什么？）的潜在空间可能具有不同的最优几何结构。共享嵌入空间确保了互操作性，而独立的 tokenizer 允许每种模态沿着信息量最大的维度映射到该空间。

创新点 4：Data, Scaling, and Cool-Down（数据、规模与冷却）

VisionMix-163M

V-JEPA 2.1 用 VisionMix-163M 替代了 V-JEPA 2 的 VideoMix-22M，数据构成发生了根本变化：

Source	Type	V-JEPA 2 Weight	V-JEPA 2.1 Weight
SSv2	Ego-video	0.056	0.170
Kinetics	Exo-video	0.188	0.010
HowTo100M	Exo-video	0.318	0.100
ImageNet	Images	0.250	0 (removed)
YT-1B	Exo-video	0.188	0.720
LVD-142M	Curated images	—	0 (new)

这些权重调整是精心设计的：第一人称视角视频（SSv2）的权重提高了 3 倍，以强调与具身任务相关的 egocentric 视角；大规模未策展视频（YT-1B）占据主导地位，提供纯粹的多样性；ImageNet 被完全移除，以避免与视频理解冲突的静态图像偏置；LVD-142M 提供高质量的策展图像数据，而不带 ImageNet 的分类标签偏置。

两阶段训练

训练分为两个阶段：

阶段 1（主训练）： 在 VisionMix-163M 上进行 135,000 次迭代（1000 epochs × 300 ipe），视频片段为 16 帧、256 × 256，图像为 256 × 256。图像和视频样本被分配到独立的 GPU 组（50/50 分割，rank_ratio=0.5），从不混合在同一 mini-batch 中，每次迭代后在所有 rank 之间聚合梯度。学习率遵循 warmup-constant 调度：从 $10^{-4}$ warmup 40 个 epoch 至 $6 \times 10^{-4}$ ，之后保持恒定。Weight decay: 0.04（余弦调度）。EMA: 固定为 0.99925（无 ramp）。混合精度: bfloat16。

阶段 2（Cool-Down）： 12,000 次迭代，更高分辨率和更长时序上下文：64 帧视频片段、384 × 384，图像 512 × 512。关键的是，距离加权在 cool-down 中被禁用（weight_distance_loss: false），学习率从 $6 \times 10^{-4}$ 衰减至 $10^{-6}$ 。Cool-down 将时序感受野从 16 帧扩展至 64 帧，空间分辨率提高 50%，使密集特征在部署相关的尺度上得到精炼。

模型规模

V-JEPA 2.1 的最大模型为 ViT-Gigantic（2B 参数，embed_dim=1664，48 层，26 头）：

Model	Parameters	embed_dim	Depth	Heads	IN-1K	SSv2	ADE20K	NYUv2 RMSE
ViT-L (student)	300M	1024	24	16	81.6	72.6	41.4	0.415
ViT-g	1B	1408	40	16	84.8	76.9	47.8	0.350
ViT-G	2B	1664	48	26	85.5	77.7	47.9	0.307

蒸馏使用冻结的 ViT-G teacher 训练紧凑的 ViT-B 和 ViT-L student。蒸馏仅在 teacher 的最后一层施加损失——不包含深层自监督——predictor 使用 12 个 block 加一个最终线性层以匹配 teacher 的嵌入维度。

累积消融实验

Figure 5: Ablation recipe showing the cumulative effect of each component on segmentation and classification metrics.

完整的消融实验（Table 1, ViT-L → ViT-G）展示了完整的演进轨迹：

Configuration	IN-1K	SSv2	NYUv2 ↓	ADE20K
V-JEPA 2 baseline	82.2	72.8	0.682	22.2
+ Context loss (weighted, warmup)	72.6	62.5	0.474	33.8
+ Deep self-supervision	80.8	72.1	0.463	38.6
+ VisionMix-163M	81.6	72.6	0.418	40.8
+ Multi-modal tokenizer	81.6	72.6	0.415	41.4
+ Model scaling (ViT-G)	84.8	76.1	0.365	47.1
+ Cool-down	85.5	77.7	0.307	47.9

这一演进过程揭示了完整的故事。仅添加 context loss 以全局语义换取局部精度——SSv2 从 72.8 暴跌至 62.5 是最戏剧性的证据。深层自监督恢复了损失的语义，同时保留了大部分空间增益。VisionMix 和多模态 tokenizer 进一步推动了密集任务的提升。扩展至 ViT-G（2B）在所有指标上全面领先。Cool-down 阶段，特别是从 16 帧扩展至 64 帧，带来了深度估计（NYUv2: 0.365 → 0.307）和时序理解（SSv2: 76.1 → 77.7）的最终增益。

最终模型在 ImageNet 上反而超越了 V-JEPA 2 基线（85.5 vs. 82.2），尽管密集监督最初损害了全局性能。短期的权衡通过互补的创新被化解，最终在每一维度上都超越了基线。

架构总览

架构图清晰地展示了数据流：模态特定的 tokenization（视频使用 tubelet_size=2 的 3D Conv，图像使用 tubelet_size=1）→ 3D RoPE + 可学习模态嵌入（以 std=1e-6 初始化）→ x-encoder 在层 [11, 23, 37, 47] 提取层级 block 输出 → 每层独立 LayerNorm → 沿通道维度拼接（4×1664 = 6656 维）→ MLP 融合至 predictor_embed_dim（384）→ predictor（深度 24）在其自身层 [4, 11, 17, 23] 产生层级输出 → 在每一层级施加双重损失。目标 encoder（EMA teacher）提供监督目标，以固定动量 0.99925 更新：

\theta_{\text{target}} \leftarrow 0.99925 \cdot \theta_{\text{target}} + 0.00075 \cdot \theta_{\text{context}}

代码库中的值得注意的实现细节：（1）所有 Transformer block 使用权重重缩放 $\text{weight} \div \sqrt{2(l+1)}$ 以维持 Post-LN 稳定性；（2）异常检测机制（loss_reg_std_mult）可在损失超出均值 + $n \times \text{std}$ 的尾随损失时跳过优化器步骤；（3）predictor 在 predict_all=True 时为 masked token 和 context token 使用独立的投影头。

Dense Features 与深度估计：V-JEPA 2.1 — Depth Anything 3 的连接

V-JEPA 2.1 最引人注目的结果是深度估计的改善：NYUv2 RMSE 从 0.682 降至 0.307——降低了 55%，远超分割的提升（ADE20K: 22.2 → 47.9）和分类的增益（IN-1K: 82.2 → 85.5）。这并非偶然。密集特征与深度估计之间有着深层结构联系，V-JEPA 2.1 从一侧照亮了这种联系，而 Depth Anything 3（DA3）从另一侧照亮了它。

从表征到度量

V-JEPA 2.1 学习了保留空间信息的表征。位置 $(x, y)$ 处的 dense feature 编码了该位置视觉内容的某些信息——它是空间特定的。但"空间特定"并不等于"几何精确"。特征告诉你这个像素与邻域不同，它属于某个语义类别，它靠近物体边界，但它不告诉你该像素处到表面的距离。

DA3 从 V-JEPA 2.1 停下的地方出发。它将空间感知的视觉特征转化为每个像素的一个几何量：depth-ray $d$ ，其中 3D 点参数化为 $P = o + d \cdot \hat{r}$ （原点 + 深度 × 方向）。depth-ray 是几何结构的最小充分统计量——其余的一切（位姿、多视图重建、新视角合成）都可以从中推导。

二者的关系一目了然：

	V-JEPA 2.1	Depth Anything 3
输出	Dense latent features（高维）	每像素 depth-ray（标量）
保留的信息	空间特异性 + 语义内容	几何结构
丢弃的信息	精确的度量几何	语义类别信息
监督方式	自监督（无标签）	几何监督（深度图）
核心洞察	空间精度必须被工程化	深度是最小的几何表征

V-JEPA 2.1 表明空间精度并非从自监督预测中自发涌现——它需要显式的归纳偏置（dense loss、deep self-supervision、warmup）。DA3 表明一旦你拥有了空间精确的特征，最紧凑的几何摘要就是每个像素一个标量。这两个结果是互补的：V-JEPA 2.1 提供了使深度估计成为可能的前深度表征，DA3 提供了使几何推理变得可行的后深度表征。

深度估计管线作为证据

考察下游深度估计的结果。V-JEPA 2.1 在 NYUv2 和 KITTI 深度估计上的评估使用冻结的 encoder 加一个简单的 probe head。该 probe 在预训练期间没有接受任何几何监督——它仅仅学习从 V-JEPA 2.1 的 dense features 到度量深度的线性映射。这一映射在 NYUv2 上达到 RMSE 0.307（相比之下 V-JEPA 2 为 0.682），意味着 V-JEPA 2.1 的特征编码了足够的空间信息，可以通过线性读出推断深度。

这值得深思。模型在训练中从未见过深度图。它学习的是在潜在空间中预测 masked token。然而其特征包含了足够的几何信息来准确估计深度。这暗示 dense features 隐式编码了场景的某种三维结构信息——表面朝向、遮挡边界、相对距离——尽管损失函数从未直接奖励几何理解。

DA3 使这种隐式知识显式化。与其将几何信息编码在一个需要 probe 提取的高维潜在空间中，DA3 直接预测 depth-ray，以深度图作为监督。depth-ray 是捕捉 V-JEPA 2.1 dense features 中隐式几何信息的最小表征。

为何 Dense Features 支撑深度估计（而全局特征不行）

V-JEPA 2 上深度估计失败，原因在于其特征缺乏空间特异性，而非模型缺乏容量。当每个 context token 编码相同的全局摘要时，probe 没有空间信号可以映射到深度。NYUv2 RMSE 0.682 反映了这一根本局限：在特征中缺乏空间变异的条件下，深度估计退化为预测场景的平均深度。

V-JEPA 2.1 的 dense features 修复了这一问题，使每个 token 对其局部邻域具有信息量。probe 现在可以区分不同空间位置的 token，并学习从局部外观到局部深度的映射。ADE20K 的提升（22.2 → 47.9）与 NYUv2 的提升（0.682 → 0.307）是同一底层变化的两种表现：特征现在保留了空间信息。

机器人抓取：Dense Features 与深度估计的交汇

V-JEPA 2.1 → DA3 连接最直接的证据来自机器人抓取。V-JEPA 2.1 在 Franka Panda 机器人上将抓取成功率从 60% 提升至 80%，且改善集中体现在相机深度轴方向。这正是 V-JEPA 2 坍缩特征无法编码的维度：从相机到物体的距离。Dense features 提供了推断深度所需的空间信息，而深度决定了沿相机 z 轴的抓取能否成功。

DA3 将此推进一步。V-JEPA 2.1 的特征通过学习到的 probe 支撑深度推断，而 DA3 直接输出深度场。在抓取管线中，V-JEPA 2.1 提供"理解"（语义分割、物体识别），DA3 提供"度量"（精确的度量深度）。二者组合形成完整的感知体系：V-JEPA 2.1 告诉机器人它看到的是什么，DA3 告诉它距离有多远。

开放问题：Dense Features 能否替代深度监督？

V-JEPA 2.1 提出了一个诱人的问题：如果 dense features 隐式编码了深度信息，自监督预训练是否最终能替代显式的深度监督？目前的答案是否定的——V-JEPA 2.1 的深度估计仍落后于专用深度模型。但差距正在缩小。DA3 的 depth-ray 表征暗示，弥合差距的正确方式可能是设计潜在空间使 depth-ray 从表征中自然涌现，而非增加更多深度监督——正如物体分割从 DINOv2 的 attention map 中涌现一样。

这将是最终极的融合：一个通过自监督预测学习 dense features 的模型，且这些 dense features 的结构使得一个线性投影即可产生 depth-ray。V-JEPA 2.1 通过使特征空间精确迈出了第一步。DA3 定义了空间精度达到几何终局时的样貌。

V-JEPA 2.1 对世界模型的启示

LeCun 的赌注：在潜在空间中预测

LeCun 的 JEPA 宣言 [3] 提出了一个强主张：智能系统应当在学到的潜在空间中预测，而非在原始观测空间中。这一论证兼具经验与理论的双重支撑。经验上，预测像素的生成模型——VAE、扩散模型、自回归图像 Transformer——在无关细节上耗费了巨大的模型容量。理论上，当表征丢弃了与预测任务无关的信息时，预测的信息论内容达到最大化。

V-JEPA 2 验证了这一主张。但 V-JEPA 2.1 揭示了一个关键的细微之处：哪个潜在空间至关重要，以及它必须保留什么。一个丢弃了所有空间信息的潜在空间仍然是一个有效的潜在空间——它只是不适合需要空间推理的任务。JEPA 框架保证了潜在空间保留与预测目标相关的信息，但如果目标仅涉及在粗粒度层级上预测 masked 区域，潜在空间将不会保留细粒度的空间细节。预测目标的选择并非中性的：它决定了潜在空间编码什么，进而决定了世界模型能理解什么。

涌现的迷思

自监督学习中有一个诱人的叙事：有用的属性会从正确的训练目标中自发涌现。训练一个模型去预测 masked token，故事这样讲，它就会学会分割物体、估计深度、追踪运动——全部无需显式监督。DINO 和 DINOv2 似乎验证了这一叙事。

V-JEPA 2.1 提供了针对这一叙事的决定性反证——至少在其最强形式上。V-JEPA 2 的 context token 坍缩为全局聚合器这一事实表明，标准的 masked prediction 目标并不会自发产生空间精确的特征。密集预测能力——分割、深度、检测——不会从仅奖励语义预测的损失函数中涌现。它必须被显式地设计。

这是 V-JEPA 2.1 的核心教训：损失函数的架构编码了关于何种信息重要的归纳偏置。如果你只监督 masked 区域，模型将学习全局特征。如果你需要局部特征，你必须局部地监督。模型不会自己发现这一点。

DINO 和 DINOv2 在产生 dense features 上的表面成功，现在可以被理解为其特定训练设计的结果——self-distillation、centering 和 sharpening 各自隐式地将表征偏向空间特异性。V-JEPA 2 缺乏这些偏置，因此其特征发生了坍缩。教训在于 dense features 的涌现依赖于训练目标的特定归纳偏置。

自动驾驶：Dense Features 的实践

V-JEPA 2.1 的能力直接映射到自动驾驶感知：

语义分割 — ADE20K mIoU 从 22.2 提升至 47.9。对于自动驾驶汽车而言，这意味着从一个几乎无法区分路面与天空的模型，进化为一个能够以可用精度分割可行驶路面、人行道、车道标线和障碍物的模型。

深度估计 — NYUv2 RMSE 从 0.682 降至 0.307，KITTI 从 4.650 降至 2.461。KITTI 的改善尤为关键：它反映了户外、驾驶相关的深度估计，47% 的 RMSE 降低意味着障碍物距离估计的显著提升。

视频物体分割 — DAVIS-S 从 52.5 提升至 69.0，YT-VOS-S 从 53.7 提升至 72.7。这些提升对应动态障碍物追踪能力——在遮挡和外观变化下，跨帧维持行人或车辆的精确 mask。

机器人抓取 — 抓取成功率从 60% 提升至 80%，且改善集中在相机深度轴方向。这证实了 dense features 编码了精确空间交互所需的深度信息。

导航规划 — TartanDrive 基准：ViT-g 在 10.6 秒内达到 ATE 2.975，而 NWM 在 103.2 秒内 ATE 为 3.032。V-JEPA 2.1 快了 10 倍，因为它在潜在空间中预测而非渲染未来帧，且更准确因为其 dense features 捕获了空间地形结构。

局限与开放问题

V-JEPA 2.1 并非没有局限。基于距离的加权损失假设了规则的空间网格，使其扩展到不规则表征（LiDAR 点云）并非易事。“到 mask 边界的距离"这一概念在非结构化点云中没有直接的类比， $\lambda / \sqrt{d}$ 加权策略依赖于网格的规则性。

更深层的困难是，V-JEPA 2.1 并未解决世界建模的时序维度。Dense features 改善了帧内的空间精度，但它们本身并不保证跨帧的时序一致性。世界模型不仅要预测什么在哪里，还要预测它将如何运动。Cool-down 阶段（64 帧）提供了更长的时序上下文，但并未从根本上改变帧内空间聚焦的范式。将密集预测从空间扩展到时空仍是一个开放的研究方向。

结论

V-JEPA 2.1 证明了密集视觉特征是工程化的成果，而非自监督学习的涌现属性。四项创新——dense predictive loss（ $\lambda=0.5$ 加距离加权与 warmup）、deep self-supervision（4 层多层融合）、multi-modal tokenization（2D/3D Conv + 模态 token）、以及 scaling + cool-down（ViT-G 2B, 64 帧 384px）——每一项都针对 V-JEPA 2 基线的一个特定失败模式。

最重要的发现是它们共同揭示的原则：**空间精度与语义抽象是互补的，二者都必须被显式地工程化。**这一原则延伸到 V-JEPA 2.1 与 Depth Anything 3 的关系中。V-JEPA 2.1 提供了使几何推理成为可能的前深度表征；DA3 提供了使几何推理变得可行的后深度表征。Dense features 是语义理解与几何度量之间的桥梁——将特征提取器转化为世界模型的空间锚点。

LeCun 关于预测应在潜在空间中进行的论断是正确的。但 V-JEPA 2.1 表明，潜在空间必须被精心设计以保留物理推理所要求的信息。一个无法区分"这里"与"那里"的世界模型无法推理物理交互。Dense features 是第一步。Depth-ray 是它们通向的终点。

References

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

- [1] Mur-Labadia et al., “V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning,” arXiv:2603.14482, 2026.

- [2] Assran et al., “V-JEPA 2: Self-Supervised Video Pretraining with Scalable Features,” 2025.

- [3] LeCun, “A Path Towards Autonomous Machine Intelligence,” 2022.

核心问题：全局语义与局部定位的断裂#

创新点 1：Dense Predictive Loss（密集预测损失）#

Lambda 消融实验#

创新点 2：Deep Self-Supervision（深层自监督）#

创新点 3：Multi-Modal Tokenizer（多模态分词器）#

创新点 4：Data, Scaling, and Cool-Down（数据、规模与冷却）#

VisionMix-163M#

两阶段训练#

模型规模#

累积消融实验#

架构总览#

Dense Features 与深度估计：V-JEPA 2.1 — Depth Anything 3 的连接#

从表征到度量#

深度估计管线作为证据#

为何 Dense Features 支撑深度估计（而全局特征不行）#

机器人抓取：Dense Features 与深度估计的交汇#

开放问题：Dense Features 能否替代深度监督？#

V-JEPA 2.1 对世界模型的启示#

LeCun 的赌注：在潜在空间中预测#

涌现的迷思#

自动驾驶：Dense Features 的实践#

局限与开放问题#

结论#

相关概念#

References#

相关文章