一个被忽视的现象:规模越大,特征越差

自监督视觉学习的叙事长期以来被一个乐观的假设驱动:更大的模型、更多的数据、更长的训练,必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%,在 ADE20K 语义分割上达到 49.5 mIoU,证明了自监督学习的可扩展性 [1]

但当 DINOv3 团队将模型推进到 7B 参数、训练迭代从 500K 扩展到 1M 时,遇到了一个反直觉的现象:全局性能持续提升,但 dense feature 逐步退化。

ImageNet 分类准确率从 84% 稳步升至 88%——一切看起来正常。但在 Pascal VOC 语义分割(linear probe)上,mIoU 在训练中期达到峰值后开始下降。PCA 可视化揭示了退化机制:随着训练推进,patch 特征之间的区分度下降,相似性图谱变得噪声化——不同语义区域的 patch 特征开始"渗透"到彼此的空间中 [2]

这不是 DINOv3 独有的问题。V-JEPA 2 遭遇了同一现象的另一个版本:context token 在没有显式监督的情况下坍缩为全局聚合器,失去了空间定位能力 [3]。Web-DINO(7B 参数的 DINOv2 扩展)也报告了类似的退化 [2]。这似乎是自监督学习在大规模下的一个普遍性问题——全局语义和局部精度之间存在张力,而规模放大后全局语义总是赢家。


Gram Anchoring:用结构约束替代特征对齐

核心思想

DINOv3 的破局之道是一个反直觉的洞察:退化的是特征之间的结构关系,而非特征本身。

随着训练推进,单个 patch 的特征可能仍然编码了正确的语义信息,但不同 patch 之间的相似性结构被打乱了——本应相似的 patch(同一物体)变得不那么相似,本应不同的 patch(不同物体)变得不那么可区分。这像是地图上的城市坐标还在,但城市之间的距离关系被扭曲了。

Gram anchoring 的策略是:不约束特征值本身,只约束特征之间的结构关系。 具体而言,它将训练早期(dense feature 质量仍好时)的模型 checkpoint 作为 “Gram teacher”,约束学生模型 patch 特征的 Gram 矩阵与 teacher 对齐:

LGram=XSXSXGXGF2 \mathcal{L}_{\text{Gram}} = \| X_S X_S^\top - X_G X_G^\top \|_F^2

其中 XSRP×dX_S \in \mathbb{R}^{P \times d} 为学生模型的 L2L_2 归一化 patch 特征矩阵(PP 个 patch,dd 维特征),XGX_G 为 Gram teacher 的对应矩阵。XXX X^\top 即为 Gram 矩阵——一个 P×PP \times P 的矩阵,其 (i,j)(i,j) 元素为 patch ii 和 patch jj 特征的点积,衡量两个 patch 之间的语义相似度。

为什么是 Gram 矩阵而非特征本身

对齐特征本身(即 XSXG2\|X_S - X_G\|^2)会强制学生模型复制 teacher 的精确特征值,限制了特征空间的自由度。而 Gram 矩阵只约束 patch 之间的相对关系——“patch A 和 patch B 比 patch A 和 patch C 更相似”——而不要求具体的特征值。这允许模型在保持结构一致性的同时,继续优化全局语义表征。

这可以类比于风格迁移中的 Gram 矩阵约束 [4]:风格迁移不要求生成图像的每个像素与目标一致,只要求像素之间的统计关系(纹理、色彩分布)保持一致。DINOv3 将同一思想迁移到了特征空间——保持特征之间的"纹理",但不锁定特征的"像素"。

高分辨率 Gram Teacher

DINOv3 进一步发现:用高分辨率图像计算 Gram teacher 的特征,再下采样到学生模型的分辨率,可以显著提升 anchoring 效果。具体做法是将图像以 512×512512 \times 512(2 倍于训练分辨率)送入 Gram teacher,输出的特征图用双三次插值下采样至 256×256256 \times 256 对应的尺寸。

这背后的直觉是:高分辨率输入产生更精细的特征图,patch 之间的相似性结构更加锐利和一致。下采样保留了这个高质量结构,同时避免了高分辨率推理的巨大计算开销。

消融实验给出了清晰的证据 [2]

Gram Teacher 配置IN-1K LinearADE20K mIoUNYUv2 RMSE
无(Baseline)88.250.30.307
1× 分辨率, 200K 迭代88.053.60.285
2× 分辨率, 200K 迭代88.055.70.281
2× 分辨率, 100K 迭代87.955.70.284
2× 分辨率, 1M 迭代88.154.90.290

关键发现:(1) 2× 分辨率比 1× 在 ADE20K 上多 +2.1 mIoU;(2) 200K 迭代的早期 checkpoint 比 1M 迭代的更好——说明更早期的 dense feature 质量更高;(3) 全局分类(IN-1K)几乎不受影响(88.2→88.0),证实了 Gram anchoring 的核心承诺:提升 dense 性能的同时不牺牲全局性能。


7B 模型的训练工程

架构设计

DINOv3 的旗舰模型基于 ViT-7B,从 DINOv2 的 ViT-g (1.1B) 大幅扩展:

属性DINOv2 ViT-gDINOv3 ViT-7B
参数量1.1B6.7B
层数4040
嵌入维度15364096
注意力头2432
头维度64128
FFN 隐藏层40968192 (SwiGLU)
Patch 大小1416
位置编码可学习RoPE
DINO 原型数128K256K
iBOT 原型数128K96K

两个关键设计选择值得展开。

Patch 大小从 14 改为 16。 这看似微不足道,实则影响深远:在相同分辨率下,patch 16 产生的 token 数量更少(如 256×256256 \times 256 输入从 182=32418^2 = 324 降至 162=25616^2 = 256),降低了 self-attention 的计算成本。对于 7B 参数模型,这一节省至关重要——训练变得可行。

从可学习位置编码切换到 RoPE(旋转位置编码)。 RoPE 的优势在于天然支持可变分辨率推理——不需要在分辨率变化时插值位置编码。这使得 DINOv3 可以在 25625640964096 像素的输入上无缝工作,而无需任何适配。这也在高分辨率 Gram teacher 的实现中发挥了关键作用。

训练流程

DINOv3 的完整训练管线分为四个阶段:

阶段 1:主训练(1M 迭代)。 在 LVD-1689M(16.89 亿策展图像)+ 10% ImageNet-1K 上训练。使用 DINO self-distillation + iBOT masked prediction 双损失,常量学习率调度(非余弦衰减),batch size 在 256 个 H100 GPU 上约为 12K。

阶段 2:Gram Anchoring 精炼(~50K 迭代)。 在主训练完成后,引入 LGram\mathcal{L}_{\text{Gram}} 继续训练。Gram teacher 使用 200K 迭代的早期 checkpoint,2× 分辨率特征。这一阶段"修复"了退化后的 dense feature。

阶段 3:高分辨率适配(10K 迭代)。 混合分辨率训练(全局 crop 从 {512, 768},局部 crop 从 {112, 168, 224, 336}),同样包含 Gram anchoring。

阶段 4:多学生蒸馏。 将 7B teacher 蒸馏为 ViT-B/S/L/g 系列学生模型。创新点在于多学生并行蒸馏:所有学生共享 teacher 的前向推理结果(通过 all-gather 通信),每个学生组独立训练,最小化 GPU 闲置时间。


Dense Feature 的全维度验证

DINOv3 的核心主张是:Gram anchoring 使 7B 参数的自监督模型首次在 dense 任务上全面超越所有竞争者。 论文的 benchmark 结果支持了这一主张。

语义分割(Linear Probe,Frozen Backbone)

方法ViTADE20KCityscapesVOC
AM-RADIOv2.5g/1453.078.485.4
PEspatialG/1449.373.282.7
DINOv2g/1449.575.683.1
DINOv37B/1655.981.186.6

DINOv3 在 ADE20K 上比最强的 agglomerative 模型 AM-RADIOv2.5 高出 2.9 mIoU——而 AM-RADIOv2.5 是从 SAM(需要像素级标注训练)蒸馏而来的。一个纯自监督模型在 frozen backbone + linear probe 的设定下超越了使用像素级标注训练的蒸馏模型,这在几年前是不可想象的。

深度估计(Linear Probe)

方法NYUv2 RMSE↓KITTI RMSE↓
AM-RADIOv2.50.3402.918
DINOv20.3722.624
V-JEPA 2.1 ViT-G0.307
DINOv30.309 (baseline) / 0.281 (+Gram)2.346

与我们在 V-JEPA 2.1 博文 中分析的对比:V-JEPA 2.1 ViT-G (2B) 的 0.307 仅略优于 DINOv3 baseline 的 0.309,但 DINOv3 加上 Gram anchoring 后达到 0.281,拉开了显著差距。这印证了 Gram anchoring 的核心价值——它不只是"修补"退化,而是将 dense feature 推向了新的水平。

DINOv3 在 KITTI 上的优势更为明显(2.346 vs DINOv2 的 2.624),暗示其 dense feature 在户外驾驶场景中可能特别有价值。

3D 匹配与视频追踪

在 NAVI 3D keypoint matching 上,DINOv3 达到 64.4% recall,比 DINOv2 (60.1%) 高 4.3 个百分点,比 AM-RADIOv2.5 (59.4%) 高 5 个百分点。弱监督模型(PEcore、SigLIP2)在此任务上严重落后(39.9% 和 49.4%),说明自监督学习天然具有更强的 3D 感知能力——这一发现与我们在 2D→4D 演进 中的分析一致。

在 DAVIS 2017 视频分割追踪上,DINOv3 在高分辨率(L)设定下达到 83.3 J&F,比 DINOv2 高 6.7 个百分点。这证明了 dense feature 的时间一致性——即使 DINOv3 只在静态图像上训练,其 patch 特征在视频帧间仍然保持稳定的对应关系。


与 V-JEPA 2.1 的本质对比

DINOv3 和 V-JEPA 2.1 是当前自监督视觉表征的两个最强竞争者,它们在 dense feature 问题上采取了截然不同的策略。理解它们的差异对于把握视觉基模的技术走向至关重要。

训练范式的根本差异

DINO 系列基于 self-distillation:学生网络学习匹配教师网络的输出分布,教师网络是学生的 EMA 滑动平均。这是一种判别式训练范式——模型学习"这个 patch 应该被归类为什么"。

JEPA 系列基于 predictive coding:学生网络预测被 mask 区域的表征,目标来自独立的 EMA encoder。这是一种生成式训练范式——模型学习"如果这里有信息,它应该长什么样"。

这两种范式的差异直接影响了 dense feature 的退化机制和解决方案:

维度DINOv3 (Self-Distillation)V-JEPA 2.1 (Predictive Coding)
退化原因长训练下 patch 一致性丢失Context token 无监督→全局坍缩
退化表现特征图噪声化,相似性结构被打乱特征图空间均匀,所有 context token 相同
解决思路正则化结构(Gram)添加监督信号(context loss)
约束粒度Patch 之间的关系每个 patch 独立
灵活性高(只约束结构,不锁内容)中(特征必须匹配 target)

Depth 性能的深层对比

V-JEPA 2.1 的 dense predictive loss 从"预测压力"中获得了空间定位能力——模型被迫在每个位置做出精确预测,因此 context token 不能再当全局聚合器。这是一种自底向上的路径:从预测需求中涌现几何感知。

DINOv3 的 Gram anchoring 从"结构保持"中获得了空间一致性——模型被要求维持 patch 之间的相似性结构,因此特征图不能退化。这是一种自顶向下的路径:从结构约束中维护几何质量。

在 NYUv2 上的最终数字——V-JEPA 2.1 ViT-G (2B): 0.307, DINOv3 ViT-7B: 0.281——暗示在大规模下,自顶向下的结构约束可能比自底向上的预测压力更有效。一个可能的原因是:Gram anchoring 不强制特征匹配具体值,给予了模型更多自由度来优化全局+局部目标的同时满足。

互补还是竞争?

一个自然的假设是:两种方案能否叠加?V-JEPA 2.1 的 Lctx\mathcal{L}_{\text{ctx}} 提供逐 token 的监督信号,DINOv3 的 LGram\mathcal{L}_{\text{Gram}} 提供全局结构约束——前者精确但僵化,后者灵活但间接。理论上,两者的组合可能兼得精确性和灵活性。

但实践中存在一个根本障碍:DINO 和 JEPA 的训练范式不兼容。DINO 的 self-distillation 目标(匹配 EMA teacher 的输出分布)和 JEPA 的 predictive coding 目标(预测 masked 区域的表征)在梯度方向上可能冲突——前者鼓励特征在当前样本上"看起来正确",后者鼓励特征支持对未来样本的预测。如何在同一训练管线中协调这两种目标,是一个尚未解决的研究问题。


Dense Feature 退化的统一解释

DINOv3 和 V-JEPA 2.1 观察到的退化现象可以用一个统一框架来理解。

自监督训练的损失函数同时包含全局项和局部项。全局项(如 DINO 的 CLS token loss、V-JEPA 的 masked prediction loss)鼓励表征捕获场景的全局语义——“这张图里有一只狗”。局部项(如 iBOT 的 patch loss、V-JEPA 2.1 的 context loss)鼓励表征保留空间细节——“狗在图像左侧,面朝右”。

在训练初期,模型容量有限,全局项和局部项的方向大致一致——学好全局语义需要区分不同区域,这自然产生了局部结构。但随着训练推进和模型容量增大,全局项找到了更高效的解决方案——用少量维度编码全局信息,释放其余维度给噪声。这与信息瓶颈理论一致:在有限容量的约束下,模型倾向于保留与任务最相关的信息(全局语义),丢弃冗余信息(局部细节)。

Dense feature 退化是信息瓶颈下的最优解,而非训练 bug。 全局语义对分类有用,局部细节对分割有用——两者在目标函数中存在根本张力。V-JEPA 2.1 通过添加局部监督项打破了这一瓶颈,DINOv3 通过约束结构关系绕过了这一瓶颈。两种方案的本质是相同的:在信息瓶颈之外施加额外的局部约束,迫使模型不能丢弃空间细节。


开放问题

Gram teacher 的选择依赖人工判断。 当前 Gram teacher 取自 200K 迭代的 checkpoint,这一选择基于经验观察——更早的 checkpoint dense feature 更好。但如何自动化这一选择?理论上,最优的 Gram teacher 应该在全局性能开始压制局部性能的那个时间点——但这个时间点本身需要 dense 任务的评估来确定,形成了循环依赖。

与 JEPA 范式的融合。 如前所述,DINO 的 self-distillation 和 JEPA 的 predictive coding 在梯度方向上可能冲突。但在 2D→4D 演进 的框架下,两者又是互补的:DINO 提供最强的静态 dense feature,JEPA 提供时序预测能力。如何将两者统一到一个训练管线中,可能是通往 4D 世界模型的关键一步。

Depth probe 的局限性。 DINOv3 的深度估计能力通过 linear probe 评估——在 frozen backbone 之上训练一个线性层预测深度。这证明了 dense feature 中"包含"深度信息,但不等于模型"理解"了深度。真正的几何理解可能需要像 DA3 那样将 depth-ray 作为核心预测目标,而非通过 linear probe 间接验证。DINOv3 在 NAVI 3D keypoint matching 上的强表现(64.4% recall)暗示其 dense feature 确实编码了 3D 结构信息,但如何将这种隐式编码转化为显式几何推理,仍是开放问题。

相关概念

  • RoPE位置编码 — DINOv3从可学习位置编码切换到RoPE支持可变分辨率,详见RoPE几何本质
  • 自监督vs有监督 — Pixo用20亿像素有监督挑战自监督方法,详见何恺明Flow Matching突破

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

[1] Oquab, M., et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR, 2024.

[2] Siméoni, O., Vo, H.V., Seitzer, M., et al. DINOv3: Versatile Vision Foundation Models. arXiv:2508.10104, 2025.

[3] Mur-Labadia, L., Muckley, M., Bar, A., et al. V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482, 2026.

[4] Gatys, L.A., Ecker, A.S., Bethge, M. Image Style Transfer Using Convolutional Neural Networks. CVPR 2016.

[5] Caron, M., et al. Emerging Properties in Self-Supervised Vision Transformers. ICCV 2021.

[6] Depth Anything Model Team. Depth Anything 3: Unifying Monocular Depth Estimation, 3D Reconstruction, Pose Estimation and Novel View Synthesis with Depth-Ray Representation. 2025.