DINOv3：自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象：规模越大，特征越差

自监督视觉学习的叙事长期以来被一个乐观的假设驱动：更大的模型、更多的数据、更长的训练，必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%，在 ADE20K 语义分割上达到 49.5 mIoU，证明了自监督学习的可扩展性 [1]。

但当 DINOv3 团队将模型推进到 7B 参数、训练迭代从 500K 扩展到 1M 时，遇到了一个反直觉的现象：全局性能持续提升，但 dense feature 逐步退化。

ImageNet 分类准确率从 84% 稳步升至 88%——一切看起来正常。但在 Pascal VOC 语义分割（linear probe）上，mIoU 在训练中期达到峰值后开始下降。PCA 可视化揭示了退化机制：随着训练推进，patch 特征之间的区分度下降，相似性图谱变得噪声化——不同语义区域的 patch 特征开始"渗透"到彼此的空间中 [2]。

这不是 DINOv3 独有的问题。V-JEPA 2 遭遇了同一现象的另一个版本：context token 在没有显式监督的情况下坍缩为全局聚合器，失去了空间定位能力 [3]。Web-DINO（7B 参数的 DINOv2 扩展）也报告了类似的退化 [2]。这似乎是自监督学习在大规模下的一个普遍性问题——全局语义和局部精度之间存在张力，而规模放大后全局语义总是赢家。

Gram Anchoring：用结构约束替代特征对齐

核心思想

DINOv3 的破局之道是一个反直觉的洞察：退化的是特征之间的结构关系，而非特征本身。

随着训练推进，单个 patch 的特征可能仍然编码了正确的语义信息，但不同 patch 之间的相似性结构被打乱了——本应相似的 patch（同一物体）变得不那么相似，本应不同的 patch（不同物体）变得不那么可区分。这像是地图上的城市坐标还在，但城市之间的距离关系被扭曲了。

Gram anchoring 的策略是：不约束特征值本身，只约束特征之间的结构关系。 具体而言，它将训练早期（dense feature 质量仍好时）的模型 checkpoint 作为 “Gram teacher”，约束学生模型 patch 特征的 Gram 矩阵与 teacher 对齐：

\mathcal{L}_{\text{Gram}} = \| X_S X_S^\top - X_G X_G^\top \|_F^2

其中 $X_S \in \mathbb{R}^{P \times d}$ 为学生模型的 $L_2$ 归一化 patch 特征矩阵（ $P$ 个 patch， $d$ 维特征）， $X_G$ 为 Gram teacher 的对应矩阵。 $X X^\top$ 即为 Gram 矩阵——一个 $P \times P$ 的矩阵，其 $(i,j)$ 元素为 patch $i$ 和 patch $j$ 特征的点积，衡量两个 patch 之间的语义相似度。

为什么是 Gram 矩阵而非特征本身

对齐特征本身（即 $\|X_S - X_G\|^2$ ）会强制学生模型复制 teacher 的精确特征值，限制了特征空间的自由度。而 Gram 矩阵只约束 patch 之间的相对关系——“patch A 和 patch B 比 patch A 和 patch C 更相似”——而不要求具体的特征值。这允许模型在保持结构一致性的同时，继续优化全局语义表征。

这可以类比于风格迁移中的 Gram 矩阵约束 [4]：风格迁移不要求生成图像的每个像素与目标一致，只要求像素之间的统计关系（纹理、色彩分布）保持一致。DINOv3 将同一思想迁移到了特征空间——保持特征之间的"纹理"，但不锁定特征的"像素"。

高分辨率 Gram Teacher

DINOv3 进一步发现：用高分辨率图像计算 Gram teacher 的特征，再下采样到学生模型的分辨率，可以显著提升 anchoring 效果。具体做法是将图像以 $512 \times 512$ （2 倍于训练分辨率）送入 Gram teacher，输出的特征图用双三次插值下采样至 $256 \times 256$ 对应的尺寸。

这背后的直觉是：高分辨率输入产生更精细的特征图，patch 之间的相似性结构更加锐利和一致。下采样保留了这个高质量结构，同时避免了高分辨率推理的巨大计算开销。

消融实验给出了清晰的证据 [2]：

Gram Teacher 配置	IN-1K Linear	ADE20K mIoU	NYUv2 RMSE
无（Baseline）	88.2	50.3	0.307
1× 分辨率, 200K 迭代	88.0	53.6	0.285
2× 分辨率, 200K 迭代	88.0	55.7	0.281
2× 分辨率, 100K 迭代	87.9	55.7	0.284
2× 分辨率, 1M 迭代	88.1	54.9	0.290

关键发现：(1) 2× 分辨率比 1× 在 ADE20K 上多 +2.1 mIoU；(2) 200K 迭代的早期 checkpoint 比 1M 迭代的更好——说明更早期的 dense feature 质量更高；(3) 全局分类（IN-1K）几乎不受影响（88.2→88.0），证实了 Gram anchoring 的核心承诺：提升 dense 性能的同时不牺牲全局性能。

7B 模型的训练工程

架构设计

DINOv3 的旗舰模型基于 ViT-7B，从 DINOv2 的 ViT-g (1.1B) 大幅扩展：

属性	DINOv2 ViT-g	DINOv3 ViT-7B
参数量	1.1B	6.7B
层数	40	40
嵌入维度	1536	4096
注意力头	24	32
头维度	64	128
FFN 隐藏层	4096	8192 (SwiGLU)
Patch 大小	14	16
位置编码	可学习	RoPE
DINO 原型数	128K	256K
iBOT 原型数	128K	96K

两个关键设计选择值得展开。

Patch 大小从 14 改为 16。 这看似微不足道，实则影响深远：在相同分辨率下，patch 16 产生的 token 数量更少（如 $256 \times 256$ 输入从 $18^2 = 324$ 降至 $16^2 = 256$ ），降低了 self-attention 的计算成本。对于 7B 参数模型，这一节省至关重要——训练变得可行。

从可学习位置编码切换到 RoPE（旋转位置编码）。 RoPE 的优势在于天然支持可变分辨率推理——不需要在分辨率变化时插值位置编码。这使得 DINOv3 可以在 $256$ 到 $4096$ 像素的输入上无缝工作，而无需任何适配。这也在高分辨率 Gram teacher 的实现中发挥了关键作用。

训练流程

DINOv3 的完整训练管线分为四个阶段：

阶段 1：主训练（1M 迭代）。 在 LVD-1689M（16.89 亿策展图像）+ 10% ImageNet-1K 上训练。使用 DINO self-distillation + iBOT masked prediction 双损失，常量学习率调度（非余弦衰减），batch size 在 256 个 H100 GPU 上约为 12K。

阶段 2：Gram Anchoring 精炼（~50K 迭代）。 在主训练完成后，引入 $\mathcal{L}_{\text{Gram}}$ 继续训练。Gram teacher 使用 200K 迭代的早期 checkpoint，2× 分辨率特征。这一阶段"修复"了退化后的 dense feature。

阶段 3：高分辨率适配（10K 迭代）。 混合分辨率训练（全局 crop 从 {512, 768}，局部 crop 从 {112, 168, 224, 336}），同样包含 Gram anchoring。

阶段 4：多学生蒸馏。 将 7B teacher 蒸馏为 ViT-B/S/L/g 系列学生模型。创新点在于多学生并行蒸馏：所有学生共享 teacher 的前向推理结果（通过 all-gather 通信），每个学生组独立训练，最小化 GPU 闲置时间。

Dense Feature 的全维度验证

DINOv3 的核心主张是：Gram anchoring 使 7B 参数的自监督模型首次在 dense 任务上全面超越所有竞争者。 论文的 benchmark 结果支持了这一主张。

语义分割（Linear Probe，Frozen Backbone）

方法	ViT	ADE20K	Cityscapes	VOC
AM-RADIOv2.5	g/14	53.0	78.4	85.4
PEspatial	G/14	49.3	73.2	82.7
DINOv2	g/14	49.5	75.6	83.1
DINOv3	7B/16	55.9	81.1	86.6

DINOv3 在 ADE20K 上比最强的 agglomerative 模型 AM-RADIOv2.5 高出 2.9 mIoU——而 AM-RADIOv2.5 是从 SAM（需要像素级标注训练）蒸馏而来的。一个纯自监督模型在 frozen backbone + linear probe 的设定下超越了使用像素级标注训练的蒸馏模型，这在几年前是不可想象的。

深度估计（Linear Probe）

方法	NYUv2 RMSE↓	KITTI RMSE↓
AM-RADIOv2.5	0.340	2.918
DINOv2	0.372	2.624
V-JEPA 2.1 ViT-G	0.307	—
DINOv3	0.309 (baseline) / 0.281 (+Gram)	2.346

与我们在 V-JEPA 2.1 博文中分析的对比：V-JEPA 2.1 ViT-G (2B) 的 0.307 仅略优于 DINOv3 baseline 的 0.309，但 DINOv3 加上 Gram anchoring 后达到 0.281，拉开了显著差距。这印证了 Gram anchoring 的核心价值——它不只是"修补"退化，而是将 dense feature 推向了新的水平。

DINOv3 在 KITTI 上的优势更为明显（2.346 vs DINOv2 的 2.624），暗示其 dense feature 在户外驾驶场景中可能特别有价值。

3D 匹配与视频追踪

在 NAVI 3D keypoint matching 上，DINOv3 达到 64.4% recall，比 DINOv2 (60.1%) 高 4.3 个百分点，比 AM-RADIOv2.5 (59.4%) 高 5 个百分点。弱监督模型（PEcore、SigLIP2）在此任务上严重落后（39.9% 和 49.4%），说明自监督学习天然具有更强的 3D 感知能力——这一发现与我们在 2D→4D 演进中的分析一致。

在 DAVIS 2017 视频分割追踪上，DINOv3 在高分辨率（L）设定下达到 83.3 J&F，比 DINOv2 高 6.7 个百分点。这证明了 dense feature 的时间一致性——即使 DINOv3 只在静态图像上训练，其 patch 特征在视频帧间仍然保持稳定的对应关系。

与 V-JEPA 2.1 的本质对比

DINOv3 和 V-JEPA 2.1 是当前自监督视觉表征的两个最强竞争者，它们在 dense feature 问题上采取了截然不同的策略。理解它们的差异对于把握视觉基模的技术走向至关重要。

训练范式的根本差异

DINO 系列基于 self-distillation：学生网络学习匹配教师网络的输出分布，教师网络是学生的 EMA 滑动平均。这是一种判别式训练范式——模型学习"这个 patch 应该被归类为什么"。

JEPA 系列基于 predictive coding：学生网络预测被 mask 区域的表征，目标来自独立的 EMA encoder。这是一种生成式训练范式——模型学习"如果这里有信息，它应该长什么样"。

这两种范式的差异直接影响了 dense feature 的退化机制和解决方案：

维度	DINOv3 (Self-Distillation)	V-JEPA 2.1 (Predictive Coding)
退化原因	长训练下 patch 一致性丢失	Context token 无监督→全局坍缩
退化表现	特征图噪声化，相似性结构被打乱	特征图空间均匀，所有 context token 相同
解决思路	正则化结构（Gram）	添加监督信号（context loss）
约束粒度	Patch 之间的关系	每个 patch 独立
灵活性	高（只约束结构，不锁内容）	中（特征必须匹配 target）

Depth 性能的深层对比

V-JEPA 2.1 的 dense predictive loss 从"预测压力"中获得了空间定位能力——模型被迫在每个位置做出精确预测，因此 context token 不能再当全局聚合器。这是一种自底向上的路径：从预测需求中涌现几何感知。

DINOv3 的 Gram anchoring 从"结构保持"中获得了空间一致性——模型被要求维持 patch 之间的相似性结构，因此特征图不能退化。这是一种自顶向下的路径：从结构约束中维护几何质量。

在 NYUv2 上的最终数字——V-JEPA 2.1 ViT-G (2B): 0.307, DINOv3 ViT-7B: 0.281——暗示在大规模下，自顶向下的结构约束可能比自底向上的预测压力更有效。一个可能的原因是：Gram anchoring 不强制特征匹配具体值，给予了模型更多自由度来优化全局+局部目标的同时满足。

互补还是竞争？

一个自然的假设是：两种方案能否叠加？V-JEPA 2.1 的 $\mathcal{L}_{\text{ctx}}$ 提供逐 token 的监督信号，DINOv3 的 $\mathcal{L}_{\text{Gram}}$ 提供全局结构约束——前者精确但僵化，后者灵活但间接。理论上，两者的组合可能兼得精确性和灵活性。

但实践中存在一个根本障碍：DINO 和 JEPA 的训练范式不兼容。DINO 的 self-distillation 目标（匹配 EMA teacher 的输出分布）和 JEPA 的 predictive coding 目标（预测 masked 区域的表征）在梯度方向上可能冲突——前者鼓励特征在当前样本上"看起来正确"，后者鼓励特征支持对未来样本的预测。如何在同一训练管线中协调这两种目标，是一个尚未解决的研究问题。

Dense Feature 退化的统一解释

DINOv3 和 V-JEPA 2.1 观察到的退化现象可以用一个统一框架来理解。

自监督训练的损失函数同时包含全局项和局部项。全局项（如 DINO 的 CLS token loss、V-JEPA 的 masked prediction loss）鼓励表征捕获场景的全局语义——“这张图里有一只狗”。局部项（如 iBOT 的 patch loss、V-JEPA 2.1 的 context loss）鼓励表征保留空间细节——“狗在图像左侧，面朝右”。

在训练初期，模型容量有限，全局项和局部项的方向大致一致——学好全局语义需要区分不同区域，这自然产生了局部结构。但随着训练推进和模型容量增大，全局项找到了更高效的解决方案——用少量维度编码全局信息，释放其余维度给噪声。这与信息瓶颈理论一致：在有限容量的约束下，模型倾向于保留与任务最相关的信息（全局语义），丢弃冗余信息（局部细节）。

Dense feature 退化是信息瓶颈下的最优解，而非训练 bug。 全局语义对分类有用，局部细节对分割有用——两者在目标函数中存在根本张力。V-JEPA 2.1 通过添加局部监督项打破了这一瓶颈，DINOv3 通过约束结构关系绕过了这一瓶颈。两种方案的本质是相同的：在信息瓶颈之外施加额外的局部约束，迫使模型不能丢弃空间细节。

开放问题

Gram teacher 的选择依赖人工判断。 当前 Gram teacher 取自 200K 迭代的 checkpoint，这一选择基于经验观察——更早的 checkpoint dense feature 更好。但如何自动化这一选择？理论上，最优的 Gram teacher 应该在全局性能开始压制局部性能的那个时间点——但这个时间点本身需要 dense 任务的评估来确定，形成了循环依赖。

与 JEPA 范式的融合。 如前所述，DINO 的 self-distillation 和 JEPA 的 predictive coding 在梯度方向上可能冲突。但在 2D→4D 演进的框架下，两者又是互补的：DINO 提供最强的静态 dense feature，JEPA 提供时序预测能力。如何将两者统一到一个训练管线中，可能是通往 4D 世界模型的关键一步。

Depth probe 的局限性。 DINOv3 的深度估计能力通过 linear probe 评估——在 frozen backbone 之上训练一个线性层预测深度。这证明了 dense feature 中"包含"深度信息，但不等于模型"理解"了深度。真正的几何理解可能需要像 DA3 那样将 depth-ray 作为核心预测目标，而非通过 linear probe 间接验证。DINOv3 在 NAVI 3D keypoint matching 上的强表现（64.4% recall）暗示其 dense feature 确实编码了 3D 结构信息，但如何将这种隐式编码转化为显式几何推理，仍是开放问题。

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

[1] Oquab, M., et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR, 2024.

[2] Siméoni, O., Vo, H.V., Seitzer, M., et al. DINOv3: Versatile Vision Foundation Models. arXiv:2508.10104, 2025.

[3] Mur-Labadia, L., Muckley, M., Bar, A., et al. V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482, 2026.

[4] Gatys, L.A., Ecker, A.S., Bethge, M. Image Style Transfer Using Convolutional Neural Networks. CVPR 2016.

[5] Caron, M., et al. Emerging Properties in Self-Supervised Vision Transformers. ICCV 2021.

[6] Depth Anything Model Team. Depth Anything 3: Unifying Monocular Depth Estimation, 3D Reconstruction, Pose Estimation and Novel View Synthesis with Depth-Ray Representation. 2025.

一个被忽视的现象：规模越大，特征越差#

Gram Anchoring：用结构约束替代特征对齐#

核心思想#

为什么是 Gram 矩阵而非特征本身#

高分辨率 Gram Teacher#

7B 模型的训练工程#

架构设计#

训练流程#

Dense Feature 的全维度验证#

语义分割（Linear Probe，Frozen Backbone）#

深度估计（Linear Probe）#

3D 匹配与视频追踪#

与 V-JEPA 2.1 的本质对比#

训练范式的根本差异#

Depth 性能的深层对比#

互补还是竞争？#

Dense Feature 退化的统一解释#

开放问题#

相关概念#

参考文献#

相关文章