一个被忽视的现象:规模越大,特征越差
自监督视觉学习的叙事长期以来被一个乐观的假设驱动:更大的模型、更多的数据、更长的训练,必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%,在 ADE20K 语义分割上达到 49.5 mIoU,证明了自监督学习的可扩展性 [1]。
但当 DINOv3 团队将模型推进到 7B 参数、训练迭代从 500K 扩展到 1M 时,遇到了一个反直觉的现象:全局性能持续提升,但 dense feature 逐步退化。
ImageNet 分类准确率从 84% 稳步升至 88%——一切看起来正常。但在 Pascal VOC 语义分割(linear probe)上,mIoU 在训练中期达到峰值后开始下降。PCA 可视化揭示了退化机制:随着训练推进,patch 特征之间的区分度下降,相似性图谱变得噪声化——不同语义区域的 patch 特征开始"渗透"到彼此的空间中 [2]。
这不是 DINOv3 独有的问题。V-JEPA 2 遭遇了同一现象的另一个版本:context token 在没有显式监督的情况下坍缩为全局聚合器,失去了空间定位能力 [3]。Web-DINO(7B 参数的 DINOv2 扩展)也报告了类似的退化 [2]。这似乎是自监督学习在大规模下的一个普遍性问题——全局语义和局部精度之间存在张力,而规模放大后全局语义总是赢家。
Gram Anchoring:用结构约束替代特征对齐
核心思想
DINOv3 的破局之道是一个反直觉的洞察:退化的是特征之间的结构关系,而非特征本身。
随着训练推进,单个 patch 的特征可能仍然编码了正确的语义信息,但不同 patch 之间的相似性结构被打乱了——本应相似的 patch(同一物体)变得不那么相似,本应不同的 patch(不同物体)变得不那么可区分。这像是地图上的城市坐标还在,但城市之间的距离关系被扭曲了。
Gram anchoring 的策略是:不约束特征值本身,只约束特征之间的结构关系。 具体而言,它将训练早期(dense feature 质量仍好时)的模型 checkpoint 作为 “Gram teacher”,约束学生模型 patch 特征的 Gram 矩阵与 teacher 对齐:
其中 为学生模型的 归一化 patch 特征矩阵( 个 patch, 维特征), 为 Gram teacher 的对应矩阵。 即为 Gram 矩阵——一个 的矩阵,其 元素为 patch 和 patch 特征的点积,衡量两个 patch 之间的语义相似度。
为什么是 Gram 矩阵而非特征本身
对齐特征本身(即 )会强制学生模型复制 teacher 的精确特征值,限制了特征空间的自由度。而 Gram 矩阵只约束 patch 之间的相对关系——“patch A 和 patch B 比 patch A 和 patch C 更相似”——而不要求具体的特征值。这允许模型在保持结构一致性的同时,继续优化全局语义表征。
这可以类比于风格迁移中的 Gram 矩阵约束 [4]:风格迁移不要求生成图像的每个像素与目标一致,只要求像素之间的统计关系(纹理、色彩分布)保持一致。DINOv3 将同一思想迁移到了特征空间——保持特征之间的"纹理",但不锁定特征的"像素"。
高分辨率 Gram Teacher
DINOv3 进一步发现:用高分辨率图像计算 Gram teacher 的特征,再下采样到学生模型的分辨率,可以显著提升 anchoring 效果。具体做法是将图像以 (2 倍于训练分辨率)送入 Gram teacher,输出的特征图用双三次插值下采样至 对应的尺寸。
这背后的直觉是:高分辨率输入产生更精细的特征图,patch 之间的相似性结构更加锐利和一致。下采样保留了这个高质量结构,同时避免了高分辨率推理的巨大计算开销。
消融实验给出了清晰的证据 [2]:
| Gram Teacher 配置 | IN-1K Linear | ADE20K mIoU | NYUv2 RMSE |
|---|---|---|---|
| 无(Baseline) | 88.2 | 50.3 | 0.307 |
| 1× 分辨率, 200K 迭代 | 88.0 | 53.6 | 0.285 |
| 2× 分辨率, 200K 迭代 | 88.0 | 55.7 | 0.281 |
| 2× 分辨率, 100K 迭代 | 87.9 | 55.7 | 0.284 |
| 2× 分辨率, 1M 迭代 | 88.1 | 54.9 | 0.290 |
关键发现:(1) 2× 分辨率比 1× 在 ADE20K 上多 +2.1 mIoU;(2) 200K 迭代的早期 checkpoint 比 1M 迭代的更好——说明更早期的 dense feature 质量更高;(3) 全局分类(IN-1K)几乎不受影响(88.2→88.0),证实了 Gram anchoring 的核心承诺:提升 dense 性能的同时不牺牲全局性能。
7B 模型的训练工程
架构设计
DINOv3 的旗舰模型基于 ViT-7B,从 DINOv2 的 ViT-g (1.1B) 大幅扩展:
| 属性 | DINOv2 ViT-g | DINOv3 ViT-7B |
|---|---|---|
| 参数量 | 1.1B | 6.7B |
| 层数 | 40 | 40 |
| 嵌入维度 | 1536 | 4096 |
| 注意力头 | 24 | 32 |
| 头维度 | 64 | 128 |
| FFN 隐藏层 | 4096 | 8192 (SwiGLU) |
| Patch 大小 | 14 | 16 |
| 位置编码 | 可学习 | RoPE |
| DINO 原型数 | 128K | 256K |
| iBOT 原型数 | 128K | 96K |
两个关键设计选择值得展开。
Patch 大小从 14 改为 16。 这看似微不足道,实则影响深远:在相同分辨率下,patch 16 产生的 token 数量更少(如 输入从 降至 ),降低了 self-attention 的计算成本。对于 7B 参数模型,这一节省至关重要——训练变得可行。
从可学习位置编码切换到 RoPE(旋转位置编码)。 RoPE 的优势在于天然支持可变分辨率推理——不需要在分辨率变化时插值位置编码。这使得 DINOv3 可以在 到 像素的输入上无缝工作,而无需任何适配。这也在高分辨率 Gram teacher 的实现中发挥了关键作用。
训练流程
DINOv3 的完整训练管线分为四个阶段:
阶段 1:主训练(1M 迭代)。 在 LVD-1689M(16.89 亿策展图像)+ 10% ImageNet-1K 上训练。使用 DINO self-distillation + iBOT masked prediction 双损失,常量学习率调度(非余弦衰减),batch size 在 256 个 H100 GPU 上约为 12K。
阶段 2:Gram Anchoring 精炼(~50K 迭代)。 在主训练完成后,引入 继续训练。Gram teacher 使用 200K 迭代的早期 checkpoint,2× 分辨率特征。这一阶段"修复"了退化后的 dense feature。
阶段 3:高分辨率适配(10K 迭代)。 混合分辨率训练(全局 crop 从 {512, 768},局部 crop 从 {112, 168, 224, 336}),同样包含 Gram anchoring。
阶段 4:多学生蒸馏。 将 7B teacher 蒸馏为 ViT-B/S/L/g 系列学生模型。创新点在于多学生并行蒸馏:所有学生共享 teacher 的前向推理结果(通过 all-gather 通信),每个学生组独立训练,最小化 GPU 闲置时间。
Dense Feature 的全维度验证
DINOv3 的核心主张是:Gram anchoring 使 7B 参数的自监督模型首次在 dense 任务上全面超越所有竞争者。 论文的 benchmark 结果支持了这一主张。
语义分割(Linear Probe,Frozen Backbone)
| 方法 | ViT | ADE20K | Cityscapes | VOC |
|---|---|---|---|---|
| AM-RADIOv2.5 | g/14 | 53.0 | 78.4 | 85.4 |
| PEspatial | G/14 | 49.3 | 73.2 | 82.7 |
| DINOv2 | g/14 | 49.5 | 75.6 | 83.1 |
| DINOv3 | 7B/16 | 55.9 | 81.1 | 86.6 |
DINOv3 在 ADE20K 上比最强的 agglomerative 模型 AM-RADIOv2.5 高出 2.9 mIoU——而 AM-RADIOv2.5 是从 SAM(需要像素级标注训练)蒸馏而来的。一个纯自监督模型在 frozen backbone + linear probe 的设定下超越了使用像素级标注训练的蒸馏模型,这在几年前是不可想象的。
深度估计(Linear Probe)
| 方法 | NYUv2 RMSE↓ | KITTI RMSE↓ |
|---|---|---|
| AM-RADIOv2.5 | 0.340 | 2.918 |
| DINOv2 | 0.372 | 2.624 |
| V-JEPA 2.1 ViT-G | 0.307 | — |
| DINOv3 | 0.309 (baseline) / 0.281 (+Gram) | 2.346 |
与我们在 V-JEPA 2.1 博文 中分析的对比:V-JEPA 2.1 ViT-G (2B) 的 0.307 仅略优于 DINOv3 baseline 的 0.309,但 DINOv3 加上 Gram anchoring 后达到 0.281,拉开了显著差距。这印证了 Gram anchoring 的核心价值——它不只是"修补"退化,而是将 dense feature 推向了新的水平。
DINOv3 在 KITTI 上的优势更为明显(2.346 vs DINOv2 的 2.624),暗示其 dense feature 在户外驾驶场景中可能特别有价值。
3D 匹配与视频追踪
在 NAVI 3D keypoint matching 上,DINOv3 达到 64.4% recall,比 DINOv2 (60.1%) 高 4.3 个百分点,比 AM-RADIOv2.5 (59.4%) 高 5 个百分点。弱监督模型(PEcore、SigLIP2)在此任务上严重落后(39.9% 和 49.4%),说明自监督学习天然具有更强的 3D 感知能力——这一发现与我们在 2D→4D 演进 中的分析一致。
在 DAVIS 2017 视频分割追踪上,DINOv3 在高分辨率(L)设定下达到 83.3 J&F,比 DINOv2 高 6.7 个百分点。这证明了 dense feature 的时间一致性——即使 DINOv3 只在静态图像上训练,其 patch 特征在视频帧间仍然保持稳定的对应关系。
与 V-JEPA 2.1 的本质对比
DINOv3 和 V-JEPA 2.1 是当前自监督视觉表征的两个最强竞争者,它们在 dense feature 问题上采取了截然不同的策略。理解它们的差异对于把握视觉基模的技术走向至关重要。
训练范式的根本差异
DINO 系列基于 self-distillation:学生网络学习匹配教师网络的输出分布,教师网络是学生的 EMA 滑动平均。这是一种判别式训练范式——模型学习"这个 patch 应该被归类为什么"。
JEPA 系列基于 predictive coding:学生网络预测被 mask 区域的表征,目标来自独立的 EMA encoder。这是一种生成式训练范式——模型学习"如果这里有信息,它应该长什么样"。
这两种范式的差异直接影响了 dense feature 的退化机制和解决方案:
| 维度 | DINOv3 (Self-Distillation) | V-JEPA 2.1 (Predictive Coding) |
|---|---|---|
| 退化原因 | 长训练下 patch 一致性丢失 | Context token 无监督→全局坍缩 |
| 退化表现 | 特征图噪声化,相似性结构被打乱 | 特征图空间均匀,所有 context token 相同 |
| 解决思路 | 正则化结构(Gram) | 添加监督信号(context loss) |
| 约束粒度 | Patch 之间的关系 | 每个 patch 独立 |
| 灵活性 | 高(只约束结构,不锁内容) | 中(特征必须匹配 target) |
Depth 性能的深层对比
V-JEPA 2.1 的 dense predictive loss 从"预测压力"中获得了空间定位能力——模型被迫在每个位置做出精确预测,因此 context token 不能再当全局聚合器。这是一种自底向上的路径:从预测需求中涌现几何感知。
DINOv3 的 Gram anchoring 从"结构保持"中获得了空间一致性——模型被要求维持 patch 之间的相似性结构,因此特征图不能退化。这是一种自顶向下的路径:从结构约束中维护几何质量。
在 NYUv2 上的最终数字——V-JEPA 2.1 ViT-G (2B): 0.307, DINOv3 ViT-7B: 0.281——暗示在大规模下,自顶向下的结构约束可能比自底向上的预测压力更有效。一个可能的原因是:Gram anchoring 不强制特征匹配具体值,给予了模型更多自由度来优化全局+局部目标的同时满足。
互补还是竞争?
一个自然的假设是:两种方案能否叠加?V-JEPA 2.1 的 提供逐 token 的监督信号,DINOv3 的 提供全局结构约束——前者精确但僵化,后者灵活但间接。理论上,两者的组合可能兼得精确性和灵活性。
但实践中存在一个根本障碍:DINO 和 JEPA 的训练范式不兼容。DINO 的 self-distillation 目标(匹配 EMA teacher 的输出分布)和 JEPA 的 predictive coding 目标(预测 masked 区域的表征)在梯度方向上可能冲突——前者鼓励特征在当前样本上"看起来正确",后者鼓励特征支持对未来样本的预测。如何在同一训练管线中协调这两种目标,是一个尚未解决的研究问题。
Dense Feature 退化的统一解释
DINOv3 和 V-JEPA 2.1 观察到的退化现象可以用一个统一框架来理解。
自监督训练的损失函数同时包含全局项和局部项。全局项(如 DINO 的 CLS token loss、V-JEPA 的 masked prediction loss)鼓励表征捕获场景的全局语义——“这张图里有一只狗”。局部项(如 iBOT 的 patch loss、V-JEPA 2.1 的 context loss)鼓励表征保留空间细节——“狗在图像左侧,面朝右”。
在训练初期,模型容量有限,全局项和局部项的方向大致一致——学好全局语义需要区分不同区域,这自然产生了局部结构。但随着训练推进和模型容量增大,全局项找到了更高效的解决方案——用少量维度编码全局信息,释放其余维度给噪声。这与信息瓶颈理论一致:在有限容量的约束下,模型倾向于保留与任务最相关的信息(全局语义),丢弃冗余信息(局部细节)。
Dense feature 退化是信息瓶颈下的最优解,而非训练 bug。 全局语义对分类有用,局部细节对分割有用——两者在目标函数中存在根本张力。V-JEPA 2.1 通过添加局部监督项打破了这一瓶颈,DINOv3 通过约束结构关系绕过了这一瓶颈。两种方案的本质是相同的:在信息瓶颈之外施加额外的局部约束,迫使模型不能丢弃空间细节。
开放问题
Gram teacher 的选择依赖人工判断。 当前 Gram teacher 取自 200K 迭代的 checkpoint,这一选择基于经验观察——更早的 checkpoint dense feature 更好。但如何自动化这一选择?理论上,最优的 Gram teacher 应该在全局性能开始压制局部性能的那个时间点——但这个时间点本身需要 dense 任务的评估来确定,形成了循环依赖。
与 JEPA 范式的融合。 如前所述,DINO 的 self-distillation 和 JEPA 的 predictive coding 在梯度方向上可能冲突。但在 2D→4D 演进 的框架下,两者又是互补的:DINO 提供最强的静态 dense feature,JEPA 提供时序预测能力。如何将两者统一到一个训练管线中,可能是通往 4D 世界模型的关键一步。
Depth probe 的局限性。 DINOv3 的深度估计能力通过 linear probe 评估——在 frozen backbone 之上训练一个线性层预测深度。这证明了 dense feature 中"包含"深度信息,但不等于模型"理解"了深度。真正的几何理解可能需要像 DA3 那样将 depth-ray 作为核心预测目标,而非通过 linear probe 间接验证。DINOv3 在 NAVI 3D keypoint matching 上的强表现(64.4% recall)暗示其 dense feature 确实编码了 3D 结构信息,但如何将这种隐式编码转化为显式几何推理,仍是开放问题。
相关概念
- RoPE位置编码 — DINOv3从可学习位置编码切换到RoPE支持可变分辨率,详见RoPE几何本质
- 自监督vs有监督 — Pixo用20亿像素有监督挑战自监督方法,详见何恺明Flow Matching突破
参考文献
本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。
[1] Oquab, M., et al. DINOv2: Learning Robust Visual Features without Supervision. TMLR, 2024.
[2] Siméoni, O., Vo, H.V., Seitzer, M., et al. DINOv3: Versatile Vision Foundation Models. arXiv:2508.10104, 2025.
[3] Mur-Labadia, L., Muckley, M., Bar, A., et al. V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482, 2026.
[4] Gatys, L.A., Ecker, A.S., Bethge, M. Image Style Transfer Using Convolutional Neural Networks. CVPR 2016.
[5] Caron, M., et al. Emerging Properties in Self-Supervised Vision Transformers. ICCV 2021.
[6] Depth Anything Model Team. Depth Anything 3: Unifying Monocular Depth Estimation, 3D Reconstruction, Pose Estimation and Novel View Synthesis with Depth-Ray Representation. 2025.