Dense-Features

核心问题：全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构（JEPA）视为通向自主机器智能的核心路径 [3]，其基本假设优雅而有力：预测应当在潜在空间中进行，而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域，取得了令人瞩目的成果，在动作识别（Kinetics-400: 87.3%）和视频-文本检索任务上均达到了当时的最佳水平。 ...

Dense-Features

DINOv3：自监督视觉基模的规模化困局与 Gram Anchoring 破局

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel