Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基:深度为何是世界模型的基石 一个无法度量距离的世界模型,也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时,决策的核心依赖于一个几何量:与前方障碍物的距离。当机械臂伸手去拿咖啡杯时,运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时,大脑持续估计球的距离和速度以计算拦截点。在每一个例子中,支配行动的物理推理都锚定在几何之上,而几何始于深度。 ...

2026年2月7日 · 24 分钟 · LexHsu

DINOv3:自监督视觉基模的规模化困局与 Gram Anchoring 破局

一个被忽视的现象:规模越大,特征越差 自监督视觉学习的叙事长期以来被一个乐观的假设驱动:更大的模型、更多的数据、更长的训练,必然带来更好的表征。DINOv2 验证了这个假设的前半段——1.1B 参数的 ViT-g 在 ImageNet linear probing 上达到 86.5%,在 ADE20K 语义分割上达到 49.5 mIoU,证明了自监督学习的可扩展性 [1]。 ...

2026年1月24日 · 11 分钟 · LexHsu

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题:全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。 ...

2026年1月10日 · 20 分钟 · LexHsu
访客 704 人次 · 访问 1065 次