LeJEPA:当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点:智能体的核心能力是在抽象表征空间里预测自己行动的后果,再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

2026年2月7日 · 12 分钟 · LexHsu

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题:全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构(JEPA)视为通向自主机器智能的核心路径 [3],其基本假设优雅而有力:预测应当在潜在空间中进行,而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域,取得了令人瞩目的成果,在动作识别(Kinetics-400: 87.3%)和视频-文本检索任务上均达到了当时的最佳水平。 ...

2026年1月10日 · 20 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次