JEPA | Xu'Blog

Dense Latent Predictive Supervision in AD VLA：为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone？打开任一篇 NAVSIM 93 PDMS 一档的 paper：监督信号是未来 12-16 个 (x,y)(x, y) waypoints，一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert（典型 500M），总可学习参数 2.5B 量级。 ...

Driving JEPA 综述：V-JEPA 系列方法在自动驾驶场景的应用

文章定位本文是 V-JEPA 系列方法在自动驾驶场景的应用综述，与 V-JEPA 2.1 paper 精读视角区分——后者讲方法本身的数学（context loss、距离加权、deep self-supervision、multi-modal tokenizer）和训练细节（VisionMix-163M、两阶段训练、cool-down 配置），本文聚焦 driving benchmark 的 fine-tune 结果与变体设计：nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略（motion-aware mask、temporal-coherent mask、causal future mask），以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

LeJEPA：当 JEPA 不再需要启发式

系统 2 与不预测像素的认知动机 LeCun 在 2025 年 Unsupervised Learning 播客访谈中再次重申了一个他 2016 年就在 NeurIPS keynote 上讲过的论点：智能体的核心能力是在抽象表征空间里预测自己行动的后果，再通过搜索找到达成目标的动作序列——而不是生成像素。这对应认知科学里的 system 2——审慎、反思、模拟、规划——与系统 1 的反应式、本能式行为相对 [3]。 ...

V-JEPA 2.1: When Self-Supervised Vision Learns to See Every Pixel

核心问题：全局语义与局部定位的断裂 Yann LeCun 将联合嵌入预测架构（JEPA）视为通向自主机器智能的核心路径 [3]，其基本假设优雅而有力：预测应当在潜在空间中进行，而非像素空间。与其耗费模型容量去重建每一个像素——其中大量细节与预测目标无关——JEPA 选择预测缺失输入的表征。V-JEPA 2 [2] 将这一思想引入视频领域，取得了令人瞩目的成果，在动作识别（Kinetics-400: 87.3%）和视频-文本检索任务上均达到了当时的最佳水平。 ...