Driving JEPA 综述:V-JEPA 系列方法在自动驾驶场景的应用

文章定位 本文是 V-JEPA 系列方法在自动驾驶场景的应用综述,与 V-JEPA 2.1 paper 精读 视角区分——后者讲方法本身的数学(context loss、距离加权、deep self-supervision、multi-modal tokenizer)和训练细节(VisionMix-163M、两阶段训练、cool-down 配置),本文聚焦 driving benchmark 的 fine-tune 结果与变体设计:nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略(motion-aware mask、temporal-coherent mask、causal future mask),以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

2026年2月21日 · 11 分钟 · LexHsu

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基:深度为何是世界模型的基石 一个无法度量距离的世界模型,也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时,决策的核心依赖于一个几何量:与前方障碍物的距离。当机械臂伸手去拿咖啡杯时,运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时,大脑持续估计球的距离和速度以计算拦截点。在每一个例子中,支配行动的物理推理都锚定在几何之上,而几何始于深度。 ...

2026年2月7日 · 24 分钟 · LexHsu

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界,是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列,但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度,却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归(STAR)架构弥合了这一鸿沟,融合了两种范式的优势。 ...

2025年10月25日 · 7 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次