World-Model

Driving JEPA 综述：V-JEPA 系列方法在自动驾驶场景的应用

文章定位本文是 V-JEPA 系列方法在自动驾驶场景的应用综述，与 V-JEPA 2.1 paper 精读视角区分——后者讲方法本身的数学（context loss、距离加权、deep self-supervision、multi-modal tokenizer）和训练细节（VisionMix-163M、两阶段训练、cool-down 配置），本文聚焦 driving benchmark 的 fine-tune 结果与变体设计：nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略（motion-aware mask、temporal-coherent mask、causal future mask），以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

Depth Anything 3: Geometric Grounding for World Models

Figure from Depth Anything 3: Recovering the Visual Space from Any Views 几何地基：深度为何是世界模型的基石一个无法度量距离的世界模型，也无法预测后果。这不是比喻。当自动驾驶汽车决定刹车还是转向时，决策的核心依赖于一个几何量：与前方障碍物的距离。当机械臂伸手去拿咖啡杯时，运动轨迹必须考虑杯子相对于夹爪的深度。当小孩接球时，大脑持续估计球的距离和速度以计算拦截点。在每一个例子中，支配行动的物理推理都锚定在几何之上，而几何始于深度。 ...

InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling

Figure from InSpatio-World: Real-Time 4D World Simulation via Spatiotemporal Autoregressive Modeling 模拟一个随时间演化且可从任意视角观察的 4D 世界，是自动驾驶、机器人和具身 AI 的基础能力。现有的视频生成模型能够产生视觉上连贯的序列，但在相机移动时缺乏空间一致性。3D 重建方法实现了几何保真度，却在动态场景和实时性能方面捉襟见肘。InSpatio-World 通过时空自回归（STAR）架构弥合了这一鸿沟，融合了两种范式的优势。 ...