Affordance vs Symbolic Perception in AD:二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。 ...

2026年5月24日 · 11 分钟 · LexHsu

自动驾驶 VLA 的 3D 视觉表征:从能力边界到工程注入

引言:这篇为什么写 写在前面:本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D:视觉表征的本体论问题》 讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题;《4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视》 用信息瓶颈五条件审计了九种 4D encoder 方案;《X-World:小鹏可控自车视角多相机世界模型》 拆解了重型 latent video diffusion 的生成派世界模型路径;Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

2026年5月22日 · 36 分钟 · LexHsu

自动驾驶世界模型 × Action:六范式在 NAVSIM 上的落地与跨域对偶

引言 上一篇 从预测未来到驱动行动:机器人世界模型的架构与评测 以 NTU/UC Berkeley/Stanford 联合综述为底本,把世界模型与策略的耦合方式归纳为六个范式:解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇:把同一套理论骨架带到自动驾驶,看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

2026年5月19日 · 19 分钟 · LexHsu

4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视

引言:4D 输入与 VLA 序列瓶颈的矛盾 自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

2026年5月17日 · 20 分钟 · LexHsu

从预测未来到驱动行动:机器人世界模型的架构与评测

引言 在本系列前作中,V-JEPA 2.1 在潜在空间中做语义预测 [1],Wan2.2 在像素空间中渲染视觉上合理的未来 [2],VGGT 从 2D 观测中逆推 3D 几何 [3],DA3 把空间结构蒸馏为逐像素深度 [4],Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5],2D 到 4D 综述梳理了视觉基模的几何觉醒 [6],DINOv3 展示了自监督规模化对 dense feature 的突破 [7],X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开,回答的都是表征侧的问题:世界模型应该长什么样。 ...

2026年5月15日 · 14 分钟 · LexHsu

从 2D 到 4D:视觉表征的本体论问题

文章定位 本文讨论 4D 视觉表征的本体论问题:什么是 4D?为什么 4D 是 world model 的关键?spatial-temporal joint vs decoupled 在表征空间几何上意味着什么?这些问题既不能从单个 paper 推出,也无法用 benchmark 数字回答——它们是 representation learning 与世界建模的概念学议题。 ...

2026年3月7日 · 11 分钟 · LexHsu

Driving JEPA 综述:V-JEPA 系列方法在自动驾驶场景的应用

文章定位 本文是 V-JEPA 系列方法在自动驾驶场景的应用综述,与 V-JEPA 2.1 paper 精读 视角区分——后者讲方法本身的数学(context loss、距离加权、deep self-supervision、multi-modal tokenizer)和训练细节(VisionMix-163M、两阶段训练、cool-down 配置),本文聚焦 driving benchmark 的 fine-tune 结果与变体设计:nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略(motion-aware mask、temporal-coherent mask、causal future mask),以及 Driving-JEPA / Drive-JEPA 等专版的对比。 ...

2026年2月21日 · 11 分钟 · LexHsu

End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言 自动驾驶架构的演进经历了一次范式转换:从经典的模块化流水线(感知 →\to 预测 →\to 规划 →\to 控制)转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识:模块化接口会施加信息瓶颈,而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 ...

2025年7月19日 · 16 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次