自动驾驶世界模型 × Action:六范式在 NAVSIM 上的落地与跨域对偶

引言 上一篇 从预测未来到驱动行动:机器人世界模型的架构与评测 以 NTU/UC Berkeley/Stanford 联合综述为底本,把世界模型与策略的耦合方式归纳为六个范式:解耦式、单骨干生成、MoE/MoT、统一 VLA、Latent-space、符号/规划器。那篇文章的取景框是机器人操作——LIBERO、CALVIN、RoboTwin。本文是它的 AD 对偶篇:把同一套理论骨架带到自动驾驶,看 2026 上半年发表的五篇 NAVSIM 成绩 87-91 级别工作如何在这套范式空间里落地。 ...

2026年5月19日 · 19 分钟 · LexHsu

4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视

引言:4D 输入与 VLA 序列瓶颈的矛盾 自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

2026年5月17日 · 20 分钟 · LexHsu

从预测未来到驱动行动:机器人世界模型的架构与评测

引言 在本系列前作中,V-JEPA 2.1 在潜在空间中做语义预测 [1],Wan2.2 在像素空间中渲染视觉上合理的未来 [2],VGGT 从 2D 观测中逆推 3D 几何 [3],DA3 把空间结构蒸馏为逐像素深度 [4],Driving JEPA 把通用 JEPA 表征改造为驾驶世界模型 [5],2D 到 4D 综述梳理了视觉基模的几何觉醒 [6],DINOv3 展示了自监督规模化对 dense feature 的突破 [7],X-Cache 给出了推理加速的工程答案 [8]。这些工作沿着 predict / simulate / reconstruct / measure 四个正交维度展开,回答的都是表征侧的问题:世界模型应该长什么样。 ...

2026年5月15日 · 14 分钟 · LexHsu

VLA 语义下的导航信息注入:从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中,导航信息回答了一个根本问题:车应该往哪走? 没有它,模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...

2026年5月14日 · 31 分钟 · LexHsu

ReconVLA:用 gaze-crop 重建给 VLA 视觉接地

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM,用 next-token cross-entropy 监督,推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题:散。VLA 看场景跟看哪个具体物体之间没区分,attention 几乎均匀铺在整个 frame 上。 ...

2025年10月27日 · 11 分钟 · LexHsu

Alpamayo:面向自动驾驶的推理-动作对齐 VLA 系统

引言 端到端自动驾驶近年来取得了显著进展,然而在真实驾驶场景中部署视觉-语言-动作(Vision-Language-Action, VLA)模型仍面临挑战。基本困难有四。其一,多帧时序理解要求模型从高度冗余的连续观测中提取决策相关的变化,而非仅处理静态快照。其二,驾驶决策必须是因果性的:模型必须建模为何采取某动作,而非仅学习场景与动作之间的统计相关性。其三,预测轨迹必须在满足运动学和动力学约束的同时保持多模态性,且足够高效以实现实时推理。其四,推理过程必须与动作输出紧密对齐——推理不应是事后合理化,而必须可被实际执行的动作验证和约束。 ...

2025年8月30日 · 8 分钟 · LexHsu

End-to-End Autonomous Driving: From Modular Decoders to VLA Architectures

引言 自动驾驶架构的演进经历了一次范式转换:从经典的模块化流水线(感知 →\to 预测 →\to 规划 →\to 控制)转向将传感器输入直接映射为驾驶动作的端到端系统。这一转变并非仅仅是工程上的便利——它反映了一种深刻的认识:模块化接口会施加信息瓶颈,而全栈联合优化可以产生单独优化各模块所无法获得的涌现能力。 ...

2025年7月19日 · 16 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次