量产 VLA 的 8 个工程判断 + 4 个反例
量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...
量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...
讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。 ...
当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...
引言:这篇为什么写 写在前面:本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D:视觉表征的本体论问题》 讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题;《4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视》 用信息瓶颈五条件审计了九种 4D encoder 方案;《X-World:小鹏可控自车视角多相机世界模型》 拆解了重型 latent video diffusion 的生成派世界模型路径;Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...
引言:从 Vista / DriveDreamer 到 X-World 的鸿沟 驾驶世界模型这两年的论文非常密集,但把它们摆到一起,会发现一条很尴尬的分水岭:左边是学术指标 (FID / FVD / 控制误差)能跑到 SOTA 的工作——Vista (Gao et al., 2024) 把单相机高保真做到 576 分辨率;DriveDreamer / DriveDreamer-2 (Wang et al., 2023, 2024) 把 multi-view + 结构化条件 + LLM 拼到一起做数据合成;MagicDrive / MagicDrive-V2 (Gao et al., 2023, 2024) 把 3D box + HDMap 当成显式条件注入;MiLA / MaskGWM / EOT-WM 在多视角与可控性上做了不少探索。右边则是 production 真正需要的东西:7 路相机几何一致、22-24 秒不发散、4 步去噪能 streaming 推理、能直接接到 end-to-end driving 的训练 / 评测 / RL 后训练流水线里。 ...
引言:4D 输入与 VLA 序列瓶颈的矛盾 自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...
在自动驾驶轨迹规划中,导航信息回答了一个根本问题:车应该往哪走? 没有它,模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...
引言 视觉语言模型(VLM)在处理单帧图像上已趋于成熟,但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知,还是具身智能中的长任务执行,核心挑战都在于:如何在不引爆 token 预算的前提下,保留对决策真正有价值的时序信息。 ...
引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。 自回归(AR)派以 GPT-driver 和 VLA 系列为代表,token-by-token 顺序输出轨迹,串行解码慢,端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表,在连续空间去噪生成轨迹,但通常需要额外的 anchor 或 goal 系统辅助,破坏了原始数据分布。 ...
引言:世界模型的 Infra 瓶颈 自动驾驶领域正在经历一场范式转变——从模块化感知-预测-规划-控制到端到端 / VLA(Vision-Language-Action)系统。在这个新范式中,世界模型(World Model) 正在从「炫酷的视频生成 demo」演变为智驾研发体系的底层基础设施。 ...