讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。

这套 framing 在学术 paper 和工业宣传里都很流行,但拿一手材料对照下来几个具体不一致就跳出来:

  • “Symbolic” 在 AD 文献里同时被用来指结构化感知输出(boxes / lanes / occupancy)和 language 作为输出通道,两件事卡的产线约束完全不一样,挂同一个标签下本身就是混淆
  • 同一个方法 UniAD,在 NAVSIM 开环 PDMS 上拿 83.4(baseline 级),到 Bench2Drive 闭环 Driving Score 只有 45.8 + 交互场景成功率 <20%——同一个方法两个 benchmark 上跨等级表现
  • Wayve 公开 blog 明确把 language 定位为 “additive supervision” / “a paragraph is worth a thousand images”,LINGO-2 论文也写明 language-as-input-for-control 只在 simulator 里测过——Wayve 不在 “pure affordance” 一档
  • JEPA 阵营自己不押 emergence——LeCun 公开 stance 是 architectural alternative,V-JEPA 三代论文 framing 都是 transfer learning,没有"scale up 自动 emerge"的承诺

接下来分别展开,最后回到真正决定 production 设计的几条独立 axis。

读者预设:熟悉 E2E driving 基本概念,知道 NAVSIM / Bench2Drive 各是什么,读过 3D 视觉表征注入 或熟悉里面的 L1-L4 拆解。


“Symbolic” 这个词正在指两件事

AD 圈讲 “symbolic perception” 的时候实际上同时混用两个含义:

  1. 结构化感知输出——boxes / lanes / drivable area / occupancy / scene graph,显式离散、带语义标签的中间表征。UniAD / VAD / DriveLM 在讨论的是这一面。
  2. Language 作为输出通道——caption / VQA / reasoning trace / 自然语言解释。Wayve LINGO、各家 “VLM dual-system” 在讨论的是这一面。

两件事在 production 上卡的约束不同:

  • 结构化感知主要服务法规验证 / HMI 显示 / V2X 协议对接 / 标注链路
  • Language 主要服务 reasoning trace / 可解释性 / 长尾 bootstrap / 用户交互

工程上它们 happen to 共享同一个 V-L backbone——结构化感知 head 和 language head 可以挂在同一个 tower 上。这是合并讨论的工程基础,谈不上合并讨论的概念基础。

这件事为什么重要:后面 benchmark 部分讨论的是结构化感知端的 ranking,Wayve 部分讨论的是 language 端的 stance,JEPA 部分讨论的是 representation pretrain 端的 stance——三件正交的事用 “symbolic” 一个词裹起来,自然产生 framing 错位。


一、Benchmark 排序不一致

如果 affordance / symbolic 是个真正的 trade-off,在不同 benchmark 上方法 ranking 应该稳定。实际数据反过来。

NAVSIM v1.1 开环 PDMS

方法NAVSIM PDMS
Ego-Status MLP(不看视觉)65.6
TransFuser84.0
UniAD(symbolic 模块化)83.4
Hydra-MDP91.3
DriveVLA-W0 (AR)93.0
Drive-JEPA(self-supervised)93.3

两件事直接读出来:TransFuser 跟 UniAD 在 PDMS 上几乎打平——一个简单 fusion 跟一套完整 detection-prediction-planning pipeline 拿一样的分;Ego-Status MLP 不看视觉拿 65.6——NAVSIM 上 70% 以上 PDMS 来自 ego dynamics extrapolation,视觉感知能力只在剩下 25-30 分里被测。

Bench2Drive 闭环(CARLA reactive)

方法Driving ScoreSuccess Rate
AD-MLP(blind)18.10%
VAD42.415%
UniAD-Base45.816%
TCP-traj59.930%
ThinkTwice62.431%
DriveAdapter64.233%

ranking 完全反过来。UniAD / VAD 这种 “symbolic 模块化” 在闭环上掉到 expert distillation 路线下面一截。Bench2Drive 提供的 22 个 interactive skill 单项里 UniAD 的 Merging 14%、Overtaking 18%,比 DriveAdapter ~42% 差一倍。

nuScenes Planning 再交叉一次(L2 / Collision):

方法L2 (m)Collision (%)
VAD0.720.22
LAW (perception-free)0.610.30
LAW (perception-based)0.490.19

LAW perception-free 的 L2 比 VAD 好,但 collision rate 比 VAD 差——同一个方法 vs 同一个 benchmark,不同 metric 排序还能再翻一次。

三个 benchmark 各自测的能力本身就不同:NAVSIM 测 imitation trajectory 跟 expert demo 在 2-4 秒窗口的距离(主要被 ego dynamics 解释),Bench2Drive 测 long-horizon 闭环交互(主要被 expert distillation 决定),nuScenes Planning 介于两者。把 ranking 不一致归到 “affordance vs symbolic 路线优劣” 是 misattribution——真正决定 ranking 的是 benchmark 测什么。

更深一层的隐含:affordance vs symbolic 这条 axis 在三个 benchmark 上都不是 dominant 决定因素。NAVSIM 上 ego dynamics 占 70%、Bench2Drive 上 expert demo distillation 占主导、nuScenes 上 metric 选择决定 ranking——这些都不是二分能解释的。


二、NAVSIM 已经 saturate

把 NAVSIM 高分段单独抽出来:

方法NAVSIM PDMS
Drive-JEPA93.3
DriveVLA-W0 (AR)93.0
Hydra-MDP91.3
LaST-VLA91.3
DriveWorld-VLA91.3
DriveVLA-W0 (FM)90.2
Uni-World VLA89.4
DriveLaW89.1
DriveVLA-W0 (query)88.4
DiffusionDrive88.1

87-93 PDMS 区间塞了 10+ 个 design 上离得很远的工作——pure self-supervised + trajectory decoder (Drive-JEPA) 跟 V-L backbone + Action Expert MoE (DriveVLA-W0) 拿到几乎相同分数。同一个 DriveVLA-W0 内部,换 decoder 形态(query / FM / AR)分数从 88.4 跳到 93.0——只换最后一段 decoder,分差已经覆盖路线间差距。

类比 LLM 上 MMLU 在 88 vs 89 之间已经无法可靠归因到能力差距,NAVSIM 现在是同一状态。NAVSIM v2 / EPDMS 加 reactive component 是为这件事打补丁,但 sub-metric 乘积形式让它仍然是同构指标,区分能力提升有限(详见 自动驾驶世界模型 × Action §4 的论证)。

含义直接:“哪条路线在 NAVSIM 上 SOTA” 已经不是一个有意义的问题——分数差距是真的,对应的能力差距被 saturation 抹掉了。想区分路线必须换 benchmark,但上一节已经显示换 benchmark 后 ranking 会变。最终落点:这个 axis 不是决定性的。


三、Wayve 不是 pure affordance

Wayve 经常被 AI 圈引为 “pure E2E / affordance” 代表。Wayve 自己公开材料反过来。

LINGO-1(2023-09 官方 blog post) 三句关键引用:

“We use natural language to enhance the learning and explainability of our foundation driving models.”

“Another layer of supervision through natural language.”

“A paragraph is worth a thousand images when it comes to training.”

language 在 Wayve 的 stance 里是 additive supervision——在视觉学习之上再加一层语言监督。“a paragraph is worth a thousand images” 这句尤其反 affordance——它把 language 抬到比 image 更高效的 supervision channel 的位置。

LINGO-2(2024-04) 是 “the first driving model trained on language tested on public roads”,但 caveat 重要:

“Language-as-input-for-control (e.g. ‘pull over’) was demonstrated only in Ghost Gym simulator, not public roads.”

public roads 上跑的版本仍然是 trajectory output,language 只是 explainability layer,不当 control input 使。

Tesla v12 narrative 也需要解构。Musk 2023-08 livestream 说 “v12 used machine learning and not any human-written code”,移除 30 万行 C++。但移除的是控制 / 规划层的 hand-coded 逻辑(FSM、PID、决策树)。perception head 是否被移除从未官方明确——Tesla 公开 Autopilot 视频里仍然展示 detection box overlay,单 backbone 多 head 的 hydranet 架构 Karpathy 2021 CVPR 已经描述过,v12 阶段全废 perception head 不太可能。实际架构最可能:photons-in / trajectory-out 主干 + 保留 perception heads 作 auxiliary。

国内蔚小理 公开 messaging 统一是 “end-to-end + VLM dual-system”——理想 MindVLA、小鹏 XNGP + X-World、蔚来 NWM,没有一家在公开材料宣称走 pure affordance / language-free。

把三方公开 stance 放一起看:production AD 几乎全部走 hybrid 路线,以 V-L 作 additive supervision 或 VLM 作 auxiliary system 形式存在。AI 圈把 Wayve / Tesla 归到 affordance 派,跟它们自己的公开站位有差距。加上上节 benchmark 数据——这条 spectrum 的 “affordance 端” 在 2026 年是个空集。


四、JEPA 阵营也不押 emergence

AI 圈把 JEPA 描述成 “vision 的 GPT moment 候选”——scale up vision SSL,driving capability 自己 emerge。LeCun / Meta FAIR 自己的 framing 不是这个。

LeCun 在多个公开场合明确把 JEPA 定位为 architectural alternative to scaling——跟 LLM 阵营 scaling-first narrative 完全相反。LeCun 反复批评 “LLM scaling 通向 AGI” 是误判,他押的是 architecture innovation。

V-JEPA 系列三代论文 framing 都是 transfer learning quality——self-supervised 之后,下游 task 上 fine-tune / probe 强不强。没有一代把自己 framing 成 “scale up 自动 emerge driving capability”。Drive-JEPA 走的也是 transfer 路线:V-JEPA 2.1 weights + driving-specific causal mask + trajectory decoder,pipeline 里没有 emergence 这一步。

实证 pattern 同样不支持。vision SSL scaling 一直是 log-linear——加数据 / 加参数都给 log-scale 稳步提升,没有 LLM-style phase transition。DINOv3(文章)7B 上 ImageNet linear probing 提升相对 1.1B DINOv2 只有百分之几,不是能力跳变。DINOv3 反而碰到反向问题:scaling 让 dense feature 退化,需要 Gram anchoring 才能补回来——跟 “emerge driving capability” 的乐观叙事正好相反。

Schaeffer et al.(NeurIPS 2023)的论证更直接:很多 LLM “emergence” 现象是 metric 选择导致的——把 hard-threshold metric(exact match)换成 continuous metric,所谓 phase transition 就消失。这条结论搬到 vision SSL:用 continuous metric 看 V-JEPA / DINOv3 scaling,pattern 一直是 log-linear。

把三件事合起来:JEPA 阵营自己不押 emergence + 实证是 log-linear + emergence 现象本身可能是 metric artifact——“scale up affordance backbone 自动 emerge driving capability” 这条 narrative 没有理论支持者、没有实证 pattern 支持。

JEPA 路线另有一个更现实的问题:评测。Drive-JEPA 在 NAVSIM 上指标 viable,但 latent prediction 路线的根本难处在于 latent space 长什么样不直观——一个 “affordance 注入” 是否真的让 latent space 更 “对决策友好”,没有可读 metric 可验证。Bench2Drive 闭环上 latent path 是否稳定,公开数据点有限。这跟 Driving JEPA 综述 §五 “V-JEPA 在 driving 上做的对齐只是后置补丁” 是同一件事更深一层——affordance 路线缺少 disentangled metric,production 落地缺乏 debug 抓手。


五、真正的产线 axis

四类证据交叉以后,affordance / symbolic 这条 spectrum 的实证基础已经不剩什么。把目光从 representation philosophy 移开,看 production VLA 实际被哪些约束决定:

  • V2X 接入——交警 broadcast、路侧单元、车间协同天然是文本 / 结构化协议。想消化 V2X,V-L backbone 不能砍。
  • 法规验证——L3 / L4 的 UNECE / GB / FMVSS 要求 “系统能识别停止牌并停下” 这类能力可被独立测试。没有显式 detection head 验证不过,pure 黑盒 trajectory output 监管不签字。
  • 标注 / debug 接口——badcase 描述本身就是 symbolic 活动 (“在 X 路口左转待转区,大货车遮挡视线时,把对向直行车误判为停止”)。工程师无法在 latent 空间坐标里描述错误,perception 端必须能映射到符号表征。
  • 长尾样本效率——一段交规文本比一万张照片更直接告诉模型 “施工锥摆 V 字 → 临时封闭”。这条路必须保 V-L backbone 的预训练 prior。
  • 跨车型部署——同一套模型适配多种相机配置(数量 / 内参 / 外参)和多种 V2X 协议版本。pure E2E 在固定 setup 上训出来的 weights 换车型容易退化。
  • 推理预算——车端 NPU TOPS 紧、内存有限、SLA 100ms。V-L backbone 即便量化也要小心算,多数 production 落到 backbone × 1.5 量级(V-L 表征 + Action Expert 同时跑)。

把这六条按 affordance / symbolic 对应的友好度摆出来:

Axis“affordance” 友好“symbolic” 友好
V2X 接入不友好友好
法规验证不友好友好
标注 / debug不友好友好
长尾样本效率中等友好
跨车型部署不友好中等
推理预算友好不友好

六条 axis 不在同一 spectrum 上——每条是独立约束,工程组合空间远大于二分给出的 2 种选择。production 设计真正要做的判断:在这六条约束下,给定产品定义对应的可行 region 是什么。Robo-Taxi 跟 L2+ ADAS 优先级不一样,国内 OEM 跟北美 startup 不一样,单车型 dedicated 跟跨车型部署也不一样——每种产品定义对应不同 feasible region。“我们站 affordance / 我们站 symbolic” 这种 framing 把信息抹掉了。


六、Production VLA 当前的落点

回到 2026 年 production AD VLA 实际落在哪里。把上面六条 axis 代入,可观察到一组工程共识的妥协(具体架构形态参考 3D 视觉表征注入 的 MoE Joint Attention 分析):

  • Backbone 保 V-L pretrain prior——走 V-L 对齐的预训练(而不是 self-supervised driving video),接受 caption / VQA KPI 适度退化作为代价,但保留 backbone 上的语言能力作为 long-tail / debug / V2X 通路
  • Decision 不走显式 detection box 决策树——但保留 detection auxiliary head 作 KPI 通路,不影响主决策,可独立测试满足法规
  • 几何 prior 通过 vision tower 端注入——calibration-aware,跨车型部署可适配
  • Trajectory 端用 Action Expert + RL post-training(SFT → 偏好学习 → RL)解闭环交互

按 affordance / symbolic 二分硬塞:

  • 跟 pure affordance 对不上——backbone 走 V-L 对齐的预训练,不是 self-supervised driving video pretrain
  • 跟 pure symbolic 也对不上——decision 端 trajectory 直接从 noisy seed 跨 prompt KV attention 解码,没有显式 detection box 决策树参与

按上一节六条 axis 看更清楚,这套形态各条 axis 上的选择:

Axis当前 production 妥协
V2X 接入V-L backbone + prompt 通路保留
法规验证保留 detection auxiliary head 做独立测试
标注 / debugV-L caption 能力承接 badcase 描述接口
长尾样本效率V-L pretrain prior 兜底 handbook 知识
跨车型部署vision tower 端 calibration-aware 注入
推理预算backbone × 1.5,靠 KV cache 优化压时延

跟 §三 Wayve / Tesla / 蔚小理对照:Wayve LINGO “language as additive supervision” + Tesla “photons-to-trajectory 主干 + perception auxiliary head” + 蔚小理 “VLM dual-system”——三个公开 stance 跟上面这套形态在工程层是同一族。production AD VLA 在 2026 年的实际落点:几条独立约束交叉以后剩下的可行 region,没有哪条路线整体胜出。


接下来:supervision 维度

Representation philosophy 这条 axis 上的假二分已经讲完。supervision 维度(dense vs sparse)是另一条正交 axis,是 production VLA 真正还缺位的一块。姊妹文 Dense Latent Predictive Supervision 把它展开:latent action 表征跟闭环验证已经做到位,三块里只剩稠密监督缺位;DriveVLA-W0 走 pixel-level 不是最优,应走 V-JEPA 风格 latent prediction。


参考

一手材料

  • Wayve. LINGO-1: Exploring Natural Language for Autonomous Driving. Sep 2023 blog post. wayve.ai/thinking/lingo-natural-language-autonomous-driving
  • Wayve. LINGO-2: Driving with Natural Language. April 2024.
  • Wayve. GAIA-1: A Generative World Model for Autonomous Driving. arXiv:2309.17080.
  • Tesla / Elon Musk. FSD v12 livestream, Aug 2023.
  • Mobileye. True Redundancy: A Self-Driving Approach for Mass Deployment. whitepaper.
  • Meta FAIR. V-JEPA: Self-Supervised Video Models from Vision. arXiv:2404.08471.
  • Meta FAIR. V-JEPA 2 / V-JEPA 2.1: Self-Supervised Vision Foundation Models.

Benchmark 数据

  • Dauner et al. NAVSIM. NeurIPS 2024. arXiv:2406.15349
  • Jia et al. Bench2Drive. NeurIPS 2024 D&B.
  • Hu et al. Planning-oriented Autonomous Driving (UniAD). CVPR 2023 Best Paper.
  • Jiang et al. VAD. ICCV 2023.
  • Hwang et al. EMMA. Waymo, 2024.
  • Liu et al. LAW: Learning to Drive As World Model.
  • Hydra-MDP, DiffusionDrive, DriveVLA-W0 (arXiv:2510.12796), Drive-JEPA, DriveLaW, DriveWorld-VLA, LaST-VLA, Uni-World VLA — 详见 自动驾驶世界模型 × Action reference 列表。
  • Bojarski et al. End to End Learning for Self-Driving Cars (PilotNet). arXiv:1604.07316, 2016.
  • Chen et al. DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving. ICCV 2015.

Emergence / Scaling

  • Schaeffer, Miranda, Koyejo. Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023.
  • Gibson. The Ecological Approach to Visual Perception. 1979.