Affordance vs Symbolic Perception in AD：二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分：一边 “label-free / pure E2E / affordance”——人开车不靠语言思考，模型也不应该有 caption 或 detection head，photons 直接到 trajectory；另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注，必须保 V-L 对齐能力。Wayve / Tesla 一档，Mobileye 一档，蔚小理在中间。

这套 framing 在学术 paper 和工业宣传里都很流行，但拿一手材料对照下来几个具体不一致就跳出来：

“Symbolic” 在 AD 文献里同时被用来指结构化感知输出（boxes / lanes / occupancy）和 language 作为输出通道，两件事卡的产线约束完全不一样，挂同一个标签下本身就是混淆
同一个方法 UniAD，在 NAVSIM 开环 PDMS 上拿 83.4（baseline 级），到 Bench2Drive 闭环 Driving Score 只有 45.8 + 交互场景成功率 <20%——同一个方法两个 benchmark 上跨等级表现
Wayve 公开 blog 明确把 language 定位为 “additive supervision” / “a paragraph is worth a thousand images”，LINGO-2 论文也写明 language-as-input-for-control 只在 simulator 里测过——Wayve 不在 “pure affordance” 一档
JEPA 阵营自己不押 emergence——LeCun 公开 stance 是 architectural alternative，V-JEPA 三代论文 framing 都是 transfer learning，没有"scale up 自动 emerge"的承诺

接下来分别展开，最后回到真正决定 production 设计的几条独立 axis。

读者预设：熟悉 E2E driving 基本概念，知道 NAVSIM / Bench2Drive 各是什么，读过 3D 视觉表征注入或熟悉里面的 L1-L4 拆解。

“Symbolic” 这个词正在指两件事

AD 圈讲 “symbolic perception” 的时候实际上同时混用两个含义：

结构化感知输出——boxes / lanes / drivable area / occupancy / scene graph，显式离散、带语义标签的中间表征。UniAD / VAD / DriveLM 在讨论的是这一面。
Language 作为输出通道——caption / VQA / reasoning trace / 自然语言解释。Wayve LINGO、各家 “VLM dual-system” 在讨论的是这一面。

两件事在 production 上卡的约束不同：

结构化感知主要服务法规验证 / HMI 显示 / V2X 协议对接 / 标注链路
Language 主要服务 reasoning trace / 可解释性 / 长尾 bootstrap / 用户交互

工程上它们 happen to 共享同一个 V-L backbone——结构化感知 head 和 language head 可以挂在同一个 tower 上。这是合并讨论的工程基础，谈不上合并讨论的概念基础。

这件事为什么重要：后面 benchmark 部分讨论的是结构化感知端的 ranking，Wayve 部分讨论的是 language 端的 stance，JEPA 部分讨论的是 representation pretrain 端的 stance——三件正交的事用 “symbolic” 一个词裹起来，自然产生 framing 错位。

一、Benchmark 排序不一致

如果 affordance / symbolic 是个真正的 trade-off，在不同 benchmark 上方法 ranking 应该稳定。实际数据反过来。

NAVSIM v1.1 开环 PDMS：

方法	NAVSIM PDMS
Ego-Status MLP（不看视觉）	65.6
TransFuser	84.0
UniAD（symbolic 模块化）	83.4
Hydra-MDP	91.3
DriveVLA-W0 (AR)	93.0
Drive-JEPA（self-supervised）	93.3

两件事直接读出来：TransFuser 跟 UniAD 在 PDMS 上几乎打平——一个简单 fusion 跟一套完整 detection-prediction-planning pipeline 拿一样的分；Ego-Status MLP 不看视觉拿 65.6——NAVSIM 上 70% 以上 PDMS 来自 ego dynamics extrapolation，视觉感知能力只在剩下 25-30 分里被测。

Bench2Drive 闭环（CARLA reactive）：

方法	Driving Score	Success Rate
AD-MLP（blind）	18.1	0%
VAD	42.4	15%
UniAD-Base	45.8	16%
TCP-traj	59.9	30%
ThinkTwice	62.4	31%
DriveAdapter	64.2	33%

ranking 完全反过来。UniAD / VAD 这种 “symbolic 模块化” 在闭环上掉到 expert distillation 路线下面一截。Bench2Drive 提供的 22 个 interactive skill 单项里 UniAD 的 Merging 14%、Overtaking 18%，比 DriveAdapter ~42% 差一倍。

nuScenes Planning 再交叉一次（L2 / Collision）：

方法	L2 (m)	Collision (%)
VAD	0.72	0.22
LAW (perception-free)	0.61	0.30
LAW (perception-based)	0.49	0.19

LAW perception-free 的 L2 比 VAD 好，但 collision rate 比 VAD 差——同一个方法 vs 同一个 benchmark，不同 metric 排序还能再翻一次。

三个 benchmark 各自测的能力本身就不同：NAVSIM 测 imitation trajectory 跟 expert demo 在 2-4 秒窗口的距离（主要被 ego dynamics 解释），Bench2Drive 测 long-horizon 闭环交互（主要被 expert distillation 决定），nuScenes Planning 介于两者。把 ranking 不一致归到 “affordance vs symbolic 路线优劣” 是 misattribution——真正决定 ranking 的是 benchmark 测什么。

更深一层的隐含：affordance vs symbolic 这条 axis 在三个 benchmark 上都不是 dominant 决定因素。NAVSIM 上 ego dynamics 占 70%、Bench2Drive 上 expert demo distillation 占主导、nuScenes 上 metric 选择决定 ranking——这些都不是二分能解释的。

二、NAVSIM 已经 saturate

把 NAVSIM 高分段单独抽出来：

方法	NAVSIM PDMS
Drive-JEPA	93.3
DriveVLA-W0 (AR)	93.0
Hydra-MDP	91.3
LaST-VLA	91.3
DriveWorld-VLA	91.3
DriveVLA-W0 (FM)	90.2
Uni-World VLA	89.4
DriveLaW	89.1
DriveVLA-W0 (query)	88.4
DiffusionDrive	88.1

87-93 PDMS 区间塞了 10+ 个 design 上离得很远的工作——pure self-supervised + trajectory decoder (Drive-JEPA) 跟 V-L backbone + Action Expert MoE (DriveVLA-W0) 拿到几乎相同分数。同一个 DriveVLA-W0 内部，换 decoder 形态（query / FM / AR）分数从 88.4 跳到 93.0——只换最后一段 decoder，分差已经覆盖路线间差距。

类比 LLM 上 MMLU 在 88 vs 89 之间已经无法可靠归因到能力差距，NAVSIM 现在是同一状态。NAVSIM v2 / EPDMS 加 reactive component 是为这件事打补丁，但 sub-metric 乘积形式让它仍然是同构指标，区分能力提升有限（详见自动驾驶世界模型 × Action §4 的论证）。

含义直接：“哪条路线在 NAVSIM 上 SOTA” 已经不是一个有意义的问题——分数差距是真的，对应的能力差距被 saturation 抹掉了。想区分路线必须换 benchmark，但上一节已经显示换 benchmark 后 ranking 会变。最终落点：这个 axis 不是决定性的。

三、Wayve 不是 pure affordance

Wayve 经常被 AI 圈引为 “pure E2E / affordance” 代表。Wayve 自己公开材料反过来。

LINGO-1（2023-09 官方 blog post） 三句关键引用：

“We use natural language to enhance the learning and explainability of our foundation driving models.”
“Another layer of supervision through natural language.”
“A paragraph is worth a thousand images when it comes to training.”

language 在 Wayve 的 stance 里是 additive supervision——在视觉学习之上再加一层语言监督。“a paragraph is worth a thousand images” 这句尤其反 affordance——它把 language 抬到比 image 更高效的 supervision channel 的位置。

LINGO-2（2024-04） 是 “the first driving model trained on language tested on public roads”，但 caveat 重要：

“Language-as-input-for-control (e.g. ‘pull over’) was demonstrated only in Ghost Gym simulator, not public roads.”

public roads 上跑的版本仍然是 trajectory output，language 只是 explainability layer，不当 control input 使。

Tesla v12 narrative 也需要解构。Musk 2023-08 livestream 说 “v12 used machine learning and not any human-written code”，移除 30 万行 C++。但移除的是控制 / 规划层的 hand-coded 逻辑（FSM、PID、决策树）。perception head 是否被移除从未官方明确——Tesla 公开 Autopilot 视频里仍然展示 detection box overlay，单 backbone 多 head 的 hydranet 架构 Karpathy 2021 CVPR 已经描述过，v12 阶段全废 perception head 不太可能。实际架构最可能：photons-in / trajectory-out 主干 + 保留 perception heads 作 auxiliary。

国内蔚小理 公开 messaging 统一是 “end-to-end + VLM dual-system”——理想 MindVLA、小鹏 XNGP + X-World、蔚来 NWM，没有一家在公开材料宣称走 pure affordance / language-free。

把三方公开 stance 放一起看：production AD 几乎全部走 hybrid 路线，以 V-L 作 additive supervision 或 VLM 作 auxiliary system 形式存在。AI 圈把 Wayve / Tesla 归到 affordance 派，跟它们自己的公开站位有差距。加上上节 benchmark 数据——这条 spectrum 的 “affordance 端” 在 2026 年是个空集。

四、JEPA 阵营也不押 emergence

AI 圈把 JEPA 描述成 “vision 的 GPT moment 候选”——scale up vision SSL，driving capability 自己 emerge。LeCun / Meta FAIR 自己的 framing 不是这个。

LeCun 在多个公开场合明确把 JEPA 定位为 architectural alternative to scaling——跟 LLM 阵营 scaling-first narrative 完全相反。LeCun 反复批评 “LLM scaling 通向 AGI” 是误判，他押的是 architecture innovation。

V-JEPA 系列三代论文 framing 都是 transfer learning quality——self-supervised 之后，下游 task 上 fine-tune / probe 强不强。没有一代把自己 framing 成 “scale up 自动 emerge driving capability”。Drive-JEPA 走的也是 transfer 路线：V-JEPA 2.1 weights + driving-specific causal mask + trajectory decoder，pipeline 里没有 emergence 这一步。

实证 pattern 同样不支持。vision SSL scaling 一直是 log-linear——加数据 / 加参数都给 log-scale 稳步提升，没有 LLM-style phase transition。DINOv3（文章）7B 上 ImageNet linear probing 提升相对 1.1B DINOv2 只有百分之几，不是能力跳变。DINOv3 反而碰到反向问题：scaling 让 dense feature 退化，需要 Gram anchoring 才能补回来——跟 “emerge driving capability” 的乐观叙事正好相反。

Schaeffer et al.（NeurIPS 2023）的论证更直接：很多 LLM “emergence” 现象是 metric 选择导致的——把 hard-threshold metric（exact match）换成 continuous metric，所谓 phase transition 就消失。这条结论搬到 vision SSL：用 continuous metric 看 V-JEPA / DINOv3 scaling，pattern 一直是 log-linear。

把三件事合起来：JEPA 阵营自己不押 emergence + 实证是 log-linear + emergence 现象本身可能是 metric artifact——“scale up affordance backbone 自动 emerge driving capability” 这条 narrative 没有理论支持者、没有实证 pattern 支持。

JEPA 路线另有一个更现实的问题：评测。Drive-JEPA 在 NAVSIM 上指标 viable，但 latent prediction 路线的根本难处在于 latent space 长什么样不直观——一个 “affordance 注入” 是否真的让 latent space 更 “对决策友好”，没有可读 metric 可验证。Bench2Drive 闭环上 latent path 是否稳定，公开数据点有限。这跟 Driving JEPA 综述 §五 “V-JEPA 在 driving 上做的对齐只是后置补丁” 是同一件事更深一层——affordance 路线缺少 disentangled metric，production 落地缺乏 debug 抓手。

五、真正的产线 axis

四类证据交叉以后，affordance / symbolic 这条 spectrum 的实证基础已经不剩什么。把目光从 representation philosophy 移开，看 production VLA 实际被哪些约束决定：

V2X 接入——交警 broadcast、路侧单元、车间协同天然是文本 / 结构化协议。想消化 V2X，V-L backbone 不能砍。
法规验证——L3 / L4 的 UNECE / GB / FMVSS 要求 “系统能识别停止牌并停下” 这类能力可被独立测试。没有显式 detection head 验证不过，pure 黑盒 trajectory output 监管不签字。
标注 / debug 接口——badcase 描述本身就是 symbolic 活动 (“在 X 路口左转待转区，大货车遮挡视线时，把对向直行车误判为停止”)。工程师无法在 latent 空间坐标里描述错误，perception 端必须能映射到符号表征。
长尾样本效率——一段交规文本比一万张照片更直接告诉模型 “施工锥摆 V 字 → 临时封闭”。这条路必须保 V-L backbone 的预训练 prior。
跨车型部署——同一套模型适配多种相机配置（数量 / 内参 / 外参）和多种 V2X 协议版本。pure E2E 在固定 setup 上训出来的 weights 换车型容易退化。
推理预算——车端 NPU TOPS 紧、内存有限、SLA 100ms。V-L backbone 即便量化也要小心算，多数 production 落到 backbone × 1.5 量级（V-L 表征 + Action Expert 同时跑）。

把这六条按 affordance / symbolic 对应的友好度摆出来：

Axis	“affordance” 友好	“symbolic” 友好
V2X 接入	不友好	友好
法规验证	不友好	友好
标注 / debug	不友好	友好
长尾样本效率	中等	友好
跨车型部署	不友好	中等
推理预算	友好	不友好

六条 axis 不在同一 spectrum 上——每条是独立约束，工程组合空间远大于二分给出的 2 种选择。production 设计真正要做的判断：在这六条约束下，给定产品定义对应的可行 region 是什么。Robo-Taxi 跟 L2+ ADAS 优先级不一样，国内 OEM 跟北美 startup 不一样，单车型 dedicated 跟跨车型部署也不一样——每种产品定义对应不同 feasible region。“我们站 affordance / 我们站 symbolic” 这种 framing 把信息抹掉了。

六、Production VLA 当前的落点

回到 2026 年 production AD VLA 实际落在哪里。把上面六条 axis 代入，可观察到一组工程共识的妥协（具体架构形态参考 3D 视觉表征注入的 MoE Joint Attention 分析）：

Backbone 保 V-L pretrain prior——走 V-L 对齐的预训练（而不是 self-supervised driving video），接受 caption / VQA KPI 适度退化作为代价，但保留 backbone 上的语言能力作为 long-tail / debug / V2X 通路
Decision 不走显式 detection box 决策树——但保留 detection auxiliary head 作 KPI 通路，不影响主决策，可独立测试满足法规
几何 prior 通过 vision tower 端注入——calibration-aware，跨车型部署可适配
Trajectory 端用 Action Expert + RL post-training（SFT → 偏好学习 → RL）解闭环交互

按 affordance / symbolic 二分硬塞：

跟 pure affordance 对不上——backbone 走 V-L 对齐的预训练，不是 self-supervised driving video pretrain
跟 pure symbolic 也对不上——decision 端 trajectory 直接从 noisy seed 跨 prompt KV attention 解码，没有显式 detection box 决策树参与

按上一节六条 axis 看更清楚，这套形态各条 axis 上的选择：

Axis	当前 production 妥协
V2X 接入	V-L backbone + prompt 通路保留
法规验证	保留 detection auxiliary head 做独立测试
标注 / debug	V-L caption 能力承接 badcase 描述接口
长尾样本效率	V-L pretrain prior 兜底 handbook 知识
跨车型部署	vision tower 端 calibration-aware 注入
推理预算	backbone × 1.5，靠 KV cache 优化压时延

跟 §三 Wayve / Tesla / 蔚小理对照：Wayve LINGO “language as additive supervision” + Tesla “photons-to-trajectory 主干 + perception auxiliary head” + 蔚小理 “VLM dual-system”——三个公开 stance 跟上面这套形态在工程层是同一族。production AD VLA 在 2026 年的实际落点：几条独立约束交叉以后剩下的可行 region，没有哪条路线整体胜出。

接下来：supervision 维度

Representation philosophy 这条 axis 上的假二分已经讲完。supervision 维度（dense vs sparse）是另一条正交 axis，是 production VLA 真正还缺位的一块。姊妹文 Dense Latent Predictive Supervision 把它展开：latent action 表征跟闭环验证已经做到位，三块里只剩稠密监督缺位；DriveVLA-W0 走 pixel-level 不是最优，应走 V-JEPA 风格 latent prediction。

参考

一手材料

Wayve. LINGO-1: Exploring Natural Language for Autonomous Driving. Sep 2023 blog post. wayve.ai/thinking/lingo-natural-language-autonomous-driving
Wayve. LINGO-2: Driving with Natural Language. April 2024.
Wayve. GAIA-1: A Generative World Model for Autonomous Driving. arXiv:2309.17080.
Tesla / Elon Musk. FSD v12 livestream, Aug 2023.
Mobileye. True Redundancy: A Self-Driving Approach for Mass Deployment. whitepaper.
Meta FAIR. V-JEPA: Self-Supervised Video Models from Vision. arXiv:2404.08471.
Meta FAIR. V-JEPA 2 / V-JEPA 2.1: Self-Supervised Vision Foundation Models.

Benchmark 数据

Dauner et al. NAVSIM. NeurIPS 2024. arXiv:2406.15349
Jia et al. Bench2Drive. NeurIPS 2024 D&B.
Hu et al. Planning-oriented Autonomous Driving (UniAD). CVPR 2023 Best Paper.
Jiang et al. VAD. ICCV 2023.
Hwang et al. EMMA. Waymo, 2024.
Liu et al. LAW: Learning to Drive As World Model.
Hydra-MDP, DiffusionDrive, DriveVLA-W0 (arXiv:2510.12796), Drive-JEPA, DriveLaW, DriveWorld-VLA, LaST-VLA, Uni-World VLA — 详见自动驾驶世界模型 × Action reference 列表。
Bojarski et al. End to End Learning for Self-Driving Cars (PilotNet). arXiv:1604.07316, 2016.
Chen et al. DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving. ICCV 2015.

Emergence / Scaling

Schaeffer, Miranda, Koyejo. Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023.
Gibson. The Ecological Approach to Visual Perception. 1979.

“Symbolic” 这个词正在指两件事#

一、Benchmark 排序不一致#

二、NAVSIM 已经 saturate#

三、Wayve 不是 pure affordance#

四、JEPA 阵营也不押 emergence#

五、真正的产线 axis#

六、Production VLA 当前的落点#

接下来：supervision 维度#

参考#

一手材料#

Benchmark 数据#

Emergence / Scaling#

相关文章