自动驾驶 VLA 的 3D 视觉表征：从能力边界到工程注入

引言：这篇为什么写

写在前面：本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D：视觉表征的本体论问题》讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题；《4D Vision Encoder for Autonomous Driving：信息瓶颈视角下的统一审视》用信息瓶颈五条件审计了九种 4D encoder 方案；《X-World：小鹏可控自车视角多相机世界模型》拆解了重型 latent video diffusion 的生成派世界模型路径；Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。

本文不重复以上任何一篇的视角。哲学层面已有 vision-2d-to-4d，IB 五条件审计已有 4d-vision-encoder，生成派已有 xpeng-x-world，单论文精读已有五篇。本文要解决的是另一个被前面所有文章绕开的问题：当我把一个 VLA 系统真正放到车上跑，vision tower 那一截，3D 信息从哪里来、怎么进、付出什么代价、什么能进 production。

读者预设：熟悉 ViT、cross-attention、BEV、basic 的端到端 driving；不需要懂 V-JEPA / VGGT 的内部细节，本文只用到它们的 interface 性质。

讨论范围限定在 perception 侧的 vision tower——也就是从相机原始图像到送入 LLM 的视觉 token 这条链路上的 3D 注入。仿真器 / 数据合成 / rollout 那条生成派的路线在 xpeng-x-world 里讨论过，本文不展开。

一、AD VLA 系统的能力拆解

把 VLA driving 系统的能力按 latent space 需要的拓扑性质拆开。L1 这层比常说的"几何感知"复杂得多，是后面所有讨论的基础——所以这一节展开讲 L1，再快速过 L2-L4。

L1 Grounded Perception with Relevance Selection

L1 要做的事情比"识别物体 + 估计位置"更宽——把驾驶场景里所有可能影响决策的实体识别出来、bind 到几何位置，还要从一堆候选里选出对自车 relevant 的那个。

要消化的 entity 远不止 agent 和通行区域。按四类铺开：

动静态实体

自车与周围 agent 的位置 / 速度 / 形状 / 意图信号
车灯语言：转向灯、刹车灯、双闪
异形物 / 散落物 / 临时锥桶 / 施工设施

车道几何

车道线 / 路边沿 / 可通行区域 / 车道拓扑
待转区 / 导流线 / 复杂路口的 lane 关联
公交车道 / 潮汐车道 / HOV 道
进出闸机的通行性

符号 / 标识 / 文字

红绿灯及其状态
标识牌：限速、警告、车道指引
地面标识：限速数字、转向箭头、停止线、车道功能
文字提醒：「前方进入预转道」、施工指示等

这一层真正的难度在 selection：

场景里十几个红绿灯，哪个对我这条车道生效？地面"前方进入预转道"箭头，指向我要走的口吗？前车的转向灯，对应我下个动作要让位吗？限速 30 是当前路段还是路口前几米？公交车道在我左侧第二条——能借吗？

这些问题超出了模型识别能力的范围——多目标检测器都能检出场景里所有红绿灯。难的是relevance selection：从候选集里选出跟自车当前决策关联最强的那个。这是 L1 grounded perception 真正要解的事——What × Where × Self-pose 三者绑定，再加上跨 entity 的几何 / 语义共同推断 relevance。

L1/L2 边界：跨 entity 关联的四类

跨 entity 的关联在 driving 里有几种不同形态，分别对应不同 layer：

类型	例子	属于
A. 单 entity 内 What×Where bind	“停止牌在 15 米外”	L1
B. 跨 entity 静态空间关联	“这个红灯对我这条车道生效” “待转区箭头指向我要走的口”	L1 的扩展（仍是几何，不需要 dynamics）
C. 跨 entity 动态因果	“前车减速 → 前面可能有红灯 → 我应该减速”	L2
D. 依赖规则知识	“施工锥摆 V 字 → 临时封闭”	L3（driving long-tail）

A 和 B 都是 L1 的能力范围。这意味着 L1 的 latent 要支持的不只是 token 内 What×Where bind，还要支持跨 token 几何 + 语义共同推断 relevance grouping——但不需要 dynamics，不需要因果。dynamics 进 L2，规则推理进 L3。

L2 Visual Reasoning

C 类关联——短期 dynamics 与跨实体因果推断。“前车在加塞 → 我减速避让” / “对面车未让 → 我先停”。不需要语言，但需要 latent dynamics——latent 拓扑要近似环境的物理因果。

L3 V-L Reasoning

D 类关联——依赖 driving handbook 知识、文化规则、长尾边界。施工绕行、特殊车辆礼让、罕见路标。这一层在 driving 决策里弱必须——日常 90% 决策是 L1 + L2，长尾才需要 L3 兜底。

实际意义：navi 通过 prompt embedding 注入即可，限速 / 学校区这类信息靠 detect head 加规则就够；真正需要 reasoning 的施工绕行、特殊车辆礼让属于 long-tail，常见 ablation 拿掉 COT 性能不掉也是这件事的实证。这件事对设计的实际意义是：caption / VQA 数据可以保留作为正则化，但不应该把 caption 性能当 KPI。前者只要求 V-L 不崩，distillation / replace backbone 这类允许部分对齐损失的路线都可选；后者会逼着只能走 cross-attn / sparse volume 这种保 V-L 的路线，design space 小一个量级。这是产品定义层面的判断，要在 design 早期定。

L4 Action Generation

把 L1-L3 形成的 latent 转成 trajectory / control。按生成式规划与非凸性的论证：判别式 single-head MSE 在多模可行域上有数学缺陷——MSE 把可行的左绕 / 右绕两个 mode 平均成中间撞向障碍物的轨迹。query-based set prediction（DETR 系，每个 query 各自 fit 一个 mode + Hungarian matching 强分化）和生成式（diffusion / flow matching / AR）才是合理形态。L4 跟 vision tower 怎么注入 3D 几乎无关——已经被 trajectory decoder 隔开。

合起来看

vision tower 的设计目标是让 latent 同时承载 L1 grounded perception + L2 dynamics 能力，并保 L3 在长尾不崩。把这件事说成"兼顾 V-L 对齐和几何"会把权重错配到 L3。L1 这层是后面 §二 latent 拓扑互斥矛盾的真正爆发点——既要离散语义 cluster（识别 What），又要连续几何 manifold（位置 Where），还要支持跨 token 的几何 / 语义共同推断 relevance grouping。两种结构必须在 token 级别共存且相互引用。

二、Vision Tower 的本质矛盾：latent space 拓扑相反

Qwen3-VL 系列（参见 Qwen3 vs Qwen3.5 架构对比）的 ViT 是为 caption / instruction tuning 训练的，它的 latent space 在几个方面表现出"语义优先"的形态：

拓扑被语言塑造成离散语义 cluster——“红色 SUV"是一个 anchor，同一辆车从前看、从侧看、被遮挡 30%、夜景下、远距离小目标，所有视觉差异都被压回 anchor 附近。
邻居关系是语义相似性，跟几何相似性脱钩。两辆同色同型的 SUV 在 latent 里很近，即使物理上相距 50 米。
几何信息是被主动丢弃的——caption 目标函数本身在压缩几何变化，模型并非"没顾上学”。

V-JEPA / VGGT 系列的 latent space 完全相反。它的训练目标是重建（pixel-level / latent-level）或多视角几何一致性：

拓扑是连续物理 manifold——同一物体在 $t$ 和 $t+1$ 的表征是连续路径；同一物体在视角 1 和视角 2 的表征几何一致但保留视角差异。
邻居关系是物理 / 时空连续性。两辆相距 50 米的同色 SUV 在 latent 里离得远；同一辆 SUV 在 0.1 秒前后离得很近。
语义信息被几何遮蔽——caption-level 的语义在 reconstruction 目标里被压扁。

两个 latent space 的优化目标在 feature space 里是反向的，这一点比"程度差异"更深一层：

CLIP / Qwen3-VL ViT 的隐含目标： $\min \|\phi(x_1) - \phi(x_2)\|$ 当 $x_1, x_2$ 语义相同（不同视角的同一辆车）。
几何训练的隐含目标： $\phi(x_1)$ 和 $\phi(x_2)$ 必须保留视角差异以支持几何一致性，不能压到同一个点。

一个 backbone 同时承载两件事，必然在某个层级发生信息覆盖，这是结构性互斥而非可调的 trade-off 系数。

具体到 Qwen3-VL ViT，3D 缺位的根源可以从训练目标的几个方向看：

patch tokenization 后每个 token 的位置由 (h, w) 索引唯一决定，没有 3D 几何 anchor 维度。M-RoPE 的 (T, H, W) 三轴里，H、W 在多相机 driving 设定下是 pixel 网格索引，跟自车坐标系下的 3D 位置没有可学习关联。
caption 的 supervision 信号里没有 depth 通道——LAION-COCO 类语料没有"前方车辆距离 12 米"这种描述密度。
实测把 Qwen3-VL ViT 接 depth probe（linear probing），KITTI / nuScenes 上比 DINOv3 弱一两个量级（参见 DINOv3 文章中的 probe 结果）。

ViT 是否完全没几何成分？有微弱信号但被语义 cluster dominated——attention map 在多视角同一物体上有 spatial correspondence，说明 ViT 学到了某种 viewpoint-aware 的 latent，但这个 latent 没有 metric 性质，也没有跨视角的 3D 几何约束。在 driving multi-view 数据上 finetune 几个 epoch，depth probe 会有几个点提升但仍远低于 DINOv3——这个 gap 来自训练目标的根本差异，跟数据或步数无关。

三、几何能力的三种来源

讨论"3D 注入"之前要先把一个分类讲清楚：几何 prior 是从哪里来的？这个问题比"哪种 3D 表征好"更上游——它问的是几何信息进入系统的路径。沿着这个问题剖开，能看到三条独立的思路。

3.1 Aggregation Operator 派：物理过程提供几何

这一派的核心是：geometric prior 不在 backbone 权重里，而在 aggregation operator 里。具体形式是 explicit unprojection / reprojection——已知相机内外参时，pixel 坐标和 3D 体素坐标之间是确定性几何变换。把这个变换写进算子，几何就被显式注入了，不需要 backbone 学。

这一派的哲学跟前神经网络时代的 multi-view geometry 同源——把 SfM / MVS pipeline 里的几个步骤替换成可学习模块，但几何 backbone 部分（unprojection 这一步）保留为算子。它对"backbone 不擅长几何"做了诚实的回应：既然 backbone 学不动 metric geometry，就把这件事交给 calibration matrix。

代表工作：

S4-Driver（Waymo, CVPR 2025, arXiv:2505.24139）。基于 frozen PaLI MLLM 的 ViT，在 vision-to-LLM 这一段插入 sparse volume aggregation：定义自车坐标系下的体素网格 $\{(x_i, y_i, z_i)\}$ ，每个 voxel 通过相机投影矩阵投到各相机视角，bilinear sample 取 ViT feature，跨视角 average（这是 SimpleBEV 的标准思路），多帧通过 ego-motion 对齐后 per-frame concat 加 FC fusion。然后 sparse selection——一个 MLP 给每个 voxel 打分 $g \in (0,1)$ ，取 top-M（M = 6000）voxels 进 LLM，其余丢弃，控制 token 预算。最关键的细节是 local 3D aggregation：在选出的 voxels 之间做 self-attention，但 attention 加 relative position bias $b_x, b_y, b_z$ （按 voxel 间相对位置查表），而不是用 3D conv。结果在 nuScenes 和 WOMD-Planning-ADE 上 SOTA，训练成本 2.5 天 / 128 TPU v4 / batch 256。

跟 DA3 / VGGT 表征哲学对照：DA3 的 depth-ray 表征是 minimal sufficient 的——每像素一标量深度 + 一方向向量，几何由可学习 backbone 端到端预测；S4 的 sparse volume 是相反一极——frozen ViT 不学几何，几何来自 camera projection 这个确定性算子。再看 VGGT（VGGT 文章第 4 节）：深度 + 点图 + 内外参 + 置信度四个 head 之间靠恒等式约束，是 over-parametrized；S4 没有这种冗余，只有 voxel feature，几何一致性由 projection 强制。三种取向并排：DA3（minimal sufficient learned）→ VGGT（over-parametrized learned）→ S4（no learned geometry, projection only），对应 backbone capacity 投入几何能力的不同强度，也对应车端推理预算的不同松紧。

Tri-plane (AR1, NVIDIA)。3D 体素网格切成三个正交平面的 patch，进入 ViT 替代原本的 2D patch。这条路也是 Aggregation Operator 派，但它做得更激进——直接动 ViT 前几层的 token 结构。详细的 IB 五条件审计与 Tri-plane 在 9 方案谱里的定位，参见 4D Vision Encoder for Autonomous Driving（本文不复述 IB 框架）。

工程优势：不需要 second backbone。这是这一派最重要的一点，第五节讲部署预算时会再用到。

3.2 3D Foundation Model 派：学到的几何

这一派把 geometric prior 放在专门训练的 backbone 权重里。VGGT / V-JEPA 是典型。它们在大规模视频或多视角数据上预训练，权重里编码了几何 / 物理 / 时空 prior。

代表工作：

VGGDrive（CVPR 2026）。frozen VGGT 提供 cross-view geometric features，frozen VLM 提供语义 features，CVGE (Cross-View Geometric Enabler) 模块做 plug-and-play hierarchical injection：在 VLM 的若干层插入 cross-attention，K/V 来自 VGGT 的多尺度 geometric features。两个 backbone 都不动，只训 CVGE 的若干 cross-attn block。在 NAVSIM v1.1 / NuInstruct / DriveLM / OmniDrive / NuScenes 五个 benchmark 上做了完整的 ablation。

VGGDrive 用 frozen VGGT 注入 VLM，但 VGGT 的多个 output head 在这里不全用。CVGE 通路实际吸取的是 VGGT trunk 24 层 alternating attention 之后的多尺度 dense features，depth / pose / point map 这几个 head 不进 VLM——VLM 需要的是 token-level geometric prior，metric depth scalar 在这里没有去处。换句话说 VGGT 在这里是"半使用"的，几个 task head 在 VLM 通路上没意义。一个延伸推论是：如果只为 VLM 注入服务，VGGT 这种重型多 head 模型可能 over-engineered，未来或许会出现 trunk-only 的瘦身版本作为 driving VLA 的 frozen 几何 backbone。VGGT 原本的几个限制——静态场景假设、518×518 分辨率瓶颈、动态物体失效（VGGT 文章第 7 节）——VGGDrive 全部继承，因为它 frozen 了 VGGT 不做改造。

DriveVGGT（arXiv:2511.22264）。把 vanilla VGGT 改造成适合 driving 多相机场景的形态。三个核心改动：

TVA (Temporal Video Attention)：vanilla VGGT 是把所有相机所有帧 flatten 成 token sequence 做 global attention。在 driving 场景下，多相机视觉重叠很少（前 / 左前 / 左 / 左后 / 后 / 右后 / 右 / 右前），跨相机 token 的 dense attention 大量算在没用的 pair 上。TVA 把 attention 拆成 per-camera temporal attention——每个相机内部在时序上做 attention，跨相机交互推迟到下一步。
MCA (Multi-camera Consistency Attention)：跨相机交互这一步，把 calibration（相机间的相对位姿、内参 ratio）显式 encode 进 attention bias。配合 scale head 输出 metric-level reconstruction（不再是 vanilla VGGT 的 scale-ambiguous 结果）。
Factorized pose decoding：vanilla VGGT 用一个 sequential pose head 同时出每个相机每帧的位姿。但 driving 里多相机的外参在车上是静态的（calibration 固定），ego-motion 是 per-frame 变化的。把 pose head 拆成 ego-motion head（per-frame）和 multi-cam extrinsic head（共享、低频更新），减少冗余计算。

工程结果：long sequence 推理时延降 49.3%，depth + pose estimation 指标 SOTA。

DriveVGGT 的三个 module 几乎逐项回应 VGGT 在 driving 下的限制。alternating attention 单层复杂度 $O(N^2 M^2 + NM^2)$ （VGGT 文章），global 项随帧数 $N^2$ 增长；车载 6-8 路相机 × 时序帧 token 总量逼近 $10^5$ ，远超 VGGT demo（ $N \le 32$ ）的量级。TVA 把跨相机 dense attention 拆掉，把 global 项的 $N$ 降回单相机 $N_{\text{frame}}$ ，49.3% 时延下降基本能从这个复杂度差解释。MCA 的 calibration encoding 是 driving 比 VGGT 原训练数据多出来的 prior——VGGT 训练在 Co3D / MegaDepth / ScanNet++ / BlendedMVS 上，相机配置多样但都是 unstructured 多视角，没有"车上多相机外参是固定刚体"这条强约束；MCA 把它显式 encode 进 attention bias。最后是动态场景：VGGT 的静态 Lambertian 假设决定了"移动车辆与行人在世界坐标系里 3D 点随时间变化，不能用单一点图表示"是根本失效模式；factorized pose decoding 把 ego-motion 与 extrinsic 分离，等于显式承认场景里有运动主体（自车）+ 静态相对几何（多相机外参），是对静态假设的最小弱化；动态他车这条限制 DriveVGGT 也没解，要靠下游 trajectory decoder 或独立 motion head 补。

3.3 Self-Supervised Pretrain 派：涌现的几何

这一派不靠物理算子也不靠现成 3D foundation model，而是在 driving 视频上做大规模自监督预训练，让几何能力涌现在 backbone 权重里。

代表工作：Drive-JEPA（参见 Driving JEPA 综述）。三阶段：

Driving Video Pretraining：在大规模 driving 视频上做 V-JEPA 风格的 mask-and-predict 自监督。
Waypoint-anchored Proposal Generation：下游接 trajectory decoder，用 waypoint anchor 生成轨迹候选。
Momentum-aware Trajectory Selection：考虑动力学一致性的轨迹选择头。

NAVSIM v1 拿 93.3 PDMS，NAVSIM v2 拿 87.8 EPDMS——viable 的 SOTA 之一，但领先幅度有限：DriveVLA-W0 (NAVSIM v1 93.0 / v2 86.1) 跟它打平，DiffusionDrive 88.1、Hydra-MDP 91.3 也都在同一区间。NAVSIM benchmark 已经被多条不同路线触达 87-93 区间，没有 single winner。HuggingFace 上有 LinhanWang/Drive-JEPA 的 release。Code 借自 NAVSIM、Bench2Drive、VJEPA 2、iPad、LAW。

代价：自监督预训练的数据规模和算力成本比前两派高一两个量级。

跟 V-JEPA 2.1 / Driving-JEPA 综述对照能看出 Drive-JEPA 的 delta 与未解张力。

V-JEPA 2.1 的核心贡献是 dense predictive loss + 距离加权 + deep self-supervision——V-JEPA 2 时代 context token 会坍缩成全局聚合器（PCA 显示空间均匀化），V-JEPA 2.1 引入 $\mathcal{L}_{\text{dense}} = \mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}}$ 才让 dense feature 真正空间局部化。Drive-JEPA 直接 inherit 了这套能力，trajectory decoder 跟 V-JEPA 2.1 NYUv2 RMSE 0.307 的深度 probe 是同一类下游。但 trajectory decoder 比 depth probe 重得多（query transformer + ego state + history），选 query transformer 而非线性 probe 是因为 trajectory 是稀疏多模态分布而非 dense 标量场。

Driving JEPA 综述列过 V-JEPA 在 driving 上的几个 mismatch：causal future mask vs. random mask、motion-aware mask、temporal-coherent mask、256×512 输入对 256×256 预训练造成的 RoPE 各向异性偏移。Drive-JEPA 对这几条的回应不均匀：causal future mask 通过双分支训练（random + full future）部分对齐了部署 setup，但 random 与 causal 分支的梯度兼容性没有 ablation；motion-aware mask 与 temporal-coherent mask 在 release 里没引入；2:1 长宽比的 RoPE 偏移仍然是开放问题。

更深一层，综述指出"V-JEPA 的 dense feature 假设是每个空间位置都该编码可预测的语义"在 driving 信息密度高度不均时是个待质疑的前提——天空 / 远处建筑 / 自车前方车的 token 对决策的影响差三个数量级。Drive-JEPA 没动这个前提，trajectory decoder 是在 dense feature 之上加 selection，pretrain objective 没改。这条限制留给下一代 driving-specific JEPA。

三派的关系

三派没有 universal winner，关键问题在于"针对什么约束"。Aggregation Operator 派需要 explicit calibration、对自车坐标系敏感，但部署轻；3D Foundation Model 派可以利用现成预训练权重，但带 second backbone；Self-Supervised Pretrain 派指标最高，门槛也最高。

维度	Aggregation Operator	3D Foundation Model	Self-Supervised Pretrain
几何 prior 来源	calibration matrix（确定性算子）	预训练 backbone 权重	在 driving 视频上自监督涌现
是否需要 second backbone	否	是（除非走 distillation）	自身就是 backbone（替代 V-L ViT）
对相机标定的敏感度	高（不准就废）	中（VGGT 学了一定 robustness）	中（pretrain 数据见过多少 calibration 决定）
对训练数据规模的要求	低（结构提供）	低（用现成 weight）	高（PB 级 video）
V-L 对齐保留	完整（ViT 不动）	完整（VLM frozen, 加 CVGE）	重建（pretrain 不是为 V-L）

“对相机标定的敏感度"这一行值得展开。Aggregation Operator 派在 calibration 漂移时性能掉得最快——unprojection 是确定性的，calibration 误差 0.5° 就能让远处 voxel 偏 2~3 米。VGGT 在训练时见过各种 calibration 配置，对漂移有一定 robustness。Self-Supervised 派的表现取决于 pretrain 数据是否覆盖目标车型 calibration 范围。Production 系统的 calibration 漂移是常态——温度变化、震动、颠簸都会让外参偏离零点几度。在线标定在某些 OEM 已经上车，但仍有几小时的漂移期，Aggregation Operator 派对在线标定的依赖比另两派更强。

四、注入工程：5 种接入形式

“几何 prior 从哪派来"和"3D 信息怎么进 LLM"是两个正交维度。同一种几何来源可以有不同接入形式，反之亦然。本节列出五种主要接入形式。

4.1 Cross-attention 注入（Vision Tower 内部各层）

在 Qwen3-VL ViT 的 layer 4/8/12… 这些位置，插入 cross-attention block：Q 来自 ViT 自身的 token，K/V 来自 V-JEPA 或 VGGT 的几何 token。配 zero-init gating $\alpha$ （初值 0，训练中升起）控制几何信息强度。

业界对标：Flamingo（cross-attn from frozen LLM to vision encoder）、LLaMA-Adapter（zero-init gating）、VGGDrive 的 CVGE。

数学形式（layer $l$ 的 cross-attn 输出）：

h_l \leftarrow h_l + \alpha_l \cdot \text{CrossAttn}(Q = h_l W_Q, K = g_l W_K, V = g_l W_V)

其中 $g_l$ 是几何 backbone 在对应层级的输出。

性质：V-L token 会被几何信息 modulate。这件事的代价容易被低估——cross-attn 把 K/V 加性混入 Q， $\alpha$ 调小则几何信息进得少，调大则 V-L 的语义结构被几何信号污染（“红色 SUV"和"白色 SUV"在 latent 不再是同一 cluster）。这是结构性 trade-off，靠工程参数调不掉。

层选择的 heuristic：

浅层（layer 4-8）：几何信号影响后面所有层，V-L 对齐受影响最大；但 ViT 浅层本身是 low-level visual features，注入后语义层有充分时间整合。
深层（layer 16-20）：几何信号只影响最后几层，V-L 损失小；但深层 features 已经 task-specific，整合空间有限。
中层（layer 8-16）多点注入：折中。VGGDrive 的 CVGE 就是这个路线。

经验值：4 个注入点（layer 4, 8, 12, 16）是常见配置，再多收益递减；每点用独立 $\alpha$ ，让模型自己学每层混入多少几何。

4.2 Token Concat（LLM input 端）

V-JEPA / VGGT 的 token 经过 projection layer 对齐到 LLM input dim，concat 到 V-L token 后面。

1
LLM input = [BOS] [text tokens] [V-L tokens] [geo tokens] [EOS]

V-L token 完全不动。

业界主流：LLaVA、Qwen-VL、GPT-4V 都是 token concat 系（几何 token 来源各不同）。

性质：

LLM sequence length +50% 量级（取决于几何 token 数量）。
LLM 开放训练时，cross-attn 没有优势——LLM 的 self-attention 本身就能 attend 到 geo tokens。
LLM frozen + LoRA 时，cross-attn 可能有边际优势。

经验判断：LLM 开放训练时 token concat 比 cross-attn 更优——更简单、更不破坏原 V-L token、attention pattern 由 LLM 自己学。

4.3 Distillation（吸收）

把 V-JEPA / VGGT 当 teacher，在训练阶段加 distillation loss，让 Qwen3-VL ViT 内部学到几何能力。

L = \alpha \cdot L_{\text{caption}} + \lambda \cdot L_{\text{geo-distill}}

inference 时去掉 teacher backbone，单 ViT 跑。

性质：

推理时单 backbone，部署友好。
V-L 对齐必有损失——ViT 权重要同时承载语言对齐目标和几何蒸馏目标，回到第二节那个结构性互斥。 $\lambda$ 是控制损失大小的旋钮，消除不掉损失本身。
工程链条最长——训练时双 backbone、ablation $\lambda$ 、可能需要分阶段（先蒸馏后 caption finetune 或反过来）。

4.4 Sparse Volume Aggregation（S4 风格）

跟前三种独立的一条路径：

不需要 second backbone。
单 ViT frozen + sparse volume aggregation operator + relative position bias。
几何来自 explicit unprojection 这个物理过程，不来自学习。

S4-Driver 是代表。它跟 cross-attn 的本质区别：cross-attn 的几何信息是 backbone 学出来的 features，sparse volume 的几何信息是相机投影矩阵 $P_{cam}$ 直接给的。

在很多对比综述里 sparse volume 被归到 BEV 系或 Aggregation 系，跟 cross-attn 等并列容易模糊它的工程独特性。它配合 LLM 也是 token concat 风格（sparse 选出的 voxel features 当 token 喂进 LLM），但因为没有 second backbone，部署成本是质的不同。

一个真实弱点：sparse volume 只能从相机投影看到的范围内提取几何，被遮挡区域、相机看不到的区域、远距离低分辨率区域都无法补全——算子是 unprojection，要求 source pixel 存在。这是跟 3D Foundation Model 派的实质差异——VGGT 见过大量多视角重建数据，对部分遮挡能做几何完形（geometric completion）；S4 不行，遮挡区域就是空白。Driving 里遮挡区域往往是 critical 信息（前车后的行人、转弯处的来车），Drive-JEPA 类自监督路线在这点上理论更强，prediction 目标本身在训 completion。

4.5 Replace Backbone（极端）

整个 vision tower 换成 V-JEPA / VGGT，从头训 vision-to-LLM 的 projection。

性质：

重训成本巨大——projection layer 不是关键点，难点是 LLM 那边整个 V-L 对齐都要从零建立。
风险高——V-JEPA / VGGT 的 latent space 拓扑跟语言对齐天然不亲，很可能 caption / VQA 性能崩。
工业很少用——除非走 Drive-JEPA 那种 end-to-end driving 路线（没有 V-L caption / VQA 任务，LLM 也是 driving-specific 训的）。

4.6 MoE Joint Attention（π₀ 系，production VLA 主流）

前 5 种路径覆盖了"在 vision tower 端怎么注入几何”，但漏了 production VLA 的真实主流——π₀ / π₀.₅ / DriveVLA-W0 (arXiv:2510.12796) 一系的 MoE Joint Attention 形态。这条路严格说属于 trajectory decoder 跟 LLM backbone 怎么耦合的问题，跟 3D 注入正交，但跟前 5 条接入形式叠加起来才是当前 production VLA 的全貌。

形态：独立的 Action Expert（小 hidden dim 的 transformer）跟主 VLA backbone 做 layer-by-layer 同构。比如 Qwen3-VL 2B 是 28 层 LLM block，Action Expert 也设 28 层；每一层都跟 LLM 做 Joint Attention。这不是末层 cross-attention 的形态，而是 layer-by-layer 全对齐。

Joint Attention 的实现是 sequence-dim concat（不是 cross-attention 那种 K/V 单向注入的形态）：

Q = [Q_{\text{VLA}}; Q_{\text{AE}}], \quad K = [K_{\text{VLA}}; K_{\text{AE}}], \quad V = [V_{\text{VLA}}; V_{\text{AE}}]

单次 attention 算完后 split 回各 expert（DriveVLA-W0 Eq.4）。

推理时 VLA prompt 部分（vision tokens + text tokens）的 KV 已经在 28 层各自缓存好。Action Expert 28 层每层把 noisy trajectory token 做 Q，跟 prompt KV concat 起来做 attention——noisy trajectory 在 28 层一边流过一边被 denoise，最后 action_decoder 解出 trajectory。

为什么这条路在 production 流行（除了"抄 π₀"的浅理由之外）：

L1 selection 在 attention 里自然发生。noisy trajectory 作 Q，跨 prompt 全部 vision tokens（含所有候选 entity）做 attention，本质就是 attention 自己在做 entity relevance selection——“哪个红绿灯 / 哪条车道 / 哪个标志对当前 trajectory 重要"由 attention 自己决定。这是上一节强调的 L1 grounded perception 在 architecture 层面的天然回答。
保 V-L 对齐。VLA backbone 完整 forward 不动，跟 vanilla LLaVA / Qwen-VL pipeline 同构，V-L 能力可以叠 caption / VQA 任务一起训。
27/28 层全对齐让 Action Expert 能利用 LLM 中间层的语义抽象，不只是末层 high-level concept。这一点跟 cross-attn 注入只在 vision tower 内部某几层差异巨大。
deep coupling，但绕开 cross-attention 形态——避开了 cross-attn 多层叠加的训练不稳定 + cost 问题。

关键工程参数（DriveVLA-W0 + 类似 production 系统典型）：

Action Expert 跟 backbone 同层数（28 == 28）
hidden dim 比 backbone 小（量级在 backbone 的 50-70%）
intermediate size 也较小（~2048）
Stage-1：backbone 单独训 V-L + 任务 supervision；Stage-2：Action Expert 加进来，backbone 跟 Action Expert 都开放训练
Action Expert decoder 形态可以是 query-based / FM / AR 三选一。DriveVLA-W0 Table 4 的 ablation 显示 decoder 形态选择跟数据规模有关：小数据（NAVSIM ~103k frames）query > FM > AR；大数据（70M frames in-house）AR > FM > query。没有 universal winner——decoder 选型是数据规模决定的工程问题。

代价：

推理开销 ≈ baseline backbone × 1.5（VLA 28 层 + Action Expert 28 层）。任何 3D 注入都要叠在这之上算开销，起算点不是 single backbone。
Stage-2 训练 backbone 开放后 V-L 对齐能力会有损失——这跟前面 §一 L3 弱必须的论证刚好对上：在 driving 里这个损失是可接受的代价。
Joint Attention 的 attention 矩阵尺寸在每层都翻倍（K 包含 prompt KV + action KV），KV cache 显存压力增大。
跟 L1 grounded perception 的兼容性受限于 prompt vision token 形态——这是 §6 接口约束 / §8 判别原则要再讨论的。

跟前 5 种路径的对照：

维度	Cross-attn 注入	Token Concat	Sparse Volume	MoE Joint Attention
注入位置	vision tower 内部某几层	LLM input 端拼接	vision tower 输入侧	trajectory decoder ↔ backbone 每层
注入对象	V-JEPA / VGGT feature 作 K/V	V-JEPA tokens 拼到 prompt	几何 token 替代 patch	noisy trajectory 跨 prompt KV 做 attention
解决什么	视觉表征端的几何增强	视觉表征端的几何增强	视觉表征端的几何增强	trajectory decoder 跟 backbone 怎么 deep couple
是否正交	—	—	—	跟前三者正交，可以叠加

最后一行是关键。MoE Joint Attention 解决的是 trajectory decoder 跟 backbone 怎么耦合的问题，vision tower 端的几何增强它管不到。所以"MoE Joint Attention + Sparse Volume"是合理组合（vision tower 端用 S4 sparse volume 做几何增强，trajectory 端用 MoE Joint Attention 做 deep coupling），两条线可以同时在。

五、部署的硬约束：外挂 backbone 的车端预算

学术 demo 可以忽略推理预算，production 不能。车端 inference 预算决定哪条注入路径真正可行——这是被很多 paper review 类讨论绕开的硬变量。

production VLA 的真实 baseline 已经超出了 single LLM backbone——是 VLA backbone (28 层) + Action Expert (28 层) 的 MoE Joint Attention 形态（§4.6）。按 Qwen3-VL 2B + 500M-1B Action Expert 估，单帧推理已经接近 baseline LLM × 1.5。任何 3D 注入都要叠在这之上算，起算点已经从 single backbone 上移。这条修正会让前 5 种注入路径的部署预算评估都变得更紧——下面具体算。

按"是否需要 second backbone"重新分组五种接入：

接入形式	second backbone 需求	部署影响
Cross-attention 注入	是（V-JEPA / VGGT 同时跑）	显存翻倍，时延 +30~40%
Token Concat	是	同上 + LLM seq +50%
Distillation	否（推理时单 backbone）	训练链条长，部署轻
Sparse Volume Aggregation	否	唯一不增加 backbone 的路线
Replace Backbone	看哪个替换成什么	工程风险，性能不可预测

车端硬件：

Thor / 高端 NPU：双 backbone 双 stream 并行，开销约 +25~30% 时延，可接受。
Orin / 中端：双 backbone 可能只能串行，开销 +60~80%，控制系统对 100ms 时延敏感的话就吃紧。

显存方面，V-JEPA-2 (300M~~1B) + Qwen3-VL ViT (~~600M) 同时驻留，FP16 下约 2~~3GB 几何 backbone + 1.5GB ViT；加上 LLM (2~~7B) 和 KV cache，整车 unified memory 预算压得很紧。这是为什么很多 production deployment 最终选 distillation 或 sparse volume——两条在车端不要 second backbone 的路线。

Distillation 训练时双 backbone（贵），ablation $\lambda$ （实验多），inference 单 backbone（部署轻）。人力够、实验周期长可选；人力紧的话 sparse volume 更直接。

Sparse volume 的特殊性在于"几何 backbone"这个概念不存在：calibration matrix 是车端常驻数据（出厂标定），unprojection 是确定性算子，aggregation 是轻量 cross-attn 加 position bias，整条链路在 frozen vision tower 之外只多了一小块 aggregation operator，部署成本几乎可忽略。这是 production 视角下它被低估的原因——学术对比里被混进 BEV 系或 aggregation 系，部署优势被埋没。

时延层面具体估算。Orin (~275 TOPS INT8) 跑 INT8 量化 7B LLM prefill 6k token 单帧约 80ms；加上 600M ViT 单帧 ~15ms；再加 300M V-JEPA backbone 串行 ~10ms。单 frame +10ms 看上去不多，但 perception → planning → control 整链路 SLA 通常是 100ms 端到端——10ms 占 10%。Thor (~~2000 TOPS) 上这个比例降到 1~~2%，可接受。两类硬件做选型时是不同的世界。Orin budget 下 sparse volume 几乎是唯一可行路线，因为它根本不引入 second backbone，那 10ms 完全省掉。

Distillation 的工程链条复杂度容易被低估。训练阶段双 backbone forward，teacher 出 features，student 出 features，loss 拉近两者——但拉近哪一层？token level（每 patch 的 latent）还是 feature level（pooled summary）？拉到 raw latent 还是 projected latent？每个 design choice 都要 ablation。再加上 $\lambda$ sweep、teacher 是否更新（fully frozen / EMA / partially trainable）、阶段化训练顺序，实验 matrix 是 5×3×2 量级，单次 finetune 几百 GPU hour 的话整个 search 极贵。这是 distillation 看起来优雅、实际工程链条最长的根本原因。

六、跟现有 backbone 的 4 个接口约束

路线选定之后，进入工程实现。Qwen3-VL ViT 配上业界 driving VLA 的常用配置（MEM 时序模块、M-RoPE 位置编码），落地时有几个具体接口约束需要满足。

6.1 Qwen3-VL Vision Tower 的输出维度对齐

几何 token 的 dim 必须跟 LLM input dim 兼容。这是 trivial 的工程问题，一个 projection layer（linear 或 MLP）就解决——projection 在 deepseek / qwen 的设计里通常是 GELU + 2 layer MLP。

projection 的容量选择有自己的 trade-off：太小会成为信息瓶颈（几何 backbone 的高维 features 被压到 LLM input dim 时损失大），太大则过拟合训练分布。常见配置是 hidden_dim ≈ 2 × input_dim。

6.2 LLM 序列长度预算

车端 LLM 的 KV cache 是显存大头。如果 LLM seq budget 紧（百级 token），不能 token concat，只能用 cross-attn 或 sparse volume；如果 budget 宽（千级 token），token concat 最干净。

具体数字：Qwen3-VL ViT 在 224×224 输入下出 256 patch tokens（16×16 patch）；多相机 6 路 + 时序 4 帧的话，单 V-L token 数约 6144。再加 V-JEPA 几何 token（256 / cam / frame）concat 进去，总 seq 接近 12000。这个量级在 7B LLM 上 KV cache 是几个 GB——上车的话紧。

S4-Driver 的 sparse selection（M = 6000 voxels，比 token concat 后的几何 token 数还少）是控制 LLM seq 的重要设计。

6.3 MEM 时序模块的兼容性

MEM (Multi-frame Efficient Memory，来自 π₀.₇ 系列工作) 是 driving VLA 里常用的时序模块。当前设计：

每 4 层 ViT 之间做时空可分离 attention（spatial attention 在层内，temporal attention 跨帧）。
复用原 ViT 的 QKV 矩阵，零新增参数。
历史帧的 ViT 上层 features 丢弃，只保留下层（节省 cache）。

约束：3D 表征的输出必须是网格形 token + 与原 ViT 同维度——否则 MEM 复用 QKV 失效。

这个约束直接排除了：

Query-based 路线（Flex 类）：query 是稀疏的、不规则的，MEM 的 spatial attention 落不到上面。
Implicit neural 路线（NeRF / 4DGS）：表征是参数化函数而非 token，MEM 完全无法复用。
Tri-plane 路线在这里也有麻烦——它的 token 是三个正交平面的 patch，跟原 ViT 的 (h, w) 网格 patch 形状不同，MEM 复用 QKV 需要专门改写。

剩下能干净配合 MEM 的路线：cross-attn 注入（不动原 token）、token concat（原 token 不动，几何 token 在 LLM 端处理）、distillation（推理时只有原 token）、sparse volume（aggregation 在 vision tower 之外）。

6.4 RoPE 配合 3D 表征

RoPE 这个机制（参见 RoPE 几何基础）只是把相对位置乘进 attention，不创造 3D 信息。它能编码的只是 token 索引之间的相对距离。

标准 M-RoPE (T, H, W) 在 AD 多相机场景下：

T 轴：时序，工作正常。
H, W 轴：pixel 索引，跟自车坐标系下的 3D 位置没有可学习关联——左相机的 (10, 20) 和右相机的 (10, 20) 在 RoPE 看来等距，物理上可能相距 30 米。

3D RoPE 化（用世界坐标替换 pixel 索引）有两个公开方案：

RoPETR（arXiv:2504.12643）。BEV (x, y) 替代 axial 旋转，时序 t 替代 temporal 旋转。token 3D 位置由 DepthNet + LiDAR depth supervision 算每个 patch 的深度，配合 calibration unproject 到自车坐标系。

SpaceDrive（arXiv:2512.10719）。visual encoder 之外加一个 depth estimator，depth 经 3D PE encoder 出 3D position embedding，element-wise add 到 visual token 上。

这俩都已公开实现，借鉴 + 集成的工作而已，谈不上新研究。在 Qwen3-VL + V-JEPA 栈里要做 3D RoPE，照着抄就行。

3D RoPE 的 trade-off 在于：要求每个 visual token 都有明确 3D 坐标。在远处 / 天空 / 反射面这些深度估计不可靠的位置反而引入 noise。RoPETR 的 LiDAR supervision 是为缓解这个，纯视觉栈下要谨慎。

3D RoPE 跟其它 3D 注入路径在效用上有部分重叠。它的 added value 是让 attention pattern 自然带 spatial inductive bias——多相机看同一物体的两个 patch 在 pixel 索引上没关系，但 3D 坐标上是同一位置，3D RoPE 能利用这个，标准 M-RoPE 不能。但如果后面接 sparse volume 这种 explicit 几何路线，sparse volume 已经把 voxel-level 几何关系编码进 attention bias，3D RoPE 就是双重保险，边际收益不大。

还有个常被忽略的接口：多模态 token 的相对顺序。LLM input 是 [text] + [V-L tokens] + [geo tokens]，V-L tokens 内部按 (cam, frame, h, w) 排，geo tokens 按 voxel index 排。两段 token 之间 RoPE 索引最简单做法是连续递增——V-L 占 [0, N1)，geo 占 [N1, N1+N2)。但这样 LLM 默认认为 geo tokens 在"位置上"接在 V-L 之后，跟物理意义不符（geo 是 V-L 的 spatial 扩展，跟 temporal 顺序无关）。更合理的做法是给 V-L 和 geo 分别赋 RoPE，让它们在不同 axis 上独立——但需要 LLM 支持 multi-axis RoPE，并非所有 LLM 都支持。这个 detail 在落地时需要明确设计。

七、5 篇 SOTA 工作横向对比

把第三节的三派和第四节的五种接入形式作为坐标系，把当前几个代表性工作放上去：

工作	出处	思路派	接入形式	是否外挂 second backbone	V-L 对齐损失	跨车型适配
S4-Driver	Waymo CVPR 2025	Aggregation Operator	sparse volume + position bias	否	无（ViT frozen）	自然适配（unprojection 用 calibration）
DriveVGGT	arXiv 2511.22264	3D Foundation 自训	depth + pose head（任务不同）	N/A	N/A	自然适配（calibration 显式 encode）
VGGDrive	CVPR 2026	3D Foundation 复用	CVGE plug-and-play 注入 VLM	是（frozen VGGT）	中（VLM frozen，但 CVGE 改 hidden states）	中等（VGGT 自带，但 calibration 要给）
Drive-JEPA	NAVSIM viable SOTA 之一	Self-Supervised Pretrain	replace backbone + trajectory decoder	否（自监督 pretrain）	大（V-L pipeline 重建）	中等（pretrain 数据决定）
Tri-plane (AR1)	NVIDIA	Aggregation Operator (ridge case)	replace ViT 前 N 层	否	大（vision tower 重训）	中（外参敏感，标定漂移敏感）

几个需要说明的列：

思路派：Tri-plane 算 Aggregation Operator 派的边界情况——它用了 explicit 3D 体素，但通过替换 ViT 前几层的 patch 结构来注入，跨派性质强。

V-L 对齐损失：这一列是我对每条路线在不重新做 V-L 对齐的前提下，对原 VLM 的 caption / VQA 能力影响的估计。S4 因为 ViT 完全 frozen 是干净的；VGGDrive 的 CVGE 在 hidden states 加 cross-attn，理论上会有损失但训练时可以约束；Drive-JEPA 是另起的 pipeline，原 V-L 能力直接没了。

跨车型适配：production AD 系统会跨多个车型部署，相机配置（数量、内参、外参）不同。S4 / DriveVGGT / VGGDrive 这种 calibration-aware 的路线天然适配；Drive-JEPA 的适配性取决于 pretrain 数据是否覆盖目标车型；Tri-plane 对外参敏感，标定漂移会引入误差。

DriveVGGT 这一行的"接入形式"和"V-L 对齐损失"标 N/A，因为 DriveVGGT 论文做的是 depth + pose estimation 任务，跟 VLA 不在同一层。它进入 VLA pipeline 是要走 VGGDrive 那种 plug-and-play 注入，相当于 DriveVGGT 替代 VGGDrive 里的 frozen VGGT。

把五篇工作分别 vs. 各自基模看（S4 vs. SimpleBEV/PaLI、VGGDrive 与 DriveVGGT vs. VGGT、Drive-JEPA vs. V-JEPA 2.1、Tri-plane vs. 普通 ViT），driving-specific 改造的实质内容更清楚。VGGT 系两篇的 delta 集中在多相机几何（calibration-aware）与长序列复杂度（拆 alternating attention）；Drive-JEPA 的 delta 主要在 causal future mask，dense feature 能力是直接 inherit；S4 的 delta 是 sparse selection + position bias，依赖的 PaLI ViT 本身没动。

也就是说，driving-specific 工作的 delta 集中在两件事：（1）多相机 / 自车坐标系这种 driving-specific 几何约束的显式 encoding；（2）long-horizon 时序 / 因果性的对齐。其他能力（dense feature、几何重建、attention 设计）是直接继承的。如果未来基模 native 支持 multi-camera + causal，driving-specific 改造的工程价值会大幅下降，三派的边界进一步模糊。

七.5 Action 端 MoE 路线横向对比

§七比的 5 篇都是 vision tower 端的 3D 表征工作，这是文章主轴。但 production VLA 的另一个维度——Action 端怎么跟 backbone 耦合——在 §四.6 已经引出，需要在这里补一组横向对比。这条线跟 §七的视觉表征 5 篇正交，组合起来才是 production VLA 的全貌。

自动驾驶世界模型 × Action 这篇 deep-dive 过 2026 H1 的五篇 NAVSIM 87-91 级别工作，本节只做对比表 + 关键结论：

工作	出处	Action 端形态	跟 backbone 耦合	训练 stage	NAVSIM v1 PDMS
DriveLaW	2026 H1	Video DiT 串联 Action DiT	串联（Action 等 Video 第一步去噪）	多阶段	~89
DriveVLA-W0	arXiv:2510.12796	Action Expert 500M + Joint Attention	全 28 层对齐	两阶段	88.4 / 90.2 / 93.0（query / FM / AR）
GigaWorld-Policy	2026 H1（机器人对偶）	Wan2.2 5B 基座 + 交错生成	causal interleave	end-to-end	RoboTwin 92.9
Uni-World VLA	2026 H1	单大模型 + 帧 token first-class output	causal interleave	end-to-end	NAVSIM 89.4
Latent-WAM	2026 H1	104M latent prediction + lightweight head	latent space 同构	end-to-end	NAVSIM 89.3

几个观察：

这一线都做到 NAVSIM 87-93 PDMS 区间。结合 §七的 Drive-JEPA 93.3、DiffusionDrive 88.1、Hydra-MDP 91.3，benchmark 已经被 5+ 条不同路线触达 87-93 区间——没有 single winner。原文 §七末尾"Drive-JEPA 93.3 SOTA 证明 Self-Supervised Pretrain 路线 work"这种措辞要降调，NAVSIM 已经 saturate，几条路线在数字上区分不开。

真正决定胜负的维度在 Action 端跟 backbone 怎么耦合，vision representation 一侧反而次要。§七 5 篇视觉表征工作里没有覆盖这个维度，但 §七.5 这五篇恰好都在这个维度上分化。MoE Joint Attention 跟 causal interleave 跟串联 DiT 是不同的 deep coupling 形态，工程取舍很不一样。

DriveVLA-W0 的 Table 4 是个尖锐 ablation：同样的 MoE 架构、同样的数据，换 decoder 形态（query / FM / AR）拿到 88.4 / 87.2 / 85.3 PDMS。decoder 选型跟数据规模有关——小数据 query > FM > AR；70M frame in-house 大数据上反过来 AR > FM > query。这件事提醒：Action 端 decoder 形态没有单一最优解，数据规模决定权衡。回到生成式规划与非凸性论证的"判别式 single-head MSE 数学缺陷”——这个论证仍然成立（指 single-head MSE 直接 regress 一条 trajectory），但 query-based set prediction（每个 query fit 一个 mode + Hungarian matching 强分化）已经规避了这个数学缺陷。query-based 在小数据上反而比 FM 强是这个原因——它属于带 implicit multi-mode handling 的 set prediction，跟判别式 regression 的退化不是同一类。

vision tower 端 + Action 端的组合才是 production VLA 的设计 surface。§七选了什么（S4 / VGGDrive / Drive-JEPA…），跟 §七.5 选了什么（DriveLaW / DriveVLA-W0 / Uni-World…），是两个独立 design axis。比如"S4 sparse volume + DriveVLA-W0 MoE Joint Attention"是合理组合，“Drive-JEPA replace backbone + Uni-World 单模型 interleave"是另一种合理组合。这两个轴的乘积才是 production VLA 的真实 design space。

八、给从业者的判别原则

不给确定结论，给一组判别问题。选具体路线前按顺序回答：

Q1: V-L 对齐对 AD 决策有多关键？ 决定 L3 权重。

决策完全靠 reasoning 链（COT 是核心机制）：V-L 必须保 → sparse volume 或 cross-attn。
decision 本质是 visual + geometric reasoning（COT 是辅助）：V-L 可让步 → distill / replace / token concat 都接受。

第一节的"L3 弱必须"是默认答案，但某些场景（高级别 ADAS、Robo-Taxi 客服）会强依赖 V-L。

Q2: 车端推理预算能否容下 second backbone？

是（Thor 级、双 stream 可并行）：任意路线。
否（Orin 级、串行受限）：sparse volume 或 distillation。

这个问题应该早问——它直接砍掉一半 design space。

Q3: LLM input token budget 多紧？

紧（百级 token，KV cache 受限）：cross-attn 或 sparse volume 的 sparse selection。
宽（千级以上）：token concat 最干净。

Q4: 是否需要跨车型自然适配？

是：sparse volume（unprojection 自带 calibration）或 DriveVGGT（calibration 显式 encoding）。
否（单一车型 dedicated 部署）：任意路线。

跨车型适配在国内 OEM 多车型生产场景下几乎是 hard requirement。

Q5: 数据规模和算力能否撑 self-supervised pretrain？

是（PB 级数据、thousands of GPU days）：Drive-JEPA 类，当前指标 viable 但也最贵（NAVSIM 几条路线都打到 87-93 区间，领先幅度有限）。
否：复用现成 backbone（VGGDrive 复用 VGGT，S4 复用 PaLI）。

Q6: 3D token 形态跟 Action 端 attention 的 entity selection 兼容吗？

如果 Action 端是 §四.6 的 MoE Joint Attention 路线（noisy trajectory 跨 prompt KV 做 attention），3D token 形态决定了 attention 能不能高效做 relevance selection：

sparse volume tokens（S4 类）：每个 voxel 几何坐标显式，attention 容易"按位置选”，但 voxel 跟 entity 的关系是多对多——一个红绿灯可能跨多个 voxel，selection 是 multi-token aggregation。
patch tokens（vanilla ViT）：位置信息靠 RoPE 编码，attention 选 entity 靠学到的 pattern。flexibility 高但训练成本高。
query tokens（DETR / UniAD 类）：每个 query 已经是 entity-bound（What×Where 内含），selection 几乎免费——但 query 数量固定（百级），长尾 entity 容易丢，跟 LLM 不显式融合。

这一维度跟前 5 个判别问题正交——它是 vision tower 输出形态跟 Action 端 attention 机制的耦合问题。Action 端如果是 MoE Joint Attention（多数 production VLA），这个维度直接决定 §一 L1 grounded perception 里的 relevance selection 能不能在训练里收敛。

提问顺序也有讲究：Q2 应该最先问，没硬件 budget 就不用考虑 cross-attn / token concat；Q5 第二，决定能否走 Drive-JEPA；Q1 第三，决定 distillation / replace 是否在候选；Q3 / Q4 是细节调优；Q6 在确定 Action 端架构后回来 verify。

常见落点三个：

硬件紧 + pretrain 不可行 + 跨车型必须 → sparse volume。
硬件宽 + pretrain 不可行 + V-L 可保 → cross-attn + frozen VGGT。
硬件中 + pretrain 可行 + 单车型 dedicated → Drive-JEPA 替换 backbone + trajectory decoder。

“硬件紧 + 必须保 V-L + 必须跨车型 + 必须 SOTA"这个组合不存在 feasible solution，需要在产品定义里 relax 至少一项。

参考

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation, Waymo, CVPR 2025. arXiv:2505.24139
DriveVGGT: Multi-camera 4D Geometric Foundation Model for Autonomous Driving. arXiv:2511.22264
VGGDrive: Cross-View Geometric Enabling for Vision-Language Driving Models, CVPR 2026.
Drive-JEPA: Self-Supervised Pretraining for End-to-End Autonomous Driving. NAVSIM v1 / v2 SOTA. HuggingFace: LinhanWang/Drive-JEPA.
Tri-plane (AR1), NVIDIA.
RoPETR: Improving Vision-based 3D Object Detection with 3D Rotary Position Embedding. arXiv:2504.12643
SpaceDrive: Spatial Position Encoding for Driving VLA. arXiv:2512.10719
V-JEPA 2.1, Meta FAIR.
DINOv3, Meta FAIR.
VGGT: Visual Geometry Grounded Transformer.
Depth Anything 3, ByteDance.
Flamingo: a Visual Language Model for Few-Shot Learning, DeepMind.
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention.
SimpleBEV: Simple-yet-Effective Multi-camera 3D Perception.
BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.
OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction.
GuideFlow: Trajectory Generation with Guidance.
CATG: Contextual Trajectory Generation.
Qwen-VL Series.
LLaVA: Large Language and Vision Assistant.

引言：这篇为什么写#

一、AD VLA 系统的能力拆解#

L1 Grounded Perception with Relevance Selection#

L1/L2 边界：跨 entity 关联的四类#

L2 Visual Reasoning#

L3 V-L Reasoning#

L4 Action Generation#

合起来看#

二、Vision Tower 的本质矛盾：latent space 拓扑相反#

三、几何能力的三种来源#

3.1 Aggregation Operator 派：物理过程提供几何#

3.2 3D Foundation Model 派：学到的几何#

3.3 Self-Supervised Pretrain 派：涌现的几何#

三派的关系#

四、注入工程：5 种接入形式#

4.1 Cross-attention 注入（Vision Tower 内部各层）#

4.2 Token Concat（LLM input 端）#

4.3 Distillation（吸收）#

4.4 Sparse Volume Aggregation（S4 风格）#

4.5 Replace Backbone（极端）#

4.6 MoE Joint Attention（π₀ 系，production VLA 主流）#

五、部署的硬约束：外挂 backbone 的车端预算#

六、跟现有 backbone 的 4 个接口约束#

6.1 Qwen3-VL Vision Tower 的输出维度对齐#

6.2 LLM 序列长度预算#

6.3 MEM 时序模块的兼容性#

6.4 RoPE 配合 3D 表征#

七、5 篇 SOTA 工作横向对比#

七.5 Action 端 MoE 路线横向对比#

八、给从业者的判别原则#

参考#

相关文章