引言:4D 输入与 VLA 序列瓶颈的矛盾
自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。
近年来出现了多种针对该矛盾的视觉编码方案。NVIDIA Alpamayo 提出三平面 (Tri-plane) 压缩与时空联合编码 (Flex);Physical Intelligence 在 中提出多尺度具身记忆 (MEM);Memory VLA 引入分层记忆库;BEVFormer 与 OccFormer 系列在工业界主导了基于鸟瞰图的稠密表征路线;V-JEPA、DA3、VGGT 则在视觉基模层面分别给出潜空间预测、度量深度和多视角重建的几何对齐方案。
这些方案各有所宗,但缺少一个统一的评判标准。论文常以"压缩比"和"质量持平"作为论据;这只回答了"做到多压缩"而没有回答"压缩了什么"。本文从信息瓶颈 (Information Bottleneck, IB) 的视角出发,把每种 4D encoder 形式化为对同一目标变量 的有损映射 ,从而把"压缩比"和"任务保真度"放到同一坐标系下比较。
沿着这条思路本文做三件事。先把 拆开:感知、预测、规划、推理四个分量相互关联但不能互替——只对齐其中一个的 encoder 在其它分量上必然丢信息。然后把 IB 和这套四分量结构合起来,落出五个必要条件。最后用这五条当尺子,逐一审计九种代表方案。
一、信息瓶颈:把"好"形式化
记 为 相机 × 历史帧的原始像素张量。Encoder 把 压缩为 个 维 token,喂给下游 VLA backbone。 是车端硬约束,量级在百以内。
Tishby 等提出的信息瓶颈方法 1 把"好的有损压缩"形式化为:
最小化该目标即在压缩压力 与任务保真 之间寻找帕累托点, 控制权衡。这两项正好对上 4D encoder 设计的两个核心约束:车端 token 预算与下游性能。
1.1 的工程代理
理论上 衡量 关于 的不确定性降低,但在 LLM / VLA 部署语境下,更实用的代理是 token 总信息容量 。原因在于车端推理成本主要来自 backbone 的 attention 与 KV-cache,两者对 token 数 敏感; 在多数实现中固定(与 backbone 隐藏维度对齐),优化空间集中在 ;“压缩比"在工业论文中几乎等价于” 的相对缩减"。因此,“4D encoder 的压缩"等价于在 中拧紧 约束。
1.2 的可分解性陷阱
若 是多分量结构化目标,互信息满足
等号成立当且仅当各 给定 时条件独立。AD 的 显然不满足该独立性——感知、预测、规划之间有强相关。这意味着单一头部联合训练四分量并不能简单地用各分量上的对齐质量加总来评判 的好坏;一个 encoder 只优化某个 时,会得到 高而其它分量信息不足的 。后续 §3 的"现有方法 审计"实质上就是在识别每种方案隐式选择的 。
下图给出 4D encoder 的 IB 视图:
flowchart LR
X["X
多相机 × 多时间像素"] -->|"f_θ"| T["T
N × d tokens"]
T -->|VLA backbone| Y["Y = (Y_p, Y_f, Y_a, Y_r)"]
style X fill:#e8f4f8
style T fill:#fef3c7
style Y fill:#e0e7ff二、AD 任务的 Y 分解
AD 的目标变量 必须把感知、预测、规划、推理四个分量同时纳入。下表给出每个分量的精确形式与信息需求。
| 分量 | 形式化 | 主要信息需求 |
|---|---|---|
| :类别、3D 包围盒、速度 | 高频局部细节、跨相机几何一致、度量深度 | |
| :他车未来轨迹的分布 | 历史运动学、物理可行性、社会交互 | |
| :自车未来动作或轨迹序列 | BEV 级空间布局、可达区域、规则边界 | |
| :决策的因果解释,对应 AR1 的 Cause-of-Change 2 | 关键物体的语义身份、跨帧事件本体、推理链可执行性 |
2.1 四个分量为何不可互替
一个能精确给出 的 encoder 未必能支持 。几个反例:
感知 ↛ 推理:模型识别"前方有一辆静止车辆"是感知;理解"它停了是因为前方红灯"是推理。后者需要跨帧的事件本体——红灯出现、其它车减速、本车应减速——这些在单帧检测框中根本不存在。
规划 ↛ 预测:自车应减速可能源于"前车减速”,也可能源于"我看到了红灯但前车没看到"。两种内部模型给出相同 但对应完全不同的 。NVIDIA Alpamayo 的"自车捷径 (Ego-shortcut)“问题 2 正源于此:模型学会从自车运动学倒推决策,跳过对外部世界的真实理解。
预测 ↛ 感知:V-JEPA 类 latent prediction 方法可以预测下一帧的潜在表征,但其潜空间未必显式编码 需要的物体级语义。
2.2 AD 的 Y 的特殊性
与通用视觉理解任务相比,AD 的 有四个特殊属性,它们直接约束 encoder 设计。
多任务性:四个分量必须同时存活在 中。这排除了"单头训练一个分量、其它分量通过下游头补"的设计——一旦 损失了某分量的信息,下游头无论多复杂都无法弥补。
结构化:每个分量有自身的物理与因果先验。 必须满足动力学约束, 必须满足规则与可达性, 必须可被实际动作验证。这些约束无法事后施加到任意 上,必须在 encoder 阶段就保留对应的几何 / 时序 / 语义结构。
长程性:(预测时域)和 (规划时域)远大于单帧。这要求 不仅编码当前状态,还要编码可外推的运动学。
车端紧约束: 几百 这一硬约束远比通用 LLM 上下文紧。同样的 IB 框架在长上下文 LLM 上几乎不构成约束(百万 token 可用),但在车端是首要瓶颈。
§3 的审计就按这四条来量:encoder 在哪一条上做了妥协,对应 某分量的信息损失就出现在哪里。
三、现有方法的 Y_implicit 审计
按各方法主要对齐的 分量,把九种代表性 4D encoder 分为四类:朴素基线、几何优先、时序优先、世界模型对齐。每个方法分析三个要素——它隐式优化的 、它牺牲的 分量、它与混合注意力 backbone(如 Qwen3.5 3)的兼容度。
3.1 朴素基线
ViT 单图 patch tokenization。最直接的方案:每相机每时刻独立切 patch,全部串联送入 backbone。 输入下约 160 token/相机/时刻。 偏向 ——2D patch 完整保留局部像素信息,配合 backbone 的多层 attention 可恢复出物体级语义。代价是 与 线性增长, 时 ,远超车端预算。 和 在原理上可学,但 backbone attention 需要在巨量冗余 token 中提取信号,训练不稳定。backbone 兼容度:与任何标准 ViT-based VLM 直接兼容。
Qwen patch-level 时空压缩。通过 temporal_patch_size 和 spatial_merge_size 在 vision tower 内做参数化降采样 3:。 与 ViT 单图相同(perception 主导),只是更紧凑。固定比例压缩无法根据帧内重要性自适应; 时时序细节被强制平均,对 不利。与 hybrid attention 配合最自然。
3.2 几何优先
这一类方案的共同思想是先把 2D 多视角抬到某种 3D 表征,再切 token。 集中在 与 ——3D 几何对二者都直接有用。
Tri-plane (AR1)。把多相机输入升维到三个正交平面 的体素特征,按 3D patch 切 token 24。token 数与相机数解耦:
时 token/时刻,7 相机下相当于 41 token/相机,约为单图法的 1/3.9。 高度对齐 与 :三平面是 BEV 的几何前身, 所需的鸟瞰布局信息天然保留; 的 3D 框预测也直接从三平面解码。代价是 几乎未被显式优化——三平面是结构先验,与因果事件无关; 在单时刻 Tri-plane 中也未显式建模,需配合时序模块;三平面网格分辨率限制了对小物体(远处行人、交通标志细节)的保留。backbone 兼容度上,Tri-plane token 本质是空间结构 token,与 M-RoPE 的 3D 位置编码自然契合 3,可作为 Qwen3.5 vision tower 的替代。
BEV / OccFormer 系列。BEVFormer 5 与 OccFormer 类 6 把多相机特征反投影到 BEV 平面或体素占用网格,输出稠密 feature map。 极度对齐 ——BEV 几乎是规划器的天然输入格式; 的 3D 检测也在 BEV 表征上效果好。问题在于 BEV 输出是稠密 feature map 而非 token 序列,要喂给 VLA backbone 必须再做一次 token 化(pool 或 cross-attention 蒸馏),这一步往往是新的信息瓶颈。 几乎不被支持——BEV 丢掉了垂直方向的细节,难以表达"红绿灯状态"这种与高度强相关的语义。直接喂 BEV feature 给 VLA backbone 是接口不匹配,需要适配层。
Depth Anything 3 (DA3)。DA3 用统一的 depth-ray 表征整合 monocular depth、multi-view reconstruction、pose estimation 与 novel view synthesis 7。从多相机输入直接预测每像素的射线(方向 + 距离)。 是纯 的几何部分——度量深度,完全不携带语义。这是 DA3 的设计哲学:把"是什么"留给语义模型,自己只负责"在哪里”。代价是 、、 都需要额外语义通道,单用 DA3 作为 4D encoder 不可行;与语义编码器组合是可能的方向。
VGGT。CVPR 2025 Best Paper,从多视角 2D 图像一次前向重建出 3D 场景的 token 序列 8。 是"多视角一致的 3D 重建",对 有强支持。但 VGGT 的目标是静态场景重建,时序维度不在其设计范围; 完全无支持。输出是 token 序列,原理上可直接喂 VLA backbone,但 token 语义偏向几何重建而非任务对齐,下游需要重新对齐。
3.3 时序优先
这一类方案的共同思想是把多帧历史折叠进当前帧的 token 表征,要么通过 query 聚合,要么通过参数共享的时空注意力。 集中在 。
Flex (AR1)。用一组固定数量 的可学习 scene queries 通过 full self-attention 把多相机 × 多时间的所有 token 一次性蒸馏到 个 token 29:
token 数与 完全解耦,压缩比可达 20×。 接近"场景级要点 (gist)"——query 学到的是任务驱动下的最显著聚合。如果训练目标显式包含 ,则 query 倾向编码动态变化。代价是 是硬瓶颈,远处或边角小物体( 的细粒度部分)易丢失;query 是新增参数(在 AR1 中加了 61.6M 参数),训练成本高。Flex 本身是"无状态"的,每次推理独立蒸馏,跨推理步的记忆需要外部维持。
MEM ()。Multi-Scale Embodied Memory 在 ViT 每隔 层插入时空可分离注意力,且关键性地复用原始 QKV 权重,仅通过固定的正弦时间编码 注入时序信息 10。在 ViT 上层丢弃所有历史帧 token,仅保留当前帧。零新增参数。零额外下游 token。边界条件 使得单帧输入时退化为标准 ViT,保证预训练权重精确可继承。 偏向 ——时空注意力强制模型在编码当前帧时纳入历史变化信号; 同样被良好保留——丢弃的是历史帧 token,当前帧 patch 完整保留。代价是 MEM 是"短时记忆"——历史窗口 通常 5–18 帧,跨任务或跨场景的长时记忆需要外部模块; 未被显式优化;空间几何仍是平面 patch 表征,不解决多相机数线性增长问题。MEM 改造的是 vision tower 内部,对下游 backbone 透明,可与 Tri-plane 类空间压缩组合(先 Tri-plane 解空间维,再 MEM 解时间维),也可单独配 Qwen3.5 hybrid attention 使用——后者的线性注意力层对 vision token 数不敏感,进一步降低开销。
Memory VLA。引入分层记忆库:感知记忆 (Perceptual Memory) 存储压缩感知特征,认知记忆 (Cognitive Memory) 存储 LLM 加工后的抽象表征 11。通过 timestep 位置编码的交叉注意力检索,门控融合,记忆整合时合并最相似条目。 最接近 ——cognitive memory 显式维护跨长时段的语义状态,对因果链与事件本体友好; 也受益于长时记忆。代价是完整的 memory module 是新增结构,工程复杂度最高;推理延迟随记忆库大小增长,与车端 100 ms 约束有张力; 的细粒度可能在压缩存储后退化。
3.4 世界模型对齐
这一类方案的共同思想是不直接对齐 AD 的具体任务,而是先训练出一个"对世界足够好"的视觉表征,再让 AD 任务在其上线性 probe 或微调。
V-JEPA dense feature。V-JEPA 2.1 通过 dense predictive loss 让 ViT 输出的每个 patch token 编码可预测的语义 12。NYUv2 深度估计上 linear probe 达 0.307 RMSE,逼近 DINOv3 7B 的水平 13。 是"可预测的世界状态"——这与 概念相关但不等价;V-JEPA 学的是 latent space 的下一步预测,而非他车轨迹的概率分布。但其 dense feature 经线性 probe 可恢复深度估计能力,间接支持 的几何分量。V-JEPA 不显式建模多相机、多时刻输入,直接用于 4D AD 场景需要:(a) 多相机 token 拼接;(b) 历史帧拼接或 MEM 类时序聚合。 和 需要下游对齐。输出标准 ViT-style token,与所有主流 backbone 兼容,可作为 Qwen3.5 vision tower 的预训练权重来源。
四、帕累托前沿与三个空缺
把九种方法放到 五维空间,再投影到 二维平面,可大致描出当前的帕累托前沿。下表给出每种方法在四个 分量上的相对评级(H/M/L 表示高/中/低保真度)与典型 token 量。
| 方法 | (相对) | 主要 | ||||
|---|---|---|---|---|---|---|
| ViT 单图 patch | 1.0× | H | M | M | M | |
| Qwen 时空压缩 | 0.5× | M | L | M | L | |
| Tri-plane | 0.3× | H | M | H | L | |
| BEV / OccFormer | 0.4× | H | M | H | L | |
| DA3 depth-ray | 0.5× | H(几何) | L | L | L | 几何分量 |
| VGGT scene token | 0.4× | H | L | M | L | 静态重建 |
| Flex | 0.05× | M | H | M | L | (场景 gist) |
| MEM | 1.0×(单帧成本) | H | H | M | L | |
| Memory VLA | 0.6× | M | H | M | H | (认知记忆) |
| V-JEPA dense | 1.0× | M | H | L | L | 可预测 latent |
几乎无人显式优化。除 Memory VLA 外,其它方案都把 reasoning 推给下游 backbone。AR1 已经指出,没有 encoder 端对 cause-of-change 的支持,推理-动作对齐 (reasoning-action alignment) 容易退化成事后辩解 2。
几何与时序的双重压缩很难同时做好。Tri-plane 解空间但不解时间;MEM 解时间但保留平面 patch 结构(多相机仍是 倍线性增长);Flex 同时解但牺牲细粒度。Tri-plane + MEM 组合在原理上是干净的几何-时序解耦,目前还没人系统验证过。
与 hybrid attention backbone 的协同被忽视。Qwen3.5 的混合注意力让 75% 的层使用线性注意力( 状态),对 vision token 数不敏感;25% 的 Full Attention 层是真正的"上下文刷新点" 3。一个理想的 4D encoder 应该把信息密度按层的注意力类型分配——粗压缩 token 可在 linear attention 层"游离",细粒度 token 仅在 Full Attention 层活跃。当前没有方法显式做这一协同。
五、推开前沿:理想 4D encoder 的五个必要条件
从 §1-2 的框架与 §3-4 的审计可以推出,一个真正推开帕累托前沿的 4D encoder 必须满足以下五个必要条件。每条对应 §4 的一个具体空缺或 §2 的一个结构性约束。
条件 1: 的联合监督。训练目标必须显式包含 、、、 四个分量。这意味着数据集需要四套对齐标注,且训练 loss 是这四项的加权和(或更优的多任务架构)。AR1 的 COC (Cause-of-Change) 数据集范式 2 给出了 的标注方法,是这一条件的现成支撑。
条件 2:显式几何先验。 必须保留可投影回 3D 的结构。具体形式可以是 Tri-plane、BEV、depth-ray 或其它表征——关键是从 出发能恢复物体的 3D 位置,否则 的 3D 框预测、 的空间布局都需要 backbone 重新学习几何,浪费 token 预算。Tri-plane、BEV、depth-ray 都满足此条件;纯 2D patch 不满足。
条件 3:时间一致性约束。 与 之间应该满足某种连续变换。这等价于要求 encoder 隐式学习一个 SE(3) 类的李群作用——相邻时刻的世界只通过自车与他物的有限运动连接。MEM 的固定时序编码 是该约束的弱实现;更强的实现是把自车位姿显式输入 encoder 作为条件。
条件 4:预训练权重的可继承性。 应能从 ImageNet / DINO / SigLIP 类的视觉预训练权重初始化。原因:AD 数据集相比通用视觉数据集小数量级,从随机初始化训练 ViT 会过拟合。MEM 在这一条件上做得最好(零新增参数);Tri-plane 需要额外训练的 3D lifting 头,是较强的偏离;Flex 的新增 query 参数也偏离这一条件。
条件 5:与 backbone 注意力机制的协同。 的信息密度应该匹配 backbone 的注意力分配。在 Qwen3.5 类 hybrid attention 上下文里,这意味着粗粒度的几何 / 时序 token 可以分布在所有层(包括 linear attention 层);细粒度的局部 token(用于 的小物体)应该集中在 Full Attention 层附近;M-RoPE 的 3D 位置编码应该被 encoder 端的几何结构利用。这一条件在文献中尚未被任何工作显式满足,是开放的设计空间。
将这五条折回 §3 的表格,可以看出:
- Tri-plane 满足 2, 5(部分),不满足 1, 3, 4
- MEM 满足 3, 4,部分满足 5,不满足 2
- Tri-plane + MEM 组合 在原则上同时满足 2, 3, 4 与部分 5,剩下只需补足 1(即联合监督)
这是按五条必要条件框出来的最接近候选。
六、对接:Qwen3.5 上的 4V → 7V 升级路径
把 §5 的框架落到具体场景:当前 5 帧 × 4V 输入,目标 7V,backbone 为 Qwen3.5(24 层 ViT vision tower,hidden 1024,patch 16,spatial_merge 2,hybrid attention 3:1)。
Token 预算估算。 输入下,patch=16 + merge=2 后单图 token。5 帧 × 7V 朴素串联 = 6860 token,超出车端预算约一个数量级。
框架评估。按 §5 五条评分:
- 朴素 7V: 联合监督可加(条件 1 可满足),几何先验缺失(条件 2 失),时间一致性弱(条件 3 失),预训练继承良好(条件 4 满足),与 hybrid attention 协同未做(条件 5 失)。
- Tri-plane 单独上:解 7V 空间维,token 降至约 288/时刻 × 5 = 1440,仍偏高;时间维未优化。
- Tri-plane + MEM:在 Tri-plane 网格之上插入 MEM 的时空可分离层,时间 token 在 vision tower 内丢弃,最终送 backbone 的 。满足条件 2, 3, 4。条件 1 通过下游联合 loss 实现,条件 5 通过 M-RoPE 的 3D 位置编码与 Tri-plane 几何的对齐实现。
实施路径草图(不展开 spec):
- 把 Qwen3.5 vision tower 的前若干层替换为 Tri-plane lifting + 3D patch 切分
- 在 Tri-plane patch 序列上插入 MEM 的时空可分离层(每 4 层一次)
- 输出层丢弃历史 Tri-plane token,仅保留当前时刻的约 288 token
- backbone 端启用 M-RoPE 的 3D 位置编码模式,把 Tri-plane 的几何坐标作为 RoPE 输入
- 联合 loss 包含 四分量( 标注按 AR1 COC 范式生成)
7V 时该方案的 token 预算与 4V 几乎相同——Tri-plane 把相机数解耦,MEM 把时间解耦。具体网络结构、训练 schedule、消融实验设计留给后续 spec。
七、开放问题
的端到端可微化。AR1 通过离线 COC 数据集 + RL 微调来对齐 reasoning,离散动作 token 是关键中介 2。如何把 的对齐推回到 encoder 端、做成端到端可微的目标,仍是开放问题。
4D Gaussian 类可渲染表征作为 4D encoder 的可能性。4D Gaussian Splatting 提供了"可渲染的未来"——通过参数化的 Gaussian 集合显式建模动态场景。若 token 化得当,它可能同时满足条件 2(几何)和条件 3(时序)。但目前没有把 4D Gaussian 作为 VLA encoder 的成熟方案。
Hybrid attention 之上的层级 token 分配。条件 5 是本文最未成熟的一条。一个值得探索的方向是:在 Qwen3.5 vision tower 顶部加一个 token 重排序模块,把粗 / 细粒度 token 按层归属重新组织,让 linear attention 层只看粗粒度、Full Attention 层看全部。
长短时记忆的统一。MEM 是短时(5–18 帧),Memory VLA 是长时(任务级)。AD 既需要短时(数秒决策窗口)又需要中长时(路口转向意图、城市路径记忆)。将两类记忆机制在同一 上统一编码,是工程与理论均未解决的问题。
相关概念
- 三平面表征的几何起源 —— 详见 VGGT:3D 重建作为逆向世界建模
- MEM 的时空可分离注意力工程实现 —— 详见 VLM 时序记忆机制
- Qwen3.5 的混合注意力机制 —— 详见 Qwen3.5 vs Qwen3 架构深度对比
- AR1 的 cause-of-change 范式 —— 详见 Alpamayo:推理-动作对齐的 VLA 系统
- 视觉表征的本体论方向 —— 4D 的概念学辨析与 Newtonian / Minkowski 结构的讨论,详见 从 2D 到 4D:视觉表征的本体论问题
参考文献
本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。
Tishby, N., Pereira, F. C., & Bialek, W. “The Information Bottleneck Method.” Proceedings of the 37th Annual Allerton Conference on Communication, Control and Computing, 1999. ↩︎
NVIDIA. “Cosmos-Reason: Reasoning and Action Alignment for Autonomous Driving (Alpamayo).” Technical Report, 2025. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Qwen Team. “Qwen3.5-Omni Technical Report.” arXiv:2604.15804, 2026. ↩︎ ↩︎ ↩︎ ↩︎
Chan, E. R., Lin, C. Z., Chan, M. A., et al. “Efficient Geometry-aware 3D Generative Adversarial Networks.” CVPR, 2022. (Tri-plane representation origin) ↩︎
Li, Z., Wang, W., Li, H., et al. “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.” ECCV, 2022. ↩︎
Zhang, Y., Zhu, Z., & Du, D. “OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy Prediction.” ICCV, 2023. ↩︎
Depth Anything 3 Team. “Depth Anything 3: Recovering the Visual Space from Any Views.” arXiv:2511.10647, 2025. ↩︎
Wang, J., Chen, Y., Chen, X., et al. “VGGT: Visual Geometry Grounded Transformer.” CVPR Best Paper, 2025. arXiv:2503.11651. ↩︎
Yang, J., et al. “Flex: Efficient and Flexible Vision Encoding for Multimodal LLMs.” 2025. Available at: https://jiawei-yang.github.io/Flex/ ↩︎
Physical Intelligence. “MEM: Multi-Scale Embodied Memory for Vision Language Action Models.” arXiv:2603.03596, 2026. ↩︎
Memory VLA Team. “Memory VLA: Perceptual-Cognitive Memory for Long-Horizon Visual Language Action Models.” 2025. ↩︎
Meta FAIR. “V-JEPA 2.1: Improving Latent Predictive Self-Supervised Learning.” 2026. ↩︎
Meta AI. “DINOv3: Self-Supervised Vision Foundation Models.” 2025. ↩︎