当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。

把这两个数字摆一起:

1
2
3
Supervision (per sample):    ~32 scalars
Backbone params trained:     ~2.5B
Information ratio:           ~10⁻¹⁰

让 2.5B 参数从 32 个标量的 L2 / Huber loss 里学出"看懂场景 + 选对决策 + 走对轨迹",capacity 跟监督信号信息量之间隔三个数量级以上。这就是 DriveVLA-W0 论文里 supervision deficit 的算术形态——也是 NAVSIM PDMS 在 87-93 区间 saturate 的核心原因。

DriveVLA-W0 给的答案是 pixel-level future image prediction:所有相机视角的下一秒图像被 flatten 成监督目标。这条路 work 过——他们的 NAVSIM v1 PDMS 从单纯 sparse traj loss 的 88-89 一档拉到 93.0。但 pixel 不是最优。V-JEPA 风格的 latent predictive supervision 在 capacity / 推理 cost / 评测同构性这三条上都更好,且实证已有 Drive-JEPA(NAVSIM v1 93.3)做支撑。

读者预设:通读过 V-JEPA 2.1 paper 精读Driving JEPA 综述3D 视觉表征注入 这一线。


一、Sparse trajectory loss 为什么不够

把上面的 ratio 算清楚之后,三个角度展开。

Trajectory 监督是 single-scalar 监督的最差形态。 12 个 waypoint × 2D 是一个 R24\mathbb{R}^{24} 向量。Loss 函数把这 24 维拍成一个 scalar(L2 / Huber / 加权 jerk loss)。单个 batch step 里 backbone 拿到的有效梯度信号上界由 loss scalar 的有效熵决定——而 24 维高斯靠拢的目标函数,梯度方向几乎完全压在 endpoint error 上。中段轨迹的几何细节、car-follow 的 smoothness、curvature 的几何约束都被打散到这一个 scalar 里。这跟 生成式规划与非凸性 §2 里 “MSE 对模式取平均” 的论证一致。

可学习参数 vs 监督信号的不对称是结构性问题,加数据解不了。 增加数据规模只是放大 batch step 数量,每步的有效信号量没变。DriveLaW 的视频预训练消融(视频帧从 0 扩到 7.6M 拉到 89.1 PDMS)看似单调提升,但要看到那 7.6M 帧的视频信号是被预训练阶段的 video objective 消化过的——再扩到 70M 帧(DriveVLA-W0 的 in-house 规模),PDMS 只能再涨 3-4 分。sparse trajectory loss 这条 bottleneck 在 NAVSIM saturate 区间(~93 PDMS)已经触顶,再往上要么换监督信号、要么换评测指标。

加 dense supervision 不等于必须 pixel-level。 DriveVLA-W0 选 pixel 是默认选项,不是验证过的最优选项。pixel-level future prediction 同时做三件事:(a) 给 backbone 加 dense 信号;(b) 让 backbone 学到 pixel-space 视觉先验;(c) 训练 cost / 推理 cost 显著上升。其中 (a) 是真正起作用的部分,(b) 大部分冗余(驾驶决策不需要 model 远处天空纹理),(c) 是负担。问题变成:能不能只保留 (a)、丢掉 (b)(c)?

实证强度需要诚实标注。DriveVLA-W0 Table 4 是 query / FM / AR 三种 action decoder 形态在不同数据规模下的 ablation,不是 supervision 维度的 ablation。“加 dense supervision 带来多少 PDMS 提升"严格量化要看论文里有 / 无 dense head 的对照实验,公开数据不足。把论点降到 “supervision deficit 是合理 motivation 且 production VLA 都在朝这方向走” 这种表述是更诚实的水位。


二、Pixel 路线不是最优

推理 cost 大。 机器人世界模型 §4.2 已经把"视觉分支在控制期间保留多少活跃度"列为核心轴:Fast-WAM 视频分支推理时裁掉、只在训练时保留;GigaWorld-Policy 视觉分支推理可选;UVA 用轻量解头绕开显式视频生成;BagelVLA 用单步去噪。Latent-WAM 在 AD 侧做得更极端——104M 总参数,推理时 DLWM 完全裁掉,NAVSIM v2 拿到 89.3。共同结论:视频/像素分支在推理时几乎都是被裁掉的,它在训练时是辅助监督信号,不是 inference-time 的预测组件

DriveVLA-W0 的 Diffusion 路线接受了这个结论(推理时 bypass 掉 diffusion 分支)。但 AR-VQ 路线就没办法 bypass:VQ token 跟 LLM 的 vocab 耦合在一起,推理时不能选择性关掉。pixel-level 路线的第一个工程负担:推理时是否真能 bypass 取决于具体实现,不是路线天然带来的属性。

Capacity 浪费。 X-World §6.1 一句话说清:“JEPA latent prediction 的优势是不浪费 capacity 去 model pixel-level texture”。pixel-level future prediction 强迫 backbone 在每一层都维持能恢复像素的表征——远处天空的渐变、近处路面的纹理、车体反光、阴影梯度——这些都是 backbone 必须 model 的。但驾驶决策几乎不依赖这些信号——同一段轨迹放在不同光照、不同颜色的车上、不同纹理的路面上,决策应当一致。

V-JEPA 2.1 论文 §4.1 的 dense feature 论证在这里直接对应:JEPA 的核心假设是预测应当在潜在空间中进行,而非像素空间。这套逻辑用到 driving VLA:sparse trajectory loss 不够 dense,但 dense 不必走到 pixel——latent space 上的 dense predictive loss 同样 dense,且不浪费 capacity 去 model 纹理。

评测同构问题。 机器人世界模型 §3 里有一段:“一段视觉上流畅的操作视频,可能恰好在接触时刻夹爪没夹住物体,或者碰撞响应完全偏离真实物理。视觉上合理但动作不一致的未来,对闭环决策几乎没有任何价值”。FID / FVD / PSNR / LPIPS 这一套像素保真度指标,跟 closed-loop control 能力是两个正交维度。DriveVLA-W0 的 pixel 监督 work 是因为 dense supervision 本身有效,不是因为 pixel 保真度跟 PDMS 单调相关。

训练 cost 高。 Diffusion 分支在训练时要做 latent video VAE encode + DiT 多步去噪 + decode。每个 batch step 比纯 sparse traj loss 慢 5-10 倍,GPU memory 也大几倍。70M 帧规模训练这部分 cost 就是几百卡日。改成 latent predictive supervision,同样的 dense 信号,训练 cost 可以低一个数量级。

合起来看,pixel-level future prediction 的真正价值在于 (a) 加了 dense 信号,但这一点跟 latent predictive supervision 等同;(b) demo 可视化好做——工程便利;(c) 工业惯性大——历史路径。三条都跟 supervision 本身的技术 best 无关。


三、Latent prediction 为什么更好

V-JEPA 2.1 dense predictive loss。 V-JEPA 2.1 paper 精读 已经把数学 work out 过,这里只复述结论。完整的 dense loss 是

Ldense=Lpredict+Lctx \mathcal{L}_{\text{dense}} = \mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}}

Lpredict\mathcal{L}_{\text{predict}} 是标准 V-JEPA masked prediction loss,对 mask 集合 MM 内的 token 做 EMA target encoder vs student predictor 的 L1 距离:

Lpredict=1MiMziz^i1 \mathcal{L}_{\text{predict}} = \frac{1}{|M|} \sum_{i \in M} \| z_i - \hat z_i \|_1

Lctx\mathcal{L}_{\text{ctx}} 把同样的 EMA target encoder 监督扩展到 context(可见)token,用基于到 mask 边界距离的衰减权重:

λi=λdmin(i,M),Lctx=1CiCλiziz^i1 \lambda_i = \frac{\lambda}{\sqrt{d_{\min}(i, M)}}, \qquad \mathcal{L}_{\text{ctx}} = \frac{1}{|C|} \sum_{i \in C} \lambda_i \| z_i - \hat z_i \|_1

V-JEPA 2.1 配合 deep self-supervision(从 4 个等间距中间层抽取 target、跟 predictor 4 个对应层做监督)一起把 ADE20K mIoU 从 22.2 拉到 38.6、SSv2 acc 从 72.8 拉回 72.1,dense feature 从 collapse 状态恢复到 spatially coherent 状态。

Driving 上已经被独立验证 viable。 Driving JEPA 综述 列了三个变体——causal future mask、motion-aware mask、temporal-coherent mask——和 Drive-JEPA 在 NAVSIM v1 上拿到的 93.3 PDMS。这个数字跟 DriveVLA-W0(NAVSIM v1 93.0)几乎打平。latent prediction 路线在同一个 NAVSIM saturate 区间已经被独立验证过 viable,不需要再讨论理论可行性。

Drive-JEPA 的实现细节(双分支训练、causal future mask、Ltotal=Ljepa+0.5Lfull_future_jepa+1.0Ltraj\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{jepa}} + 0.5 \mathcal{L}_{\text{full\_future\_jepa}} + 1.0 \mathcal{L}_{\text{traj}})可以直接借鉴。但 Drive-JEPA 是 replace backbone 路线(用 V-JEPA 2.1 ViT-G/16 替换原 backbone)。下面讨论的具体场景:把 V-JEPA 风格 dense head 挂在主流 production AD VLA 形态——Qwen3-VL 这一族 V-L backbone + Action Expert(sequence-dim concat KV,layer-by-layer 对齐)——上,不替换 backbone。这套形态最初是 π₀ 在机器人 VLA 上提出的 Action Expert + Joint Attention 模式,DriveVLA-W0 把它用到 AD。在这种 backbone 形态上挂 dense head 是一个新的接入形式,下面 §四 展开。

Capacity / 推理 cost / 评测同构都友好。 Latent target encoder 的输出(vision tower 的 EMA copy)天然不含 pixel-level 纹理——是一个学到的 semantic + spatial 表征。让 student backbone 去预测这种 latent,supervision 信号集中在"决策相关的 spatial structure 和 semantic content"上。背景纹理、光照变化、相机噪声 backbone capacity 不需要去 model。推理时 dense head 完全裁掉,zero-cost。


四、怎么挂到 Qwen3-VL backbone + Action Expert 上

定义术语:把 V-JEPA 2.1 那一套(context encoder、target encoder (EMA)、predictor、Ldense\mathcal{L}_{\text{dense}})整体打包叫 “dense head”。要回答的工程问题有几个。

4.1 接入位置。 三种候选:

  • 位置 A:vision tower 输出 / 视觉 token 之上。Dense head 在 Qwen3-VL vision tower 输出(patch-level token)上做 mask + predict。target encoder 的输入也是 vision tower 输出(EMA copy),student predictor 学到的 latent 在 vision token 空间里。优点:直接复用 V-JEPA 2.1 训练 recipe,dense head 跟 LLM block / Action Expert 解耦,调试归因清晰。缺点:监督信号止于 vision token,没有传到 LLM block 的更深层。
  • 位置 B:backbone 中间层(某个 hidden layer)。直接对 LLM block 第 kk 层 hidden state 做 EMA self-distillation + future prediction。优点:监督穿透到 LLM 中间层。缺点:中间层 token sequence 是混合的(vision + language + action),mask + predict 的语义复杂;同 layer 多任务可能冲突。
  • 位置 C:Action Expert 入口 / 共享 KV 处。直接监督 Action Expert 看到的 vision/language KV concat 之后的表征。优点:监督最贴近决策位置。缺点:已经过 LLM block 处理,跟原本 sparse trajectory loss 在位置上几乎重合,“dense” 的优势变弱。

默认选 位置 A——跟 V-JEPA 2.1 训练 recipe 兼容性最高,跟 backbone / Action Expert 的耦合面最小,也是 Drive-JEPA 路线集中验证过的位置。位置 B / C 后续再讨论;如果要让监督信号进入 LLM block,可以用 deep self-supervision 的 multi-layer 形式(同时从 vision tower 输出和 LLM 第 k1,k2,k3,k4k_1, k_2, k_3, k_4 层抽 target),这是 V-JEPA 2.1 自己的 deep supervision 在 VLA 上的自然 generalization。

4.2 EMA target encoder 怎么共享。 V-JEPA 2.1 用一个独立的 target encoder(与 student 同结构、参数 EMA)。在 VLA 这边最自然的做法是:vision tower 自己 EMA self-distillation——给 Qwen3-VL vision tower 维护一份 EMA copy 作 target encoder。不开第二个 backbone(成本太大),也不引入外部 teacher(V-JEPA 2.1 / DINOv3 / VGGT 当 teacher 会引入分布 shift)。

如果 vision tower 跟 LLM block 都开放 fine-tune,EMA momentum 必须仔细调(典型 0.996-0.9999)。Momentum 太低让 target encoder 跟 student 几乎同步、监督信号退化为 trivial;太高让 target 跟 student 分布 shift 过大、跟不上 backbone fine-tune 节奏。这是 §六 要 flag 的风险之一。

4.3 Mask 策略。 Driving JEPA 综述 §二 已经讨论过三种变体(causal future mask、motion-aware mask、temporal-coherent mask)。挂在 AD VLA 上,mask 策略跟训练数据的时序结构直接相关:

  • 训练样本如果是单 timestep 多视角图像(不是显式多帧视频 clip),要用 causal future mask 需要先把数据从 single-frame 改成 short clip(典型 4 帧历史 + 8 帧未来,跟 Drive-JEPA 一致)。这是数据 pipeline 改造,不是 model side 改造。
  • 退而求其次:random multi-block mask(V-JEPA 2.1 原始 setup)做 spatial-only dense supervision。EMA target encoder + distance-weighted ctx loss 仍在,失去 future prediction 的因果性。NAVSIM 上看,纯 spatial dense supervision 比 sparse traj loss 强、比 causal future mask 弱(Drive-JEPA frozen probe ~78 PDMS vs full causal pipeline 93.3)。
  • 长期方向是 causal future mask + motion-aware weighting 组合。Driving JEPA §五 指出这两种 mask 信号相当部分重叠,组合起来边际收益递减。

4.4 Loss balance:Ltraj+αLdense\mathcal{L}_{\text{traj}} + \alpha \cdot \mathcal{L}_{\text{dense}} Drive-JEPA 用的权重是 Ljepa+0.5Lfull_future_jepa+1.0Ltraj\mathcal{L}_{\text{jepa}} + 0.5 \mathcal{L}_{\text{full\_future\_jepa}} + 1.0 \mathcal{L}_{\text{traj}}。V-JEPA 2.1 的 ctx loss 系数 λ=0.5\lambda = 0.5 配 warmup(前 15K iter 纯 V-JEPA 2 模式、然后线性升到 0.5)。借鉴这两组数字,初始 schedule:

  • α\alpha 初始为 0,前 5-10K 迭代纯走 sparse trajectory loss,让 backbone 先把 trajectory output 稳住
  • 第 10K-25K 迭代 α\alpha 从 0 线性升到 0.5
  • 之后保持 α=0.5\alpha = 0.5

V-JEPA 2.1 ablation 里 λ>0.5\lambda > 0.5 反过来损害全局语义性能。这条规律在 VLA 上是否同样成立不能直接套用——VLA 的"全局语义"对应 LLM 的 caption / VQA 能力,dense head 加得过重可能让 LLM 那条线退化(如果模型同时承担 caption / planning / 对话训练,输出范围比纯 trajectory 更宽)。α\alpha 调优要做实验定,安全起点是 0.3-0.5 区间。

4.5 训练 stage。 跟常见两 / 三阶段 SFT 模板兼容:

  • Stage-1(dense head warmup):vision tower 开放训练、Action Expert frozen、dense head 加入。让 dense head 在 vision tower 上训一段时间 dense feature 监督,target encoder EMA 起步。Action Expert 不动、trajectory loss 不算(或按 1e-2 小权重保持训练流不断)。长度 5-10K 迭代。
  • Stage-2(joint train):vision tower + LLM block + Action Expert + dense head 全开放,loss 是 Ltraj+αLdense\mathcal{L}_{\text{traj}} + \alpha \mathcal{L}_{\text{dense}}α\alpha warmup 到 0.5。主训练阶段。
  • Stage-3(policy fine-tune):dense head 冻结作 regularizer——target encoder 停止 EMA 更新(权重 freeze),student predictor 跟 vision tower / LLM 还在训,但 dense supervision 信号是固定的目标。Action Expert 做最后的 trajectory output 微调。NAVSIM-in-the-loop reward refinement(DriveWorld-VLA Stage-3 那种)也可以接在这里。

每一阶段都可以表达成一个 SFT yaml,只是 freeze 哪些模块、loss weight 怎么调不同。不需要重写 training loop。

4.6 推理时默认丢弃。 Dense head 在推理路径上是 zero-cost——target encoder、predictor、EMA buffer 全部不进 inference graph。这是 latent prediction 路线相对 pixel 路线的核心优势之一。

保留 dense head 的两种特殊场景:(a) Stage-3 之后做 future feature 注入(用 predictor 输出的 future latent 作为 cross-attn key 喂给 Action Expert),predictor 要保留进 inference;(b) DriveWorld-VLA 那种 Stage-3 用 predicted future 跟 GT future 做 reward shaping,predictor 也要保留。这两种情况 dense head 角色从"训练 regularizer"变成"inference-time future predictor”,跟 Latent-WAM “DLWM 推理时裁掉” 路线对偶。默认走前者(裁掉),后者作可选扩展。


五、跟 3D 注入文几条路线的咬合

把 dense head 放进 3D 注入文 的 design space 里。

跟 MoE Joint Attention 的关系。 在 vision + language + action 三路 KV concat 全对齐的 backbone 上加 dense head,不改 Joint Attention 拓扑、不改 Action Expert 的 decoder 形态(query / FM / AR 三选一仍然成立),只在 vision tower 输出端加一道 latent predictive 监督。两件事完全解耦。

跟 Sparse Volume / 几何注入路线的关系。 Sparse volume(S4-Driver 一线)改变的是 vision tower 输入侧的几何 token 形态——是 input-side 几何 prior 注入。Dense JEPA head 改变的是 vision tower 输出侧的 supervision 形态。两者作用在不同环节,正交可叠加:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
sparse volume vision tower (input-side)
ViT (vision encoder)
JEPA dense head (output-side supervision)
LLM block (Joint Attention)
π₀-style Action Expert (FM / AR / query)
trajectory output

Sparse volume 解 input-side 几何注入,JEPA dense head 解 output-side supervision deficit,π₀-style Action Expert 解 latent action representation——三者各管一段。

跟 Action 端 5 篇的关系。 3D 注入文 §七.5 列出的 5 篇(DriveLaW / DriveVLA-W0 / GigaWorld-Policy / Uni-World VLA / Latent-WAM)都已经在做 dense supervision,但具体形态各异:DriveLaW 是 Video DiT 隐特征 cross-attn condition、DriveVLA-W0 是 pixel-level future image prediction、Uni-World 是 frame token first-class output、Latent-WAM 是 DINOv2 + WorldMirror 几何蒸馏。V-JEPA 风格 dense JEPA head 是这条 axis 上的另一个候选项,理论上更高效但实证上还差 NAVSIM 上的直接对比。

四个 axis 如下:

Axis候选项
Vision tower 几何注入(input-side)cross-attn / token concat / replace / sparse volume / distill
Vision tower supervision(output-side)sparse only / pixel-level dense / latent-level dense
LLM block ↔ Action Expert 耦合串联 DiT / MoE Joint Attention / causal interleave / latent space 同构
Action decoder 形态query / flow matching / AR

四个 axis 的乘积才是 production AD VLA 的真实 design space。这篇集中讨论第二个 axis(output-side supervision),其他三个 axis 跟这条选择正交。


六、风险 + 待验证

Latent space 退化风险。 DINOv3 有一段统一论证:自监督 dense feature 在长训练下普遍会退化——全局项找到更高效的解决方案,用少量维度编码全局信息、释放其余维度给噪声,dense feature 的 spatial coherence 慢慢丢失。V-JEPA 2.1 的 ctx loss + deep supervision 是一种解,DINOv3 的 Gram anchoring(用 200K 迭代的 checkpoint 当 teacher 做 Gram matrix 对齐)是另一种解。

AD VLA 长训练(50-100 epoch on 70M+ frames)下,dense head 的 target encoder(vision tower EMA)是否会发生类似退化?没有直接证据。保守做法是借鉴 Gram anchoring 思路——把某个早期 checkpoint 的 vision tower 冻结作额外 anchor teacher,跟 EMA target encoder 一起做 dual teacher distillation。工程保险,不是必须。

EMA target encoder 跟开放训练 LLM block 的兼容性。 如果 vision tower 跟 LLM 都开放 fine-tune,EMA target encoder 跟 student vision tower 同结构,但参数 EMA 更新慢于 student fine-tune。Student fine-tune 的速率被 LLM block 的梯度信号 dominate,可能让 vision tower 在每个 batch step 内的参数更新方向与 EMA 维护的 target 之间不一致——target encoder 跟不上。

后果:dense head 的 supervision 信号在 fine-tune 后期可能慢慢失效。缓解:EMA momentum 设小一点(0.99 而非 0.999)让 target 跟得上,或在 vision tower fine-tune 速率过快时主动降低 student vision tower 的 learning rate。调参问题,不是结构问题。

Small data regime 下 dense head 是否帮助。 DriveVLA-W0 Table 4 显示:小数据(NAVSIM ~103k frames)下 query > FM > AR;大数据(70M frames)下 AR > FM > query。decoder 形态的最优选择跟数据规模有关。

合理猜测:dense head 在 small data 下应该 更有帮助——sparse trajectory loss 在 small data 下信号尤其稀薄、backbone capacity 浪费更严重,dense head 提供的额外稠密信号正好补这一块。需要在 NAVSIM 100K 规模上做 ablation 验证。

Production 推理是否真能丢 dense head。 §四.6 默认推理时丢 dense head。但走 future feature 注入路线(用 predictor 输出的 future latent 作为 Action Expert 的 cross-attn key),predictor 进入 inference 关键路径——这时跟 pixel-level 路线的工程负担差距缩小。DA3-style 中间预测(Depth Anything 3 的 depth-ray 中间预测被证明在 driving 上很有用)是另一种迫使 dense head 进入 forward 路径的设计。这是个设计选择,不是 dense head 路线本身的限制。默认(推理时 drop)跟 Latent-WAM “DLWM 推理时裁掉” 对齐,更保守、更 production-friendly。

EMA target encoder 的初始化。 Target encoder 初始化用什么权重?三个候选:(a) 跟 student vision tower 同初始化(即 Qwen3-VL 自带的 vision tower 权重);(b) 用 V-JEPA 2.1 / DINOv3 / VGGT 的预训练权重;(c) 用早期 SFT checkpoint。

(a) 最简单但可能学不到 dense feature——Qwen3-VL vision tower 是 V-L 对齐训出来的、不是 dense feature 优化的。(b) 用外部 SSL 预训练 backbone 当 target,分布跟 student 不一致,target encoder 跟 student 之间会有恒定 gap。(c) 是从已经在 driving 域跑过的 checkpoint 出发,分布最接近 student、初始 target signal 最弱。三个候选的实际效果没有现成答案,需要 ablation。


七、跟姊妹文的关系

加 dense latent supervision 是 supervision 维度的设计,跟 representation 路线维度正交。姊妹文 Affordance vs Symbolic Perception 拆 representation 维度的假二分;这篇在 supervision 维度给补缺方案。两者合 3D 注入文 是系列三篇。


参考

核心参考论文

  • DriveVLA-W0: A Vision-Language-Action Model with World Knowledge for Autonomous Driving. arXiv:2510.12796
  • V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482
  • Drive-JEPA: Self-Supervised Pretraining for End-to-End Autonomous Driving. HuggingFace LinhanWang/Drive-JEPA.
  • DINOv3: Versatile Vision Foundation Models. arXiv:2508.10104
  • π₀: A vision-language-action flow model for general robot control. arXiv:2410.24164.
  • π₀.₅: A vision-language-action model with open-world generalization. arXiv:2504.16054.
  • Qwen3-VL Technical Report.

直接相关 NAVSIM 工作

  • DriveLaW (NAVSIM v1 89.1)
  • DriveWorld-VLA (NAVSIM v1 91.3 / v2 86.8)
  • LaST-VLA (NAVSIM v1 91.3 / v2 87.1)
  • Latent-WAM (NAVSIM v2 89.3)
  • Uni-World VLA (NAVSIM v1 89.4)
  • DiffusionDrive (NAVSIM v1 88.1)
  • Hydra-MDP (NAVSIM v1 91.3)
  • ReflectDrive-2 (discrete diffusion + RL, NAVSIM v1 91.0)