Driving JEPA 综述：V-JEPA 系列方法在自动驾驶场景的应用

文章定位

本文是 V-JEPA 系列方法在自动驾驶场景的应用综述，与 V-JEPA 2.1 paper 精读视角区分——后者讲方法本身的数学（context loss、距离加权、deep self-supervision、multi-modal tokenizer）和训练细节（VisionMix-163M、两阶段训练、cool-down 配置），本文聚焦 driving benchmark 的 fine-tune 结果与变体设计：nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略（motion-aware mask、temporal-coherent mask、causal future mask），以及 Driving-JEPA / Drive-JEPA 等专版的对比。

读者假设：已通读 V-JEPA 2.1 paper 精读，熟悉 $\mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}}$ 的 dense loss 形式、ViT-G/16 主干结构、以及 EMA target encoder 的训练机制。下文不再重复"V-JEPA 是什么"的基础介绍。

一、Driving Benchmark 上的 V-JEPA fine-tune 全景

V-JEPA 2.1 在通用视频指标（Kinetics、Ego4D、SSv2）之外，driving 社区关心的是三个核心 benchmark：nuScenes（多相机 BEV 感知 + 预测）、Waymo Open Motion Dataset（轨迹预测）、NAVSIM（开环 + 闭环度量混合的规划评测）。下表汇总当前已公开的 V-JEPA→driving 迁移结果（以 PDMS / mAP / minFDE 为主要指标，标注 backbone 与 freeze/finetune 状态）。

模型	Backbone	Mask 策略	Fine-tune 范围	nuScenes mAP / NDS	NAVSIM v1 PDMS	NAVSIM v2 PDMS
V-JEPA 2.1 (frozen probe)	ViT-G/16	random multi-block	linear probe on traj head	—	~78 [3]	—
Drive-JEPA [3]	ViT-G/16	causal future mask + random	encoder + predictor + traj head	—	93.3	—
Driving-JEPA (本文方案)	ViT-G/16	causal future + dual-branch	full pipeline	—	SOTA 级别（与 Drive-JEPA 接近）	—
Latent-WAM [27]（V-JEPA 风格 distill）	104M custom	latent prediction	end-to-end	—	—	89.3
LaST-VLA [29]（V-JEPA + VGGT 双流）	InternVL3 base	spatio-temporal latent	VLA	—	91.3	87.1

观察三点：(1) frozen probe 与 full fine-tune 之间存在 15+ PDMS 的 gap——纯视觉自监督表征还不足以直接做驾驶决策，必须有针对性的 mask 改造与 traj 监督；(2) Drive-JEPA 系列的 93.3 PDMS 与同期顶尖 e2e 方案（DiffusionDrive、GoalFlow）接近，证明 latent prediction 路线在 NAVSIM 上是 viable 的；(3) NAVSIM v2 的得分显著低于 v1（V-JEPA 路线在 v1 上 SOTA，在 v2 上仍落后于 DriveLaW 的 89.1），暗示闭环 reactive metric 下纯 latent 路线的局限。

二、因果性重构：driving 特有的 mask 策略变体

V-JEPA 2.1 预训练采用的 random multi-block masking 策略，在通用视频上是合理的——观看 YouTube 视频时注意力可以在时间线上自由跳转。但驾驶部署时自车只能获取历史观测，未来图像在物理上不可访问。训练-推理之间的 distribution shift 是 V-JEPA→driving 迁移的第一道关。围绕这一 mismatch，已经出现了三种代表性变体。

变体 A：Causal Future Mask（Drive-JEPA / 本文方案）

最直接的因果化改造是把 mask 边界对齐到时间轴：历史帧永远可见，未来帧完全被 mask。Drive-JEPA [3] 与本文讨论的方案都属于这一类。具体实现采用双分支训练结构：

第一分支——随机 JEPA 分支——最接近官方训练逻辑：8 帧未来图像经过随机 multi-block mask（两组 mask group，一小一大），student encoder 编码可见 token（历史 + 部分 future），predictor 预测被 mask 的 future latent，与 target encoder（EMA，编码完整 clip）的目标计算 JEPA loss $\mathcal{L}_{\text{jepa}}$ 。这条分支的作用是维持模型与 V-JEPA 2.1 预训练分布的接近度，防止 fine-tune 过程彻底摧毁学到的通用表征。

第二分支——full future mask 分支——直接对齐部署场景：student encoder 只能看到 4 帧历史图像，predictor 必须预测全部 8 帧的未来 latent。在这条路径上同时计算 full future JEPA loss $\mathcal{L}_{\text{full\_future\_jepa}}$ 和轨迹监督 loss $\mathcal{L}_{\text{traj}}$ 。Action head 接收四路输入——历史视觉 latent、predictor 生成的未来 latent、自车状态（速度、加速度等）和历史轨迹——通过 trajectory query + cross-attention 融合后输出未来 8 个轨迹点 $(x, y, \theta)$ 。

推理阶段完全复用第二分支的结构：只输入历史帧 + ego 状态，encoder → predictor (预测 full future) → action head → 轨迹。整个流程不访问任何真实未来信息。

总损失为三者的加权组合：

\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{jepa}} + 0.5 \cdot \mathcal{L}_{\text{full\_future\_jepa}} + 1.0 \cdot \mathcal{L}_{\text{traj}}

Drive-JEPA 在 NAVSIM v1 上取得的 93.3 PDMS 证明了这一变体的可行性。代价是训练复杂度上升——两个分支共享 encoder 和 predictor，但产生的梯度方向可能冲突（详见 §四）。

变体 B：Motion-Aware Mask

Causal future mask 是粗粒度的——它只区分"过去/未来"，不区分"运动剧烈/静止"的区域。但驾驶场景中信息密度高度不均：自车前方扇区、其它车辆、行人是高信息密度区，天空、远处建筑物是低信息密度区。Motion-aware mask 的想法是基于光流或时序差分计算每个 token 的运动幅度，对高运动区域施加更激进的 mask。

形式上，定义 token $i$ 的运动评分 $m_i = \| \text{flow}_i \|_2$ ，mask 概率：

p_{\text{mask}}(i) = p_0 + \alpha \cdot \frac{m_i - \bar{m}}{\sigma_m}

其中 $p_0$ 是基础 mask 率（典型 0.75）， $\alpha$ 是 motion bias 系数。这种 mask 强迫模型在动态物体处投入更多预测压力，对 $Y_{\text{prediction}}$ 分量（他车轨迹）有直接帮助。但在 nuScenes 上的初步实验显示，motion-aware mask 与 causal future mask 同时使用时存在边际收益递减——两者的信号在很大程度上重叠（未来帧本身就是"高运动信号"集中地）。

变体 C：Temporal-Coherent Mask

Temporal-coherent mask 走的是相反方向：它把 mask 范式从空间块改成时间轨迹——从某个 frame $t$ 开始，连续 mask $T_{\text{span}}$ 帧的同一空间位置，迫使 predictor 学到"物体的时序连续性"而非"单帧补全"。这与 V-JEPA 2.1 的 multi-block masking 在概念上对偶：一个 mask 时空连续块（block），一个 mask 时间连续轨迹（streak）。

Temporal-coherent mask 在 Waymo Motion benchmark 上对 minFDE 有约 4-6% 的改善，但在 NAVSIM PDMS 上没有显著优势——前者更看重轨迹外推精度，后者更看重短期规划质量。这一指标分裂本身就是一个信号：driving 任务的 $Y$ 分量内部存在结构性差异，单一 mask 策略难以同时优化所有分量。

三、训练时序窗口与分辨率：driving-specific 取舍

V-JEPA 2.1 的 cooldown 阶段使用 64 帧 @ 4fps 的视频片段，相当于约 16 秒的时序上下文。典型端到端模型如 UniAD [4] 通常使用 3 秒（~30 帧 @ 10fps）的历史窗口。Drive-JEPA 类方案的 4 帧对应约 1 秒的历史，对于高速场景下捕获充分的运动趋势偏短。这是计算资源约束下的权衡，但意味着模型主要依赖瞬时运动信息而非长期趋势进行预测。

分辨率的 RoPE 偏移。 V-JEPA 2.1 预训练使用正方形分辨率（256×256 主训练 / 384×384 cooldown），其 3D RoPE 的频率基于 quasi-isotropic 的网格假设设计。Driving 输入通常采用 256×512（水平方向是垂直方向的 2 倍），意味着 RoPE 的频率插值在一个严重各向异性的网格上进行。虽然数学上可行（论文 Appendix A 提供了任意分辨率的插值公式），但 2:1 的长宽比引入了预训练时未曾见过的位置编码模式——这对 partial RoPE 与低秩压缩的兼容性等下游设计是一个隐含的约束源。

驾驶系统天然是多模态的：视觉相机提供环境感知，IMU/里程计提供自车运动状态，高精地图提供先验道路结构。一个直觉的做法是将 ego 状态（速度、加速度、航向角等）直接拼接到 encoder 的 patch embedding 输入中。

但这恰恰是需要避免的。V-JEPA 2.1 的 encoder 经过 135K + 12K 迭代的纯视觉预训练，其权重编码了一个特定的输入-表征映射关系。将非视觉信号注入 encoder 输入端等同于改变了这个映射的定义域——encoder 不再接收"纯粹的视觉 patch"，而是"视觉+数值混合 token"。

Drive-JEPA 系列方案选择把 ego 状态限制在 Action Head 范围内，不进入 visual encoder。Action Head 设计为四路融合模块：

\text{output} = \text{MLP}\left(\text{Transformer}_{\text{query}}(Q; Z_{\text{hist}}, \hat{Z}_{\text{fut}}, s_{\text{ego}}, T_{\text{hist}})\right)

其中 $Q$ 为可学习的 trajectory queries， $Z_{\text{hist}}$ 为 student encoder 输出的历史视觉 latent， $\hat{Z}_{\text{fut}}$ 为 predictor 输出的预测未来 latent， $s_{\text{ego}}$ 为经 MLP 编码的自车状态向量， $T_{\text{hist}}$ 为经 MLP 编码的历史轨迹序列。这一设计与 NWM [2] 的 MPC 规划头形成对比：NWM 在 latent space 中采样多条候选轨迹，再用排序模型选择最优解；Drive-JEPA 通过 query transformer 直接端到端输出单条确定性轨迹，计算效率更高且更适合实时部署。

五、作者声音：driving-specific JEPA 的两个未解张力

Mismatch 一：训练 random mask 与推理 causal forward 的根本不对齐

读完上面三种变体的对比，会发现一个被各家方案隐而不谈的结构性问题：V-JEPA 2.1 的预训练在 random mask 假设下进行，而 driving 的部署严格遵守 causal forward——两者在 setup 维度上根本就不同，工程上做的"对齐"只是后置补丁。

具体说，V-JEPA 预训练时的 mask 是随机的——student encoder 可能看到 $t_5, t_{12}, t_{18}$ 三帧的混合（甚至跨过未来），predictor 要补 $t_7, t_{15}, t_{20}$ ；这种 setup 学到的表征里，时间方向是对称的——“用 $t_{12}$ 预测 $t_7$ “和"用 $t_5$ 预测 $t_{12}$ “在 loss 里被等同对待。但 driving 推理时，时间方向是绝对单向的，且未来分布的支撑集随着推理时间动态收缩（看到 $t_1$ 时未来很发散，看到 $t_3$ 时未来已经被极大约束）。

Drive-JEPA 的双分支训练（random + causal future）是工程上的折中——保留一条 random 分支防止表征崩溃，加一条 causal 分支对齐部署。但这两条分支共享 encoder 和 predictor，梯度方向上是否真的兼容？没有 ablation 论证 random branch 在 fine-tune 后期是否还在贡献正梯度，也没有论证 causal-only 训练（去掉 random branch）会比双分支差多少。NAVSIM v1 上 93.3 的 PDMS 看起来很高，但 v2 上整个 V-JEPA 路线的下滑（与 v1 SOTA 拉开 6+ 分），暗示因果化没有彻底解决问题——random pretrain 留下的 prior 在闭环 reactive 场景下被反噬。

如果要从根上解决，可能需要在 V-JEPA 2.x 的下一代预训练阶段就引入 causal mask 选项（哪怕只占 10-20% 的训练时间），让表征空间本身对时间方向有 inductive bias。当前所有 Driving-JEPA 方案都在 fine-tune 阶段做这件事，效率上是低的。

Mismatch 二：每个变体都在打补丁，没人回到 V-JEPA 的核心假设

Motion-aware mask、temporal-coherent mask、causal future mask——三个变体都是在 V-JEPA 2.1 之上加一个 domain-specific tweak。但没有任何一个变体回到 V-JEPA 的核心假设上去问：self-supervised dense feature 真的是 driving 的最优表征 prior 吗？

V-JEPA 的 dense feature 假设是"每个空间位置都应该编码可预测的语义”。这在通用视频理解上有道理——你看一段烹饪视频，每个像素都可能与下一秒的动作相关。但 driving 任务的信息密度是高度不均的：远处的天空、对侧车道的高速对向车辆、自车正前方 30 米的减速车——这三类 token 对决策的影响差了三个数量级。强迫所有 token 都"可预测”，实际上是在浪费表征容量。

一个未被验证的反向假设是：driving 可能更适合 sparse feature + task-aware token selection 的组合，而非 dense feature。具体地，先用一个轻量的 spatial-attention 模块决定哪些 token 需要"高保真表征”，再只对这些 token 施加 V-JEPA 风格的预测压力。这与 4D vision encoder 中 AR1 Flex 用的 scene query 蒸馏思路相通——后者已经证明 token 数量从 ~5600 压缩到 ~280 没有显著的下游性能损失。但所有 Driving-JEPA 方案都没有质疑"dense"这个前提，而是在 dense 框架内加补丁。

这并非否定 V-JEPA 的价值，而是指出当前 driving 适配的路径依赖：所有变体都把 V-JEPA 2.1 视为不可动的 backbone，只在 mask 与 head 层做改造。一个真正"为 driving 设计"的 JEPA 方案，可能需要从预训练 objective 与 token 表示结构上重新出发，而非把通用视频模型当作既定 prior。

六、开放问题与方向

分辨率适配的系统性方案。 256×512 输入与 256×256 预训练之间的 RoPE 偏移需要一个正式的解决方案。可选路径包括：(a) 在 fine-tune 前插入一个位置编码适应步骤；(b) 将 cooldown 阶段的 384×384 作为基础分辨率再做 resize；(c) 采用 2D 可学习位置编码替代 3D RoPE 以消除时维的耦合。

时序上下文扩展。 4 帧历史的局限性需要通过长视频 JEPA 来克服。V-JEPA 2.1 的 cooldown 已证明 64 帧的有效性（SSv2 从 76.1% 提升至 77.7%），但如何在保持 causal constraint 的前提下扩展驾驶模型的时窗，尚无现成答案。一种可能的思路是在主训练阶段使用较短的因果窗口（如 16 帧），在 cooldown 阶段逐步扩展至更长窗口。

闭环评测的下一步。 Drive-JEPA 在 NAVSIM v1 上的 93.3 PDMS 是 open-loop 指标，NAVSIM v2 上下滑到 89 级别，与 DriveLaW 的 89.1 接近——这暗示 latent prediction 路线在 reactive 闭环场景下没有结构优势，需要在 CARLA / nuPlan 等真正闭环环境中重新评估。

与 VLA 路线的关系。 Alpamayo (Cosmos-Reason VLM) [10] 代表语言中介的驾驶路线（Vision-Language-Action），Driving-JEPA 代表纯视觉隐空间路线。两者是否可结合——language 提供"去哪里"的语义意图，JEPA 提供"怎么去"的轨迹执行——是一个值得探索的架构问题。

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号，待论文正式公开后将更新链接。

[2] Bar, A., Mur-Labadia, L., Muckley, M., et al. Navigation World Models. CVPR 2025.

[3] Wang, L., et al. Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation. arXiv:2601.22032, 2026.

[4] Hu, Y., et al. Planning-oriented Autonomous Driving (UniAD). CVPR 2023 Best Paper.

[10] Nvidia. Cosmos-Reason: Vision-Language-Action Models for Autonomous Driving (Alpamayo). Technical Report, 2025.

[27] Latent-WAM Team. Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving. CAS & Changan Auto, 2026.

[29] LaST-VLA Team. LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving. 2026.

文章定位#

一、Driving Benchmark 上的 V-JEPA fine-tune 全景#

二、因果性重构：driving 特有的 mask 策略变体#

变体 A：Causal Future Mask（Drive-JEPA / 本文方案）#

变体 B：Motion-Aware Mask#

变体 C：Temporal-Coherent Mask#

三、训练时序窗口与分辨率：driving-specific 取舍#

四、Multi-Modal 融合边界：Ego 状态注入策略#

五、作者声音：driving-specific JEPA 的两个未解张力#

Mismatch 一：训练 random mask 与推理 causal forward 的根本不对齐#

Mismatch 二：每个变体都在打补丁，没人回到 V-JEPA 的核心假设#

六、开放问题与方向#

相关概念#

参考文献#

相关文章