文章定位

本文是 V-JEPA 系列方法在自动驾驶场景的应用综述,V-JEPA 2.1 paper 精读 视角区分——后者讲方法本身的数学(context loss、距离加权、deep self-supervision、multi-modal tokenizer)和训练细节(VisionMix-163M、两阶段训练、cool-down 配置),本文聚焦 driving benchmark 的 fine-tune 结果与变体设计:nuScenes / Waymo / NAVSIM 上的迁移成绩、driving-specific 的 mask 策略(motion-aware mask、temporal-coherent mask、causal future mask),以及 Driving-JEPA / Drive-JEPA 等专版的对比。

读者假设:已通读 V-JEPA 2.1 paper 精读,熟悉 Lpredict+Lctx\mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}} 的 dense loss 形式、ViT-G/16 主干结构、以及 EMA target encoder 的训练机制。下文不再重复"V-JEPA 是什么"的基础介绍。


一、Driving Benchmark 上的 V-JEPA fine-tune 全景

V-JEPA 2.1 在通用视频指标(Kinetics、Ego4D、SSv2)之外,driving 社区关心的是三个核心 benchmark:nuScenes(多相机 BEV 感知 + 预测)、Waymo Open Motion Dataset(轨迹预测)、NAVSIM(开环 + 闭环度量混合的规划评测)。下表汇总当前已公开的 V-JEPA→driving 迁移结果(以 PDMS / mAP / minFDE 为主要指标,标注 backbone 与 freeze/finetune 状态)。

模型BackboneMask 策略Fine-tune 范围nuScenes mAP / NDSNAVSIM v1 PDMSNAVSIM v2 PDMS
V-JEPA 2.1 (frozen probe)ViT-G/16random multi-blocklinear probe on traj head~78 [3]
Drive-JEPA [3]ViT-G/16causal future mask + randomencoder + predictor + traj head93.3
Driving-JEPA (本文方案)ViT-G/16causal future + dual-branchfull pipelineSOTA 级别(与 Drive-JEPA 接近)
Latent-WAM [27](V-JEPA 风格 distill)104M customlatent predictionend-to-end89.3
LaST-VLA [29](V-JEPA + VGGT 双流)InternVL3 basespatio-temporal latentVLA91.387.1

观察三点:(1) frozen probe 与 full fine-tune 之间存在 15+ PDMS 的 gap——纯视觉自监督表征还不足以直接做驾驶决策,必须有针对性的 mask 改造与 traj 监督;(2) Drive-JEPA 系列的 93.3 PDMS 与同期顶尖 e2e 方案(DiffusionDrive、GoalFlow)接近,证明 latent prediction 路线在 NAVSIM 上是 viable 的;(3) NAVSIM v2 的得分显著低于 v1(V-JEPA 路线在 v1 上 SOTA,在 v2 上仍落后于 DriveLaW 的 89.1),暗示闭环 reactive metric 下纯 latent 路线的局限。


二、因果性重构:driving 特有的 mask 策略变体

V-JEPA 2.1 预训练采用的 random multi-block masking 策略,在通用视频上是合理的——观看 YouTube 视频时注意力可以在时间线上自由跳转。但驾驶部署时自车只能获取历史观测,未来图像在物理上不可访问。训练-推理之间的 distribution shift 是 V-JEPA→driving 迁移的第一道关。围绕这一 mismatch,已经出现了三种代表性变体。

变体 A:Causal Future Mask(Drive-JEPA / 本文方案)

最直接的因果化改造是把 mask 边界对齐到时间轴:历史帧永远可见,未来帧完全被 mask。Drive-JEPA [3] 与本文讨论的方案都属于这一类。具体实现采用双分支训练结构:

第一分支——随机 JEPA 分支——最接近官方训练逻辑:8 帧未来图像经过随机 multi-block mask(两组 mask group,一小一大),student encoder 编码可见 token(历史 + 部分 future),predictor 预测被 mask 的 future latent,与 target encoder(EMA,编码完整 clip)的目标计算 JEPA loss Ljepa\mathcal{L}_{\text{jepa}}。这条分支的作用是维持模型与 V-JEPA 2.1 预训练分布的接近度,防止 fine-tune 过程彻底摧毁学到的通用表征。

第二分支——full future mask 分支——直接对齐部署场景:student encoder 只能看到 4 帧历史图像,predictor 必须预测全部 8 帧的未来 latent。在这条路径上同时计算 full future JEPA loss Lfull_future_jepa\mathcal{L}_{\text{full\_future\_jepa}} 和轨迹监督 loss Ltraj\mathcal{L}_{\text{traj}}。Action head 接收四路输入——历史视觉 latent、predictor 生成的未来 latent、自车状态(速度、加速度等)和历史轨迹——通过 trajectory query + cross-attention 融合后输出未来 8 个轨迹点 (x,y,θ)(x, y, \theta)

推理阶段完全复用第二分支的结构:只输入历史帧 + ego 状态,encoder → predictor (预测 full future) → action head → 轨迹。整个流程不访问任何真实未来信息。

总损失为三者的加权组合:

Ltotal=Ljepa+0.5Lfull_future_jepa+1.0Ltraj \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{jepa}} + 0.5 \cdot \mathcal{L}_{\text{full\_future\_jepa}} + 1.0 \cdot \mathcal{L}_{\text{traj}}

Drive-JEPA 在 NAVSIM v1 上取得的 93.3 PDMS 证明了这一变体的可行性。代价是训练复杂度上升——两个分支共享 encoder 和 predictor,但产生的梯度方向可能冲突(详见 §四)。

变体 B:Motion-Aware Mask

Causal future mask 是粗粒度的——它只区分"过去/未来",不区分"运动剧烈/静止"的区域。但驾驶场景中信息密度高度不均:自车前方扇区、其它车辆、行人是高信息密度区,天空、远处建筑物是低信息密度区。Motion-aware mask 的想法是基于光流或时序差分计算每个 token 的运动幅度,对高运动区域施加更激进的 mask。

形式上,定义 token ii 的运动评分 mi=flowi2m_i = \| \text{flow}_i \|_2,mask 概率:

pmask(i)=p0+αmimˉσm p_{\text{mask}}(i) = p_0 + \alpha \cdot \frac{m_i - \bar{m}}{\sigma_m}

其中 p0p_0 是基础 mask 率(典型 0.75),α\alpha 是 motion bias 系数。这种 mask 强迫模型在动态物体处投入更多预测压力,对 YpredictionY_{\text{prediction}} 分量(他车轨迹)有直接帮助。但在 nuScenes 上的初步实验显示,motion-aware mask 与 causal future mask 同时使用时存在边际收益递减——两者的信号在很大程度上重叠(未来帧本身就是"高运动信号"集中地)。

变体 C:Temporal-Coherent Mask

Temporal-coherent mask 走的是相反方向:它把 mask 范式从空间块改成时间轨迹——从某个 frame tt 开始,连续 mask TspanT_{\text{span}} 帧的同一空间位置,迫使 predictor 学到"物体的时序连续性"而非"单帧补全"。这与 V-JEPA 2.1 的 multi-block masking 在概念上对偶:一个 mask 时空连续块(block),一个 mask 时间连续轨迹(streak)。

Temporal-coherent mask 在 Waymo Motion benchmark 上对 minFDE 有约 4-6% 的改善,但在 NAVSIM PDMS 上没有显著优势——前者更看重轨迹外推精度,后者更看重短期规划质量。这一指标分裂本身就是一个信号:driving 任务的 YY 分量内部存在结构性差异,单一 mask 策略难以同时优化所有分量。


三、训练时序窗口与分辨率:driving-specific 取舍

V-JEPA 2.1 的 cooldown 阶段使用 64 帧 @ 4fps 的视频片段,相当于约 16 秒的时序上下文。典型端到端模型如 UniAD [4] 通常使用 3 秒(~30 帧 @ 10fps)的历史窗口。Drive-JEPA 类方案的 4 帧对应约 1 秒的历史,对于高速场景下捕获充分的运动趋势偏短。这是计算资源约束下的权衡,但意味着模型主要依赖瞬时运动信息而非长期趋势进行预测。

分辨率的 RoPE 偏移。 V-JEPA 2.1 预训练使用正方形分辨率(256×256 主训练 / 384×384 cooldown),其 3D RoPE 的频率基于 quasi-isotropic 的网格假设设计。Driving 输入通常采用 256×512(水平方向是垂直方向的 2 倍),意味着 RoPE 的频率插值在一个严重各向异性的网格上进行。虽然数学上可行(论文 Appendix A 提供了任意分辨率的插值公式),但 2:1 的长宽比引入了预训练时未曾见过的位置编码模式——这对 partial RoPE 与低秩压缩的兼容性 等下游设计是一个隐含的约束源。


四、Multi-Modal 融合边界:Ego 状态注入策略

驾驶系统天然是多模态的:视觉相机提供环境感知,IMU/里程计提供自车运动状态,高精地图提供先验道路结构。一个直觉的做法是将 ego 状态(速度、加速度、航向角等)直接拼接到 encoder 的 patch embedding 输入中。

但这恰恰是需要避免的。V-JEPA 2.1 的 encoder 经过 135K + 12K 迭代的纯视觉预训练,其权重编码了一个特定的输入-表征映射关系。将非视觉信号注入 encoder 输入端等同于改变了这个映射的定义域——encoder 不再接收"纯粹的视觉 patch",而是"视觉+数值混合 token"。

Drive-JEPA 系列方案选择把 ego 状态限制在 Action Head 范围内,不进入 visual encoder。Action Head 设计为四路融合模块:

output=MLP(Transformerquery(Q;Zhist,Z^fut,sego,Thist)) \text{output} = \text{MLP}\left(\text{Transformer}_{\text{query}}(Q; Z_{\text{hist}}, \hat{Z}_{\text{fut}}, s_{\text{ego}}, T_{\text{hist}})\right)

其中 QQ 为可学习的 trajectory queries,ZhistZ_{\text{hist}} 为 student encoder 输出的历史视觉 latent,Z^fut\hat{Z}_{\text{fut}} 为 predictor 输出的预测未来 latent,segos_{\text{ego}} 为经 MLP 编码的自车状态向量,ThistT_{\text{hist}} 为经 MLP 编码的历史轨迹序列。这一设计与 NWM [2] 的 MPC 规划头形成对比:NWM 在 latent space 中采样多条候选轨迹,再用排序模型选择最优解;Drive-JEPA 通过 query transformer 直接端到端输出单条确定性轨迹,计算效率更高且更适合实时部署。


五、作者声音:driving-specific JEPA 的两个未解张力

Mismatch 一:训练 random mask 与推理 causal forward 的根本不对齐

读完上面三种变体的对比,会发现一个被各家方案隐而不谈的结构性问题:V-JEPA 2.1 的预训练在 random mask 假设下进行,而 driving 的部署严格遵守 causal forward——两者在 setup 维度上根本就不同,工程上做的"对齐"只是后置补丁。

具体说,V-JEPA 预训练时的 mask 是随机的——student encoder 可能看到 t5,t12,t18t_5, t_{12}, t_{18} 三帧的混合(甚至跨过未来),predictor 要补 t7,t15,t20t_7, t_{15}, t_{20};这种 setup 学到的表征里,时间方向是对称的——“用 t12t_{12} 预测 t7t_7“和"用 t5t_5 预测 t12t_{12}“在 loss 里被等同对待。但 driving 推理时,时间方向是绝对单向的,且未来分布的支撑集随着推理时间动态收缩(看到 t1t_1 时未来很发散,看到 t3t_3 时未来已经被极大约束)。

Drive-JEPA 的双分支训练(random + causal future)是工程上的折中——保留一条 random 分支防止表征崩溃,加一条 causal 分支对齐部署。但这两条分支共享 encoder 和 predictor,梯度方向上是否真的兼容?没有 ablation 论证 random branch 在 fine-tune 后期是否还在贡献正梯度,也没有论证 causal-only 训练(去掉 random branch)会比双分支差多少。NAVSIM v1 上 93.3 的 PDMS 看起来很高,但 v2 上整个 V-JEPA 路线的下滑(与 v1 SOTA 拉开 6+ 分),暗示因果化没有彻底解决问题——random pretrain 留下的 prior 在闭环 reactive 场景下被反噬。

如果要从根上解决,可能需要在 V-JEPA 2.x 的下一代预训练阶段就引入 causal mask 选项(哪怕只占 10-20% 的训练时间),让表征空间本身对时间方向有 inductive bias。当前所有 Driving-JEPA 方案都在 fine-tune 阶段做这件事,效率上是低的。

Mismatch 二:每个变体都在打补丁,没人回到 V-JEPA 的核心假设

Motion-aware mask、temporal-coherent mask、causal future mask——三个变体都是在 V-JEPA 2.1 之上加一个 domain-specific tweak。但没有任何一个变体回到 V-JEPA 的核心假设上去问:self-supervised dense feature 真的是 driving 的最优表征 prior 吗?

V-JEPA 的 dense feature 假设是"每个空间位置都应该编码可预测的语义”。这在通用视频理解上有道理——你看一段烹饪视频,每个像素都可能与下一秒的动作相关。但 driving 任务的信息密度是高度不均的:远处的天空、对侧车道的高速对向车辆、自车正前方 30 米的减速车——这三类 token 对决策的影响差了三个数量级。强迫所有 token 都"可预测”,实际上是在浪费表征容量。

一个未被验证的反向假设是:driving 可能更适合 sparse feature + task-aware token selection 的组合,而非 dense feature。具体地,先用一个轻量的 spatial-attention 模块决定哪些 token 需要"高保真表征”,再只对这些 token 施加 V-JEPA 风格的预测压力。这与 4D vision encoder 中 AR1 Flex 用的 scene query 蒸馏思路相通——后者已经证明 token 数量从 ~5600 压缩到 ~280 没有显著的下游性能损失。但所有 Driving-JEPA 方案都没有质疑"dense"这个前提,而是在 dense 框架内加补丁。

这并非否定 V-JEPA 的价值,而是指出当前 driving 适配的路径依赖:所有变体都把 V-JEPA 2.1 视为不可动的 backbone,只在 mask 与 head 层做改造。一个真正"为 driving 设计"的 JEPA 方案,可能需要从预训练 objective 与 token 表示结构上重新出发,而非把通用视频模型当作既定 prior。


六、开放问题与方向

分辨率适配的系统性方案。 256×512 输入与 256×256 预训练之间的 RoPE 偏移需要一个正式的解决方案。可选路径包括:(a) 在 fine-tune 前插入一个位置编码适应步骤;(b) 将 cooldown 阶段的 384×384 作为基础分辨率再做 resize;(c) 采用 2D 可学习位置编码替代 3D RoPE 以消除时维的耦合。

时序上下文扩展。 4 帧历史的局限性需要通过长视频 JEPA 来克服。V-JEPA 2.1 的 cooldown 已证明 64 帧的有效性(SSv2 从 76.1% 提升至 77.7%),但如何在保持 causal constraint 的前提下扩展驾驶模型的时窗,尚无现成答案。一种可能的思路是在主训练阶段使用较短的因果窗口(如 16 帧),在 cooldown 阶段逐步扩展至更长窗口。

闭环评测的下一步。 Drive-JEPA 在 NAVSIM v1 上的 93.3 PDMS 是 open-loop 指标,NAVSIM v2 上下滑到 89 级别,与 DriveLaW 的 89.1 接近——这暗示 latent prediction 路线在 reactive 闭环场景下没有结构优势,需要在 CARLA / nuPlan 等真正闭环环境中重新评估。

与 VLA 路线的关系。 Alpamayo (Cosmos-Reason VLM) [10] 代表语言中介的驾驶路线(Vision-Language-Action),Driving-JEPA 代表纯视觉隐空间路线。两者是否可结合——language 提供"去哪里"的语义意图,JEPA 提供"怎么去"的轨迹执行——是一个值得探索的架构问题。

相关概念

  • 方法本身的数学与训练 — V-JEPA 2.1 的 context loss、deep self-supervision、multi-modal tokenizer 的完整推导与消融,详见 V-JEPA 2.1 paper 精读
  • 4D Encoder 信息瓶颈视角 — Driving-JEPA 在 (I(X;T),I(T;Y))(I(X;T), I(T;Y)) 框架下与 Tri-plane / MEM / Flex 等方案的对位,详见 4D Vision Encoder for Autonomous Driving
  • VLA 路线对比 — JEPA 纯视觉隐空间 vs VLA 语言中介的具身路径分析,详见 Nvidia VLA

参考文献

本文部分 reference 的 arXiv ID 为 2026 年预占位编号,待论文正式公开后将更新链接。

[2] Bar, A., Mur-Labadia, L., Muckley, M., et al. Navigation World Models. CVPR 2025.

[3] Wang, L., et al. Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation. arXiv:2601.22032, 2026.

[4] Hu, Y., et al. Planning-oriented Autonomous Driving (UniAD). CVPR 2023 Best Paper.

[10] Nvidia. Cosmos-Reason: Vision-Language-Action Models for Autonomous Driving (Alpamayo). Technical Report, 2025.

[27] Latent-WAM Team. Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving. CAS & Changan Auto, 2026.

[29] LaST-VLA Team. LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving. 2026.