Dense Latent Predictive Supervision in AD VLA：为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone？打开任一篇 NAVSIM 93 PDMS 一档的 paper：监督信号是未来 12-16 个 $(x, y)$ waypoints，一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert（典型 500M），总可学习参数 2.5B 量级。

把这两个数字摆一起：

1
2
3
Supervision (per sample):    ~32 scalars
Backbone params trained:     ~2.5B
Information ratio:           ~10⁻¹⁰

让 2.5B 参数从 32 个标量的 L2 / Huber loss 里学出"看懂场景 + 选对决策 + 走对轨迹"，capacity 跟监督信号信息量之间隔三个数量级以上。这就是 DriveVLA-W0 论文里 supervision deficit 的算术形态——也是 NAVSIM PDMS 在 87-93 区间 saturate 的核心原因。

DriveVLA-W0 给的答案是 pixel-level future image prediction：所有相机视角的下一秒图像被 flatten 成监督目标。这条路 work 过——他们的 NAVSIM v1 PDMS 从单纯 sparse traj loss 的 88-89 一档拉到 93.0。但 pixel 不是最优。V-JEPA 风格的 latent predictive supervision 在 capacity / 推理 cost / 评测同构性这三条上都更好，且实证已有 Drive-JEPA（NAVSIM v1 93.3）做支撑。

读者预设：通读过 V-JEPA 2.1 paper 精读、Driving JEPA 综述、3D 视觉表征注入这一线。

一、Sparse trajectory loss 为什么不够

把上面的 ratio 算清楚之后，三个角度展开。

Trajectory 监督是 single-scalar 监督的最差形态。 12 个 waypoint × 2D 是一个 $\mathbb{R}^{24}$ 向量。Loss 函数把这 24 维拍成一个 scalar（L2 / Huber / 加权 jerk loss）。单个 batch step 里 backbone 拿到的有效梯度信号上界由 loss scalar 的有效熵决定——而 24 维高斯靠拢的目标函数，梯度方向几乎完全压在 endpoint error 上。中段轨迹的几何细节、car-follow 的 smoothness、curvature 的几何约束都被打散到这一个 scalar 里。这跟生成式规划与非凸性 §2 里 “MSE 对模式取平均” 的论证一致。

可学习参数 vs 监督信号的不对称是结构性问题，加数据解不了。 增加数据规模只是放大 batch step 数量，每步的有效信号量没变。DriveLaW 的视频预训练消融（视频帧从 0 扩到 7.6M 拉到 89.1 PDMS）看似单调提升，但要看到那 7.6M 帧的视频信号是被预训练阶段的 video objective 消化过的——再扩到 70M 帧（DriveVLA-W0 的 in-house 规模），PDMS 只能再涨 3-4 分。sparse trajectory loss 这条 bottleneck 在 NAVSIM saturate 区间（~93 PDMS）已经触顶，再往上要么换监督信号、要么换评测指标。

加 dense supervision 不等于必须 pixel-level。 DriveVLA-W0 选 pixel 是默认选项，不是验证过的最优选项。pixel-level future prediction 同时做三件事：(a) 给 backbone 加 dense 信号；(b) 让 backbone 学到 pixel-space 视觉先验；(c) 训练 cost / 推理 cost 显著上升。其中 (a) 是真正起作用的部分，(b) 大部分冗余（驾驶决策不需要 model 远处天空纹理），(c) 是负担。问题变成：能不能只保留 (a)、丢掉 (b)(c)？

实证强度需要诚实标注。DriveVLA-W0 Table 4 是 query / FM / AR 三种 action decoder 形态在不同数据规模下的 ablation，不是 supervision 维度的 ablation。“加 dense supervision 带来多少 PDMS 提升"严格量化要看论文里有 / 无 dense head 的对照实验，公开数据不足。把论点降到 “supervision deficit 是合理 motivation 且 production VLA 都在朝这方向走” 这种表述是更诚实的水位。

二、Pixel 路线不是最优

推理 cost 大。 机器人世界模型 §4.2 已经把"视觉分支在控制期间保留多少活跃度"列为核心轴：Fast-WAM 视频分支推理时裁掉、只在训练时保留；GigaWorld-Policy 视觉分支推理可选；UVA 用轻量解头绕开显式视频生成；BagelVLA 用单步去噪。Latent-WAM 在 AD 侧做得更极端——104M 总参数，推理时 DLWM 完全裁掉，NAVSIM v2 拿到 89.3。共同结论：视频/像素分支在推理时几乎都是被裁掉的，它在训练时是辅助监督信号，不是 inference-time 的预测组件。

DriveVLA-W0 的 Diffusion 路线接受了这个结论（推理时 bypass 掉 diffusion 分支）。但 AR-VQ 路线就没办法 bypass：VQ token 跟 LLM 的 vocab 耦合在一起，推理时不能选择性关掉。pixel-level 路线的第一个工程负担：推理时是否真能 bypass 取决于具体实现，不是路线天然带来的属性。

Capacity 浪费。 X-World §6.1 一句话说清：“JEPA latent prediction 的优势是不浪费 capacity 去 model pixel-level texture”。pixel-level future prediction 强迫 backbone 在每一层都维持能恢复像素的表征——远处天空的渐变、近处路面的纹理、车体反光、阴影梯度——这些都是 backbone 必须 model 的。但驾驶决策几乎不依赖这些信号——同一段轨迹放在不同光照、不同颜色的车上、不同纹理的路面上，决策应当一致。

V-JEPA 2.1 论文 §4.1 的 dense feature 论证在这里直接对应：JEPA 的核心假设是预测应当在潜在空间中进行，而非像素空间。这套逻辑用到 driving VLA：sparse trajectory loss 不够 dense，但 dense 不必走到 pixel——latent space 上的 dense predictive loss 同样 dense，且不浪费 capacity 去 model 纹理。

评测同构问题。 机器人世界模型 §3 里有一段：“一段视觉上流畅的操作视频，可能恰好在接触时刻夹爪没夹住物体，或者碰撞响应完全偏离真实物理。视觉上合理但动作不一致的未来，对闭环决策几乎没有任何价值”。FID / FVD / PSNR / LPIPS 这一套像素保真度指标，跟 closed-loop control 能力是两个正交维度。DriveVLA-W0 的 pixel 监督 work 是因为 dense supervision 本身有效，不是因为 pixel 保真度跟 PDMS 单调相关。

训练 cost 高。 Diffusion 分支在训练时要做 latent video VAE encode + DiT 多步去噪 + decode。每个 batch step 比纯 sparse traj loss 慢 5-10 倍，GPU memory 也大几倍。70M 帧规模训练这部分 cost 就是几百卡日。改成 latent predictive supervision，同样的 dense 信号，训练 cost 可以低一个数量级。

合起来看，pixel-level future prediction 的真正价值在于 (a) 加了 dense 信号，但这一点跟 latent predictive supervision 等同；(b) demo 可视化好做——工程便利；(c) 工业惯性大——历史路径。三条都跟 supervision 本身的技术 best 无关。

三、Latent prediction 为什么更好

V-JEPA 2.1 dense predictive loss。 V-JEPA 2.1 paper 精读已经把数学 work out 过，这里只复述结论。完整的 dense loss 是

\mathcal{L}_{\text{dense}} = \mathcal{L}_{\text{predict}} + \mathcal{L}_{\text{ctx}}

$\mathcal{L}_{\text{predict}}$ 是标准 V-JEPA masked prediction loss，对 mask 集合 $M$ 内的 token 做 EMA target encoder vs student predictor 的 L1 距离：

\mathcal{L}_{\text{predict}} = \frac{1}{|M|} \sum_{i \in M} \| z_i - \hat z_i \|_1

$\mathcal{L}_{\text{ctx}}$ 把同样的 EMA target encoder 监督扩展到 context（可见）token，用基于到 mask 边界距离的衰减权重：

\lambda_i = \frac{\lambda}{\sqrt{d_{\min}(i, M)}}, \qquad \mathcal{L}_{\text{ctx}} = \frac{1}{|C|} \sum_{i \in C} \lambda_i \| z_i - \hat z_i \|_1

V-JEPA 2.1 配合 deep self-supervision（从 4 个等间距中间层抽取 target、跟 predictor 4 个对应层做监督）一起把 ADE20K mIoU 从 22.2 拉到 38.6、SSv2 acc 从 72.8 拉回 72.1，dense feature 从 collapse 状态恢复到 spatially coherent 状态。

Driving 上已经被独立验证 viable。 Driving JEPA 综述列了三个变体——causal future mask、motion-aware mask、temporal-coherent mask——和 Drive-JEPA 在 NAVSIM v1 上拿到的 93.3 PDMS。这个数字跟 DriveVLA-W0（NAVSIM v1 93.0）几乎打平。latent prediction 路线在同一个 NAVSIM saturate 区间已经被独立验证过 viable，不需要再讨论理论可行性。

Drive-JEPA 的实现细节（双分支训练、causal future mask、 $\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{jepa}} + 0.5 \mathcal{L}_{\text{full\_future\_jepa}} + 1.0 \mathcal{L}_{\text{traj}}$ ）可以直接借鉴。但 Drive-JEPA 是 replace backbone 路线（用 V-JEPA 2.1 ViT-G/16 替换原 backbone）。下面讨论的具体场景：把 V-JEPA 风格 dense head 挂在主流 production AD VLA 形态——Qwen3-VL 这一族 V-L backbone + Action Expert（sequence-dim concat KV，layer-by-layer 对齐）——上，不替换 backbone。这套形态最初是 π₀ 在机器人 VLA 上提出的 Action Expert + Joint Attention 模式，DriveVLA-W0 把它用到 AD。在这种 backbone 形态上挂 dense head 是一个新的接入形式，下面 §四展开。

Capacity / 推理 cost / 评测同构都友好。 Latent target encoder 的输出（vision tower 的 EMA copy）天然不含 pixel-level 纹理——是一个学到的 semantic + spatial 表征。让 student backbone 去预测这种 latent，supervision 信号集中在"决策相关的 spatial structure 和 semantic content"上。背景纹理、光照变化、相机噪声 backbone capacity 不需要去 model。推理时 dense head 完全裁掉，zero-cost。

四、怎么挂到 Qwen3-VL backbone + Action Expert 上

定义术语：把 V-JEPA 2.1 那一套（context encoder、target encoder (EMA)、predictor、 $\mathcal{L}_{\text{dense}}$ ）整体打包叫 “dense head”。要回答的工程问题有几个。

4.1 接入位置。 三种候选：

位置 A：vision tower 输出 / 视觉 token 之上。Dense head 在 Qwen3-VL vision tower 输出（patch-level token）上做 mask + predict。target encoder 的输入也是 vision tower 输出（EMA copy），student predictor 学到的 latent 在 vision token 空间里。优点：直接复用 V-JEPA 2.1 训练 recipe，dense head 跟 LLM block / Action Expert 解耦，调试归因清晰。缺点：监督信号止于 vision token，没有传到 LLM block 的更深层。
位置 B：backbone 中间层（某个 hidden layer）。直接对 LLM block 第 $k$ 层 hidden state 做 EMA self-distillation + future prediction。优点：监督穿透到 LLM 中间层。缺点：中间层 token sequence 是混合的（vision + language + action），mask + predict 的语义复杂；同 layer 多任务可能冲突。
位置 C：Action Expert 入口 / 共享 KV 处。直接监督 Action Expert 看到的 vision/language KV concat 之后的表征。优点：监督最贴近决策位置。缺点：已经过 LLM block 处理，跟原本 sparse trajectory loss 在位置上几乎重合，“dense” 的优势变弱。

默认选 位置 A——跟 V-JEPA 2.1 训练 recipe 兼容性最高，跟 backbone / Action Expert 的耦合面最小，也是 Drive-JEPA 路线集中验证过的位置。位置 B / C 后续再讨论；如果要让监督信号进入 LLM block，可以用 deep self-supervision 的 multi-layer 形式（同时从 vision tower 输出和 LLM 第 $k_1, k_2, k_3, k_4$ 层抽 target），这是 V-JEPA 2.1 自己的 deep supervision 在 VLA 上的自然 generalization。

4.2 EMA target encoder 怎么共享。 V-JEPA 2.1 用一个独立的 target encoder（与 student 同结构、参数 EMA）。在 VLA 这边最自然的做法是：vision tower 自己 EMA self-distillation——给 Qwen3-VL vision tower 维护一份 EMA copy 作 target encoder。不开第二个 backbone（成本太大），也不引入外部 teacher（V-JEPA 2.1 / DINOv3 / VGGT 当 teacher 会引入分布 shift）。

如果 vision tower 跟 LLM block 都开放 fine-tune，EMA momentum 必须仔细调（典型 0.996-0.9999）。Momentum 太低让 target encoder 跟 student 几乎同步、监督信号退化为 trivial；太高让 target 跟 student 分布 shift 过大、跟不上 backbone fine-tune 节奏。这是 §六要 flag 的风险之一。

4.3 Mask 策略。 Driving JEPA 综述 §二已经讨论过三种变体（causal future mask、motion-aware mask、temporal-coherent mask）。挂在 AD VLA 上，mask 策略跟训练数据的时序结构直接相关：

训练样本如果是单 timestep 多视角图像（不是显式多帧视频 clip），要用 causal future mask 需要先把数据从 single-frame 改成 short clip（典型 4 帧历史 + 8 帧未来，跟 Drive-JEPA 一致）。这是数据 pipeline 改造，不是 model side 改造。
退而求其次：random multi-block mask（V-JEPA 2.1 原始 setup）做 spatial-only dense supervision。EMA target encoder + distance-weighted ctx loss 仍在，失去 future prediction 的因果性。NAVSIM 上看，纯 spatial dense supervision 比 sparse traj loss 强、比 causal future mask 弱（Drive-JEPA frozen probe ~78 PDMS vs full causal pipeline 93.3）。
长期方向是 causal future mask + motion-aware weighting 组合。Driving JEPA §五指出这两种 mask 信号相当部分重叠，组合起来边际收益递减。

4.4 Loss balance： $\mathcal{L}_{\text{traj}} + \alpha \cdot \mathcal{L}_{\text{dense}}$ 。 Drive-JEPA 用的权重是 $\mathcal{L}_{\text{jepa}} + 0.5 \mathcal{L}_{\text{full\_future\_jepa}} + 1.0 \mathcal{L}_{\text{traj}}$ 。V-JEPA 2.1 的 ctx loss 系数 $\lambda = 0.5$ 配 warmup（前 15K iter 纯 V-JEPA 2 模式、然后线性升到 0.5）。借鉴这两组数字，初始 schedule：

$\alpha$ 初始为 0，前 5-10K 迭代纯走 sparse trajectory loss，让 backbone 先把 trajectory output 稳住
第 10K-25K 迭代 $\alpha$ 从 0 线性升到 0.5
之后保持 $\alpha = 0.5$

V-JEPA 2.1 ablation 里 $\lambda > 0.5$ 反过来损害全局语义性能。这条规律在 VLA 上是否同样成立不能直接套用——VLA 的"全局语义"对应 LLM 的 caption / VQA 能力，dense head 加得过重可能让 LLM 那条线退化（如果模型同时承担 caption / planning / 对话训练，输出范围比纯 trajectory 更宽）。 $\alpha$ 调优要做实验定，安全起点是 0.3-0.5 区间。

4.5 训练 stage。 跟常见两 / 三阶段 SFT 模板兼容：

Stage-1（dense head warmup）：vision tower 开放训练、Action Expert frozen、dense head 加入。让 dense head 在 vision tower 上训一段时间 dense feature 监督，target encoder EMA 起步。Action Expert 不动、trajectory loss 不算（或按 1e-2 小权重保持训练流不断）。长度 5-10K 迭代。
Stage-2（joint train）：vision tower + LLM block + Action Expert + dense head 全开放，loss 是 $\mathcal{L}_{\text{traj}} + \alpha \mathcal{L}_{\text{dense}}$ ， $\alpha$ warmup 到 0.5。主训练阶段。
Stage-3（policy fine-tune）：dense head 冻结作 regularizer——target encoder 停止 EMA 更新（权重 freeze），student predictor 跟 vision tower / LLM 还在训，但 dense supervision 信号是固定的目标。Action Expert 做最后的 trajectory output 微调。NAVSIM-in-the-loop reward refinement（DriveWorld-VLA Stage-3 那种）也可以接在这里。

每一阶段都可以表达成一个 SFT yaml，只是 freeze 哪些模块、loss weight 怎么调不同。不需要重写 training loop。

4.6 推理时默认丢弃。 Dense head 在推理路径上是 zero-cost——target encoder、predictor、EMA buffer 全部不进 inference graph。这是 latent prediction 路线相对 pixel 路线的核心优势之一。

保留 dense head 的两种特殊场景：(a) Stage-3 之后做 future feature 注入（用 predictor 输出的 future latent 作为 cross-attn key 喂给 Action Expert），predictor 要保留进 inference；(b) DriveWorld-VLA 那种 Stage-3 用 predicted future 跟 GT future 做 reward shaping，predictor 也要保留。这两种情况 dense head 角色从"训练 regularizer"变成"inference-time future predictor”，跟 Latent-WAM “DLWM 推理时裁掉” 路线对偶。默认走前者（裁掉），后者作可选扩展。

五、跟 3D 注入文几条路线的咬合

把 dense head 放进 3D 注入文的 design space 里。

跟 MoE Joint Attention 的关系。 在 vision + language + action 三路 KV concat 全对齐的 backbone 上加 dense head，不改 Joint Attention 拓扑、不改 Action Expert 的 decoder 形态（query / FM / AR 三选一仍然成立），只在 vision tower 输出端加一道 latent predictive 监督。两件事完全解耦。

跟 Sparse Volume / 几何注入路线的关系。 Sparse volume（S4-Driver 一线）改变的是 vision tower 输入侧的几何 token 形态——是 input-side 几何 prior 注入。Dense JEPA head 改变的是 vision tower 输出侧的 supervision 形态。两者作用在不同环节，正交可叠加：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
sparse volume vision tower (input-side)
    ↓
ViT (vision encoder)
    ↓
JEPA dense head (output-side supervision)
    ↓
LLM block (Joint Attention)
    ↓
π₀-style Action Expert (FM / AR / query)
    ↓
trajectory output

Sparse volume 解 input-side 几何注入，JEPA dense head 解 output-side supervision deficit，π₀-style Action Expert 解 latent action representation——三者各管一段。

跟 Action 端 5 篇的关系。 3D 注入文 §七.5 列出的 5 篇（DriveLaW / DriveVLA-W0 / GigaWorld-Policy / Uni-World VLA / Latent-WAM）都已经在做 dense supervision，但具体形态各异：DriveLaW 是 Video DiT 隐特征 cross-attn condition、DriveVLA-W0 是 pixel-level future image prediction、Uni-World 是 frame token first-class output、Latent-WAM 是 DINOv2 + WorldMirror 几何蒸馏。V-JEPA 风格 dense JEPA head 是这条 axis 上的另一个候选项，理论上更高效但实证上还差 NAVSIM 上的直接对比。

四个 axis 如下：

Axis	候选项
Vision tower 几何注入（input-side）	cross-attn / token concat / replace / sparse volume / distill
Vision tower supervision（output-side）	sparse only / pixel-level dense / latent-level dense
LLM block ↔ Action Expert 耦合	串联 DiT / MoE Joint Attention / causal interleave / latent space 同构
Action decoder 形态	query / flow matching / AR

四个 axis 的乘积才是 production AD VLA 的真实 design space。这篇集中讨论第二个 axis（output-side supervision），其他三个 axis 跟这条选择正交。

六、风险 + 待验证

Latent space 退化风险。 DINOv3 有一段统一论证：自监督 dense feature 在长训练下普遍会退化——全局项找到更高效的解决方案，用少量维度编码全局信息、释放其余维度给噪声，dense feature 的 spatial coherence 慢慢丢失。V-JEPA 2.1 的 ctx loss + deep supervision 是一种解，DINOv3 的 Gram anchoring（用 200K 迭代的 checkpoint 当 teacher 做 Gram matrix 对齐）是另一种解。

AD VLA 长训练（50-100 epoch on 70M+ frames）下，dense head 的 target encoder（vision tower EMA）是否会发生类似退化？没有直接证据。保守做法是借鉴 Gram anchoring 思路——把某个早期 checkpoint 的 vision tower 冻结作额外 anchor teacher，跟 EMA target encoder 一起做 dual teacher distillation。工程保险，不是必须。

EMA target encoder 跟开放训练 LLM block 的兼容性。 如果 vision tower 跟 LLM 都开放 fine-tune，EMA target encoder 跟 student vision tower 同结构，但参数 EMA 更新慢于 student fine-tune。Student fine-tune 的速率被 LLM block 的梯度信号 dominate，可能让 vision tower 在每个 batch step 内的参数更新方向与 EMA 维护的 target 之间不一致——target encoder 跟不上。

后果：dense head 的 supervision 信号在 fine-tune 后期可能慢慢失效。缓解：EMA momentum 设小一点（0.99 而非 0.999）让 target 跟得上，或在 vision tower fine-tune 速率过快时主动降低 student vision tower 的 learning rate。调参问题，不是结构问题。

Small data regime 下 dense head 是否帮助。 DriveVLA-W0 Table 4 显示：小数据（NAVSIM ~103k frames）下 query > FM > AR；大数据（70M frames）下 AR > FM > query。decoder 形态的最优选择跟数据规模有关。

合理猜测：dense head 在 small data 下应该 更有帮助——sparse trajectory loss 在 small data 下信号尤其稀薄、backbone capacity 浪费更严重，dense head 提供的额外稠密信号正好补这一块。需要在 NAVSIM 100K 规模上做 ablation 验证。

Production 推理是否真能丢 dense head。 §四.6 默认推理时丢 dense head。但走 future feature 注入路线（用 predictor 输出的 future latent 作为 Action Expert 的 cross-attn key），predictor 进入 inference 关键路径——这时跟 pixel-level 路线的工程负担差距缩小。DA3-style 中间预测（Depth Anything 3 的 depth-ray 中间预测被证明在 driving 上很有用）是另一种迫使 dense head 进入 forward 路径的设计。这是个设计选择，不是 dense head 路线本身的限制。默认（推理时 drop）跟 Latent-WAM “DLWM 推理时裁掉” 对齐，更保守、更 production-friendly。

EMA target encoder 的初始化。 Target encoder 初始化用什么权重？三个候选：(a) 跟 student vision tower 同初始化（即 Qwen3-VL 自带的 vision tower 权重）；(b) 用 V-JEPA 2.1 / DINOv3 / VGGT 的预训练权重；(c) 用早期 SFT checkpoint。

(a) 最简单但可能学不到 dense feature——Qwen3-VL vision tower 是 V-L 对齐训出来的、不是 dense feature 优化的。(b) 用外部 SSL 预训练 backbone 当 target，分布跟 student 不一致，target encoder 跟 student 之间会有恒定 gap。(c) 是从已经在 driving 域跑过的 checkpoint 出发，分布最接近 student、初始 target signal 最弱。三个候选的实际效果没有现成答案，需要 ablation。

七、跟姊妹文的关系

加 dense latent supervision 是 supervision 维度的设计，跟 representation 路线维度正交。姊妹文 Affordance vs Symbolic Perception 拆 representation 维度的假二分；这篇在 supervision 维度给补缺方案。两者合 3D 注入文是系列三篇。

参考

核心参考论文

DriveVLA-W0: A Vision-Language-Action Model with World Knowledge for Autonomous Driving. arXiv:2510.12796
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning. arXiv:2603.14482
Drive-JEPA: Self-Supervised Pretraining for End-to-End Autonomous Driving. HuggingFace LinhanWang/Drive-JEPA.
DINOv3: Versatile Vision Foundation Models. arXiv:2508.10104
π₀: A vision-language-action flow model for general robot control. arXiv:2410.24164.
π₀.₅: A vision-language-action model with open-world generalization. arXiv:2504.16054.
Qwen3-VL Technical Report.

直接相关 NAVSIM 工作

DriveLaW (NAVSIM v1 89.1)
DriveWorld-VLA (NAVSIM v1 91.3 / v2 86.8)
LaST-VLA (NAVSIM v1 91.3 / v2 87.1)
Latent-WAM (NAVSIM v2 89.3)
Uni-World VLA (NAVSIM v1 89.4)
DiffusionDrive (NAVSIM v1 88.1)
Hydra-MDP (NAVSIM v1 91.3)
ReflectDrive-2 (discrete diffusion + RL, NAVSIM v1 91.0)

一、Sparse trajectory loss 为什么不够#

二、Pixel 路线不是最优#

三、Latent prediction 为什么更好#

四、怎么挂到 Qwen3-VL backbone + Action Expert 上#

五、跟 3D 注入文几条路线的咬合#

六、风险 + 待验证#

七、跟姊妹文的关系#

参考#

相关文章