NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。

paper 的价值不在 “提出了什么新架构”,在 ablation 链产生的几条判断,跟 production AD VLA 的工程决策直接相关——包括 “ViT/LLM freeze 还是 open”、“linear probe 改进是否真的转化成 task 改进”、“mid-training 的必要性”、“几何注入的边际收益跟 vision pathway 已有的信息量负相关”。

paper 范围在 manipulation VLA(RoboCasa / LIBERO / Unitree G1),没碰 AD benchmark(NAVSIM / Bench2Drive 都没出现)。但下面 6 个工程问题对得上,可以直接迁移读。

读者预设:熟悉 OpenVLA / π₀ / GR00T 形态的 VLA stack,看过 3D 视觉表征注入 §四的 5 种几何注入分类。


一、三种几何注入架构

GR00T-N1.5 是 NVIDIA 的 manipulation VLA:13 层 LLM + vision encoder + state encoder + flow-matching action expert。VGGT 是一个 frozen feed-forward GFM,输入图像出相机姿态、depth map、dense pointmap。

三种注入架构本质都是 “如何把 VGGT 的 token 接进 GR00T”:

  • Early Fusion (EF):在 LLM 输入端融合视觉 token 和 VGGT token。LLM 看到的是 “geometry-augmented” 的视觉 token。
  • Late Fusion (LF):在 LLM 输出端融合,之后接 action expert。LLM 保持 “linguistic”,geometry 只在 action decoding 之前接进来。
  • Spatial Forcing (SF):推理时不变。训练时在 LLM 第 9 层加一个 alignment loss(cosine similarity vs VGGT token),强迫内部表征跟 GFM 对齐。来自 Li et al. 2025。

EF / LF 共用的 cross-attention 融合公式:

Q=XWQ,K=GWK,V=GWV Q = X W_Q,\quad K = G W_K,\quad V = G W_V

Y=softmax(QK/d)V,Z=YWO Y = \mathrm{softmax}(QK^\top / \sqrt{d}) V,\quad Z = Y W_O

X~=X+AZ(gated residual, gate 近零初始化) \tilde X = X + A \odot Z \quad \text{(gated residual, gate 近零初始化)}

LoRA rank 8,加 2D/3D 位置编码,gate 近零起步——这是 paper 后面会反复强调的 load-bearing detail。

paper 对比 joint-attention / concat-KV 这条 fusion(π₀ / DriveVLA-W0 / production AD VLA 的主流路线)。作者自己 flag 了这个 limitation:“we did not ablate … alternative fusion strategies not relying on cross-attention”。


二、几何 gap 与 linear probe

paper 第一步要量化 “VLA 知不知道 geometry”。NYU Depth V2 上做 linear probe(10 epochs,SILog loss):

ProbeRMSE [m] ↓δ₁ ↑
GR00T vision encoder0.920.51
GR00T VLM0.730.63
VGGT0.410.89
Early Fusion (after fusion)0.440.88
Late Fusion (after fusion)0.450.87

GR00T 的 VLM 特征做 depth probe RMSE 0.73 m,VGGT 0.41 m——接近 2× gap。EF / LF 经过几何注入后 probe RMSE 接近 VGGT(0.44 / 0.45)。Surface normal probe 同样的结论(44.43° → 39.62° → 41.29°)。

probe 这一步说明 “几何信息确实进来了”——三种架构都在 NYU Depth 上把 geometric gap 关上了。

但——这是 paper 后面要敲打的点——probe 改进不等于 downstream task 改进


三、主结果——一个负结果

RoboCasa 8 个 PnP 任务,600 个 evals,p-value vs GR00T-N1.5:

MethodAvg successp-value
GR00T-N1.5(baseline)71.7
Early Fusion69.70.399
Late Fusion71.00.806
Spatial Forcing68.30.154
Early Fusion (mid-trained)75.20.104

三种几何 VLA 在 standard finetune 下没有任何一个显著超过 baseline。EF mid-trained 把 average 推到 75.2%,p = 0.104 仍然不到 0.05。

LIBERO 同样没显著性:

MethodSpatialObjectLIBERO-10LIBERO-90Avgp (overall)
GR00T-N1.596.795.378.081.887.9
Early Fusion94.094.076.082.286.60.138
Late Fusion93.396.083.391.190.90.561
Spatial Forcing95.396.084.790.091.50.295

数字看起来 SF / LF 在长 horizon 任务上赢,但 p-value 不到 0.05。作者标记 “random fluctuations”。

也就是说:在 in-distribution + multi-camera + 充分数据 的标准 setup 下,三种几何注入架构对 task success 的贡献都达不到统计显著


四、几个 ablation——什么时候几何注入起作用

ablation 链里有 4 个明确的条件作用——只在这些条件下才看到几何注入的显著收益。

4.1 Mid-training 必须做

EF(无 mid-training)69.7% vs EF(mid-training)75.2%——这是单点最大 swing,比三种架构之间的差距还大。

mid-training 是 paper 里最接近 “通用阶段 + 任务定向” 两段式的 setup:先在 RoboCasa 全部 8 个任务上训 10 epochs,再在单任务 finetune 50 epochs。跳过 mid-training 直接做单任务 finetune 给出了 paper 的负结果,mid-training 之后才出现 per-task 显著性(StoveToCtr 84.0 vs 65.3,p = 0.004)。

更重要:当 GR00T baseline 也 mid-train 做公平对比时,baseline 自身从 71.7 涨到 72.2,EF 从 75.2 vs 72.2 仍然只有 3 个点 — overall p = 0.168 还是不到 0.05。所以 mid-training 的收益对 baseline 跟几何 VLA 都有效,不是几何 VLA 独享的。

4.2 Single-camera 才显著

7-camera 多视角 setup 下 vision pathway 已经有足够 geometric info,加 VGGT 边际收益小。切到 single-camera:

MethodAvgp-value
GR00T-N1.517.2
Early Fusion21.50.030

per-task 也显著:CtrToStove +16(p=0.008)、StoveToCtr +9.3(p=0.039)。

这是整篇 paper 唯一在 overall-table 上 p < 0.05 的结果。当 vision pathway 信息不足时,几何注入的收益才显出来

4.3 Real-robot Approach 阶段才显著

Unitree G1 real-robot 实验,90 trials,按操作阶段分解:

MethodApproachGraspLiftPlacementOverall
GR00T-N1.557.7851.9285.1986.9622.22
Early Fusion84.44 (p<0.001)60.5389.1365.8527.78
Late Fusion57.7859.6293.5579.3125.56

EF 在 Approach 阶段 +27 个绝对点(p < 0.001)——paper 里最强的 real-robot 信号。机制上跟 “几何帮你找到物体” 一致。但 Placement 阶段 EF 反而比 GR00T 差 21 个点(65.85 vs 86.96)—— 几何帮 perception,但 fine-grained control 反而被 cross-attention 拉走 capacity。Overall 22.22 → 27.78,p 没报。

也就是说 real-robot 上几何注入的收益是阶段性的:找物体阶段强 → 抓取/放置阶段持平或退化。

4.4 OOD appearance 才显著

改物体颜色 randomized 设定下:

MethodAvg
GR00T-N1.5 (mid-trained)74.3
EF (mid-trained)76.7

整体 p = 0.279 不显著,但 per-task:CabToCtr (48.0 vs 29.3, p=0.026) 跟 SinkToCtr (84.0 vs 60.0, p=0.004) 显著。OOD 时几何注入的鲁棒性体现得出来

4.5 合起来看

几何注入的 payoff 跟 vision pathway 已有的信息量负相关。多视角 sim + appearance 一致 + 静止 grasp = vision pathway 充足,加 GFM 没用;single-camera + 真实物体 + 真实 approach = vision pathway 信息不足,加 GFM 显著。


五、Paper 真正在说什么——三条核心结论

抽离掉具体数字和 ablation 细节,paper 的结论分三层:

结论 1:几何信息在 VLA 内部确实是缺的,但这个 gap 跟 task success 没有强相关。

NYU Depth probe 上 GR00T VLM 跟 VGGT 差 2×(0.73 vs 0.41)—— 几何 gap 是真实的、可量化的。三种注入架构都能关上这个 gap(probe 从 0.73 → 0.44)。

但 closed-loop task 上,关上 probe gap 几乎没贡献给 success rate。rollout 时 VGGT depth 质量跟 task success 的 Spearman 相关只有 ρ = -0.202——更好的 depth 不一定更高的 success。所以"VLA 知不知道 depth"跟"VLA 完成任务好不好"是两个相对独立的维度——前者可以单独测、单独改进,但后者主要被其他因素决定。

结论 2:几何注入的边际收益跟 vision pathway 已有信息量负相关。

paper 里所有显著性都来自 vision pathway 信息不足的场景:

  • single-camera(p = 0.030 overall)
  • real-robot Approach 阶段(VLA 没在 sim 里见过的 OOD setup,p < 0.001)
  • appearance OOD(per-task 显著)

In-distribution + multi-camera + 充分数据 = 三种架构都不显著超过 baseline。几何注入不是 free upgrade——vision pathway 已经吃饱信息时,加 GFM 提供的几乎只是冗余。

结论 3:Mid-training 跟 finetune 是两件事,不要混在一起评。

paper 里所有显著性提升都跟 mid-training 阶段相关:

  • 没 mid-training:三种架构跟 baseline 没差(p > 0.15)
  • 有 mid-training:EF 75.2 vs GR00T baseline 71.7(p = 0.104,per-task 才显著)

更要紧的是——GR00T baseline 自己 mid-train 之后从 71.7 涨到 72.2,EF mid-train 之后 75.2,gap 从 3.5 个点回缩到 3 个点。也就是说 mid-training 收益对 baseline 跟几何 VLA 都有效,不是几何 VLA 独享。这把 “几何注入比 baseline 强” 的归因严重稀释——很大一部分原本算到几何架构头上的提升,其实是 mid-training 的功劳。


三条加起来:paper 不是说几何注入完全没用——它说"如果按主流方式拼 GFM + VLA,期待自动有显著 task 改进,会失望;显著收益的条件是 vision pathway 不够 + 充分 mid-training"。


六、对我们工作的具体启发与思考

把上面三条放回到 production AD VLA 的工程 setup(7 相机 + 4 帧 + ViT 全打开 AFT + ViT 冻 SFT + Joint Attention concat-KV),有几条直接可操作的反思。

6.1 几何注入这条线在我们 setup 下大概率收益不显

我们的 stack 已经是 7 路相机 + 4 帧历史 + AFT 阶段 ViT 全打开 + π₀ 系 Joint Attention 把 vision / language / action 三路 KV concat 在 28 层全对齐。按 paper 的"vision pathway 信息量负相关"规律——我们大概率是 RoboCasa multi-camera 那个状态:vision pathway 已经吃饱信息,再硬塞 GFM cross-attention / sparse volume 大概率 saturate。

具体怎么验证 / 怎么判断要不要做

  • 先做 single-camera ablation——把现有 multi-cam VLA 切到 single-cam 跑,看几何相关 task(lateral position estimation / dynamic agent localization)的 metric 跌多少。如果跌得不多,说明 multi-cam 已经把几何信息榨取得差不多,引入 GFM 收益空间小;如果显著跌,证明几何信号对 task 还有边际价值。
  • 如果决定做,重点放在 OOD scenario——夜晚 / 雨天 / 极端光照 / 罕见路面纹理 / 异常车型。in-distribution 上的提升不要期待显著性。
  • 投入 GFM injection 项目之前,把这条 paper 的结论作为 hypothesis:默认 multi-cam 上几何注入收益不显,需要 ablation 反证才推翻。

6.2 我们的 AFT/SFT 二段式结构对了,但要 audit AFT 的真实数据组成

paper 里 mid-training 是 “8 个 task 的 union”——broad 但相对窄的覆盖。在 AD 上 AFT 应该 cover 远更复杂的 distribution:城市 / 高速 / 停车场 / 各种天气 / 各种 illumination / 各种车型。

风险点:如果我们的 AFT 数据只是 “把 SFT 数据放大 N 倍”,没有真正的 distribution 拓宽,AFT 阶段就没起到 paper 里 mid-training 应该起的作用——只是换个比例的 SFT。这套 setup 下 splice 任何新模块(V-JEPA dense head / sparse volume / GFM)都会复现 paper 里的负结果,因为缺真正的"通用阶段",几何 capacity 的提升没有 distribution 上的载体去发挥。

具体动作

  • audit AFT 训练集的 scene-level distribution——按城市 / 高速 / 停车场 / 天气 / illumination 几个维度看分布是否真的拓宽
  • 如果 AFT 跟 SFT 高度同分布,AFT 的"通用"意义需要重新设计——可能要拉别的 driving dataset 进来(或公开数据),扩 distribution 维度
  • 反过来:如果 AFT 真的 cover 了通用场景,那 paper 的实验暗示 backbone 已经把几何信息内化得很彻底——这才是 SFT 阶段冻 ViT 还能 work 的根本原因

6.3 任何 “probe metric 改进” 的报告都先打折扣

paper 最 dramatic 的反例:probe RMSE 从 0.73 拉到 0.44(接近 VGGT),closed-loop task 反而低 2 个点。这是一个反复出现的 ML 陷阱——上游表征指标改进不直接转化成下游 task 改进。这是 4D Vision Encoder 里 IB 五条件没全打通的具体案例:某个 condition(depth 表征)通过了不代表整条 pipeline 在最终 task 上 work。

影响怎么评下一阶段实验:

  • BEV occupancy IOU 改善不算数,要看 NAVSIM PDMS / 闭环碰撞率 / 压线频率
  • Depth probe / segmentation probe 改善不算数,要看 trajectory metric
  • 内部 feature alignment(V-JEPA-style cosine)改善不算数,要看下游 SFT 的 success rate

具体动作

  • 任何 paper claim “我加了 X 让 probe Y 改善了 Z”——直接当成 necessary 但 not sufficient 信号。commit 之前必须看 task 度量
  • 我们自己内部做 dense supervision / GFM injection 实验时,默认报 probe 跟 task 两个 metric,不要只贴 probe;两个发散(probe 涨 task 不涨)说明上游改进跟下游 task 解耦
  • 内部 KPI 设计时把 “probe-task correlation” 当作有效性的元指标——如果一个 probe 跟 task 始终 ρ < 0.5,停止用这个 probe 当评估标准

6.4 Capacity 互斥要主动监控

paper 里 real-robot Approach +27 但 Placement -21——cross-attention 拉走了 action expert 的 capacity,下游 fine-grained control 退化。这条直接影响我们的 dense supervision 计划

splice V-JEPA dense head 进 backbone 的话,Action Expert 的轨迹生成能力是否会被拉走 capacity?paper 没回答这个问题(manipulation 设定不一样),但机制完全一致——多任务竞争固定 backbone capacity 时,新加的辅助 task 容易侵蚀原有 task。

具体动作

  • 加 dense head 时不只看上游 vision feature 质量,必须监控 trajectory metric——curvature / smoothness / comfort 这些 fine-grained 指标,看是否退化
  • 出现 “上游表征改善 + 下游 trajectory 退化” 时,说明 capacity 被拉走,对应方案:扩 backbone(成本高)/ 调 loss weight(α schedule)/ Stage-3 freeze dense head 让 Action Expert 在固定 latent supervision 上微调
  • 内部 dashboard 加 “上游/下游互斥指数”——同 step 上游 metric 跟下游 metric 的相对变化方向,正常应该正相关,出现负相关立刻 alarm

6.5 LLM 是否 unfreeze 取决于数据规模 vs 模型容量比例

paper 里最 dramatic 的 negative ablation:SF 在 LLM frozen 时 68.3%,LLM unfrozen 时 31.2%(p < 0.001 every task)。一打开 LLM 直接掉 37 个点。

这跟我们 量产 VLA 的 8 个工程判断 §一的 “VLM 全打开训” 表面看似矛盾,实际 scope 不同:量产 setup 是 2500w 数据 + 通用场景(AFT 阶段),数据量足够支撑 LLM 全打开;paper 的 SF + LLM-ft 是单任务 finetune 600 个 eval 量级——数据量不够,一打开 LLM 就 catastrophic forgetting。

判别原则:LLM 是否 unfreeze 取决于数据规模 vs 模型容量比例。AFT 阶段全打开是因为有 distribution + 数据量两个支撑;SFT 冻 ViT 是因为单场景过拟合 risk 高。这条对应 SFT/AFT 三段式 §七 ViT freeze/unfreeze 决策的同源逻辑——paper 提供了"反向证据":不该开的时候开会立刻塌。

6.6 Gate 近零起步默认开

任何接 perception branch 的工程动作——gate 近零起步。paper 的定量证据:不带 gate 5-27%、加 gate 64-89%——差几乎一个数量级。

具体动作

  • splice JEPA dense head 时,cross-attention 路径默认带 gated residual + 近零初始化
  • splice sparse volume aggregation 时,BEV feature 跟 ViT feature 在 channel concat 之前过 gated layer
  • 双 backbone 对接(如果要做 GFM 接入)时,第二 backbone 输出过 zero-init linear,trained backbone 不动
  • 内部 model architecture review checklist 加一条:“新接入 perception branch 是否带 gate?"——没带的话 reject

6.7 别太相信最近 VLA paper 的正向结论

把这篇 paper 的负结果跟 3D-VLA / PointVLA / RVT-2 / ReconVLA 这条 “几何 / 视觉接地 helps VLA” 的 positive narrative 对比:那一波 paper 大概率含有 data-scale / training-recipe / benchmark-saturation 的 confound。Yang et al. 这种 controlled ablation 暴露的负结果,提示我们之前看到的 SOTA 数字里有相当一部分不是几何注入本身的功劳——很多算到架构创新头上的提升,可能其实来自 mid-training 阶段的 baseline 没拉齐。

具体动作

  • 读 VLA paper 时,把 “ablation on 同一个 baseline” 当 hard requirement——没做的话直接 discount,不当作 “这条路 work” 的证据
  • 内部架构决策不直接引用那些 paper 的正向数字;优先看 controlled study
  • 我们自己做 dense supervision / GFM injection 的实验如果要发 paper / 内部立项,必须把 paper 里 4 个条件(mid-training / single-cam / real-robot OOD / appearance OOD)当作 ablation 必跑维度——否则我们的正向结论也会成为 paper 池里的 confound

七、几个开放问题

如果要把这条思路移植到 AD VLA,几个先要回答的问题:

  • Joint-attention / concat-KV vs cross-attention 哪个 fusion 更好? paper 没给,但 production AD 大都用 concat-KV(π₀ 系)。一个干净的 ablation 是把 EF/LF/SF 再加上 joint-attention 跑一遍——这是这条研究路线最该补的对照。
  • Vision pathway 信息量怎么衡量? paper 用 single-camera vs multi-camera 当 proxy。AD 里更精细:视野覆盖、相机配置、是否有 BEV head、是否有 sparse volume——怎么算 “vision pathway 已经够用”。
  • 几何注入的 capacity 代价。Real-robot Placement 退化(86.96 → 65.85)暗示 cross-attention 拉走 action expert 的 capacity。AD 里这是个紧约束——backbone × 1.5 已经是部署 budget,再加 GFM 路径需要重新算时延。
  • AD 上的 mid-training 应该 cover 什么? paper 的 mid-training 是 “8 个任务的 union”。AD 里类比是 “通用驾驶场景 union”——但 AD 任务空间维度更高(城市 / 高速 / 停车场 / 不同天气),mid-training 数据组成本身就是个开放问题。
  • 几何 probe 在 AD 上怎么定义? NYU Depth probe 是 single-frame depth。AD 上更相关的 probe 可能是 ego-motion estimation / future occupancy / dynamic agent localization。probe 设计本身就是个 research question。
  • 没 latency / FLOPs 数据。VGGT 加进去推理 cost 多少,paper 完全没提。对 AD reader 是 hard veto——不能上车的话讨论显著性意义不大。

参考

主要工作

  • Yang et al. Understanding the Impact of Geometric Foundation Models on Vision-Language-Action Models. arXiv:2605.24642, May 2026.

Backbone / 工具组件

  • GR00T-N1.5. NVIDIA Robotics. Manipulation VLA。
  • VGGT: Visual Geometry Grounded Transformer. Geometric foundation model。
  • Spatial Forcing 原 paper:Li et al. 2025(OpenVLA / π₀ 上的实现)。

相关 baseline

  • π₀ / π₀-FAST。Physical Intelligence。
  • DP3 / RS-CL / Video Policy。Manipulation 基线。

Linear probe / 评测

  • NYU Depth V2 dataset。
  • RoboCasa benchmark suite。
  • LIBERO benchmark suite。