VLA 加几何 backbone 的负结果：GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队（Yang et al., arXiv:2605.24642）把 GR00T-N1.5（manipulation VLA）跟 VGGT（geometric foundation model）拼起来，做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果：standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著（p < 0.05）超过 GR00T baseline。

paper 的价值不在 “提出了什么新架构”，在 ablation 链产生的几条判断，跟 production AD VLA 的工程决策直接相关——包括 “ViT/LLM freeze 还是 open”、“linear probe 改进是否真的转化成 task 改进”、“mid-training 的必要性”、“几何注入的边际收益跟 vision pathway 已有的信息量负相关”。

paper 范围在 manipulation VLA（RoboCasa / LIBERO / Unitree G1），没碰 AD benchmark（NAVSIM / Bench2Drive 都没出现）。但下面 6 个工程问题对得上，可以直接迁移读。

读者预设：熟悉 OpenVLA / π₀ / GR00T 形态的 VLA stack，看过 3D 视觉表征注入 §四的 5 种几何注入分类。

一、三种几何注入架构

GR00T-N1.5 是 NVIDIA 的 manipulation VLA：13 层 LLM + vision encoder + state encoder + flow-matching action expert。VGGT 是一个 frozen feed-forward GFM，输入图像出相机姿态、depth map、dense pointmap。

三种注入架构本质都是 “如何把 VGGT 的 token 接进 GR00T”：

Early Fusion (EF)：在 LLM 输入端融合视觉 token 和 VGGT token。LLM 看到的是 “geometry-augmented” 的视觉 token。
Late Fusion (LF)：在 LLM 输出端融合，之后接 action expert。LLM 保持 “linguistic”，geometry 只在 action decoding 之前接进来。
Spatial Forcing (SF)：推理时不变。训练时在 LLM 第 9 层加一个 alignment loss（cosine similarity vs VGGT token），强迫内部表征跟 GFM 对齐。来自 Li et al. 2025。

EF / LF 共用的 cross-attention 融合公式：

Q = X W_Q,\quad K = G W_K,\quad V = G W_V

Y = \mathrm{softmax}(QK^\top / \sqrt{d}) V,\quad Z = Y W_O

\tilde X = X + A \odot Z \quad \text{(gated residual, gate 近零初始化)}

LoRA rank 8，加 2D/3D 位置编码，gate 近零起步——这是 paper 后面会反复强调的 load-bearing detail。

paper 没对比 joint-attention / concat-KV 这条 fusion（π₀ / DriveVLA-W0 / production AD VLA 的主流路线）。作者自己 flag 了这个 limitation：“we did not ablate … alternative fusion strategies not relying on cross-attention”。

二、几何 gap 与 linear probe

paper 第一步要量化 “VLA 知不知道 geometry”。NYU Depth V2 上做 linear probe（10 epochs，SILog loss）：

Probe	RMSE [m] ↓	δ₁ ↑
GR00T vision encoder	0.92	0.51
GR00T VLM	0.73	0.63
VGGT	0.41	0.89
Early Fusion (after fusion)	0.44	0.88
Late Fusion (after fusion)	0.45	0.87

GR00T 的 VLM 特征做 depth probe RMSE 0.73 m，VGGT 0.41 m——接近 2× gap。EF / LF 经过几何注入后 probe RMSE 接近 VGGT（0.44 / 0.45）。Surface normal probe 同样的结论（44.43° → 39.62° → 41.29°）。

probe 这一步说明 “几何信息确实进来了”——三种架构都在 NYU Depth 上把 geometric gap 关上了。

但——这是 paper 后面要敲打的点——probe 改进不等于 downstream task 改进。

三、主结果——一个负结果

RoboCasa 8 个 PnP 任务，600 个 evals，p-value vs GR00T-N1.5：

Method	Avg success	p-value
GR00T-N1.5（baseline）	71.7	—
Early Fusion	69.7	0.399
Late Fusion	71.0	0.806
Spatial Forcing	68.3	0.154
Early Fusion (mid-trained)	75.2	0.104

三种几何 VLA 在 standard finetune 下没有任何一个显著超过 baseline。EF mid-trained 把 average 推到 75.2%，p = 0.104 仍然不到 0.05。

LIBERO 同样没显著性：

Method	Spatial	Object	LIBERO-10	LIBERO-90	Avg	p (overall)
GR00T-N1.5	96.7	95.3	78.0	81.8	87.9	—
Early Fusion	94.0	94.0	76.0	82.2	86.6	0.138
Late Fusion	93.3	96.0	83.3	91.1	90.9	0.561
Spatial Forcing	95.3	96.0	84.7	90.0	91.5	0.295

数字看起来 SF / LF 在长 horizon 任务上赢，但 p-value 不到 0.05。作者标记 “random fluctuations”。

也就是说：在 in-distribution + multi-camera + 充分数据的标准 setup 下，三种几何注入架构对 task success 的贡献都达不到统计显著。

四、几个 ablation——什么时候几何注入起作用

ablation 链里有 4 个明确的条件作用——只在这些条件下才看到几何注入的显著收益。

4.1 Mid-training 必须做

EF（无 mid-training）69.7% vs EF（mid-training）75.2%——这是单点最大 swing，比三种架构之间的差距还大。

mid-training 是 paper 里最接近 “通用阶段 + 任务定向” 两段式的 setup：先在 RoboCasa 全部 8 个任务上训 10 epochs，再在单任务 finetune 50 epochs。跳过 mid-training 直接做单任务 finetune 给出了 paper 的负结果，mid-training 之后才出现 per-task 显著性（StoveToCtr 84.0 vs 65.3，p = 0.004）。

更重要：当 GR00T baseline 也 mid-train 做公平对比时，baseline 自身从 71.7 涨到 72.2，EF 从 75.2 vs 72.2 仍然只有 3 个点 — overall p = 0.168 还是不到 0.05。所以 mid-training 的收益对 baseline 跟几何 VLA 都有效，不是几何 VLA 独享的。

4.2 Single-camera 才显著

7-camera 多视角 setup 下 vision pathway 已经有足够 geometric info，加 VGGT 边际收益小。切到 single-camera：

Method	Avg	p-value
GR00T-N1.5	17.2	—
Early Fusion	21.5	0.030

per-task 也显著：CtrToStove +16（p=0.008）、StoveToCtr +9.3（p=0.039）。

这是整篇 paper 唯一在 overall-table 上 p < 0.05 的结果。当 vision pathway 信息不足时，几何注入的收益才显出来。

4.3 Real-robot Approach 阶段才显著

Unitree G1 real-robot 实验，90 trials，按操作阶段分解：

Method	Approach	Grasp	Lift	Placement	Overall
GR00T-N1.5	57.78	51.92	85.19	86.96	22.22
Early Fusion	84.44 (p<0.001)	60.53	89.13	65.85	27.78
Late Fusion	57.78	59.62	93.55	79.31	25.56

EF 在 Approach 阶段 +27 个绝对点（p < 0.001）——paper 里最强的 real-robot 信号。机制上跟 “几何帮你找到物体” 一致。但 Placement 阶段 EF 反而比 GR00T 差 21 个点（65.85 vs 86.96）—— 几何帮 perception，但 fine-grained control 反而被 cross-attention 拉走 capacity。Overall 22.22 → 27.78，p 没报。

也就是说 real-robot 上几何注入的收益是阶段性的：找物体阶段强 → 抓取/放置阶段持平或退化。

4.4 OOD appearance 才显著

改物体颜色 randomized 设定下：

Method	Avg
GR00T-N1.5 (mid-trained)	74.3
EF (mid-trained)	76.7

整体 p = 0.279 不显著，但 per-task：CabToCtr (48.0 vs 29.3, p=0.026) 跟 SinkToCtr (84.0 vs 60.0, p=0.004) 显著。OOD 时几何注入的鲁棒性体现得出来。

4.5 合起来看

几何注入的 payoff 跟 vision pathway 已有的信息量负相关。多视角 sim + appearance 一致 + 静止 grasp = vision pathway 充足，加 GFM 没用；single-camera + 真实物体 + 真实 approach = vision pathway 信息不足，加 GFM 显著。

五、Paper 真正在说什么——三条核心结论

抽离掉具体数字和 ablation 细节，paper 的结论分三层：

结论 1：几何信息在 VLA 内部确实是缺的，但这个 gap 跟 task success 没有强相关。

NYU Depth probe 上 GR00T VLM 跟 VGGT 差 2×（0.73 vs 0.41）—— 几何 gap 是真实的、可量化的。三种注入架构都能关上这个 gap（probe 从 0.73 → 0.44）。

但 closed-loop task 上，关上 probe gap 几乎没贡献给 success rate。rollout 时 VGGT depth 质量跟 task success 的 Spearman 相关只有 ρ = -0.202——更好的 depth 不一定更高的 success。所以"VLA 知不知道 depth"跟"VLA 完成任务好不好"是两个相对独立的维度——前者可以单独测、单独改进，但后者主要被其他因素决定。

结论 2：几何注入的边际收益跟 vision pathway 已有信息量负相关。

paper 里所有显著性都来自 vision pathway 信息不足的场景：

single-camera（p = 0.030 overall）
real-robot Approach 阶段（VLA 没在 sim 里见过的 OOD setup，p < 0.001）
appearance OOD（per-task 显著）

In-distribution + multi-camera + 充分数据 = 三种架构都不显著超过 baseline。几何注入不是 free upgrade——vision pathway 已经吃饱信息时，加 GFM 提供的几乎只是冗余。

结论 3：Mid-training 跟 finetune 是两件事，不要混在一起评。

paper 里所有显著性提升都跟 mid-training 阶段相关：

没 mid-training：三种架构跟 baseline 没差（p > 0.15）
有 mid-training：EF 75.2 vs GR00T baseline 71.7（p = 0.104，per-task 才显著）

更要紧的是——GR00T baseline 自己 mid-train 之后从 71.7 涨到 72.2，EF mid-train 之后 75.2，gap 从 3.5 个点回缩到 3 个点。也就是说 mid-training 收益对 baseline 跟几何 VLA 都有效，不是几何 VLA 独享。这把 “几何注入比 baseline 强” 的归因严重稀释——很大一部分原本算到几何架构头上的提升，其实是 mid-training 的功劳。

三条加起来：paper 不是说几何注入完全没用——它说"如果按主流方式拼 GFM + VLA，期待自动有显著 task 改进，会失望；显著收益的条件是 vision pathway 不够 + 充分 mid-training"。

六、对我们工作的具体启发与思考

把上面三条放回到 production AD VLA 的工程 setup（7 相机 + 4 帧 + ViT 全打开 AFT + ViT 冻 SFT + Joint Attention concat-KV），有几条直接可操作的反思。

6.1 几何注入这条线在我们 setup 下大概率收益不显

我们的 stack 已经是 7 路相机 + 4 帧历史 + AFT 阶段 ViT 全打开 + π₀ 系 Joint Attention 把 vision / language / action 三路 KV concat 在 28 层全对齐。按 paper 的"vision pathway 信息量负相关"规律——我们大概率是 RoboCasa multi-camera 那个状态：vision pathway 已经吃饱信息，再硬塞 GFM cross-attention / sparse volume 大概率 saturate。

具体怎么验证 / 怎么判断要不要做：

先做 single-camera ablation——把现有 multi-cam VLA 切到 single-cam 跑，看几何相关 task（lateral position estimation / dynamic agent localization）的 metric 跌多少。如果跌得不多，说明 multi-cam 已经把几何信息榨取得差不多，引入 GFM 收益空间小；如果显著跌，证明几何信号对 task 还有边际价值。
如果决定做，重点放在 OOD scenario——夜晚 / 雨天 / 极端光照 / 罕见路面纹理 / 异常车型。in-distribution 上的提升不要期待显著性。
投入 GFM injection 项目之前，把这条 paper 的结论作为 hypothesis：默认 multi-cam 上几何注入收益不显，需要 ablation 反证才推翻。

6.2 我们的 AFT/SFT 二段式结构对了，但要 audit AFT 的真实数据组成

paper 里 mid-training 是 “8 个 task 的 union”——broad 但相对窄的覆盖。在 AD 上 AFT 应该 cover 远更复杂的 distribution：城市 / 高速 / 停车场 / 各种天气 / 各种 illumination / 各种车型。

风险点：如果我们的 AFT 数据只是 “把 SFT 数据放大 N 倍”，没有真正的 distribution 拓宽，AFT 阶段就没起到 paper 里 mid-training 应该起的作用——只是换个比例的 SFT。这套 setup 下 splice 任何新模块（V-JEPA dense head / sparse volume / GFM）都会复现 paper 里的负结果，因为缺真正的"通用阶段"，几何 capacity 的提升没有 distribution 上的载体去发挥。

具体动作：

audit AFT 训练集的 scene-level distribution——按城市 / 高速 / 停车场 / 天气 / illumination 几个维度看分布是否真的拓宽
如果 AFT 跟 SFT 高度同分布，AFT 的"通用"意义需要重新设计——可能要拉别的 driving dataset 进来（或公开数据），扩 distribution 维度
反过来：如果 AFT 真的 cover 了通用场景，那 paper 的实验暗示 backbone 已经把几何信息内化得很彻底——这才是 SFT 阶段冻 ViT 还能 work 的根本原因

6.3 任何 “probe metric 改进” 的报告都先打折扣

paper 最 dramatic 的反例：probe RMSE 从 0.73 拉到 0.44（接近 VGGT），closed-loop task 反而低 2 个点。这是一个反复出现的 ML 陷阱——上游表征指标改进不直接转化成下游 task 改进。这是 4D Vision Encoder 里 IB 五条件没全打通的具体案例：某个 condition（depth 表征）通过了不代表整条 pipeline 在最终 task 上 work。

影响怎么评下一阶段实验：

BEV occupancy IOU 改善不算数，要看 NAVSIM PDMS / 闭环碰撞率 / 压线频率
Depth probe / segmentation probe 改善不算数，要看 trajectory metric
内部 feature alignment（V-JEPA-style cosine）改善不算数，要看下游 SFT 的 success rate

具体动作：

任何 paper claim “我加了 X 让 probe Y 改善了 Z”——直接当成 necessary 但 not sufficient 信号。commit 之前必须看 task 度量
我们自己内部做 dense supervision / GFM injection 实验时，默认报 probe 跟 task 两个 metric，不要只贴 probe；两个发散（probe 涨 task 不涨）说明上游改进跟下游 task 解耦
内部 KPI 设计时把 “probe-task correlation” 当作有效性的元指标——如果一个 probe 跟 task 始终 ρ < 0.5，停止用这个 probe 当评估标准

6.4 Capacity 互斥要主动监控

paper 里 real-robot Approach +27 但 Placement -21——cross-attention 拉走了 action expert 的 capacity，下游 fine-grained control 退化。这条直接影响我们的 dense supervision 计划。

splice V-JEPA dense head 进 backbone 的话，Action Expert 的轨迹生成能力是否会被拉走 capacity？paper 没回答这个问题（manipulation 设定不一样），但机制完全一致——多任务竞争固定 backbone capacity 时，新加的辅助 task 容易侵蚀原有 task。

具体动作：

加 dense head 时不只看上游 vision feature 质量，必须监控 trajectory metric——curvature / smoothness / comfort 这些 fine-grained 指标，看是否退化
出现 “上游表征改善 + 下游 trajectory 退化” 时，说明 capacity 被拉走，对应方案：扩 backbone（成本高）/ 调 loss weight（α schedule）/ Stage-3 freeze dense head 让 Action Expert 在固定 latent supervision 上微调
内部 dashboard 加 “上游/下游互斥指数”——同 step 上游 metric 跟下游 metric 的相对变化方向，正常应该正相关，出现负相关立刻 alarm

6.5 LLM 是否 unfreeze 取决于数据规模 vs 模型容量比例

paper 里最 dramatic 的 negative ablation：SF 在 LLM frozen 时 68.3%，LLM unfrozen 时 31.2%（p < 0.001 every task）。一打开 LLM 直接掉 37 个点。

这跟我们量产 VLA 的 8 个工程判断 §一的 “VLM 全打开训” 表面看似矛盾，实际 scope 不同：量产 setup 是 2500w 数据 + 通用场景（AFT 阶段），数据量足够支撑 LLM 全打开；paper 的 SF + LLM-ft 是单任务 finetune 600 个 eval 量级——数据量不够，一打开 LLM 就 catastrophic forgetting。

判别原则：LLM 是否 unfreeze 取决于数据规模 vs 模型容量比例。AFT 阶段全打开是因为有 distribution + 数据量两个支撑；SFT 冻 ViT 是因为单场景过拟合 risk 高。这条对应 SFT/AFT 三段式 §七 ViT freeze/unfreeze 决策的同源逻辑——paper 提供了"反向证据"：不该开的时候开会立刻塌。

6.6 Gate 近零起步默认开

任何接 perception branch 的工程动作——gate 近零起步。paper 的定量证据：不带 gate 5-27%、加 gate 64-89%——差几乎一个数量级。

具体动作：

splice JEPA dense head 时，cross-attention 路径默认带 gated residual + 近零初始化
splice sparse volume aggregation 时，BEV feature 跟 ViT feature 在 channel concat 之前过 gated layer
双 backbone 对接（如果要做 GFM 接入）时，第二 backbone 输出过 zero-init linear，trained backbone 不动
内部 model architecture review checklist 加一条：“新接入 perception branch 是否带 gate？"——没带的话 reject

6.7 别太相信最近 VLA paper 的正向结论

把这篇 paper 的负结果跟 3D-VLA / PointVLA / RVT-2 / ReconVLA 这条 “几何 / 视觉接地 helps VLA” 的 positive narrative 对比：那一波 paper 大概率含有 data-scale / training-recipe / benchmark-saturation 的 confound。Yang et al. 这种 controlled ablation 暴露的负结果，提示我们之前看到的 SOTA 数字里有相当一部分不是几何注入本身的功劳——很多算到架构创新头上的提升，可能其实来自 mid-training 阶段的 baseline 没拉齐。

具体动作：

读 VLA paper 时，把 “ablation on 同一个 baseline” 当 hard requirement——没做的话直接 discount，不当作 “这条路 work” 的证据
内部架构决策不直接引用那些 paper 的正向数字；优先看 controlled study
我们自己做 dense supervision / GFM injection 的实验如果要发 paper / 内部立项，必须把 paper 里 4 个条件（mid-training / single-cam / real-robot OOD / appearance OOD）当作 ablation 必跑维度——否则我们的正向结论也会成为 paper 池里的 confound

七、几个开放问题

如果要把这条思路移植到 AD VLA，几个先要回答的问题：

Joint-attention / concat-KV vs cross-attention 哪个 fusion 更好？ paper 没给，但 production AD 大都用 concat-KV（π₀ 系）。一个干净的 ablation 是把 EF/LF/SF 再加上 joint-attention 跑一遍——这是这条研究路线最该补的对照。
Vision pathway 信息量怎么衡量？ paper 用 single-camera vs multi-camera 当 proxy。AD 里更精细：视野覆盖、相机配置、是否有 BEV head、是否有 sparse volume——怎么算 “vision pathway 已经够用”。
几何注入的 capacity 代价。Real-robot Placement 退化（86.96 → 65.85）暗示 cross-attention 拉走 action expert 的 capacity。AD 里这是个紧约束——backbone × 1.5 已经是部署 budget，再加 GFM 路径需要重新算时延。
AD 上的 mid-training 应该 cover 什么？ paper 的 mid-training 是 “8 个任务的 union”。AD 里类比是 “通用驾驶场景 union”——但 AD 任务空间维度更高（城市 / 高速 / 停车场 / 不同天气），mid-training 数据组成本身就是个开放问题。
几何 probe 在 AD 上怎么定义？ NYU Depth probe 是 single-frame depth。AD 上更相关的 probe 可能是 ego-motion estimation / future occupancy / dynamic agent localization。probe 设计本身就是个 research question。
没 latency / FLOPs 数据。VGGT 加进去推理 cost 多少，paper 完全没提。对 AD reader 是 hard veto——不能上车的话讨论显著性意义不大。

参考

主要工作

Yang et al. Understanding the Impact of Geometric Foundation Models on Vision-Language-Action Models. arXiv:2605.24642, May 2026.

Backbone / 工具组件

GR00T-N1.5. NVIDIA Robotics. Manipulation VLA。
VGGT: Visual Geometry Grounded Transformer. Geometric foundation model。
Spatial Forcing 原 paper：Li et al. 2025（OpenVLA / π₀ 上的实现）。

相关 baseline

π₀ / π₀-FAST。Physical Intelligence。
DP3 / RS-CL / Video Policy。Manipulation 基线。

Linear probe / 评测

NYU Depth V2 dataset。
RoboCasa benchmark suite。
LIBERO benchmark suite。

一、三种几何注入架构#

二、几何 gap 与 linear probe#

三、主结果——一个负结果#

四、几个 ablation——什么时候几何注入起作用#

4.1 Mid-training 必须做#

4.2 Single-camera 才显著#

4.3 Real-robot Approach 阶段才显著#

4.4 OOD appearance 才显著#

4.5 合起来看#

五、Paper 真正在说什么——三条核心结论#

六、对我们工作的具体启发与思考#

6.1 几何注入这条线在我们 setup 下大概率收益不显#

6.2 我们的 AFT/SFT 二段式结构对了，但要 audit AFT 的真实数据组成#

6.3 任何 “probe metric 改进” 的报告都先打折扣#

6.4 Capacity 互斥要主动监控#

6.5 LLM 是否 unfreeze 取决于数据规模 vs 模型容量比例#

6.6 Gate 近零起步默认开#

6.7 别太相信最近 VLA paper 的正向结论#

七、几个开放问题#

参考#

相关文章

一、三种几何注入架构

二、几何 gap 与 linear probe

三、主结果——一个负结果

四、几个 ablation——什么时候几何注入起作用

4.1 Mid-training 必须做

4.2 Single-camera 才显著

4.3 Real-robot Approach 阶段才显著

4.4 OOD appearance 才显著

4.5 合起来看

五、Paper 真正在说什么——三条核心结论

六、对我们工作的具体启发与思考

6.1 几何注入这条线在我们 setup 下大概率收益不显

6.2 我们的 AFT/SFT 二段式结构对了，但要 audit AFT 的真实数据组成

6.3 任何 “probe metric 改进” 的报告都先打折扣

6.4 Capacity 互斥要主动监控

6.5 LLM 是否 unfreeze 取决于数据规模 vs 模型容量比例

6.6 Gate 近零起步默认开

6.7 别太相信最近 VLA paper 的正向结论

七、几个开放问题

参考