VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。 ...

2026年5月28日 · 14 分钟 · LexHsu
访客 704 人次 · 访问 1065 次