Grounding

OpenVLA 一线 VLA 把 vision token + text token + action token 全部 concat 给 LLM，用 next-token cross-entropy 监督，推理时 LLM 直接吐离散化 action token。这套 pipeline 训出来的 attention map 有一个反复出现的问题：散。VLA 看场景跟看哪个具体物体之间没区分，attention 几乎均匀铺在整个 frame 上。 ...