Co-Training

VLA（vision-language-action）训练这一两年走到一个尴尬阶段：架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里，data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省，业界各家给出的答案差异显著，且大多是后置工程经验，缺少同条件下的横向 ablation。 ...