从 million 到 billion:VLA 训练 recipe 在量级跃迁上的工程层重构
VLA(vision-language-action)训练这一两年走到一个尴尬阶段:架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里,data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省,业界各家给出的答案差异显著,且大多是后置工程经验,缺少同条件下的横向 ablation。 ...
X-Foresight:长时 chunk-wise AR 把世界模型嵌进 VLA 主干
X-Foresight(PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08)是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象,X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练,让同一张网络同时输出 chunk-wise 未来视频和 ego action,跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...
训练大模型的工程学:从 Chinchilla 到 2026
DeepMind 2022 年的 Chinchilla 论文 (arXiv:2203.15556),把"训练一个大模型"这件事从匠人工艺变成了可计算的约束优化问题。它给出的结论简洁到可以一句话讲完——给定计算预算 CC,模型参数量 NN 和训练 token 数 DD 应该等比例放大,每翻倍 compute 同时把 NN 和 DD 各翻一倍。 但 2022 之后的四年里,行业全面偏离了这个 prescription。Llama 1 7B 用 1T tokens 训练时已经是 Chinchilla optimal 的 7 倍超训,Llama 3 8B 干到 15T tokens 是 90 倍超训。DeepSeek-V3 用 14.8T tokens 训 671B 总参/37B 激活的 MoE,又把 FP8 + MLA + aux-loss-free balancing 一锅端进生产栈。每一步偏离都建立在 Chinchilla 给出的数学框架之上,又都没有遵守它的字面结论。 ...
Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本
Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...
VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照
NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。 ...
深入理解 KL 散度:四个视角
熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...
HiF-VLA:把 codec 副产品当成 VLA 的时间记忆
CVPR 2026 的 HiF-VLA(项目页 / 代码),西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事:往前用 VLM 直接预测未来 motion vectors,往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%,比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...
量产 VLA 的 8 个工程判断 + 4 个反例
量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...
熵与信息论:从 -log p 到深度学习
信息论里最反直觉的事情,是它的核心度量 −logp-\log p 看起来完全像个随手挑的形式,却几乎是被三条无害的要求强制出来的。本文从这一点起步,走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方:分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...
Affordance vs Symbolic Perception in AD:二分 framing 错在哪
讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。 ...