Welcome to Xu’Blog

Hello, I’m LexHsu. Pain is inevitable, but suffering is optional. I’ll be documenting my learning journey on this blog with immense patience, starting in 2025.

从 million 到 billion：VLA 训练 recipe 在量级跃迁上的工程层重构

VLA（vision-language-action）训练这一两年走到一个尴尬阶段：架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里，data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省，业界各家给出的答案差异显著，且大多是后置工程经验，缺少同条件下的横向 ablation。 ...

X-Foresight：长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight（PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08）是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象，X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练，让同一张网络同时输出 chunk-wise 未来视频和 ego action，跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

训练大模型的工程学：从 Chinchilla 到 2026

DeepMind 2022 年的 Chinchilla 论文 (arXiv:2203.15556)，把"训练一个大模型"这件事从匠人工艺变成了可计算的约束优化问题。它给出的结论简洁到可以一句话讲完——给定计算预算 CC，模型参数量 NN 和训练 token 数 DD 应该等比例放大，每翻倍 compute 同时把 NN 和 DD 各翻一倍。但 2022 之后的四年里，行业全面偏离了这个 prescription。Llama 1 7B 用 1T tokens 训练时已经是 Chinchilla optimal 的 7 倍超训，Llama 3 8B 干到 15T tokens 是 90 倍超训。DeepSeek-V3 用 14.8T tokens 训 671B 总参/37B 激活的 MoE，又把 FP8 + MLA + aux-loss-free balancing 一锅端进生产栈。每一步偏离都建立在 Chinchilla 给出的数学框架之上，又都没有遵守它的字面结论。 ...

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

VLA 加几何 backbone 的负结果：GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队（Yang et al., arXiv:2605.24642）把 GR00T-N1.5（manipulation VLA）跟 VGGT（geometric foundation model）拼起来，做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果：standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著（p < 0.05）超过 GR00T baseline。 ...

深入理解 KL 散度：四个视角

熵与信息论 §4 给了 KL 散度的定义跟几条性质，但容易在 ∑plog⁡(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL，每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用，每一个都能直接挂到其中一个视角的语言下。 ...

HiF-VLA：把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA（项目页 / 代码），西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事：往前用 VLM 直接预测未来 motion vectors，往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%，比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...

熵与信息论：从 -log p 到深度学习

信息论里最反直觉的事情，是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式，却几乎是被三条无害的要求强制出来的。本文从这一点起步，走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方：分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...

Affordance vs Symbolic Perception in AD：二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分：一边 “label-free / pure E2E / affordance”——人开车不靠语言思考，模型也不应该有 caption 或 detection head，photons 直接到 trajectory；另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注，必须保 V-L 对齐能力。Wayve / Tesla 一档，Mobileye 一档，蔚小理在中间。 ...