Flow Matching 训练的广度、深度与物理 horizon:cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0,inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。 ...

2026年6月26日 · 29 分钟 · LexHsu

从 million 到 billion:VLA 训练 recipe 在量级跃迁上的工程层重构

VLA(vision-language-action)训练这一两年走到一个尴尬阶段:架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里,data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省,业界各家给出的答案差异显著,且大多是后置工程经验,缺少同条件下的横向 ablation。 ...

2026年6月13日 · 18 分钟 · LexHsu

X-Foresight:长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight(PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08)是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象,X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练,让同一张网络同时输出 chunk-wise 未来视频和 ego action,跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

2026年6月9日 · 20 分钟 · LexHsu

Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...

2026年5月28日 · 16 分钟 · LexHsu

VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。 ...

2026年5月28日 · 14 分钟 · LexHsu

HiF-VLA:把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA(项目页 / 代码),西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事:往前用 VLM 直接预测未来 motion vectors,往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%,比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

2026年5月27日 · 10 分钟 · LexHsu

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...

2026年5月26日 · 8 分钟 · LexHsu

Affordance vs Symbolic Perception in AD:二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。 ...

2026年5月24日 · 11 分钟 · LexHsu

Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...

2026年5月24日 · 16 分钟 · LexHsu

自动驾驶 VLA 的 3D 视觉表征:从能力边界到工程注入

引言:这篇为什么写 写在前面:本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D:视觉表征的本体论问题》 讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题;《4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视》 用信息瓶颈五条件审计了九种 4D encoder 方案;《X-World:小鹏可控自车视角多相机世界模型》 拆解了重型 latent video diffusion 的生成派世界模型路径;Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

2026年5月22日 · 36 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次