Flow Matching 训练的广度、深度与物理 horizon:cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0,inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。 ...

2026年6月26日 · 29 分钟 · LexHsu

从 million 到 billion:VLA 训练 recipe 在量级跃迁上的工程层重构

VLA(vision-language-action)训练这一两年走到一个尴尬阶段:架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里,data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省,业界各家给出的答案差异显著,且大多是后置工程经验,缺少同条件下的横向 ablation。 ...

2026年6月13日 · 18 分钟 · LexHsu

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...

2026年5月26日 · 8 分钟 · LexHsu

Affordance vs Symbolic Perception in AD:二分 framing 错在哪

讨论 AD VLA 的时候经常听到一种二分:一边 “label-free / pure E2E / affordance”——人开车不靠语言思考,模型也不应该有 caption 或 detection head,photons 直接到 trajectory;另一边 “label-based / V-L backbone / symbolic”——驾驶离不开法规、标识、V2X、long-tail 标注,必须保 V-L 对齐能力。Wayve / Tesla 一档,Mobileye 一档,蔚小理在中间。 ...

2026年5月24日 · 11 分钟 · LexHsu

Dense Latent Predictive Supervision in AD VLA:为什么 pixel 不是最优

当前一线 AD VLA 用什么监督 backbone?打开任一篇 NAVSIM 93 PDMS 一档的 paper:监督信号是未来 12-16 个 (x,y)(x, y) waypoints,一条轨迹一共 24-32 个标量。Backbone 是 Qwen3-VL 2B 量级 V-L 模型加上一个 Action Expert(典型 500M),总可学习参数 2.5B 量级。 ...

2026年5月24日 · 16 分钟 · LexHsu

自动驾驶 VLA 的 3D 视觉表征:从能力边界到工程注入

引言:这篇为什么写 写在前面:本站此前已有几篇 3D 表征相关的文章。《从 2D 到 4D:视觉表征的本体论问题》 讨论了"4D = 3D+T 还是 multi-view+geometry"的本体论问题;《4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视》 用信息瓶颈五条件审计了九种 4D encoder 方案;《X-World:小鹏可控自车视角多相机世界模型》 拆解了重型 latent video diffusion 的生成派世界模型路径;Depth Anything 3、VGGT、V-JEPA 2.1、DINOv3、Driving JEPA 是各代表性工作的单论文精读。 ...

2026年5月22日 · 36 分钟 · LexHsu

4D Vision Encoder for Autonomous Driving:信息瓶颈视角下的统一审视

引言:4D 输入与 VLA 序列瓶颈的矛盾 自动驾驶感知系统通常装载 6 至 10 路相机以覆盖 360° 环视。每帧每相机经过 ViT 类编码后产生数百至上千 patch token,乘上多个相机和多个历史时刻——一次推理的视觉输入轻松达到上万 token。这与车端实时推理(约 100 ms 预算)和 VLA backbone 的序列长度上限形成尖锐矛盾。 ...

2026年5月17日 · 20 分钟 · LexHsu

VLA 语义下的导航信息注入:从 Prompt 到 Diffusion Condition

在自动驾驶轨迹规划中,导航信息回答了一个根本问题:车应该往哪走? 没有它,模型只能对所有合理选项均匀采样——左转、直行、右转都可能出现。但这个问题的有趣之处在于导航信息是以什么形式、在模型的什么位置被注入和消费的。 ...

2026年5月14日 · 31 分钟 · LexHsu

VLM 时序记忆机制:从视频压缩到长短时记忆融合

引言 视觉语言模型(VLM)在处理单帧图像上已趋于成熟,但时序理解——即从连续帧中提取决策相关的变化信息——仍是开放问题。无论是自动驾驶中的多帧感知,还是具身智能中的长任务执行,核心挑战都在于:如何在不引爆 token 预算的前提下,保留对决策真正有价值的时序信息。 ...

2026年5月9日 · 11 分钟 · LexHsu

ReflectDrive-2:理想汽车的离散扩散端到端驾驶与 RL 联合优化

引言:离散扩散 + 端到端驾驶 = 新范式? 2025-2026 年,端到端自动驾驶的路线之争愈演愈烈。主流阵营分为两派。 自回归(AR)派以 GPT-driver 和 VLA 系列为代表,token-by-token 顺序输出轨迹,串行解码慢,端侧只能跑小模型。连续 Diffusion 派以 UniAD、DriveWM、PlanningDiffuser 为代表,在连续空间去噪生成轨迹,但通常需要额外的 anchor 或 goal 系统辅助,破坏了原始数据分布。 ...

2026年4月25日 · 19 分钟 · LexHsu
访客 2766 人次 · 访问 3605 次