navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 ,inference 时 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。
继续往下挖,schedule 只是三个轴之一。完整的训练动力学跑在三个正交轴上:
- 联合空间——dataset 的广度(unique 数量)与深度(每条 cone 被采样的次数)
- 轴——schedule 把深度沿 FM 内部时间重分配
- 物理 horizon 轴——12 个 waypoint 沿距离方向条件熵不同,远端 sub-dim 收敛比近端慢
这三轴在 FM loss 上是乘性叠加的:最难学的角落 = (long-tail ) × (Beta 让出的 noise 端 ) × (远端 waypoint 高方差 sub-dim)。三个 multiplier 相乘,所以 endBend 永远先在末端出现、最晚消失——它是"depth 在三轴上被层层 dilute"后剩在最薄的角落里的可观察残余。
本文把这三轴在 cone 几何上展开。先回顾时间步调度的形式,再引入 cone 几何与三轴正交分解,接上用自产的 trajectory 聚类数据校准 cone 各向异性,最后回到驾驶语境讨论 endBend 的诊断流程和阶段化训练判据。结论先放在前面:末端弯折的第一性修法是加 depth,schedule 切换 / ODE step 增加都是二阶修补,depth 不够之前不要纠结。
一、时间步调度的现状与困惑
Flow Matching 的训练目标可以写成
这里 用本文的约定: 是 clean GT, 是纯高斯噪声;inference 时 ODE 从 往 积分。 是时间步采样分布,是训练 hyperparameter。
实践上有三族常见选择:
- Uniform:,密度恒为 。
- Beta(clean-concentrated):从均匀 出发,构造 ,对应解析密度 。密度在 处达到峰值 ,在 处衰到 0。
- Sigmoid-Normal:。 时密度集中在 的中段 noise level。
Qwen-VLA 的消融给了一个明确的实证结论:T2A(text-to-action,无视觉条件)阶段用 Sigmoid-Normal 最优,CPT/SFT(接入视觉条件)阶段切回 Beta;反过来用,两个阶段的成功率掉 5.7~8.3 个百分点。我们当前 navi VLA SFT 用的就是 Beta()。
下面这段 D3 viz 是同一组密度曲线的交互版,拖动 ODE 步数 slider 看每一步 Euler 落在哪个 上——能直观读到 Beta 尾端那个"赌注区"具体是哪几步、训练密度有多稀。
让人难住的是机制层面的"为什么"。Qwen-VLA paper 一笔带过:“Beta 把梯度均匀分配到所有 noise level,因为 backbone 提供了足够信息让 DiT 拒绝大噪声样本”。但 Beta 密度的形状显示它并不把梯度均匀分配——密度从 的 1.5 单调降到 的 0,noise 端拿到的梯度比 clean 端少 30 倍以上。这条解释把现象(Beta 在 SFT 阶段更好)跟机制(梯度分配)接错了。下面用 cone 几何 + 三轴分解重读,能把 schedule 选择放进一个更大的训练动力学图像里。
二、Cone 几何起点:每条 的训练时间锥
回到 这条线性插值。给定一个 clean sample ,把所有可能的 扫出来,得到的 集合在 空间里构成一个锥:
- 锥尖在 处,恰好是 自己。
- 锥沿 增大方向扩张: 处的截面是以 为中心、半径正比于 的球(在高维里)。
- 锥的开角由 的分布决定,纯噪声 让锥侧面是渐扩的。
Flow Matching 学的就是这个锥上每一点的回归目标 。这个解析形式可以追到 Stochastic Interpolant 理论 (Albergo & Vanden-Eijnden 2023): 是 conditional expectation,要在某点 estimate 准,需要在该点邻域见过足够多 实例做平均。
inference 时 ODE 从 处的高斯噪声出发,根据 一路积分,理想情况下沿着某条 cone 的内表面"滑回"它的尖端 。一个 trajectory dataset 等价于一堆 锥的集合:每个 GT 轨迹张一个锥,所有锥在 处合并成噪声分布,在 处分散到 data manifold 上。
三、三个正交轴:广度 / 深度 / 物理 horizon
cone 几何让"训练数据的资源"立刻有了直观的对象,但只画一条 cone 不够——需要三个独立轴来刻画 FM 训练真正在分配的东西。
轴 A: 联合空间——广度与深度
- 广度 = dataset 里 unique 的数量,也就是锥的数量。
- 深度 = 每条锥被采样的次数,也就是锥内部 点的填充密度。
两者正交:dataset 扩广度不会自动增加每条 cone 的填充密度,而单条 cone 上反复采样不会让模型见到新的 cone tip。
这两个量分别控制 的不同性质:广度决定模型有没有可能 cover 某 mode,深度决定 cover 的 mode 上 是否平滑。理论锚是 Bonnaire et al. 2025 的 标度律——同一条 spectral bias 机制既解释 memorization 时间尺度,也解释 conditional structure 学习的样本复杂度。
轴 B: 轴——schedule
Schedule 把广度 × 深度的总预算沿 轴重分配。Lipman 2023 FM 原 paper 里 对 asymptotic optimum 无影响,但对收敛速度影响巨大;Karras et al. 2022 (EDM) 给出 schedule 一阶最优条件的解析推导,本质是"训练预算应该按 loss landscape 曲率反比分配"。Beta 把预算往 clean 端搬,Sigmoid-Normal 往中段搬,Uniform 平均摊。
Schedule 不改变广度,也不改变总深度,只改变每条 cone 内部 采样在 上的分布形状。Beta 让每条 cone 的 邻域采样得很密、 邻域采样得几乎为空。
轴 C:物理 horizon——多维输出沿距离方向的各向异性
trajectory 是 12 个 waypoint × ~5 维 = 60 维 ,FM 把它当一个整体做去噪。这 60 维不是各向同性的——给定 condition (image + navi),沿物理 horizon (waypoint 序号 / 距 ego 距离)的 conditional 分布形态变化巨大:
- 近端:near-deterministic,几乎是当前运动的外推
- 中段:受 navi heading 约束,1-2 个主 mode
- 远端:condition 信号的物理约束随距离衰减,多 mode 分支(微左/微右/速度差异)
这条性质有三块独立的理论支撑:
- Heteroscedastic regression(Nix & Weigend 1994 / Kendall & Gal 2017):homoscedastic L2 loss 在 mixed-variance output 上等价于 inverse-variance-weighted regression。高方差 component 收敛慢、需要更多样本。
- Spectral bias / NTK(Rahaman et al. 2019 / Jacot et al. 2018):NN 在 GD 下先学 Kernel 大特征值方向,小特征值后学。high-conditional-variance sub-dim 对应的 target function 含更多高频成分,被网络后拟合。这跟 Bonnaire 2025 解释 memorization 时间尺度用的是同一机制。
- Conditional entropy chain rule:。远端 sub-dim 的 conditional entropy 通常更大,因为 condition 对远端的物理约束随距离衰减。
第三块顺手推出 AR Trajectory Tokenization 在 trajectory 任务上的天然优势:AR 分解 让每个 factor 都是 low-entropy regression。FM joint prediction 一次性 fit 60 维 joint 分布,远端 sub-dim 注定后学——这是 FM trajectory 跟 AR trajectory 在末端 waypoint 精度上的结构性差别。
Depth 是三轴共用的杠杆
三个轴都有自己的 hyperparameter(数据规模 / schedule / loss reweighting / 架构 horizon),但它们共用同一个底层资源:每个梯度更新带来的 effective depth。这个 depth 在三轴上被乘性 dilute:
最难学的角落 = (long-tail ) × (Beta 让出的 noise 端 ) × (远端 horizon 高方差 sub-dim)。三个 multiplier 相乘,所以 endBend 永远先在末端出现、最晚消失。
下面这段 D3 viz 把"广度 vs 深度"两种极端 budget 分配画在一张图上——同总预算下,两边对每条 cone 的填充密度差几个数量级。
四、Cone 是各向异性的:自产聚类数据的校准
第三轴(物理 horizon)不是凭直觉推的,是 trajectory 数据自带的几何性质。把内部 trajectory 数据集(百万 clip 级)做 KMeans 聚类()按 shape 分四类,每个 cluster 取代表轨迹叠在 ego 坐标系下画出来:
这张图把第三节的三块理论变成可量化的实证:
- 轨迹都从 ego 锁定——cone tip 都在原点附近, 是 的增函数完全是 dataset 自带的几何性质,跟模型架构无关。
- 在不同 mode 上差几个数量级——straight cone 的远端 spread 大概 级,sharp_turn 远端 spread 是几米级,差 50-100 倍。
- sharp_turn 远端 multimodal——同一类 shape、同一起点,远端 trajectory 可能向左也可能向右。即使 condition 信号告诉模型"这是 sharp turn",远端 sub-dim 上 还是 wide-support,纯靠 condition lookup 也无法 collapse 到单点。
把这套数字代回乘性分解公式可以估算最难角落的 effective density:
三个 multiplier 相乘的结果:sharp_turn × Beta noise 端 × 远端 waypoint 这个角落的有效采样密度,是 straight × Beta clean 端 × 近端 waypoint 角落的三万分之一。任何在这个角落上的收敛事件,都需要训练时长按这个比例放大才能见到——这就是 endBend 在末端 sharp_turn 上最先暴露、需要最多 epoch 才能消除的几何根源。
五、边缘 vs 条件:为什么"覆盖 “不够
回到广度 / 深度的取舍上。一个常见的反直觉:5 亿样本 × 1 epoch 在边缘分布上跟 1 万样本 × 5 万 epoch 是一样的——任何一个 桶都被 5 亿次采样过,按经验风险最小化的理论它应该能恢复出干净的 。但实测的 FM trajectory 数据反复观察到:广而浅训练出的 在 inference 时永远是 zigzag——每一步 Euler 都把噪声累积一次。
机制层面差别在 是条件期望:
要在某个具体点 上估准这个条件期望,需要在该点附近见过多个满足 约束的 实例做平均。这种"多个实例"必然来自同一条 cone 内部——隔壁 cone 的实例对应不同的 ,平均它们得到的是不同 cone 的 的混合,不是当前 cone 的真实 。
广而浅配置下每条 cone 只有 1 个采样点。 在某条 cone 上只能靠"附近 cone 的 1 个采样点"通过 architecture smoothness prior 间接外推。当 cone 之间的方向差异在 维度上有结构(驾驶轨迹的 空间确实有 mode 结构:直行、缓弯、急弯各自聚集),这种"外推"沿 cone 之间的"鞍带"流,把不同 cone 的方向混在一起——learned 是边缘速度场 在 邻域的局部平均,不属于任何特定 cone。
inference 时 ODE 用这个 积分,相当于在锥之间的鞍带上行走。每一步方向跟"任何真实 cone"都有偏差,跨多个 Euler 步累积,落点不在任何训练 cone 尖端附近——可观察就是 zigzag。
这跟 Bonnaire 2025 的两个时间尺度图像是同一现象的两侧。Bonnaire 等人证明 :dataset 越大, 启动越晚——单 epoch 训练时模型其实根本没机会做到 memorize(深度 = 1,empirical score 的尖刺还没被学到)。反过来这一现象的副作用是:模型也没机会学到任何特定 cone 的精细结构。Bonnaire 的"安全窗口"是"还没 memorize"的窗口,本文关心的"trajectory smoothness"是"已经学到 cone 内部结构"的窗口——两者夹住一段"既不抖也不背诵"的训练时长,这段时长才是 FM 训练真正想停留的地方,在广而浅 dataset 上需要大幅增加 才能到达。
六、Beta 调度的赌注:现在有两个 AND 条件
把第一节关于 Qwen-VLA 的 paper 表述拆开——“梯度均匀分配到所有 noise level”——这句在 Beta 密度形状上是错的。Beta 把 noise 端的密度压到接近零,等价于把每条 cone 内部的 采样从 noise 端搬到 clean 端。一条 cone 在 邻域被采样得很密,在 邻域被采样得几乎为空。
更准的故事:Beta 是一次赌注,划算的条件是两个 AND——
- 条件强度成熟:在 noise 端 ,,模型几乎拿不到 的信息。要给出合理的 ,模型必须靠 condition 信号(VLM hidden states、image grounding、navi waypoint)反推"该走向哪条 cone”。条件强 → noise 端不需要密集训练。
- 每条 cone 在 noise 端深度足够:即使 condition 强,cone 内部的 也要靠 ε 平均收敛。Beta 让 noise 端密度衰到 1.5/s 的 0.05 倍以下,每条 cone 在 邻域的有效采样次数 = 总深度 × 0.05 之类的小数。深度不够时 在 noise 端还在 noisy 状态,condition 信号撞上 noisy ,cone 选择也不准。
SFT 阶段 VLM 已预训过、条件信号成熟,第一个 AND 满足;如果加 epoch 让每条 cone 在 noise 端的有效采样也够,第二个 AND 也满足,Beta 划算。T2A 阶段没有视觉条件,第一个 AND 不满足,noise 端只能靠 自己反推 ,搬走 noise 端深度 = 双杀,Sigmoid-Normal 把深度堆在中段才是正确选择。
这一条对工程的指导:Beta 调度的开关与"条件成熟 AND 深度充分"同步打开。stage1(VLM 大数据 pretrain,image grounding 还在收敛)阶段提前切到 Beta,第一个 AND 不满足;stage 切换早期 / 总 epoch 还少时切 Beta,第二个 AND 不满足。两个都不满足时 endBend 来自 noise 端 的高方差,从 ODE 第一步开始就在欠训区间上跳。
七、depth 是底层杠杆:实证与 reweight 的零和本质
前面六节把三轴框架建好了,回到具体的 endBend 现象。两组对照实验给出的结论高度一致:
ODE step 数加密对 endBend 几乎无效。把同一 ckpt 的 ODE 推理步数从 10 / 20 / 50 sweep,ADE 与 max angle 都基本不变(差异 < 5%)。这条直接否决"加 step 就能修末端"的假设——速度场已经定型,加密 ODE 网格只是更精确地积分一个已经偏的速度场,不修复速度场自身的精度。从乘性 effective density 看也合理:step 数变化不动 、、 任何一个 multiplier。
epoch 翻倍对 endBend 显著修复。同模型同数据,从 ep80 训到 ep160-192,endBend 的改善幅度跟 ep80 时的初始 endBend 量级成正比——ep80 endBend 32° 的会收到 ~15°,ep80 endBend 69° 的会收到 ~3°。“剧烈失败"的配置改善更大,因为它们离 saturated 状态更远。
更进一步,dataset reweight 的"偏差"也是 depth-bounded 的。一次比较实验里,把训练数据按 mode 重新加权(人为提高 sharp_turn 比例),在 ep80 上观察到模型把 sharp_turn 模式当作 prior、在直行场景里"乱转”——这看起来像 reweight 引入了永久偏差。但同一个配置训到 ep160 时,乱转现象几乎消失:模型最终学会了"靠 condition 选择 mode,prior 不可靠"。这条说明 reweight 不引入永久 bias,只是把 condition → cone 的 mapping 学习推迟。reweight 越极端(marginal 越偏离自然 prior),需要的 depth 越多才能让 condition 信号反学回"prior 不能 trust"。
把这串实证综合起来:
在 depth 不充分的区段,endBend 既来自 cone 内部 smoothness 不够(看起来像 variance),也来自 condition → cone mapping 没学好(看起来像 bias);两个症状同时存在,不是 trade-off。
之前我会把"广而浅" vs “窄而深"想成"low bias-high variance” vs “high bias-low variance” 的经典 trade-off。但 trade-off 的前提是两端都达到了自身的 asymptotic limit——真实训练永远在欠 depth 区,所有 trade-off 假设都 premature。“窄而深"在 depth 真的够深时,bias 会被 condition mapping 学习吸收;“广而浅"在 depth 真的够深时(每条 cone 至少几十次有效采样),variance 也会消失。唯一的真实约束是 depth 总量在三轴上被乘性 dilute 后,最难角落是否拿到足够采样。
更精准的 mental model:
| 状态 | 现象 |
|---|---|
| 欠 depth: 还在 noisy stage | endBend 高,cone 内部 kink + condition mapping 不准 |
| 接近 saturated: 收敛 | endBend 收到 schedule / 广度 cover 决定的下限 |
| 真正的 asymptotic limit | “广度封顶”(没见过的 mode 学不出)与"远端 sub-dim 固有方差"两个 ceiling 同时起作用 |
reweight / schedule / 架构调整都是在 depth 充分前的"加速器”:reweight 加速 long-tail mode 的 cone 覆盖,schedule 加速 ODE 第一步落点的 收敛。它们的"伤害"在 depth 不充分时表现为"挪走了某一类样本的有效 depth”——这是个零和操作。
八、跳出三轴:预测参数化与 Mean Flow 视角
三轴 + 乘性 effective density 把"FM 训练资源在哪几个维度上被 dilute"讲完了,但整套框架内嵌了一个没被掀开的默认假设:模型预测 instantaneous 速度场 ,inference 时用 ODE 多步积分。这个假设决定了所有讨论的形式——schedule 在 上重分配深度、Beta 赌 noise 端 condition 接管、endBend 来自 noise 端 的高方差。
凯明系 2025-2026 年的几个工作(JiT / iMF / Pixel Mean Flow / MiniT2I)走的是 D2 姿态——掀掉这个默认假设。看完之后回到 endBend 现象,至少有两条独立的认知升级。
8.1 预测参数化:数学等价 ≠ 训练动力学等价
回到 的线性插值。FM 可以预测三种 target:
- -prediction:网络输出预测 ,由 和 反解 。
- -prediction:网络输出预测 ,即条件速度场。我们当前 navi VLA 走的就是这条。
- -prediction:网络直接预测 。
在 DDPM 变分基础 里,这三种参数化的 loss 期望值是等价的——同一个 score function 的不同代数形式。但 JiT (Li & He 2025, arXiv:2511.13720) 与 MiniT2I 在像素空间扩散上实测的对照表把"训练动力学等价"这个隐含假设彻底掀掉:
| Loss \ Pred | -pred | -pred | -pred |
|---|---|---|---|
| -loss | 15.3 | 523.8 | 229.1 |
| -loss | 15.2 | 524.8 | 231.4 |
| -loss | 13.7 | 524.0 | 230.1 |
MSCOCO FID 在 B/32 + 250K 步 CC12M 预训上,- 与 -prediction 全部 collapse,只有 -prediction 稳定。三者数学等价,训练动力学差几十倍 FID。
机制根因落到 noise 端的 target dynamic range:
- 时 , 是无界的高斯尾。
- 在 data manifold 上有界(轨迹在 100m 内、像素在 内)。
- 预测 或 等于让网络 output 一个 量级、随 变化剧烈的 target。
- 预测 让网络 output 一个有界、跟 关系平稳的 target。
后者 gradient SNR 高一个数量级,尤其在 noise 端——而 noise 端 × 远端 horizon 正是乘性 effective density 公式里最薄的角落。预测参数化是第四个轴,跟 schedule 是"在 端下手"的 sibling 关系:Beta 把训练样本搬到 clean 端避开 noise 端难学;-prediction 直接把 noise 端的 target 难度降下来。两条路解决同一问题,做的代价不同。
navi VLA 当前用 -prediction,这个选择继承自 robotics VLA 的 π₀ / Qwen-VLA 路线。如果 endBend 在 noise 端的可观察 signature 部分来自 -target 的高动态范围而非纯 depth 不足,切换到 -prediction 是 cheap ablation——架构不变、数据不变、schedule 不变,只改 head output 和 loss 表达式。可以在 stage1 中段 ckpt 上做对照实验,对比同 epoch 上 endBend(h) 曲线的形状。
8.2 Mean Flow 视角:把"必须多步积分"掀掉
第二个被默认接受的复杂性是 inference 时的多步 ODE 积分。Mean Flow (Geng et al. 2025, NeurIPS Oral, arXiv:2505.13447) 引入平均速度:
学到 后单步采样直接 ,端到端取 一步 。训练 的难点是定义自依赖( 出现在自己 loss 的两端,需要 unroll),iMF (Geng et al. 2025, arXiv:2512.02012) 用 stop-gradient 切断自依赖——把瞬时速度 (已经独立训练的 instantaneous head)作为 boot-strap 监督信号。
Mean Flow 视角对 endBend 的诊断价值在于一个 thought experiment:
如果 endBend 主导原因是 ODE 多步积分误差累积(每步小误差 → N 步后大偏差),那 Mean Flow 直接学 应该能 bypass 这个累积。
第七节的 ODE step sweep 实证(step 10 / 20 / 50 上 endBend 几乎不变)已经回答了这个 thought experiment:endBend 不是积分累积主导。step 数从 10 加密到 50,每步 缩小 5 倍,积分累积误差应当显著降低,但 endBend 没动——说明问题在 自身在最难角落上的精度,不在多步积分的几何放大。
这条 negative result 是 Mean Flow 带来的最大认知收获——它不是给 navi VLA 用的方法,是用来切片诊断当前框架下哪部分误差归积分、哪部分归 自身。step sweep 把后者钳死,剩下的全是前者: 在 (sharp_turn) × () × () 这个角落不准。Mean Flow 学 仍然要在这个角落上得对,没法绕开。
8.3 凯明 D2 应用:跳出三轴去想问题
把上面两点合起来看,凯明系方法论的 D2(“改变问题假设”)在 FM 训练上的姿态可以这样总结:
| 默认接受的复杂性 | 凯明系做的 D2 |
|---|---|
| 三种 prediction 参数化数学等价、随便选 | JiT 实测 -pred 是高维像素空间唯一稳定的;选择决定训练动力学 |
| Inference 必须 ODE 多步积分 | Mean Flow 直接学 ,单步采样 |
| Mean Flow 训练目标必须 unroll | iMF 用 stop-gradient 切自依赖 |
放回 navi VLA 末端弯折问题:第七节的结论是"修法靠加 depth",这是在当前框架内的最优动作;本节给的是跳出框架的第二级动作——如果 depth 加到一定程度仍然 plateau 在不满意的 endBend 水平上,下一步不是继续加 depth,是问 prediction 参数化 / 训练 objective 是不是默认接受了过多的复杂性。具体到 navi VLA:
- -prediction ablation 是低成本、可以马上做的对照(架构不动、数据不动、schedule 不动)。
- Mean Flow 是高成本(训练目标改、需要 stop-gradient 蒸馏 instantaneous head),且 step sweep 实证已经把"积分累积"这条根因排除了,先不动。
这一节的位置就放在"depth 是底层杠杆"(第七节)之后、“诊断流程”(下一节)之前——不是为了否定第七节的结论,是给读者一个 frame:depth saturated 后如果 endBend 还在,问题大概率不在三轴内,需要 D2 级别的动作。
九、诊断流程:先确认 depth 是否 saturate
三轴 + 乘性 effective density 给了一个清晰的诊断顺序。任何关于"是 schedule 不对、还是 reweight 错了、还是架构有问题"的判断之前,必须先排除 depth 不足。
Step 1:endBend(ep) 曲线。同模型不同 ckpt 上跑一组 sample,画 endBend 关于训练 epoch 的演化。曲线还在下降 → depth 不够,先继续训,所有其他动作都 premature。曲线 plateau → 进入 Step 2。
Step 2:endBend(h, ep) 二维分布。把 endBend 按物理 horizon (waypoint index)拆开,看是否是末端 sub-dim 在拉曲线。如果远端 的 endBend 明显大于近端,说明是物理 horizon 各向异性主导,修法是 per-horizon loss reweight(给远端 waypoint 梯度更高 weight)/ horizon curriculum(先训 4 步、再扩 8 步、最后 12 步)。
Step 3:fix-condition + multi- 散布。固定 condition ,sample 条不同初始 跑 ODE,看末端 trajectory 的散布。 散布展开成云、跟 GT 距离散乱 → cone 内部 还在收敛,回到 Step 1 加 ep。 散布收紧但跟 GT 有一致角度偏差 → condition 强度不够,stage1 加 image grounding 数据。 散布收紧到 GT 附近 → 训练充分。
Step 4:cluster-level cover 检查。把 dataset 按 trajectory shape 聚类(KMeans 大),统计 test sample 落到训练 cluster 邻域的距离。test sample 远离训练 cluster → 广度封顶,需要 cover 新 long-tail mode。
这套流程把"是不是 depth 不够、是不是远端 sub-dim 问题、是不是 condition 不够、是不是广度封顶"四个层级分开诊断,每一步对应不同的工程动作。漏掉 Step 1 是最常见的错误——会把欠 depth 误诊成 schedule / reweight 问题,浪费 ablation 算力。
十、阶段化训练 strategy
把三轴框架代回训练 stage 设计:
| Stage | 主要修哪个轴 | 在 cone 几何上做什么 | 切 Beta schedule 的 gate |
|---|---|---|---|
| stage1 (VLM 大数据 pretrain) | 条件强度 + 广度(轴 A) | 让 condition lookup 从 noise 端反推到正确 cone tip;让广度 cover 长尾 cone | image_attention_entropy 收紧前不切 |
| stage2 (AE balanced 数据多 epoch) | 深度(轴 A)+ 远端 horizon 收敛(轴 C) | cone 内 smooth;per-horizon loss reweight 给远端 sub-dim 更多有效梯度 | endBend(ep) plateau + image grounding 成熟,两个 AND 都满足才切 |
| stage3 (RL post-training) | cone 边界(FDE) | 防止 ODE 在 cone 尖端附近"漂出去" | — |
stage1 做的是把"条件强度"这个 Beta 划算的第一个 AND 撑起来;stage2 做的是把"深度"这个第二个 AND 撑起来。两个 AND 同时满足才能切 Beta——只满足一个就切是赌错。
诊断当前 navi VLA 的位置:stage1 当前 checkpoint 的 image_attention_entropy 还在 0.94 附近(attention metric 显示 image grounding 未收敛),第一个 AND 没满足;endBend(ep) 曲线观察上仍在下降,第二个 AND 也没满足。下一步动作不是切 schedule、不是动 reweight,是先 stage1 继续训到 entropy 收紧,同时 stage2 加 ep,等两个 metric 都 plateau 再讨论 schedule 切换。
把 “broaden vs deepen vs schedule” 拆成三个正交轴 + 乘性 effective density,比把"schedule 选择"或"数据 reweight"作为主线讲得清楚——后者只是前者的 hyperparameter。三轴 framework 在 cone 几何上有清晰的物理对象,理论锚点从 stochastic interpolant、spectral bias、heteroscedastic regression 三块独立来源汇过来,自产的 trajectory 聚类数据校准了各向异性 cone 的具体形状。endBend 在这套框架下是 depth 在三轴乘性 dilute 后剩在最薄角落的可观察 signal,修复路径是先确认 depth saturated 再谈其他。
相关阅读
- Flow Matching 与一致性模型:FM 的数学起点与最优传输视角。 与条件速度场推导都在那里展开。
- 扩散模型与自动驾驶规划:DDPM/DDIM/FM 在驾驶规划上的工程位置、CFG 与 AdaLN 条件注入。本文聚焦于 FM 训练动力学,是该文的训练侧延伸。
- 扩散模型为什么不背诵训练数据:Bonnaire et al. 2025 的两个时间尺度图像、 标度律。本文讨论的"cone 内部深度不足导致 zigzag"是该框架"还没 memorize"窗口的另一侧表现,spectral bias 是共用机制。
- AR Trajectory Tokenization:把 trajectory 按 horizon AR 分解的对偶选择。本文第三节的 conditional entropy chain rule 是 FM joint vs AR 在远端 sub-dim 精度上的结构性差别的解释。
- Qwen-VLA 解读:T2A → CPT → SFT → RL 四阶段 recipe、Beta vs Sigmoid-Normal 时间步调度切换的原始实证结论。本文用三轴 + 乘性 density 给出该结论的机制层解释,把"条件信号丰富度"细化为"条件成熟 AND 深度充分"两个 AND。
- Diffusion Planner 与导航注入:navi waypoint 作为条件信号在 diffusion planner 里的注入设计。
- 凯明的方法论:从 ResNet 到 iMF:第八节"跳出三轴"的 D2 姿态来源;JiT 预测参数化、Mean Flow / iMF 平均速度都是凯明系 D2 在 FM 训练上的具体投影。
- MiniT2I:把文生图拉回 ImageNet 实验台:-prediction 在像素空间的 9 组对照 FID 表的来源(B/32 @ 250K 步 CC12M),印证 prediction target 的训练动力学不等价。
参考文献
[1] Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747
[2] Albergo, M. S., & Vanden-Eijnden, E. (2023). Building Normalizing Flows with Stochastic Interpolants. ICLR 2023. arXiv:2209.15571
[3] Karras, T., Aittala, M., Aila, T., & Laine, S. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS 2022. arXiv:2206.00364
[4] Esser, P., Kulal, S., Blattmann, A., et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024. arXiv:2403.03206
[5] Bonnaire, T., Urfin, R., Biroli, G., & Mézard, M. (2025). Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training. NeurIPS 2025 Best Paper.
[6] Rahaman, N., Baratin, A., Arpit, D., et al. (2019). On the Spectral Bias of Neural Networks. ICML 2019. arXiv:1806.08734
[7] Jacot, A., Gabriel, F., & Hongler, C. (2018). Neural Tangent Kernel: Convergence and Generalization in Neural Networks. NeurIPS 2018. arXiv:1806.07572
[8] Kendall, A., & Gal, Y. (2017). What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? NeurIPS 2017. arXiv:1703.04977
[9] Qwen Team. (2026). Qwen-VLA: Unified Vision-Language-Action Model with Stage-wise Pre-training. arXiv:2605.30280. arXiv:2605.30280
[10] Li, T., He, K., et al. (2025). JiT: Jump into Image-space Transformers. CVPR 2026. arXiv:2511.13720
[11] Geng, Z., et al. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral. arXiv:2505.13447
[12] Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generation (iMF). CVPR 2026. arXiv:2512.02012
[13] Wang, X., et al. (2026). MiniT2I: Pixel-space Text-to-Image with Frozen Language Encoder.