navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ0\tau \approx 0,inference 时 τ=10.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。

继续往下挖,schedule 只是三个轴之一。完整的训练动力学跑在三个正交轴上:

  • (x0,condition)(x_0, \text{condition}) 联合空间——dataset 的广度(unique x0x_0 数量)与深度(每条 cone 被采样的次数)
  • τ\tau 轴——schedule 把深度沿 FM 内部时间重分配
  • 物理 horizon 轴——12 个 waypoint 沿距离方向条件熵不同,远端 sub-dim 收敛比近端慢

这三轴在 FM loss 上是乘性叠加的:最难学的角落 = (long-tail x0x_0) × (Beta 让出的 noise 端 τ\tau) × (远端 waypoint 高方差 sub-dim)。三个 multiplier 相乘,所以 endBend 永远先在末端出现、最晚消失——它是"depth 在三轴上被层层 dilute"后剩在最薄的角落里的可观察残余。

本文把这三轴在 cone 几何上展开。先回顾时间步调度的形式,再引入 cone 几何与三轴正交分解,接上用自产的 trajectory 聚类数据校准 cone 各向异性,最后回到驾驶语境讨论 endBend 的诊断流程和阶段化训练判据。结论先放在前面:末端弯折的第一性修法是加 depth,schedule 切换 / ODE step 增加都是二阶修补,depth 不够之前不要纠结。


一、时间步调度的现状与困惑

Flow Matching 的训练目标可以写成

LFM=Eτp(τ),x0pdata,εN(0,I)[vθ(xτ,τ)(εx0)2],xτ=(1τ)x0+τε. \mathcal{L}_{\text{FM}} = \mathbb{E}_{\tau \sim p(\tau),\, x_0 \sim p_{\text{data}},\, \varepsilon \sim \mathcal{N}(0, I)} \left[ \left\| v_\theta(x_\tau, \tau) - (\varepsilon - x_0) \right\|^2 \right], \qquad x_\tau = (1 - \tau) x_0 + \tau \varepsilon.

这里 τ[0,1]\tau \in [0, 1] 用本文的约定:τ=0\tau = 0 是 clean GT,τ=1\tau = 1 是纯高斯噪声;inference 时 ODE 从 τ=1\tau = 1τ=0\tau = 0 积分。p(τ)p(\tau) 是时间步采样分布,是训练 hyperparameter。

实践上有三族常见选择:

  • UniformτU(0,s)\tau \sim \mathcal{U}(0, s),密度恒为 1/s1/s
  • Beta(clean-concentrated):从均匀 uU(0,1)u \sim \mathcal{U}(0,1) 出发,构造 τ=s(1u2/3)\tau = s \cdot (1 - u^{2/3}),对应解析密度 f(τ)=32s1τ/sf(\tau) = \frac{3}{2s}\sqrt{1 - \tau/s}。密度在 τ0\tau \approx 0 处达到峰值 1.5/s1.5/s,在 τs\tau \to s 处衰到 0。
  • Sigmoid-Normalτ=σ(z),zN(μ,σn2)\tau = \sigma(z),\, z \sim \mathcal{N}(\mu, \sigma_n^2)μ=0,σn=1\mu = 0,\, \sigma_n = 1 时密度集中在 τ[0.3,0.7]\tau \in [0.3, 0.7] 的中段 noise level。

Qwen-VLA 的消融给了一个明确的实证结论:T2A(text-to-action,无视觉条件)阶段用 Sigmoid-Normal 最优,CPT/SFT(接入视觉条件)阶段切回 Beta;反过来用,两个阶段的成功率掉 5.7~8.3 个百分点。我们当前 navi VLA SFT 用的就是 Beta(s=0.999s = 0.999)。

三种时间步采样分布的密度曲线对比 Beta(s=0.999)、Uniform 与 Sigmoid-Normal 三种时间步采样分布的解析密度。τ=0\tau = 0 是 clean GT,τ=1\tau = 1 是纯噪声;紫色箭头是 ODE inference 方向(τ=10\tau = 1 \to 0)。Beta 在 clean 端密度峰值 1.5/s,noise 端衰到接近 0——ODE 第一步 τ0.95\tau \approx 0.95 落在训练分布的极尾端,是 Beta 的"赌注区域"。Qwen-VLA 在 T2A 上的实证:Beta 在 noise 端的密度尾让 T2A(无视觉条件)训练显著退化(5.7~8.3 pp),SFT(有视觉条件)阶段才划算。

下面这段 D3 viz 是同一组密度曲线的交互版,拖动 ODE 步数 slider 看每一步 Euler 落在哪个 τ\tau——能直观读到 Beta 尾端那个"赌注区"具体是哪几步、训练密度有多稀。

三种时间步采样分布的密度曲线(拖动 slider 看 ODE 步数)
Loading visualization...
τ=0 是 clean GT,τ=1 是纯噪声。Beta(s=0.999) 把密度集中在 clean 端,Sigmoid-Normal 集中在中段,Uniform 平均分布。圆点标记是当前选择的 ODE step 数下,每一步 Euler 落在 τ 轴的位置(用 t_i = s·(1-(i/N)^(2/3)) power-law 网格,跟训练 Beta schedule 配套)。看 step 1 的位置——落在 Beta 极尾,训练密度接近 0,这是 Beta 在 noise 端的赌注。

让人难住的是机制层面的"为什么"。Qwen-VLA paper 一笔带过:“Beta 把梯度均匀分配到所有 noise level,因为 backbone 提供了足够信息让 DiT 拒绝大噪声样本”。但 Beta 密度的形状显示它并不把梯度均匀分配——密度从 τ=0\tau = 0 的 1.5 单调降到 τs\tau \to s 的 0,noise 端拿到的梯度比 clean 端少 30 倍以上。这条解释把现象(Beta 在 SFT 阶段更好)跟机制(梯度分配)接错了。下面用 cone 几何 + 三轴分解重读,能把 schedule 选择放进一个更大的训练动力学图像里。

二、Cone 几何起点:每条 x0x_0 的训练时间锥

回到 xτ=(1τ)x0+τεx_\tau = (1 - \tau) x_0 + \tau \varepsilon 这条线性插值。给定一个 clean sample x0x_0,把所有可能的 (τ,ε)(\tau, \varepsilon) 扫出来,得到的 xτx_\tau 集合在 (xτ,τ)(x_\tau, \tau) 空间里构成一个

  • 锥尖在 τ=0\tau = 0 处,恰好是 x0x_0 自己。
  • 锥沿 τ\tau 增大方向扩张:τ\tau 处的截面是以 (1τ)x0(1-\tau) x_0 为中心、半径正比于 τ\tau 的球(在高维里)。
  • 锥的开角由 ε\|\varepsilon\| 的分布决定,纯噪声 εN(0,I)\varepsilon \sim \mathcal{N}(0, I) 让锥侧面是渐扩的。

Flow Matching 学的就是这个锥上每一点的回归目标 v(xτ,τ)=E[εx0xτ,τ]v^*(x_\tau, \tau) = \mathbb{E}[\varepsilon - x_0 \mid x_\tau, \tau]。这个解析形式可以追到 Stochastic Interpolant 理论 (Albergo & Vanden-Eijnden 2023):vv^* 是 conditional expectation,要在某点 estimate 准,需要在该点邻域见过足够多 (x0,ε)(x_0, \varepsilon) 实例做平均。

inference 时 ODE 从 τ=1\tau = 1 处的高斯噪声出发,根据 vθv_\theta 一路积分,理想情况下沿着某条 cone 的内表面"滑回"它的尖端 x0x_0。一个 trajectory dataset 等价于一堆 x0x_0 锥的集合:每个 GT 轨迹张一个锥,所有锥在 τ1\tau \to 1 处合并成噪声分布,在 τ=0\tau = 0 处分散到 data manifold 上。

三、三个正交轴:广度 / 深度 / 物理 horizon

cone 几何让"训练数据的资源"立刻有了直观的对象,但只画一条 cone 不够——需要三个独立轴来刻画 FM 训练真正在分配的东西。

轴 A:(x0,condition)(x_0, \text{condition}) 联合空间——广度与深度

  • 广度 = dataset 里 unique x0x_0 的数量,也就是锥的数量。
  • 深度 = 每条锥被采样的次数,也就是锥内部 (τ,ε)(\tau, \varepsilon) 点的填充密度。

两者正交:dataset 扩广度不会自动增加每条 cone 的填充密度,而单条 cone 上反复采样不会让模型见到新的 cone tip。

这两个量分别控制 vθv_\theta 的不同性质:广度决定模型有没有可能 cover 某 mode,深度决定 cover 的 mode 上 vθv_\theta 是否平滑。理论锚是 Bonnaire et al. 2025τmemn\tau_{\text{mem}} \propto n 标度律——同一条 spectral bias 机制既解释 memorization 时间尺度,也解释 conditional structure 学习的样本复杂度。

轴 B:τ\tau 轴——schedule

Schedule p(τ)p(\tau) 把广度 × 深度的总预算沿 τ\tau重分配。Lipman 2023 FM 原 paper 里 p(τ)p(\tau) 对 asymptotic optimum 无影响,但对收敛速度影响巨大;Karras et al. 2022 (EDM) 给出 schedule 一阶最优条件的解析推导,本质是"训练预算应该按 loss landscape 曲率反比分配"。Beta 把预算往 clean 端搬,Sigmoid-Normal 往中段搬,Uniform 平均摊。

Schedule 不改变广度,也不改变总深度,只改变每条 cone 内部 (τ,ε)(\tau, \varepsilon) 采样在 τ\tau 上的分布形状。Beta 让每条 cone 的 τ0\tau \approx 0 邻域采样得很密、τ1\tau \approx 1 邻域采样得几乎为空。

轴 C:物理 horizon——多维输出沿距离方向的各向异性

trajectory 是 12 个 waypoint × ~5 维 = 60 维 x0x_0,FM 把它当一个整体做去噪。这 60 维不是各向同性的——给定 condition (image + navi),沿物理 horizon hh(waypoint 序号 / 距 ego 距离)的 conditional 分布形态变化巨大:

  • h=1-3h = 1\text{-}3 近端:near-deterministic,几乎是当前运动的外推
  • h=4-7h = 4\text{-}7 中段:受 navi heading 约束,1-2 个主 mode
  • h=8-12h = 8\text{-}12 远端:condition 信号的物理约束随距离衰减,多 mode 分支(微左/微右/速度差异)

这条性质有三块独立的理论支撑:

  • Heteroscedastic regression(Nix & Weigend 1994 / Kendall & Gal 2017):homoscedastic L2 loss 在 mixed-variance output 上等价于 inverse-variance-weighted regression。高方差 component 收敛慢、需要更多样本。
  • Spectral bias / NTKRahaman et al. 2019 / Jacot et al. 2018):NN 在 GD 下先学 Kernel 大特征值方向,小特征值后学。high-conditional-variance sub-dim 对应的 target function 含更多高频成分,被网络后拟合。这跟 Bonnaire 2025 解释 memorization 时间尺度用的是同一机制。
  • Conditional entropy chain ruleH(x0c)=hH(x0hx0<h,c)H(x_0 \mid c) = \sum_h H(x_0^h \mid x_0^{<h}, c)。远端 sub-dim 的 conditional entropy 通常更大,因为 condition 对远端的物理约束随距离衰减。

第三块顺手推出 AR Trajectory Tokenization 在 trajectory 任务上的天然优势:AR 分解 p(x0c)=hp(x0hx0<h,c)p(x_0 \mid c) = \prod_h p(x_0^h \mid x_0^{<h}, c) 让每个 factor 都是 low-entropy regression。FM joint prediction 一次性 fit 60 维 joint 分布,远端 sub-dim 注定后学——这是 FM trajectory 跟 AR trajectory 在末端 waypoint 精度上的结构性差别。

Depth 是三轴共用的杠杆

三个轴都有自己的 hyperparameter(数据规模 / schedule / loss reweighting / 架构 horizon),但它们共用同一个底层资源:每个梯度更新带来的 effective depth。这个 depth 在三轴上被乘性 dilute:

effective density(x0,τ,h)pdata(x0)×p(τ)×1Var(x0hmode). \text{effective density}(x_0, \tau, h) \,\propto\, p_{\text{data}}(x_0) \times p(\tau) \times \frac{1}{\text{Var}(x_0^h \mid \text{mode})}.

最难学的角落 = (long-tail x0x_0) × (Beta 让出的 noise 端 τ\tau) × (远端 horizon 高方差 sub-dim)。三个 multiplier 相乘,所以 endBend 永远先在末端出现、最晚消失。

下面这段 D3 viz 把"广度 vs 深度"两种极端 budget 分配画在一张图上——同总预算下,两边对每条 cone 的填充密度差几个数量级。

Cone 几何下的广度 vs 深度分配(轴 A)
Loading visualization...
两个面板的训练预算相同,左侧广而浅(多条 cone、每条只采 1 个点),右侧窄而深(少条 cone、每条采几十个点)。一维投影:x 轴 = τ,y 轴 = x_τ 的一个分量;每条 cone 由其 x_0 处的尖端和往 τ=1 方向扩张的虚线侧面构成;点 = 训练样本。inference 时 ODE 从右侧噪声端往左侧 cone 尖端积分。

四、Cone 是各向异性的:自产聚类数据的校准

第三轴(物理 horizon)不是凭直觉推的,是 trajectory 数据自带的几何性质。把内部 trajectory 数据集(百万 clip 级)做 KMeans 聚类(K=2048K=2048)按 shape 分四类,每个 cluster 取代表轨迹叠在 ego 坐标系下画出来:

轨迹聚类按 shape 分类(K=2048) K=2048K=2048 个 cluster 按 trajectory shape 归类:straight 1569 个(76.6%)、mild_curve 227 个(11.1%)、wide_turn 0 个、sharp_turn 252 个(12.3%)。所有轨迹都从 ego (0, 0) 出发。straight cone 紧致 / 各 horizon lateral spread 都很小;mild_curve cone 中宽且 spread 随 longitudinal 单调增长;sharp_turn cone 极宽,远端 trajectory 大幅 splaying 且明显双 mode(左右双向)。

这张图把第三节的三块理论变成可量化的实证:

  • 轨迹都从 ego 锁定——cone tip 都在原点附近,Var(x0h)\text{Var}(x_0^h)hh 的增函数完全是 dataset 自带的几何性质,跟模型架构无关。
  • Var(x0hmode)\text{Var}(x_0^h \mid \text{mode}) 在不同 mode 上差几个数量级——straight cone 的远端 spread 大概 ±0.1m\pm 0.1\,\text{m} 级,sharp_turn 远端 spread 是几米级,差 50-100 倍。
  • sharp_turn 远端 multimodal——同一类 shape、同一起点,远端 trajectory 可能向左也可能向右。即使 condition 信号告诉模型"这是 sharp turn",远端 sub-dim 上 P(x0hc)P(x_0^h \mid c) 还是 wide-support,纯靠 condition lookup 也无法 collapse 到单点

把这套数字代回乘性分解公式可以估算最难角落的 effective density:

eff(sharp,τ=0.9,h=12)eff(straight,τ=0,h=1)    0.120.77×0.031.5×0.011    3×105. \frac{\text{eff}(\text{sharp},\, \tau{=}0.9,\, h{=}12)}{\text{eff}(\text{straight},\, \tau{=}0,\, h{=}1)} \;\approx\; \frac{0.12}{0.77} \times \frac{0.03}{1.5} \times \frac{0.01}{1} \;\approx\; 3 \times 10^{-5}.

三个 multiplier 相乘的结果:sharp_turn × Beta noise 端 × 远端 waypoint 这个角落的有效采样密度,是 straight × Beta clean 端 × 近端 waypoint 角落的三万分之一。任何在这个角落上的收敛事件,都需要训练时长按这个比例放大才能见到——这就是 endBend 在末端 sharp_turn 上最先暴露、需要最多 epoch 才能消除的几何根源。

五、边缘 vs 条件:为什么"覆盖 τ\tau“不够

回到广度 / 深度的取舍上。一个常见的反直觉:5 亿样本 × 1 epoch 在边缘分布上跟 1 万样本 × 5 万 epoch 是一样的——任何一个 (τ,ε)(\tau, \varepsilon) 桶都被 5 亿次采样过,按经验风险最小化的理论它应该能恢复出干净的 vv^*。但实测的 FM trajectory 数据反复观察到:广而浅训练出的 vθv_\theta 在 inference 时永远是 zigzag——每一步 Euler 都把噪声累积一次。

机制层面差别在 vv^*条件期望

v(xτ,τ)=Ex0,εxτ,τ[εx0]. v^*(x_\tau, \tau) = \mathbb{E}_{x_0, \varepsilon \,\mid\, x_\tau, \tau} [\varepsilon - x_0].

要在某个具体点 (xτ,τ)(x_\tau, \tau) 上估准这个条件期望,需要在该点附近见过多个满足 (1τ)x0+τε=xτ(1-\tau)x_0 + \tau \varepsilon = x_\tau 约束的 (x0,ε)(x_0, \varepsilon) 实例做平均。这种"多个实例"必然来自同一条 cone 内部——隔壁 cone 的实例对应不同的 x0x_0,平均它们得到的是不同 cone 的 vv 的混合,不是当前 cone 的真实 vv

广而浅配置下每条 cone 只有 1 个采样点。vθv_\theta 在某条 cone 上只能靠"附近 cone 的 1 个采样点"通过 architecture smoothness prior 间接外推。当 cone 之间的方向差异在 x0x_0 维度上有结构(驾驶轨迹的 x0x_0 空间确实有 mode 结构:直行、缓弯、急弯各自聚集),这种"外推"沿 cone 之间的"鞍带"流,把不同 cone 的方向混在一起——learned vθv_\theta边缘速度场 Ex0,ε[εx0]\mathbb{E}_{x_0, \varepsilon}[\varepsilon - x_0](xτ,τ)(x_\tau, \tau) 邻域的局部平均,不属于任何特定 cone。

inference 时 ODE 用这个 vθv_\theta 积分,相当于在锥之间的鞍带上行走。每一步方向跟"任何真实 cone"都有偏差,跨多个 Euler 步累积,落点不在任何训练 cone 尖端附近——可观察就是 zigzag。

这跟 Bonnaire 2025 的两个时间尺度图像是同一现象的两侧。Bonnaire 等人证明 τmemn\tau_{\text{mem}} \propto n:dataset 越大,fmemf_{\text{mem}} 启动越晚——单 epoch 训练时模型其实根本没机会做到 memorize(深度 = 1,empirical score 的尖刺还没被学到)。反过来这一现象的副作用是:模型也没机会学到任何特定 cone 的精细结构。Bonnaire 的"安全窗口"是"还没 memorize"的窗口,本文关心的"trajectory smoothness"是"已经学到 cone 内部结构"的窗口——两者夹住一段"既不抖也不背诵"的训练时长,这段时长才是 FM 训练真正想停留的地方,在广而浅 dataset 上需要大幅增加 NepochN_{\text{epoch}} 才能到达。

六、Beta 调度的赌注:现在有两个 AND 条件

把第一节关于 Qwen-VLA 的 paper 表述拆开——“梯度均匀分配到所有 noise level”——这句在 Beta 密度形状上是错的。Beta 把 noise 端的密度压到接近零,等价于把每条 cone 内部的 (τ,ε)(\tau, \varepsilon) 采样从 noise 端搬到 clean 端。一条 cone 在 τ0\tau \approx 0 邻域被采样得很密,在 τ1\tau \approx 1 邻域被采样得几乎为空。

更准的故事:Beta 是一次赌注,划算的条件是两个 AND——

  • 条件强度成熟:在 noise 端 τ1\tau \approx 1xτεx_\tau \approx \varepsilon,模型几乎拿不到 x0x_0 的信息。要给出合理的 vθv_\theta,模型必须靠 condition 信号(VLM hidden states、image grounding、navi waypoint)反推"该走向哪条 cone”。条件强 → noise 端不需要密集训练。
  • 每条 cone 在 noise 端深度足够:即使 condition 强,cone 内部的 vθv_\theta 也要靠 ε 平均收敛。Beta 让 noise 端密度衰到 1.5/s 的 0.05 倍以下,每条 cone 在 τ0.9\tau \approx 0.9 邻域的有效采样次数 = 总深度 × 0.05 之类的小数。深度不够时 vθv_\theta 在 noise 端还在 noisy 状态,condition 信号撞上 noisy vθv_\theta,cone 选择也不准。

SFT 阶段 VLM 已预训过、条件信号成熟,第一个 AND 满足;如果加 epoch 让每条 cone 在 noise 端的有效采样也够,第二个 AND 也满足,Beta 划算。T2A 阶段没有视觉条件,第一个 AND 不满足,noise 端只能靠 xτx_\tau 自己反推 x0x_0,搬走 noise 端深度 = 双杀,Sigmoid-Normal 把深度堆在中段才是正确选择。

这一条对工程的指导:Beta 调度的开关与"条件成熟 AND 深度充分"同步打开。stage1(VLM 大数据 pretrain,image grounding 还在收敛)阶段提前切到 Beta,第一个 AND 不满足;stage 切换早期 / 总 epoch 还少时切 Beta,第二个 AND 不满足。两个都不满足时 endBend 来自 noise 端 vθv_\theta 的高方差,从 ODE 第一步开始就在欠训区间上跳。

七、depth 是底层杠杆:实证与 reweight 的零和本质

前面六节把三轴框架建好了,回到具体的 endBend 现象。两组对照实验给出的结论高度一致:

ODE step 数加密对 endBend 几乎无效。把同一 ckpt 的 ODE 推理步数从 10 / 20 / 50 sweep,ADE 与 max angle 都基本不变(差异 < 5%)。这条直接否决"加 step 就能修末端"的假设——速度场已经定型,加密 ODE 网格只是更精确地积分一个已经偏的速度场,不修复速度场自身的精度。从乘性 effective density 看也合理:step 数变化不动 pdatap_{\text{data}}p(τ)p(\tau)Var(x0hc)\text{Var}(x_0^h \mid c) 任何一个 multiplier。

epoch 翻倍对 endBend 显著修复。同模型同数据,从 ep80 训到 ep160-192,endBend 的改善幅度跟 ep80 时的初始 endBend 量级成正比——ep80 endBend 32° 的会收到 ~15°,ep80 endBend 69° 的会收到 ~3°。“剧烈失败"的配置改善更大,因为它们离 saturated 状态更远。

更进一步,dataset reweight 的"偏差"也是 depth-bounded 的。一次比较实验里,把训练数据按 mode 重新加权(人为提高 sharp_turn 比例),在 ep80 上观察到模型把 sharp_turn 模式当作 prior、在直行场景里"乱转”——这看起来像 reweight 引入了永久偏差。但同一个配置训到 ep160 时,乱转现象几乎消失:模型最终学会了"靠 condition 选择 mode,prior 不可靠"。这条说明 reweight 不引入永久 bias,只是把 condition → cone 的 mapping 学习推迟。reweight 越极端(marginal 越偏离自然 prior),需要的 depth 越多才能让 condition 信号反学回"prior 不能 trust"。

把这串实证综合起来:

在 depth 不充分的区段,endBend 既来自 vθv_\theta cone 内部 smoothness 不够(看起来像 variance),也来自 condition → cone mapping 没学好(看起来像 bias);两个症状同时存在,不是 trade-off。

之前我会把"广而浅" vs “窄而深"想成"low bias-high variance” vs “high bias-low variance” 的经典 trade-off。但 trade-off 的前提是两端都达到了自身的 asymptotic limit——真实训练永远在欠 depth 区,所有 trade-off 假设都 premature。“窄而深"在 depth 真的够深时,bias 会被 condition mapping 学习吸收;“广而浅"在 depth 真的够深时(每条 cone 至少几十次有效采样),variance 也会消失。唯一的真实约束是 depth 总量在三轴上被乘性 dilute 后,最难角落是否拿到足够采样。

更精准的 mental model:

状态现象
欠 depthvθv_\theta 还在 noisy stageendBend 高,cone 内部 kink + condition mapping 不准
接近 saturatedvθv_\theta 收敛endBend 收到 schedule / 广度 cover 决定的下限
真正的 asymptotic limit“广度封顶”(没见过的 mode 学不出)与"远端 sub-dim 固有方差"两个 ceiling 同时起作用

reweight / schedule / 架构调整都是在 depth 充分前的"加速器”:reweight 加速 long-tail mode 的 cone 覆盖,schedule 加速 ODE 第一步落点的 vθv_\theta 收敛。它们的"伤害"在 depth 不充分时表现为"挪走了某一类样本的有效 depth”——这是个零和操作。

八、跳出三轴:预测参数化与 Mean Flow 视角

三轴 + 乘性 effective density 把"FM 训练资源在哪几个维度上被 dilute"讲完了,但整套框架内嵌了一个没被掀开的默认假设:模型预测 instantaneous 速度场 v(xτ,τ)v(x_\tau, \tau),inference 时用 ODE 多步积分。这个假设决定了所有讨论的形式——schedule 在 τ\tau 上重分配深度、Beta 赌 noise 端 condition 接管、endBend 来自 noise 端 vθv_\theta 的高方差。

凯明系 2025-2026 年的几个工作(JiT / iMF / Pixel Mean Flow / MiniT2I)走的是 D2 姿态——掀掉这个默认假设。看完之后回到 endBend 现象,至少有两条独立的认知升级。

8.1 预测参数化:数学等价 ≠ 训练动力学等价

回到 xτ=(1τ)x0+τεx_\tau = (1-\tau) x_0 + \tau \varepsilon 的线性插值。FM 可以预测三种 target:

  • ε\varepsilon-prediction:网络输出预测 ε^\hat\varepsilon,由 xτx_\tauτ\tau 反解 x^0=(xττε^)/(1τ)\hat x_0 = (x_\tau - \tau \hat\varepsilon) / (1 - \tau)
  • vv-prediction:网络输出预测 v^=ε^x^0\hat v = \hat\varepsilon - \hat x_0,即条件速度场。我们当前 navi VLA 走的就是这条。
  • xx-prediction:网络直接预测 x^0\hat x_0

DDPM 变分基础 里,这三种参数化的 loss 期望值是等价的——同一个 score function 的不同代数形式。但 JiT (Li & He 2025, arXiv:2511.13720) 与 MiniT2I 在像素空间扩散上实测的对照表把"训练动力学等价"这个隐含假设彻底掀掉:

Loss \ Predxx-predε\varepsilon-predvv-pred
xx-loss15.3523.8229.1
ε\varepsilon-loss15.2524.8231.4
vv-loss13.7524.0230.1

MSCOCO FID 在 B/32 + 250K 步 CC12M 预训上,ε\varepsilon- 与 vv-prediction 全部 collapse,只有 xx-prediction 稳定。三者数学等价,训练动力学差几十倍 FID。

机制根因落到 noise 端的 target dynamic range:

  • τ1\tau \approx 1xτεx_\tau \approx \varepsilonεd\|\varepsilon\| \approx \sqrt{d} 是无界的高斯尾。
  • x0x_0 在 data manifold 上有界(轨迹在 100m 内、像素在 [0,1][0, 1] 内)。
  • 预测 ε\varepsilonv=εx0v = \varepsilon - x_0 等于让网络 output 一个 O(d)\mathcal{O}(\sqrt{d}) 量级、随 τ\tau 变化剧烈的 target。
  • 预测 x0x_0 让网络 output 一个有界、跟 τ\tau 关系平稳的 target。

后者 gradient SNR 高一个数量级,尤其在 noise 端——而 noise 端 × 远端 horizon 正是乘性 effective density 公式里最薄的角落。预测参数化是第四个轴,跟 schedule 是"在 τ\tau 端下手"的 sibling 关系:Beta 把训练样本搬到 clean 端避开 noise 端难学;xx-prediction 直接把 noise 端的 target 难度降下来。两条路解决同一问题,做的代价不同。

navi VLA 当前用 vv-prediction,这个选择继承自 robotics VLA 的 π₀ / Qwen-VLA 路线。如果 endBend 在 noise 端的可观察 signature 部分来自 vv-target 的高动态范围而非纯 depth 不足,切换到 xx-prediction 是 cheap ablation——架构不变、数据不变、schedule 不变,只改 head output 和 loss 表达式。可以在 stage1 中段 ckpt 上做对照实验,对比同 epoch 上 endBend(h) 曲线的形状。

8.2 Mean Flow 视角:把"必须多步积分"掀掉

第二个被默认接受的复杂性是 inference 时的多步 ODE 积分。Mean Flow (Geng et al. 2025, NeurIPS Oral, arXiv:2505.13447) 引入平均速度

vˉ(s,t)    1tsstv(xτ,τ)dτ,0s<t1. \bar v(s, t) \;\triangleq\; \frac{1}{t - s} \int_s^t v(x_\tau, \tau) \, d\tau, \qquad 0 \le s < t \le 1.

学到 vˉ\bar v 后单步采样直接 xt=xs+(ts)vˉ(s,t)x_t = x_s + (t - s) \bar v(s, t),端到端取 s=0,t=1s = 0, t = 1 一步 x1=x0+vˉ(0,1)x_1 = x_0 + \bar v(0, 1)。训练 vˉ\bar v 的难点是定义自依赖(vˉ\bar v 出现在自己 loss 的两端,需要 unroll),iMF (Geng et al. 2025, arXiv:2512.02012) 用 stop-gradient 切断自依赖——把瞬时速度 v(xτ,τ)v(x_\tau, \tau)(已经独立训练的 instantaneous head)作为 boot-strap 监督信号。

Mean Flow 视角对 endBend 的诊断价值在于一个 thought experiment:

如果 endBend 主导原因是 ODE 多步积分误差累积(每步小误差 → N 步后大偏差),那 Mean Flow 直接学 vˉ\bar v 应该能 bypass 这个累积。

第七节的 ODE step sweep 实证(step 10 / 20 / 50 上 endBend 几乎不变)已经回答了这个 thought experiment:endBend 不是积分累积主导。step 数从 10 加密到 50,每步 Δτ\Delta\tau 缩小 5 倍,积分累积误差应当显著降低,但 endBend 没动——说明问题在 vθv_\theta 自身在最难角落上的精度,不在多步积分的几何放大。

这条 negative result 是 Mean Flow 带来的最大认知收获——它不是给 navi VLA 用的方法,是用来切片诊断当前框架下哪部分误差归积分、哪部分归 vθv_\theta 自身。step sweep 把后者钳死,剩下的全是前者:vθv_\theta 在 (sharp_turn) × (τ0.9\tau \approx 0.9) × (h=12h = 12) 这个角落不准。Mean Flow 学 vˉ(0,1)\bar v(0, 1) 仍然要在这个角落上得对,没法绕开。

8.3 凯明 D2 应用:跳出三轴去想问题

把上面两点合起来看,凯明系方法论的 D2(“改变问题假设”)在 FM 训练上的姿态可以这样总结:

默认接受的复杂性凯明系做的 D2
三种 prediction 参数化数学等价、随便选JiT 实测 xx-pred 是高维像素空间唯一稳定的;选择决定训练动力学
Inference 必须 ODE 多步积分Mean Flow 直接学 vˉ\bar v,单步采样
Mean Flow 训练目标必须 unrolliMF 用 stop-gradient 切自依赖

放回 navi VLA 末端弯折问题:第七节的结论是"修法靠加 depth",这是在当前框架内的最优动作;本节给的是跳出框架的第二级动作——如果 depth 加到一定程度仍然 plateau 在不满意的 endBend 水平上,下一步不是继续加 depth,是问 prediction 参数化 / 训练 objective 是不是默认接受了过多的复杂性。具体到 navi VLA:

  • xx-prediction ablation 是低成本、可以马上做的对照(架构不动、数据不动、schedule 不动)。
  • Mean Flow 是高成本(训练目标改、需要 stop-gradient 蒸馏 instantaneous head),且 step sweep 实证已经把"积分累积"这条根因排除了,先不动。

这一节的位置就放在"depth 是底层杠杆"(第七节)之后、“诊断流程”(下一节)之前——不是为了否定第七节的结论,是给读者一个 frame:depth saturated 后如果 endBend 还在,问题大概率不在三轴内,需要 D2 级别的动作

九、诊断流程:先确认 depth 是否 saturate

三轴 + 乘性 effective density 给了一个清晰的诊断顺序。任何关于"是 schedule 不对、还是 reweight 错了、还是架构有问题"的判断之前,必须先排除 depth 不足。

Step 1:endBend(ep) 曲线。同模型不同 ckpt 上跑一组 sample,画 endBend 关于训练 epoch 的演化。曲线还在下降 → depth 不够,先继续训,所有其他动作都 premature。曲线 plateau → 进入 Step 2。

Step 2:endBend(h, ep) 二维分布。把 endBend 按物理 horizon hh(waypoint index)拆开,看是否是末端 sub-dim 在拉曲线。如果远端 h9h \geq 9 的 endBend 明显大于近端,说明是物理 horizon 各向异性主导,修法是 per-horizon loss reweight(给远端 waypoint 梯度更高 weight)/ horizon curriculum(先训 4 步、再扩 8 步、最后 12 步)。

Step 3:fix-condition + multi-ε\varepsilon 散布。固定 condition (o,c)(o, c),sample K=16K = 16 条不同初始 ε\varepsilon 跑 ODE,看末端 trajectory 的散布。 散布展开成云、跟 GT 距离散乱 → cone 内部 vθv_\theta 还在收敛,回到 Step 1 加 ep。 散布收紧但跟 GT 有一致角度偏差 → condition 强度不够,stage1 加 image grounding 数据。 散布收紧到 GT 附近 → 训练充分。

Step 4:cluster-level cover 检查。把 dataset 按 trajectory shape 聚类(KMeans KK 大),统计 test sample 落到训练 cluster 邻域的距离。test sample 远离训练 cluster → 广度封顶,需要 cover 新 long-tail mode。

这套流程把"是不是 depth 不够、是不是远端 sub-dim 问题、是不是 condition 不够、是不是广度封顶"四个层级分开诊断,每一步对应不同的工程动作。漏掉 Step 1 是最常见的错误——会把欠 depth 误诊成 schedule / reweight 问题,浪费 ablation 算力。

十、阶段化训练 strategy

把三轴框架代回训练 stage 设计:

Stage主要修哪个轴在 cone 几何上做什么切 Beta schedule 的 gate
stage1 (VLM 大数据 pretrain)条件强度 + 广度(轴 A)让 condition lookup 从 noise 端反推到正确 cone tip;让广度 cover 长尾 coneimage_attention_entropy 收紧前不切
stage2 (AE balanced 数据多 epoch)深度(轴 A)+ 远端 horizon 收敛(轴 C)cone 内 vθv_\theta smooth;per-horizon loss reweight 给远端 sub-dim 更多有效梯度endBend(ep) plateau + image grounding 成熟,两个 AND 都满足才切
stage3 (RL post-training)cone 边界(FDE)防止 ODE 在 cone 尖端附近"漂出去"

stage1 做的是把"条件强度"这个 Beta 划算的第一个 AND 撑起来;stage2 做的是把"深度"这个第二个 AND 撑起来。两个 AND 同时满足才能切 Beta——只满足一个就切是赌错。

诊断当前 navi VLA 的位置:stage1 当前 checkpoint 的 image_attention_entropy 还在 0.94 附近(attention metric 显示 image grounding 未收敛),第一个 AND 没满足;endBend(ep) 曲线观察上仍在下降,第二个 AND 也没满足。下一步动作不是切 schedule、不是动 reweight,是先 stage1 继续训到 entropy 收紧,同时 stage2 加 ep,等两个 metric 都 plateau 再讨论 schedule 切换。


把 “broaden vs deepen vs schedule” 拆成三个正交轴 + 乘性 effective density,比把"schedule 选择"或"数据 reweight"作为主线讲得清楚——后者只是前者的 hyperparameter。三轴 framework 在 cone 几何上有清晰的物理对象,理论锚点从 stochastic interpolant、spectral bias、heteroscedastic regression 三块独立来源汇过来,自产的 trajectory 聚类数据校准了各向异性 cone 的具体形状。endBend 在这套框架下是 depth 在三轴乘性 dilute 后剩在最薄角落的可观察 signal,修复路径是先确认 depth saturated 再谈其他

相关阅读

  • Flow Matching 与一致性模型:FM 的数学起点与最优传输视角。v=E[εx0xτ,τ]v^* = \mathbb{E}[\varepsilon - x_0 \mid x_\tau, \tau] 与条件速度场推导都在那里展开。
  • 扩散模型与自动驾驶规划:DDPM/DDIM/FM 在驾驶规划上的工程位置、CFG 与 AdaLN 条件注入。本文聚焦于 FM 训练动力学,是该文的训练侧延伸。
  • 扩散模型为什么不背诵训练数据:Bonnaire et al. 2025 的两个时间尺度图像、τmemn\tau_{\text{mem}} \propto n 标度律。本文讨论的"cone 内部深度不足导致 zigzag"是该框架"还没 memorize"窗口的另一侧表现,spectral bias 是共用机制。
  • AR Trajectory Tokenization:把 trajectory 按 horizon AR 分解的对偶选择。本文第三节的 conditional entropy chain rule 是 FM joint vs AR 在远端 sub-dim 精度上的结构性差别的解释。
  • Qwen-VLA 解读:T2A → CPT → SFT → RL 四阶段 recipe、Beta vs Sigmoid-Normal 时间步调度切换的原始实证结论。本文用三轴 + 乘性 density 给出该结论的机制层解释,把"条件信号丰富度"细化为"条件成熟 AND 深度充分"两个 AND。
  • Diffusion Planner 与导航注入:navi waypoint 作为条件信号在 diffusion planner 里的注入设计。
  • 凯明的方法论:从 ResNet 到 iMF:第八节"跳出三轴"的 D2 姿态来源;JiT 预测参数化、Mean Flow / iMF 平均速度都是凯明系 D2 在 FM 训练上的具体投影。
  • MiniT2I:把文生图拉回 ImageNet 实验台xx-prediction 在像素空间的 9 组对照 FID 表的来源(B/32 @ 250K 步 CC12M),印证 prediction target 的训练动力学不等价。

参考文献

[1] Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747

[2] Albergo, M. S., & Vanden-Eijnden, E. (2023). Building Normalizing Flows with Stochastic Interpolants. ICLR 2023. arXiv:2209.15571

[3] Karras, T., Aittala, M., Aila, T., & Laine, S. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS 2022. arXiv:2206.00364

[4] Esser, P., Kulal, S., Blattmann, A., et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024. arXiv:2403.03206

[5] Bonnaire, T., Urfin, R., Biroli, G., & Mézard, M. (2025). Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training. NeurIPS 2025 Best Paper.

[6] Rahaman, N., Baratin, A., Arpit, D., et al. (2019). On the Spectral Bias of Neural Networks. ICML 2019. arXiv:1806.08734

[7] Jacot, A., Gabriel, F., & Hongler, C. (2018). Neural Tangent Kernel: Convergence and Generalization in Neural Networks. NeurIPS 2018. arXiv:1806.07572

[8] Kendall, A., & Gal, Y. (2017). What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? NeurIPS 2017. arXiv:1703.04977

[9] Qwen Team. (2026). Qwen-VLA: Unified Vision-Language-Action Model with Stage-wise Pre-training. arXiv:2605.30280. arXiv:2605.30280

[10] Li, T., He, K., et al. (2025). JiT: Jump into Image-space Transformers. CVPR 2026. arXiv:2511.13720

[11] Geng, Z., et al. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral. arXiv:2505.13447

[12] Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generation (iMF). CVPR 2026. arXiv:2512.02012

[13] Wang, X., et al. (2026). MiniT2I: Pixel-space Text-to-Image with Frozen Language Encoder.