Flow Matching 训练的广度、深度与物理 horizon：cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象：trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint，最后两三个点会往内或往外偏一个肉眼可见的角度，定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule：Flow Matching 训练用的 Beta 分布把密度压到 $\tau \approx 0$ ，inference 时 $\tau = 1 \to 0.9$ 这一段处于训练分布的尾端，第一个 Euler 步因此在欠训区间上做了一次大跳，误差被后续步序放大。这个自洽，但只是表象。

继续往下挖，schedule 只是三个轴之一。完整的训练动力学跑在三个正交轴上：

$(x_0, \text{condition})$ 联合空间——dataset 的广度（unique $x_0$ 数量）与深度（每条 cone 被采样的次数）
$\tau$ 轴——schedule 把深度沿 FM 内部时间重分配
物理 horizon 轴——12 个 waypoint 沿距离方向条件熵不同，远端 sub-dim 收敛比近端慢

这三轴在 FM loss 上是乘性叠加的：最难学的角落 = (long-tail $x_0$ ) × (Beta 让出的 noise 端 $\tau$ ) × (远端 waypoint 高方差 sub-dim)。三个 multiplier 相乘，所以 endBend 永远先在末端出现、最晚消失——它是"depth 在三轴上被层层 dilute"后剩在最薄的角落里的可观察残余。

本文把这三轴在 cone 几何上展开。先回顾时间步调度的形式，再引入 cone 几何与三轴正交分解，接上用自产的 trajectory 聚类数据校准 cone 各向异性，最后回到驾驶语境讨论 endBend 的诊断流程和阶段化训练判据。结论先放在前面：末端弯折的第一性修法是加 depth，schedule 切换 / ODE step 增加都是二阶修补，depth 不够之前不要纠结。

一、时间步调度的现状与困惑

Flow Matching 的训练目标可以写成

\mathcal{L}_{\text{FM}} = \mathbb{E}_{\tau \sim p(\tau),\, x_0 \sim p_{\text{data}},\, \varepsilon \sim \mathcal{N}(0, I)} \left[ \left\| v_\theta(x_\tau, \tau) - (\varepsilon - x_0) \right\|^2 \right], \qquad x_\tau = (1 - \tau) x_0 + \tau \varepsilon.

这里 $\tau \in [0, 1]$ 用本文的约定： $\tau = 0$ 是 clean GT， $\tau = 1$ 是纯高斯噪声；inference 时 ODE 从 $\tau = 1$ 往 $\tau = 0$ 积分。 $p(\tau)$ 是时间步采样分布，是训练 hyperparameter。

实践上有三族常见选择：

Uniform： $\tau \sim \mathcal{U}(0, s)$ ，密度恒为 $1/s$ 。
Beta(clean-concentrated)：从均匀 $u \sim \mathcal{U}(0,1)$ 出发，构造 $\tau = s \cdot (1 - u^{2/3})$ ，对应解析密度 $f(\tau) = \frac{3}{2s}\sqrt{1 - \tau/s}$ 。密度在 $\tau \approx 0$ 处达到峰值 $1.5/s$ ，在 $\tau \to s$ 处衰到 0。
Sigmoid-Normal： $\tau = \sigma(z),\, z \sim \mathcal{N}(\mu, \sigma_n^2)$ 。 $\mu = 0,\, \sigma_n = 1$ 时密度集中在 $\tau \in [0.3, 0.7]$ 的中段 noise level。

Qwen-VLA 的消融给了一个明确的实证结论：T2A（text-to-action，无视觉条件）阶段用 Sigmoid-Normal 最优，CPT/SFT（接入视觉条件）阶段切回 Beta；反过来用，两个阶段的成功率掉 5.7~8.3 个百分点。我们当前 navi VLA SFT 用的就是 Beta( $s = 0.999$ )。

三种时间步采样分布的密度曲线对比 Beta(s=0.999)、Uniform 与 Sigmoid-Normal 三种时间步采样分布的解析密度。 $\tau = 0$ 是 clean GT， $\tau = 1$ 是纯噪声；紫色箭头是 ODE inference 方向（ $\tau = 1 \to 0$ ）。Beta 在 clean 端密度峰值 1.5/s，noise 端衰到接近 0——ODE 第一步 $\tau \approx 0.95$ 落在训练分布的极尾端，是 Beta 的"赌注区域"。Qwen-VLA 在 T2A 上的实证：Beta 在 noise 端的密度尾让 T2A（无视觉条件）训练显著退化（5.7~8.3 pp），SFT（有视觉条件）阶段才划算。

下面这段 D3 viz 是同一组密度曲线的交互版,拖动 ODE 步数 slider 看每一步 Euler 落在哪个 $\tau$ 上——能直观读到 Beta 尾端那个"赌注区"具体是哪几步、训练密度有多稀。

三种时间步采样分布的密度曲线（拖动 slider 看 ODE 步数）

Loading visualization...

τ=0 是 clean GT,τ=1 是纯噪声。Beta(s=0.999) 把密度集中在 clean 端,Sigmoid-Normal 集中在中段,Uniform 平均分布。圆点标记是当前选择的 ODE step 数下,每一步 Euler 落在 τ 轴的位置（用 t_i = s·(1-(i/N)^(2/3)) power-law 网格,跟训练 Beta schedule 配套）。看 step 1 的位置——落在 Beta 极尾,训练密度接近 0,这是 Beta 在 noise 端的赌注。

const W = container.clientWidth;
const H = container.clientHeight;
const ctlH = 56;

// HTML 控件容器(slider)
const ctl = document.createElement('div');
ctl.style.cssText = "padding:10px 16px;background:#0f172a;border:1px solid #64748b;border-radius:6px;margin-bottom:8px;color:#f1f5f9;font-size:13px;display:flex;align-items:center;gap:14px;flex-wrap:wrap";
ctl.innerHTML =
  '<label style="font-weight:bold;color:#93c5fd">ODE steps N</label>' +
  '<input type="range" id="' + container.id + '_slider" min="5" max="50" step="1" value="10" style="flex:1;min-width:180px;accent-color:#93c5fd">' +
  '<span id="' + container.id + '_label" style="font-weight:bold;color:#fde047;min-width:48px">N=10</span>' +
  '<span style="color:#e2e8f0;font-size:11.5px">grid: t_i = s·(1−(i/N)^(2/3))</span>';
container.appendChild(ctl);

const svg = d3.select(container).append("svg")
  .attr("width", W).attr("height", H - ctlH);
svg.append("rect").attr("width", W).attr("height", H - ctlH).attr("fill", "#1e293b");

const margin = {top: 50, right: 30, bottom: 60, left: 70};
const iW = W - margin.left - margin.right;
const iH = (H - ctlH) - margin.top - margin.bottom;

const g = svg.append("g")
  .attr("transform", `translate(${margin.left},${margin.top})`);

g.append("rect").attr("width", iW).attr("height", iH)
  .attr("fill", "#0f172a").attr("stroke", "#64748b").attr("stroke-width", 1.5);

const xS = d3.scaleLinear().domain([0, 1]).range([0, iW]);
const yS = d3.scaleLinear().domain([0, 2.2]).range([iH, 0]);

g.append("g").attr("transform", `translate(0,${iH})`)
  .call(d3.axisBottom(xS).ticks(6))
  .selectAll("text").attr("fill", "#f1f5f9").attr("font-size", "11px");
g.append("g").call(d3.axisLeft(yS).ticks(5))
  .selectAll("text").attr("fill", "#f1f5f9").attr("font-size", "11px");

const s = 0.999;
const pts = d3.range(0, 1.001, 0.005);

const beta = pts.map(t => [t, t >= s ? 0 : (3 / (2*s)) * Math.sqrt(1 - t/s)]);
const uniform = pts.map(t => [t, t <= s ? 1/s : 0]);
const signorm = pts.map(t => {
  if (t <= 0 || t >= 1) return [t, 0];
  const logit = Math.log(t / (1 - t));
  const p = Math.exp(-logit*logit/2) / Math.sqrt(2*Math.PI) / (t*(1-t));
  return [t, p];
});

const line = d3.line().x(d => xS(d[0])).y(d => yS(d[1]));

g.append("path").datum(uniform).attr("fill", "none")
  .attr("stroke", "#e2e8f0").attr("stroke-width", 1.8)
  .attr("stroke-dasharray", "5,3").attr("d", line);

g.append("path").datum(signorm).attr("fill", "none")
  .attr("stroke", "#fde047").attr("stroke-width", 2.5).attr("d", line);

g.append("path").datum(beta).attr("fill", "none")
  .attr("stroke", "#93c5fd").attr("stroke-width", 3).attr("d", line);

const styleText = sel => sel
  .attr("paint-order", "stroke").attr("stroke", "#1e293b")
  .attr("stroke-width", 3).attr("font-weight", "bold");

g.append("text").attr("x", iW/2).attr("y", -22)
  .attr("text-anchor", "middle").attr("fill", "#93c5fd")
  .attr("font-size", "14px").call(styleText)
  .text("Training time-density curves on τ ∈ [0,1]");

g.append("text").attr("x", iW/2).attr("y", iH + 38)
  .attr("text-anchor", "middle").attr("fill", "#f1f5f9")
  .attr("font-size", "12px").call(styleText)
  .text("τ (timestep,  0 = clean / GT,  1 = pure noise)");

g.append("text").attr("transform", `translate(-50, ${iH/2}) rotate(-90)`)
  .attr("text-anchor", "middle").attr("fill", "#f1f5f9")
  .attr("font-size", "12px").call(styleText)
  .text("Sampling density  f(τ)");

g.append("line").attr("x1", xS(0.05)).attr("x2", xS(0.95))
  .attr("y1", yS(2.0)).attr("y2", yS(2.0))
  .attr("stroke", "#c084fc").attr("stroke-width", 2.2)
  .attr("marker-end", "url(#arrowend)");

svg.append("defs").append("marker").attr("id", "arrowend")
  .attr("viewBox", "0 0 10 10").attr("refX", 8).attr("refY", 5)
  .attr("markerWidth", 6).attr("markerHeight", 6).attr("orient", "auto")
  .append("path").attr("d", "M 0 0 L 10 5 L 0 10 z").attr("fill", "#c084fc");

g.append("text").attr("x", iW/2).attr("y", yS(2.0) - 8)
  .attr("text-anchor", "middle").attr("fill", "#c084fc")
  .attr("font-size", "11px").call(styleText)
  .text("ODE inference direction: τ goes 1 → 0");

g.append("text").attr("x", xS(0.02)).attr("y", yS(1.55))
  .attr("fill", "#93c5fd").attr("font-size", "11px").call(styleText)
  .text("Beta peak");

// === ODE step markers (interactive) ===
const stepLayer = g.append("g").attr("class", "ode-step-layer");

function densityAt(method, t) {
  if (method === "beta") return t >= s ? 0 : (3/(2*s)) * Math.sqrt(1 - t/s);
  if (method === "uniform") return t <= s ? 1/s : 0;
  if (t <= 0 || t >= 1) return 0;
  const logit = Math.log(t/(1-t));
  return Math.exp(-logit*logit/2) / Math.sqrt(2*Math.PI) / (t*(1-t));
}

const slider = document.getElementById(container.id + "_slider");
const lbl = document.getElementById(container.id + "_label");
slider.addEventListener("input", () => {
  const N = +slider.value;
  lbl.textContent = "N=" + N;
  drawSteps(N);
});
drawSteps(+slider.value);

让人难住的是机制层面的"为什么"。Qwen-VLA paper 一笔带过：“Beta 把梯度均匀分配到所有 noise level，因为 backbone 提供了足够信息让 DiT 拒绝大噪声样本”。但 Beta 密度的形状显示它并不把梯度均匀分配——密度从 $\tau = 0$ 的 1.5 单调降到 $\tau \to s$ 的 0，noise 端拿到的梯度比 clean 端少 30 倍以上。这条解释把现象（Beta 在 SFT 阶段更好）跟机制（梯度分配）接错了。下面用 cone 几何 + 三轴分解重读，能把 schedule 选择放进一个更大的训练动力学图像里。

二、Cone 几何起点：每条 $x_0$ 的训练时间锥

回到 $x_\tau = (1 - \tau) x_0 + \tau \varepsilon$ 这条线性插值。给定一个 clean sample $x_0$ ，把所有可能的 $(\tau, \varepsilon)$ 扫出来，得到的 $x_\tau$ 集合在 $(x_\tau, \tau)$ 空间里构成一个锥：

锥尖在 $\tau = 0$ 处，恰好是 $x_0$ 自己。
锥沿 $\tau$ 增大方向扩张： $\tau$ 处的截面是以 $(1-\tau) x_0$ 为中心、半径正比于 $\tau$ 的球（在高维里）。
锥的开角由 $\|\varepsilon\|$ 的分布决定，纯噪声 $\varepsilon \sim \mathcal{N}(0, I)$ 让锥侧面是渐扩的。

Flow Matching 学的就是这个锥上每一点的回归目标 $v^*(x_\tau, \tau) = \mathbb{E}[\varepsilon - x_0 \mid x_\tau, \tau]$ 。这个解析形式可以追到 Stochastic Interpolant 理论 (Albergo & Vanden-Eijnden 2023)： $v^*$ 是 conditional expectation，要在某点 estimate 准，需要在该点邻域见过足够多 $(x_0, \varepsilon)$ 实例做平均。

inference 时 ODE 从 $\tau = 1$ 处的高斯噪声出发，根据 $v_\theta$ 一路积分，理想情况下沿着某条 cone 的内表面"滑回"它的尖端 $x_0$ 。一个 trajectory dataset 等价于一堆 $x_0$ 锥的集合：每个 GT 轨迹张一个锥，所有锥在 $\tau \to 1$ 处合并成噪声分布，在 $\tau = 0$ 处分散到 data manifold 上。

三、三个正交轴：广度 / 深度 / 物理 horizon

cone 几何让"训练数据的资源"立刻有了直观的对象，但只画一条 cone 不够——需要三个独立轴来刻画 FM 训练真正在分配的东西。

轴 A： $(x_0, \text{condition})$ 联合空间——广度与深度

广度 = dataset 里 unique $x_0$ 的数量，也就是锥的数量。
深度 = 每条锥被采样的次数，也就是锥内部 $(\tau, \varepsilon)$ 点的填充密度。

两者正交：dataset 扩广度不会自动增加每条 cone 的填充密度，而单条 cone 上反复采样不会让模型见到新的 cone tip。

这两个量分别控制 $v_\theta$ 的不同性质：广度决定模型有没有可能 cover 某 mode，深度决定 cover 的 mode 上 $v_\theta$ 是否平滑。理论锚是 Bonnaire et al. 2025 的 $\tau_{\text{mem}} \propto n$ 标度律——同一条 spectral bias 机制既解释 memorization 时间尺度，也解释 conditional structure 学习的样本复杂度。

轴 B： $\tau$ 轴——schedule

Schedule $p(\tau)$ 把广度 × 深度的总预算沿 $\tau$ 轴重分配。Lipman 2023 FM 原 paper 里 $p(\tau)$ 对 asymptotic optimum 无影响，但对收敛速度影响巨大；Karras et al. 2022 (EDM) 给出 schedule 一阶最优条件的解析推导，本质是"训练预算应该按 loss landscape 曲率反比分配"。Beta 把预算往 clean 端搬，Sigmoid-Normal 往中段搬，Uniform 平均摊。

Schedule 不改变广度，也不改变总深度，只改变每条 cone 内部 $(\tau, \varepsilon)$ 采样在 $\tau$ 上的分布形状。Beta 让每条 cone 的 $\tau \approx 0$ 邻域采样得很密、 $\tau \approx 1$ 邻域采样得几乎为空。

轴 C：物理 horizon——多维输出沿距离方向的各向异性

trajectory 是 12 个 waypoint × ~5 维 = 60 维 $x_0$ ，FM 把它当一个整体做去噪。这 60 维不是各向同性的——给定 condition (image + navi)，沿物理 horizon $h$ （waypoint 序号 / 距 ego 距离）的 conditional 分布形态变化巨大：

$h = 1\text{-}3$ 近端：near-deterministic，几乎是当前运动的外推
$h = 4\text{-}7$ 中段：受 navi heading 约束，1-2 个主 mode
$h = 8\text{-}12$ 远端：condition 信号的物理约束随距离衰减，多 mode 分支（微左/微右/速度差异）

这条性质有三块独立的理论支撑：

Heteroscedastic regression（Nix & Weigend 1994 / Kendall & Gal 2017）：homoscedastic L2 loss 在 mixed-variance output 上等价于 inverse-variance-weighted regression。高方差 component 收敛慢、需要更多样本。
Spectral bias / NTK（Rahaman et al. 2019 / Jacot et al. 2018）：NN 在 GD 下先学 Kernel 大特征值方向，小特征值后学。high-conditional-variance sub-dim 对应的 target function 含更多高频成分，被网络后拟合。这跟 Bonnaire 2025 解释 memorization 时间尺度用的是同一机制。
Conditional entropy chain rule： $H(x_0 \mid c) = \sum_h H(x_0^h \mid x_0^{<h}, c)$ 。远端 sub-dim 的 conditional entropy 通常更大，因为 condition 对远端的物理约束随距离衰减。

第三块顺手推出 AR Trajectory Tokenization 在 trajectory 任务上的天然优势：AR 分解 $p(x_0 \mid c) = \prod_h p(x_0^h \mid x_0^{<h}, c)$ 让每个 factor 都是 low-entropy regression。FM joint prediction 一次性 fit 60 维 joint 分布，远端 sub-dim 注定后学——这是 FM trajectory 跟 AR trajectory 在末端 waypoint 精度上的结构性差别。

Depth 是三轴共用的杠杆

三个轴都有自己的 hyperparameter（数据规模 / schedule / loss reweighting / 架构 horizon），但它们共用同一个底层资源：每个梯度更新带来的 effective depth。这个 depth 在三轴上被乘性 dilute：

\text{effective density}(x_0, \tau, h) \,\propto\, p_{\text{data}}(x_0) \times p(\tau) \times \frac{1}{\text{Var}(x_0^h \mid \text{mode})}.

最难学的角落 = (long-tail $x_0$ ) × (Beta 让出的 noise 端 $\tau$ ) × (远端 horizon 高方差 sub-dim)。三个 multiplier 相乘，所以 endBend 永远先在末端出现、最晚消失。

下面这段 D3 viz 把"广度 vs 深度"两种极端 budget 分配画在一张图上——同总预算下，两边对每条 cone 的填充密度差几个数量级。

Cone 几何下的广度 vs 深度分配（轴 A）

Loading visualization...

两个面板的训练预算相同，左侧广而浅（多条 cone、每条只采 1 个点），右侧窄而深（少条 cone、每条采几十个点）。一维投影：x 轴 = τ，y 轴 = x_τ 的一个分量；每条 cone 由其 x_0 处的尖端和往 τ=1 方向扩张的虚线侧面构成；点 = 训练样本。inference 时 ODE 从右侧噪声端往左侧 cone 尖端积分。

const W = container.clientWidth;
const H = container.clientHeight;
const pad = {top: 50, bot: 50, l: 30, r: 30, gap: 30};
const panelW = (W - pad.l - pad.r - pad.gap) / 2;
const panelH = H - pad.top - pad.bot;

const svg = d3.select(container).append("svg")
  .attr("width", W).attr("height", H);
svg.append("rect").attr("width", W).attr("height", H).attr("fill", "#1e293b");

const styleText = sel => sel
  .attr("paint-order", "stroke").attr("stroke", "#1e293b")
  .attr("stroke-width", 3).attr("font-weight", "bold");

function drawPanel(xOff, cones, title, subtitle) {
  const g = svg.append("g").attr("transform", `translate(${xOff},${pad.top})`);
  g.append("rect").attr("width", panelW).attr("height", panelH)
    .attr("fill", "#0f172a").attr("stroke", "#64748b").attr("stroke-width", 1.5);

const xS = d3.scaleLinear().domain([0, 1]).range([20, panelW - 20]);
  const yS = d3.scaleLinear().domain([-3, 3]).range([panelH - 20, 20]);

[0, 0.5, 1].forEach(t => {
    g.append("line").attr("x1", xS(t)).attr("x2", xS(t))
      .attr("y1", panelH - 20).attr("y2", panelH - 15)
      .attr("stroke", "#e2e8f0");
    g.append("text").attr("x", xS(t)).attr("y", panelH - 4)
      .attr("text-anchor", "middle").attr("fill", "#f1f5f9")
      .attr("font-size", "10px").call(styleText)
      .text(`τ=${t}`);
  });

g.append("line").attr("x1", xS(0.92)).attr("x2", xS(0.08))
    .attr("y1", 10).attr("y2", 10)
    .attr("stroke", "#c084fc").attr("stroke-width", 1.6)
    .attr("marker-end", `url(#cone-arrow-${title.length})`);

cones.forEach(({x0, samples, label}) => {
    g.append("line").attr("x1", xS(0)).attr("x2", xS(1))
      .attr("y1", yS(x0)).attr("y2", yS(x0 + 2.3))
      .attr("stroke", "#475569").attr("stroke-width", 0.8)
      .attr("stroke-dasharray", "3,2").attr("opacity", 0.55);
    g.append("line").attr("x1", xS(0)).attr("x2", xS(1))
      .attr("y1", yS(x0)).attr("y2", yS(x0 - 2.3))
      .attr("stroke", "#475569").attr("stroke-width", 0.8)
      .attr("stroke-dasharray", "3,2").attr("opacity", 0.55);

g.append("circle").attr("cx", xS(0)).attr("cy", yS(x0))
      .attr("r", 4.5).attr("fill", "#10b981")
      .attr("stroke", "#1e293b").attr("stroke-width", 0.8);

samples.forEach(({t, e}) => {
      const xt = (1-t)*x0 + t*e;
      g.append("circle").attr("cx", xS(t)).attr("cy", yS(xt))
        .attr("r", 2.4).attr("fill", "#fde047").attr("opacity", 0.85)
        .attr("stroke", "#1e293b").attr("stroke-width", 0.4);
    });

if (label) {
      g.append("text").attr("x", xS(0) - 8).attr("y", yS(x0) + 3)
        .attr("text-anchor", "end").attr("fill", "#10b981")
        .attr("font-size", "10px").call(styleText).text(label);
    }
  });

g.append("text").attr("x", panelW/2).attr("y", -22)
    .attr("text-anchor", "middle").attr("fill", "#93c5fd")
    .attr("font-size", "13px").call(styleText).text(title);
  g.append("text").attr("x", panelW/2).attr("y", -6)
    .attr("text-anchor", "middle").attr("fill", "#f1f5f9")
    .attr("font-size", "11px").call(styleText).text(subtitle);

g.append("text").attr("x", xS(0.5)).attr("y", 26)
    .attr("text-anchor", "middle").attr("fill", "#c084fc")
    .attr("font-size", "10px").call(styleText).text("ODE inference: τ goes 1 → 0");
}

svg.append("defs").selectAll("marker").data([5, 6]).enter()
  .append("marker").attr("id", d => `cone-arrow-${d}`)
  .attr("viewBox", "0 0 10 10").attr("refX", 8).attr("refY", 5)
  .attr("markerWidth", 5).attr("markerHeight", 5).attr("orient", "auto")
  .append("path").attr("d", "M 0 0 L 10 5 L 0 10 z").attr("fill", "#c084fc");

function mulberry32(seed) {
  return function() {
    seed |= 0; seed = seed + 0x6D2B79F5 | 0;
    let t = seed;
    t = Math.imul(t ^ t >>> 15, t | 1);
    t ^= t + Math.imul(t ^ t >>> 7, t | 61);
    return ((t ^ t >>> 14) >>> 0) / 4294967296;
  };
}

四、Cone 是各向异性的：自产聚类数据的校准

第三轴（物理 horizon）不是凭直觉推的，是 trajectory 数据自带的几何性质。把内部 trajectory 数据集（百万 clip 级）做 KMeans 聚类（ $K=2048$ ）按 shape 分四类，每个 cluster 取代表轨迹叠在 ego 坐标系下画出来：

轨迹聚类按 shape 分类（K=2048） $K=2048$ 个 cluster 按 trajectory shape 归类：straight 1569 个（76.6%）、mild_curve 227 个（11.1%）、wide_turn 0 个、sharp_turn 252 个（12.3%）。所有轨迹都从 ego (0, 0) 出发。straight cone 紧致 / 各 horizon lateral spread 都很小；mild_curve cone 中宽且 spread 随 longitudinal 单调增长；sharp_turn cone 极宽，远端 trajectory 大幅 splaying 且明显双 mode（左右双向）。

这张图把第三节的三块理论变成可量化的实证：

轨迹都从 ego 锁定——cone tip 都在原点附近， $\text{Var}(x_0^h)$ 是 $h$ 的增函数完全是 dataset 自带的几何性质，跟模型架构无关。
$\text{Var}(x_0^h \mid \text{mode})$ 在不同 mode 上差几个数量级——straight cone 的远端 spread 大概 $\pm 0.1\,\text{m}$ 级，sharp_turn 远端 spread 是几米级，差 50-100 倍。
sharp_turn 远端 multimodal——同一类 shape、同一起点，远端 trajectory 可能向左也可能向右。即使 condition 信号告诉模型"这是 sharp turn"，远端 sub-dim 上 $P(x_0^h \mid c)$ 还是 wide-support，纯靠 condition lookup 也无法 collapse 到单点。

把这套数字代回乘性分解公式可以估算最难角落的 effective density：

\frac{\text{eff}(\text{sharp},\, \tau{=}0.9,\, h{=}12)}{\text{eff}(\text{straight},\, \tau{=}0,\, h{=}1)} \;\approx\; \frac{0.12}{0.77} \times \frac{0.03}{1.5} \times \frac{0.01}{1} \;\approx\; 3 \times 10^{-5}.

三个 multiplier 相乘的结果：sharp_turn × Beta noise 端 × 远端 waypoint 这个角落的有效采样密度，是 straight × Beta clean 端 × 近端 waypoint 角落的三万分之一。任何在这个角落上的收敛事件，都需要训练时长按这个比例放大才能见到——这就是 endBend 在末端 sharp_turn 上最先暴露、需要最多 epoch 才能消除的几何根源。

五、边缘 vs 条件：为什么"覆盖 $\tau$ “不够

回到广度 / 深度的取舍上。一个常见的反直觉：5 亿样本 × 1 epoch 在边缘分布上跟 1 万样本 × 5 万 epoch 是一样的——任何一个 $(\tau, \varepsilon)$ 桶都被 5 亿次采样过，按经验风险最小化的理论它应该能恢复出干净的 $v^*$ 。但实测的 FM trajectory 数据反复观察到：广而浅训练出的 $v_\theta$ 在 inference 时永远是 zigzag——每一步 Euler 都把噪声累积一次。

机制层面差别在 $v^*$ 是条件期望：

v^*(x_\tau, \tau) = \mathbb{E}_{x_0, \varepsilon \,\mid\, x_\tau, \tau} [\varepsilon - x_0].

要在某个具体点 $(x_\tau, \tau)$ 上估准这个条件期望，需要在该点附近见过多个满足 $(1-\tau)x_0 + \tau \varepsilon = x_\tau$ 约束的 $(x_0, \varepsilon)$ 实例做平均。这种"多个实例"必然来自同一条 cone 内部——隔壁 cone 的实例对应不同的 $x_0$ ，平均它们得到的是不同 cone 的 $v$ 的混合，不是当前 cone 的真实 $v$ 。

广而浅配置下每条 cone 只有 1 个采样点。 $v_\theta$ 在某条 cone 上只能靠"附近 cone 的 1 个采样点"通过 architecture smoothness prior 间接外推。当 cone 之间的方向差异在 $x_0$ 维度上有结构（驾驶轨迹的 $x_0$ 空间确实有 mode 结构：直行、缓弯、急弯各自聚集），这种"外推"沿 cone 之间的"鞍带"流，把不同 cone 的方向混在一起——learned $v_\theta$ 是边缘速度场 $\mathbb{E}_{x_0, \varepsilon}[\varepsilon - x_0]$ 在 $(x_\tau, \tau)$ 邻域的局部平均，不属于任何特定 cone。

inference 时 ODE 用这个 $v_\theta$ 积分，相当于在锥之间的鞍带上行走。每一步方向跟"任何真实 cone"都有偏差，跨多个 Euler 步累积，落点不在任何训练 cone 尖端附近——可观察就是 zigzag。

这跟 Bonnaire 2025 的两个时间尺度图像是同一现象的两侧。Bonnaire 等人证明 $\tau_{\text{mem}} \propto n$ ：dataset 越大， $f_{\text{mem}}$ 启动越晚——单 epoch 训练时模型其实根本没机会做到 memorize（深度 = 1，empirical score 的尖刺还没被学到）。反过来这一现象的副作用是：模型也没机会学到任何特定 cone 的精细结构。Bonnaire 的"安全窗口"是"还没 memorize"的窗口，本文关心的"trajectory smoothness"是"已经学到 cone 内部结构"的窗口——两者夹住一段"既不抖也不背诵"的训练时长，这段时长才是 FM 训练真正想停留的地方，在广而浅 dataset 上需要大幅增加 $N_{\text{epoch}}$ 才能到达。

六、Beta 调度的赌注：现在有两个 AND 条件

把第一节关于 Qwen-VLA 的 paper 表述拆开——“梯度均匀分配到所有 noise level”——这句在 Beta 密度形状上是错的。Beta 把 noise 端的密度压到接近零，等价于把每条 cone 内部的 $(\tau, \varepsilon)$ 采样从 noise 端搬到 clean 端。一条 cone 在 $\tau \approx 0$ 邻域被采样得很密，在 $\tau \approx 1$ 邻域被采样得几乎为空。

更准的故事：Beta 是一次赌注，划算的条件是两个 AND——

条件强度成熟：在 noise 端 $\tau \approx 1$ ， $x_\tau \approx \varepsilon$ ，模型几乎拿不到 $x_0$ 的信息。要给出合理的 $v_\theta$ ，模型必须靠 condition 信号（VLM hidden states、image grounding、navi waypoint）反推"该走向哪条 cone”。条件强 → noise 端不需要密集训练。
每条 cone 在 noise 端深度足够：即使 condition 强，cone 内部的 $v_\theta$ 也要靠 ε 平均收敛。Beta 让 noise 端密度衰到 1.5/s 的 0.05 倍以下，每条 cone 在 $\tau \approx 0.9$ 邻域的有效采样次数 = 总深度 × 0.05 之类的小数。深度不够时 $v_\theta$ 在 noise 端还在 noisy 状态，condition 信号撞上 noisy $v_\theta$ ，cone 选择也不准。

SFT 阶段 VLM 已预训过、条件信号成熟，第一个 AND 满足；如果加 epoch 让每条 cone 在 noise 端的有效采样也够，第二个 AND 也满足，Beta 划算。T2A 阶段没有视觉条件，第一个 AND 不满足，noise 端只能靠 $x_\tau$ 自己反推 $x_0$ ，搬走 noise 端深度 = 双杀，Sigmoid-Normal 把深度堆在中段才是正确选择。

这一条对工程的指导：Beta 调度的开关与"条件成熟 AND 深度充分"同步打开。stage1（VLM 大数据 pretrain，image grounding 还在收敛）阶段提前切到 Beta，第一个 AND 不满足；stage 切换早期 / 总 epoch 还少时切 Beta，第二个 AND 不满足。两个都不满足时 endBend 来自 noise 端 $v_\theta$ 的高方差，从 ODE 第一步开始就在欠训区间上跳。

七、depth 是底层杠杆：实证与 reweight 的零和本质

前面六节把三轴框架建好了，回到具体的 endBend 现象。两组对照实验给出的结论高度一致：

ODE step 数加密对 endBend 几乎无效。把同一 ckpt 的 ODE 推理步数从 10 / 20 / 50 sweep，ADE 与 max angle 都基本不变（差异 < 5%）。这条直接否决"加 step 就能修末端"的假设——速度场已经定型，加密 ODE 网格只是更精确地积分一个已经偏的速度场，不修复速度场自身的精度。从乘性 effective density 看也合理：step 数变化不动 $p_{\text{data}}$ 、 $p(\tau)$ 、 $\text{Var}(x_0^h \mid c)$ 任何一个 multiplier。

epoch 翻倍对 endBend 显著修复。同模型同数据，从 ep80 训到 ep160-192，endBend 的改善幅度跟 ep80 时的初始 endBend 量级成正比——ep80 endBend 32° 的会收到 ~15°，ep80 endBend 69° 的会收到 ~3°。“剧烈失败"的配置改善更大，因为它们离 saturated 状态更远。

更进一步，dataset reweight 的"偏差"也是 depth-bounded 的。一次比较实验里，把训练数据按 mode 重新加权（人为提高 sharp_turn 比例），在 ep80 上观察到模型把 sharp_turn 模式当作 prior、在直行场景里"乱转”——这看起来像 reweight 引入了永久偏差。但同一个配置训到 ep160 时，乱转现象几乎消失：模型最终学会了"靠 condition 选择 mode，prior 不可靠"。这条说明 reweight 不引入永久 bias，只是把 condition → cone 的 mapping 学习推迟。reweight 越极端（marginal 越偏离自然 prior），需要的 depth 越多才能让 condition 信号反学回"prior 不能 trust"。

把这串实证综合起来：

在 depth 不充分的区段，endBend 既来自 $v_\theta$ cone 内部 smoothness 不够（看起来像 variance），也来自 condition → cone mapping 没学好（看起来像 bias）；两个症状同时存在，不是 trade-off。

之前我会把"广而浅" vs “窄而深"想成"low bias-high variance” vs “high bias-low variance” 的经典 trade-off。但 trade-off 的前提是两端都达到了自身的 asymptotic limit——真实训练永远在欠 depth 区，所有 trade-off 假设都 premature。“窄而深"在 depth 真的够深时，bias 会被 condition mapping 学习吸收；“广而浅"在 depth 真的够深时（每条 cone 至少几十次有效采样），variance 也会消失。唯一的真实约束是 depth 总量在三轴上被乘性 dilute 后，最难角落是否拿到足够采样。

更精准的 mental model：

状态	现象
欠 depth： $v_\theta$ 还在 noisy stage	endBend 高，cone 内部 kink + condition mapping 不准
接近 saturated： $v_\theta$ 收敛	endBend 收到 schedule / 广度 cover 决定的下限
真正的 asymptotic limit	“广度封顶”（没见过的 mode 学不出）与"远端 sub-dim 固有方差"两个 ceiling 同时起作用

reweight / schedule / 架构调整都是在 depth 充分前的"加速器”：reweight 加速 long-tail mode 的 cone 覆盖，schedule 加速 ODE 第一步落点的 $v_\theta$ 收敛。它们的"伤害"在 depth 不充分时表现为"挪走了某一类样本的有效 depth”——这是个零和操作。

八、跳出三轴：预测参数化与 Mean Flow 视角

三轴 + 乘性 effective density 把"FM 训练资源在哪几个维度上被 dilute"讲完了，但整套框架内嵌了一个没被掀开的默认假设：模型预测 instantaneous 速度场 $v(x_\tau, \tau)$ ，inference 时用 ODE 多步积分。这个假设决定了所有讨论的形式——schedule 在 $\tau$ 上重分配深度、Beta 赌 noise 端 condition 接管、endBend 来自 noise 端 $v_\theta$ 的高方差。

凯明系 2025-2026 年的几个工作（JiT / iMF / Pixel Mean Flow / MiniT2I）走的是 D2 姿态——掀掉这个默认假设。看完之后回到 endBend 现象，至少有两条独立的认知升级。

8.1 预测参数化：数学等价 ≠ 训练动力学等价

回到 $x_\tau = (1-\tau) x_0 + \tau \varepsilon$ 的线性插值。FM 可以预测三种 target：

$\varepsilon$ -prediction：网络输出预测 $\hat\varepsilon$ ，由 $x_\tau$ 和 $\tau$ 反解 $\hat x_0 = (x_\tau - \tau \hat\varepsilon) / (1 - \tau)$ 。
$v$ -prediction：网络输出预测 $\hat v = \hat\varepsilon - \hat x_0$ ，即条件速度场。我们当前 navi VLA 走的就是这条。
$x$ -prediction：网络直接预测 $\hat x_0$ 。

在 DDPM 变分基础里，这三种参数化的 loss 期望值是等价的——同一个 score function 的不同代数形式。但 JiT (Li & He 2025, arXiv:2511.13720) 与 MiniT2I 在像素空间扩散上实测的对照表把"训练动力学等价"这个隐含假设彻底掀掉：

Loss \ Pred	$x$ -pred	$\varepsilon$ -pred	$v$ -pred
$x$ -loss	15.3	523.8	229.1
$\varepsilon$ -loss	15.2	524.8	231.4
$v$ -loss	13.7	524.0	230.1

MSCOCO FID 在 B/32 + 250K 步 CC12M 预训上， $\varepsilon$ - 与 $v$ -prediction 全部 collapse，只有 $x$ -prediction 稳定。三者数学等价，训练动力学差几十倍 FID。

机制根因落到 noise 端的 target dynamic range：

$\tau \approx 1$ 时 $x_\tau \approx \varepsilon$ ， $\|\varepsilon\| \approx \sqrt{d}$ 是无界的高斯尾。
$x_0$ 在 data manifold 上有界（轨迹在 100m 内、像素在 $[0, 1]$ 内）。
预测 $\varepsilon$ 或 $v = \varepsilon - x_0$ 等于让网络 output 一个 $\mathcal{O}(\sqrt{d})$ 量级、随 $\tau$ 变化剧烈的 target。
预测 $x_0$ 让网络 output 一个有界、跟 $\tau$ 关系平稳的 target。

后者 gradient SNR 高一个数量级，尤其在 noise 端——而 noise 端 × 远端 horizon 正是乘性 effective density 公式里最薄的角落。预测参数化是第四个轴，跟 schedule 是"在 $\tau$ 端下手"的 sibling 关系：Beta 把训练样本搬到 clean 端避开 noise 端难学； $x$ -prediction 直接把 noise 端的 target 难度降下来。两条路解决同一问题，做的代价不同。

navi VLA 当前用 $v$ -prediction，这个选择继承自 robotics VLA 的 π₀ / Qwen-VLA 路线。如果 endBend 在 noise 端的可观察 signature 部分来自 $v$ -target 的高动态范围而非纯 depth 不足，切换到 $x$ -prediction 是 cheap ablation——架构不变、数据不变、schedule 不变，只改 head output 和 loss 表达式。可以在 stage1 中段 ckpt 上做对照实验，对比同 epoch 上 endBend(h) 曲线的形状。

8.2 Mean Flow 视角：把"必须多步积分"掀掉

第二个被默认接受的复杂性是 inference 时的多步 ODE 积分。Mean Flow (Geng et al. 2025, NeurIPS Oral, arXiv:2505.13447) 引入平均速度：

\bar v(s, t) \;\triangleq\; \frac{1}{t - s} \int_s^t v(x_\tau, \tau) \, d\tau, \qquad 0 \le s < t \le 1.

学到 $\bar v$ 后单步采样直接 $x_t = x_s + (t - s) \bar v(s, t)$ ，端到端取 $s = 0, t = 1$ 一步 $x_1 = x_0 + \bar v(0, 1)$ 。训练 $\bar v$ 的难点是定义自依赖（ $\bar v$ 出现在自己 loss 的两端，需要 unroll），iMF (Geng et al. 2025, arXiv:2512.02012) 用 stop-gradient 切断自依赖——把瞬时速度 $v(x_\tau, \tau)$ （已经独立训练的 instantaneous head）作为 boot-strap 监督信号。

Mean Flow 视角对 endBend 的诊断价值在于一个 thought experiment：

如果 endBend 主导原因是 ODE 多步积分误差累积（每步小误差 → N 步后大偏差），那 Mean Flow 直接学 $\bar v$ 应该能 bypass 这个累积。

第七节的 ODE step sweep 实证（step 10 / 20 / 50 上 endBend 几乎不变）已经回答了这个 thought experiment：endBend 不是积分累积主导。step 数从 10 加密到 50，每步 $\Delta\tau$ 缩小 5 倍，积分累积误差应当显著降低，但 endBend 没动——说明问题在 $v_\theta$ 自身在最难角落上的精度，不在多步积分的几何放大。

这条 negative result 是 Mean Flow 带来的最大认知收获——它不是给 navi VLA 用的方法，是用来切片诊断当前框架下哪部分误差归积分、哪部分归 $v_\theta$ 自身。step sweep 把后者钳死，剩下的全是前者： $v_\theta$ 在 (sharp_turn) × ( $\tau \approx 0.9$ ) × ( $h = 12$ ) 这个角落不准。Mean Flow 学 $\bar v(0, 1)$ 仍然要在这个角落上得对，没法绕开。

8.3 凯明 D2 应用：跳出三轴去想问题

把上面两点合起来看，凯明系方法论的 D2（“改变问题假设”）在 FM 训练上的姿态可以这样总结：

默认接受的复杂性	凯明系做的 D2
三种 prediction 参数化数学等价、随便选	JiT 实测 $x$ -pred 是高维像素空间唯一稳定的；选择决定训练动力学
Inference 必须 ODE 多步积分	Mean Flow 直接学 $\bar v$ ，单步采样
Mean Flow 训练目标必须 unroll	iMF 用 stop-gradient 切自依赖

放回 navi VLA 末端弯折问题：第七节的结论是"修法靠加 depth"，这是在当前框架内的最优动作；本节给的是跳出框架的第二级动作——如果 depth 加到一定程度仍然 plateau 在不满意的 endBend 水平上，下一步不是继续加 depth，是问 prediction 参数化 / 训练 objective 是不是默认接受了过多的复杂性。具体到 navi VLA：

$x$ -prediction ablation 是低成本、可以马上做的对照（架构不动、数据不动、schedule 不动）。
Mean Flow 是高成本（训练目标改、需要 stop-gradient 蒸馏 instantaneous head），且 step sweep 实证已经把"积分累积"这条根因排除了，先不动。

这一节的位置就放在"depth 是底层杠杆"（第七节）之后、“诊断流程”（下一节）之前——不是为了否定第七节的结论，是给读者一个 frame：depth saturated 后如果 endBend 还在，问题大概率不在三轴内，需要 D2 级别的动作。

九、诊断流程：先确认 depth 是否 saturate

三轴 + 乘性 effective density 给了一个清晰的诊断顺序。任何关于"是 schedule 不对、还是 reweight 错了、还是架构有问题"的判断之前，必须先排除 depth 不足。

Step 1：endBend(ep) 曲线。同模型不同 ckpt 上跑一组 sample，画 endBend 关于训练 epoch 的演化。曲线还在下降 → depth 不够，先继续训，所有其他动作都 premature。曲线 plateau → 进入 Step 2。

Step 2：endBend(h, ep) 二维分布。把 endBend 按物理 horizon $h$ （waypoint index）拆开，看是否是末端 sub-dim 在拉曲线。如果远端 $h \geq 9$ 的 endBend 明显大于近端，说明是物理 horizon 各向异性主导，修法是 per-horizon loss reweight（给远端 waypoint 梯度更高 weight）/ horizon curriculum（先训 4 步、再扩 8 步、最后 12 步）。

Step 3：fix-condition + multi- $\varepsilon$ 散布。固定 condition $(o, c)$ ，sample $K = 16$ 条不同初始 $\varepsilon$ 跑 ODE，看末端 trajectory 的散布。散布展开成云、跟 GT 距离散乱 → cone 内部 $v_\theta$ 还在收敛，回到 Step 1 加 ep。散布收紧但跟 GT 有一致角度偏差 → condition 强度不够，stage1 加 image grounding 数据。散布收紧到 GT 附近 → 训练充分。

Step 4：cluster-level cover 检查。把 dataset 按 trajectory shape 聚类（KMeans $K$ 大），统计 test sample 落到训练 cluster 邻域的距离。test sample 远离训练 cluster → 广度封顶，需要 cover 新 long-tail mode。

这套流程把"是不是 depth 不够、是不是远端 sub-dim 问题、是不是 condition 不够、是不是广度封顶"四个层级分开诊断，每一步对应不同的工程动作。漏掉 Step 1 是最常见的错误——会把欠 depth 误诊成 schedule / reweight 问题，浪费 ablation 算力。

十、阶段化训练 strategy

把三轴框架代回训练 stage 设计：

Stage	主要修哪个轴	在 cone 几何上做什么	切 Beta schedule 的 gate
stage1 (VLM 大数据 pretrain)	条件强度 + 广度（轴 A）	让 condition lookup 从 noise 端反推到正确 cone tip；让广度 cover 长尾 cone	image_attention_entropy 收紧前不切
stage2 (AE balanced 数据多 epoch)	深度（轴 A）+ 远端 horizon 收敛（轴 C）	cone 内 $v_\theta$ smooth；per-horizon loss reweight 给远端 sub-dim 更多有效梯度	endBend(ep) plateau + image grounding 成熟，两个 AND 都满足才切
stage3 (RL post-training)	cone 边界（FDE）	防止 ODE 在 cone 尖端附近"漂出去"	—

stage1 做的是把"条件强度"这个 Beta 划算的第一个 AND 撑起来；stage2 做的是把"深度"这个第二个 AND 撑起来。两个 AND 同时满足才能切 Beta——只满足一个就切是赌错。

诊断当前 navi VLA 的位置：stage1 当前 checkpoint 的 image_attention_entropy 还在 0.94 附近（attention metric 显示 image grounding 未收敛），第一个 AND 没满足；endBend(ep) 曲线观察上仍在下降，第二个 AND 也没满足。下一步动作不是切 schedule、不是动 reweight，是先 stage1 继续训到 entropy 收紧，同时 stage2 加 ep，等两个 metric 都 plateau 再讨论 schedule 切换。

把 “broaden vs deepen vs schedule” 拆成三个正交轴 + 乘性 effective density，比把"schedule 选择"或"数据 reweight"作为主线讲得清楚——后者只是前者的 hyperparameter。三轴 framework 在 cone 几何上有清晰的物理对象，理论锚点从 stochastic interpolant、spectral bias、heteroscedastic regression 三块独立来源汇过来，自产的 trajectory 聚类数据校准了各向异性 cone 的具体形状。endBend 在这套框架下是 depth 在三轴乘性 dilute 后剩在最薄角落的可观察 signal，修复路径是先确认 depth saturated 再谈其他。

参考文献

[1] Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747

[2] Albergo, M. S., & Vanden-Eijnden, E. (2023). Building Normalizing Flows with Stochastic Interpolants. ICLR 2023. arXiv:2209.15571

[3] Karras, T., Aittala, M., Aila, T., & Laine, S. (2022). Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS 2022. arXiv:2206.00364

[4] Esser, P., Kulal, S., Blattmann, A., et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024. arXiv:2403.03206

[5] Bonnaire, T., Urfin, R., Biroli, G., & Mézard, M. (2025). Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training. NeurIPS 2025 Best Paper.

[6] Rahaman, N., Baratin, A., Arpit, D., et al. (2019). On the Spectral Bias of Neural Networks. ICML 2019. arXiv:1806.08734

[7] Jacot, A., Gabriel, F., & Hongler, C. (2018). Neural Tangent Kernel: Convergence and Generalization in Neural Networks. NeurIPS 2018. arXiv:1806.07572

[8] Kendall, A., & Gal, Y. (2017). What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision? NeurIPS 2017. arXiv:1703.04977

[9] Qwen Team. (2026). Qwen-VLA: Unified Vision-Language-Action Model with Stage-wise Pre-training. arXiv:2605.30280. arXiv:2605.30280

[10] Li, T., He, K., et al. (2025). JiT: Jump into Image-space Transformers. CVPR 2026. arXiv:2511.13720

[11] Geng, Z., et al. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral. arXiv:2505.13447

[12] Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generation (iMF). CVPR 2026. arXiv:2512.02012

[13] Wang, X., et al. (2026). MiniT2I: Pixel-space Text-to-Image with Frozen Language Encoder.

一、时间步调度的现状与困惑#

二、Cone 几何起点：每条 x0x_0 的训练时间锥#

三、三个正交轴：广度 / 深度 / 物理 horizon#

轴 A：(x0,condition)(x_0, \text{condition}) 联合空间——广度与深度#

轴 B：τ\tau 轴——schedule#

轴 C：物理 horizon——多维输出沿距离方向的各向异性#

Depth 是三轴共用的杠杆#

四、Cone 是各向异性的：自产聚类数据的校准#

五、边缘 vs 条件：为什么"覆盖 τ\tau“不够#

六、Beta 调度的赌注：现在有两个 AND 条件#

七、depth 是底层杠杆：实证与 reweight 的零和本质#

八、跳出三轴：预测参数化与 Mean Flow 视角#

8.1 预测参数化：数学等价 ≠ 训练动力学等价#

8.2 Mean Flow 视角：把"必须多步积分"掀掉#

8.3 凯明 D2 应用：跳出三轴去想问题#

九、诊断流程：先确认 depth 是否 saturate#

十、阶段化训练 strategy#

相关阅读#

参考文献#

相关文章