凯明的方法论：从 ResNet 到 iMF —— 一个本质追问者的研究路径

一、辨识度从何而来

何恺明（Kaiming He）的论文有一种一眼能认出的辨识度。

这种辨识度并非来自文风。他的论文写作并不华丽，公式不多，章节短，图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度，但每一次削减都站在一个更深的先验（prior）上，因此不构成 cheating。

ResNet 的核心机制只有一个加号；MoCo 的核心机制只有一个 momentum 更新；MAE 的核心机制只有一个 mask ratio 超参；2025 年的 iMF 在 Flow Matching 之上也只多了一行恒等式重写。每一篇都在告诉你：你以前以为复杂的那些东西，其实不需要。

这并不是反智的"少即是多"口号。一个削减只在站对了先验时才成立——如果先验错了，朴素就变成了 underfit。凯明的辨识度，正是来自他识别哪些先验是稳的、哪些复杂性是冗余的判断力。这种判断力难以通过 prompt 工程移植给一个研究生，因为它来自十年以上的尝试与失败所沉淀出的品味（taste）。

本文做两件事：

以 iMF（Improved Mean Flow，arXiv:2512.02012）为主线深读，把它放进 Flow Matching 与一致性模型的数学框架内，看清它解决了哪个具体的训练稳定性问题；
把 iMF 放回凯明十年的研究脉络里，找出 ResNet（2015）→ Mask R-CNN（2017）→ MoCo（2019）→ MAE（2021）→ SiT/ViTDet（2023）→ Mean Flow/iMF（2025-2026）这条主线上反复出现的方法论 DNA。

二、十年脉络：六个工作，一种姿态

这一节按时间顺序梳理凯明六个标志性工作。每一个都被很多文章讲过，所以这里不展开方法细节，只抓"被默认接受的复杂性是什么"以及"他做了什么削减"。

2.1 ResNet（2015）—— 恒等映射作为先验

2015 年之前的共识：要训练更深的网络，需要更精巧的初始化（Xavier、Kaiming He 本人的 init）、更强的归一化（BatchNorm）、更小心的学习率调度。这些手段都把"梯度消失"当作一个优化问题来解决。

ResNet 的回答不在优化层。它改变了网络应当学习什么的假设——

F(x) = H(x) - x, \quad \text{output} = F(x) + x

让网络学习残差 $F(x)$ 而不是目标映射 $H(x)$ 。当 $H(x) \approx x$ （即在已经够好的层上多堆一些）时，残差 $F(x) \approx 0$ 是一个极易学到的目标。恒等映射成为一个无成本的默认行为，深度网络才得以训练到 152 层、1000 层。

削减的复杂性：复杂初始化、深层归一化、warmup 调度。 站在哪个先验上：当前层的最优输出，往往就是上一层的输出加一个小修正。这个先验在视觉特征金字塔上尤其稳。

2.2 Mask R-CNN（2017）—— 任务的共性结构

物体检测、实例分割、关键点检测在 2017 年之前是三个研究社区，各有各的网络架构、各有各的 SOTA 工作。Mask R-CNN 把三个任务都还原成"在共享特征图上加一个小的预测头"——

分类头是一个线性分类器；
框回归头是一个线性回归器；
分割头是一个小 FCN；
关键点头是一个小热图回归器。

骨干网络（Faster R-CNN 的 RPN + ROIAlign）保持不变。每个任务的"特殊性"被压缩到最后一个轻量化的预测头里。

削减的复杂性：每个任务一个专门架构。 站在哪个先验上：视觉任务都依赖同一个"物体在哪里、是什么"的中间表征，把这个中间表征做对，任务头几乎是平凡的。

2.3 MoCo（2019）—— EMA 替代 large batch

2019 年的对比学习面临一个工程困境：要让 InfoNCE 损失有意义，负样本数必须很大；要负样本多，要么开超大的 batch（SimCLR 用 8192 batch），要么维护一个 memory bank（Wu et al. 2018）。两者都笨重。

MoCo 的解法是一个 momentum encoder——把 key 编码器作为 query 编码器的 EMA（exponential moving average）：

\theta_k \leftarrow m \theta_k + (1 - m) \theta_q, \quad m = 0.999

负样本队列由 momentum encoder 产生，编码器更新慢，队列里的特征因此长期一致。EMA 这一个机制同时解决了"负样本要多"和"负样本特征要一致"两个问题。

削减的复杂性：超大 batch、显式 memory bank、记忆库刷新策略。 站在哪个先验上：好的表征应当对慢变化稳定，EMA 是这个先验最简单的实现。

2.4 MAE（2021）—— 一个超参承担全部归纳偏置

掩码自编码器（Masked Autoencoder）的设计极简：随机遮掉 75% 的图像 patch，让一个非对称结构 encoder-decoder 重建被遮的部分。encoder 只看可见的 25%，decoder 看全部位置但参数小。

整个方法只有一个关键超参——mask ratio。其他都是直接借用：编码器是标准 ViT，损失是普通的 MSE，没有对比损失，没有 momentum 网络，没有蒸馏。

为什么 75% 这个数字管用？因为图像在空间上是高度冗余的，遮 75% 仍能从 25% 重建；如果遮 15%（BERT 的 NLP 默认值），任务太容易，学不到东西。这个数字本身就是对图像归纳偏置的精确刻画——用一个超参承担了几乎全部的设计。

削减的复杂性：对比损失、辅助任务、专门的掩码 token 设计、复杂的 augmentation。 站在哪个先验上：图像的空间冗余足以让重建任务在高 mask ratio 下仍可解，并且只有在高 ratio 下，重建任务才需要"真正理解"图像。

2.5 SiT / ViTDet（2023）—— 拆掉任务专用骨干

ViT 在 2020 年提出后，社区里默认 detection、segmentation 这些"位置敏感"的任务还是要用专门改造过的骨干（Swin、PVT 之类的金字塔结构）。ViTDet 把一个普通的、没有金字塔的、不带 shifted window 的 ViT 直接接在 Mask R-CNN 上，证明 plain ViT + 简单的特征金字塔后处理足以匹敌专门设计。

SiT 在生成方向上做了同样的事——把扩散 transformer 中各种针对生成的特殊设计（特殊 conditioning、特殊 attention）拆掉，回到标准 transformer 形式。

削减的复杂性：金字塔结构、shifted window、生成专用 transformer 改造。 站在哪个先验上：任务的视觉先验早就被 ViT 的 self-attention 表达了，再为每个任务定制骨干是过设计。

2.6 Mean Flow / iMF（2025-2026）—— 把训练目标的自依赖消掉

Flow Matching 把生成建模写成一个 ODE：从噪声 $x_0$ 到数据 $x_1$ 学习一个速度场 $v(x_t, t)$ 。要采样得多步积分（NFE = 25–50）。

Mean Flow（Geng et al. 2025）想做单步：学习平均速度 $\bar v(s, t) = \frac{1}{t-s}\int_s^t v(\tau)d\tau$ ，单步采样直接 $x_t = x_s + (t-s)\bar v(s, t)$ 。

但训练目标的定义里 $\bar v$ 会出现在自己 loss 的两端，导致 unroll 计算图、训练不稳定。

iMF（Geng et al. 2025-12，arXiv:2512.02012）的削减只有一句话：用 stop-gradient 的 $v(x_\tau, \tau)$ 作为 boot-strap 的监督信号，避免 unroll。

削减的复杂性：unroll 计算图、蒸馏教师模型、对抗损失、感知损失。 站在哪个先验上：平均速度与瞬时速度之间有一个恒等式，恒等式的右端不显式依赖待优化的平均速度网络，因此可以用瞬时速度做监督。这一点下一节会展开。

2.7 共同 DNA

把六个工作并排放，能抽出四条贯穿性的方法论 DNA。

DNA	在这六个工作中的体现
D1 朴素到极致	ResNet=加号；MoCo=EMA；MAE=mask；iMF=stop-gradient。每一个削减都把方法压到不能再压。
D2 改变问题假设	ResNet 不在优化层求解梯度消失，而是改变网络学什么；MAE 不在对比损失上做文章，而是改变监督信号的生成方式；iMF 不在 unroll 上做工程优化，而是改变监督目标的定义。
D3 强先验、轻假设	每个工作的显式假设都很轻（identity 是好的、mask 25% 可见足够、EMA 给出慢变化、平均速度可解析），但每一条假设背后都有一个强先验（视觉残差结构、空间冗余、表征稳定性、速度场可积分）。
D4 方法与任务解耦	ResNet 不绑定于分类（后来用于检测、分割、NLP、AlphaGo），MAE 不绑定于 ImageNet（后来用于音频、视频、跨模态），iMF 也不绑定于 ImageNet 256（理论上可移植到任何 Flow Matching 训练）。

这四条是观察凯明工作时的稳定回归（regression line）。下文的 iMF 深读，会反复回到这四条。

另一张视角下的对照可以更直观——按"默认接受的复杂性 / 这篇做了什么削减 / 削减依赖的先验"列三列：

工作	默认接受的复杂性	这篇的削减	削减依赖的先验
ResNet	复杂初始化 + BN + warmup 才能训练深网	$F(x)+x$ 一个加号	当前层输出 $\approx$ 上一层输出 + 小修正
Mask R-CNN	每个视觉任务一个专门架构	共享骨干 + 多任务轻量头	任务都依赖同一个"物体在哪、是什么"的中间表征
MoCo	超大 batch 或 memory bank	momentum encoder	好表征对慢变化稳定
MAE	对比损失、辅助任务、复杂 augment	一个 mask ratio	图像在空间上高度冗余
ViTDet / SiT	任务专用骨干（金字塔、shifted window）	plain ViT	self-attention 已表达视觉先验
iMF	unroll 计算图、蒸馏教师	一个 stop-gradient	平均速度与瞬时速度有解析恒等式

读者解读：这张对照表的价值在于把"凯明方法论"这种模糊的口号落到可检验的描述。每一行的第三列（依赖的先验）才是判断哪些朴素方法能成立、哪些朴素方法是 underfit 的分水岭。Mask R-CNN 的先验在 detection-segmentation-keypoint 这三个任务上很稳，但如果再加上 OCR 或 medical imaging，“中间表征通用"这个先验未必成立，多任务头方案就会退化为欠拟合。同理，MAE 的"空间冗余"先验在自然图像上很稳，但在医学影像（高频纹理重要）、卫星图像（多光谱通道之间相关性弱）、文档图像（文字密集）上是否成立，是开放问题。把凯明的工作看作"先验的精确投放”，比看作"少即是多"要准确得多。

三、主线深读：iMF

iMF 是这次 CVPR 2026 五篇里数学含量最高的一篇，也是最能体现 D1–D4 的一篇。这一节按"Flow Matching 基础 → Mean Flow 动机 → iMF 的关键恒等式 → 自依赖如何消除 → 与一致性模型的关系 → 代码层面 → 实验"展开。

3.1 Flow Matching 的训练目标

回顾 Flow Matching 与一致性模型中的 Conditional Flow Matching（CFM）训练目标：给定噪声分布 $q(x_0)$ 和数据分布 $p(x_1)$ ，在 $t \in [0, 1]$ 上沿条件概率路径 $p_t(x | x_1)$ 走，对应的条件速度场为 $u_t(x | x_1)$ 。模型 $v_\theta(x_t, t)$ 的训练损失是

\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, q(x_0), p(x_1)}\left[\|v_\theta(x_t, t) - u_t(x_t | x_1)\|^2\right].

OT-CFM 取直线插值 $x_t = (1-t) x_0 + t x_1$ ，条件速度退化为常数 $u_t = x_1 - x_0$ 。这样的训练目标已经可以在 25–50 步积分采样下匹敌 DDPM 多步采样，但仍不是单步生成。

3.2 Mean Flow 的核心定义

Mean Flow（Geng et al. 2025）引入平均速度：

\bar v(s, t) \;\triangleq\; \frac{1}{t - s} \int_s^t v(x_\tau, \tau) \, d\tau, \qquad 0 \le s < t \le 1.

平均速度的物理意义是从 $s$ 到 $t$ 这一段时间内 $x$ 的总位移除以总时间。当模型学到 $\bar v$ 后，单步采样很直接：

x_t = x_s + (t - s)\, \bar v(s, t).

特别地， $s = 0$ 、 $t = 1$ 时只走一步即得到 $x_1 \approx x_0 + \bar v(0, 1)$ 。问题转化为：如何训练 $\bar v$ ？

3.3 关键恒等式：平均速度与瞬时速度

对平均速度的定义对 $t$ 求导：

\frac{\partial}{\partial t} \Big[(t-s)\, \bar v(s, t)\Big] = v(x_t, t).

展开左端：

\bar v(s, t) + (t - s)\, \frac{\partial \bar v}{\partial t} = v(x_t, t).

整理：

\boxed{\;\bar v(s, t) \;=\; v(x_t, t) \;-\; (t - s)\, \frac{\partial \bar v(s, t)}{\partial t}\;}

这就是 Mean Flow 论文里的核心恒等式（Identity）。它的关键性质是：

右端的第一项 $v(x_t, t)$ 是瞬时速度场，可以独立训练（直接 CFM）；
右端的第二项 是 $\bar v$ 对 $t$ 的偏导数，通过 JVP（Jacobian-Vector Product）可以从网络对 $t$ 的依赖自动求出。

恒等式给出了一个递归式监督信号：知道 $v$ 和 $\bar v$ 对 $t$ 的导数，就能算出 $\bar v$ 本身应当是什么。

值得展开的一点是，恒等式的几何含义并不复杂。把 $x$ 从 $s$ 走到 $t$ 这一段时间内的位移记作 $D(s, t) = (t-s)\bar v(s, t)$ 。位移对终点时间 $t$ 的导数自然等于终点的瞬时速度 $v(x_t, t)$ ——这是基础微积分。恒等式只是把位移导数展开成"平均速度 + 平均速度对时间的修正项"，没有任何隐藏的物理假设。换言之，恒等式是定义的直接推论，不依赖任何模型形式或数据分布的假设。这一性质让 Mean Flow 的 prior 极其稳——只要 $v$ 的训练目标本身是良定义的，Mean Flow 的训练目标就跟着良定义。

下面的可视化把"为什么 mean velocity 让 1 步 = 25 步的平均效果"这件事在二维上演示出来：从同一组起点出发，三条采样轨迹分别用 25 步 FM、2 步 iMF、1 步 iMF 走向同一个 GMM 目标分布。注意终点偏差——1 步 iMF 用 $\bar v(0,1)$ 直接跳到与 25 步 FM 几乎相同的终点位置，而中间路径完全不同：这正是 mean velocity 与 instantaneous velocity 的本质区别。

iMF 平均速度场：1-NFE vs 25-NFE 的采样轨迹

Loading visualization...

同一组起点（高斯）出发，三种采样方式到达同一个 2D 三模 GMM 目标。绿：25 步多步 FM（沿 instantaneous v(x,t) 走 25 小步，黄色路径）；橙：2 步 iMF（两段 mean velocity 跳跃）；红：1 步 iMF（单步用 ̄v(0,1) 直接跳到终点）。注意：mean velocity 让 1 步终点 ≈ 25 步终点（在 sample 层面），但中间路径完全不同——loss 上两者不等价，只在最终分布上等价。

const W = container.clientWidth;
const H = container.clientHeight;
const margin = {top: 36, right: 24, bottom: 60, left: 24};
const iW = W - margin.left - margin.right;
const iH = H - margin.top - margin.bottom;

const svg = d3.select(container).append("svg").attr("width", W).attr("height", H);
svg.append("rect").attr("width", W).attr("height", H).attr("fill", "#1a1a2e");

const g = svg.append("g").attr("transform", `translate(${margin.left},${margin.top})`);
g.append("rect").attr("width", iW).attr("height", iH).attr("fill", "#16213e").attr("stroke", "#475569");

const xs = d3.scaleLinear().domain([-3.5, 3.5]).range([10, iW - 10]);
const ys = d3.scaleLinear().domain([-2.5, 2.5]).range([iH - 10, 10]);

// GMM target: three modes
const modes = [[-1.8, 0.8], [1.8, 0.8], [0, -1.6]];
modes.forEach(m => {
  for (let i = 0; i < 80; i++) {
    const ang = Math.random() * 2 * Math.PI;
    const r = 0.3 * Math.sqrt(Math.random());
    g.append("circle").attr("cx", xs(m[0] + r*Math.cos(ang))).attr("cy", ys(m[1] + r*Math.sin(ang))).attr("r", 1.6).attr("fill", "#22c55e").attr("opacity", 0.45);
  }
});
g.append("text").attr("x", iW/2).attr("y", iH - 8).attr("text-anchor", "middle").attr("fill", "#e2e8f0").attr("font-size", 12).attr("font-weight", "bold").text("绿色 cloud = GMM 目标分布");

// Initial particles (Gaussian around (0, 2.0))
let s = 13;
function r() { s = (s*1103515245 + 12345) & 0x7fffffff; return s / 0x7fffffff; }
function gauss() { const u = Math.max(1e-6, r()); const v = r(); return Math.sqrt(-2*Math.log(u)) * Math.cos(2*Math.PI*v); }

// Instantaneous v(x, t) — curved field that bends toward chosen target with mild curvature
function v_inst(x, y, t, tx, ty) {
  // straight base + sinusoidal perturbation to mimic curved FM trajectory
  const dx = tx - x, dy = ty - y;
  const dt = Math.max(1e-3, 1 - t);
  const vx = dx / dt;
  const vy = dy / dt + 0.8 * Math.sin(t * Math.PI) * (tx > 0 ? 1 : -1);
  return [vx, vy];
}

// Mean velocity: just (target - x0)/(t - s) — since by Mean Flow definition end-to-end mean = displacement / time
function v_mean(x, y, t1, t2, tx, ty, x0, y0) {
  // average velocity from time s=0 (start at x0,y0) to time t (here we approximate using endpoint)
  return [(tx - x0) / 1.0, (ty - y0) / 1.0];
}

function run() {
  g.selectAll(".traj, .head, .start").remove();
  particles.forEach((p, i) => {
    // start point
    g.append("circle").attr("class", "start").attr("cx", xs(p.x0)).attr("cy", ys(p.y0)).attr("r", 3).attr("fill", "#ef4444").attr("opacity", 0.7);

// 25-step FM (yellow)
    const NFM = nfe;
    let path1 = [[p.x0, p.y0]];
    let x = p.x0, y = p.y0;
    const dt1 = 1.0 / NFM;
    for (let k = 0; k < NFM; k++) {
      const t = k / NFM;
      const [vx, vy] = v_inst(x, y, t, p.target[0], p.target[1]);
      x += vx * dt1; y += vy * dt1;
      path1.push([x, y]);
    }
    g.append("path").attr("class", "traj").attr("d", d3.line().x(d=>xs(d[0])).y(d=>ys(d[1]))(path1)).attr("fill","none").attr("stroke","#fbbf24").attr("stroke-width", 1.4).attr("opacity", 0.85);
    g.append("circle").attr("class","head").attr("cx", xs(path1[path1.length-1][0])).attr("cy", ys(path1[path1.length-1][1])).attr("r", 3.5).attr("fill", "#fbbf24");

// 2-step iMF (orange) — split into two mean-velocity jumps
    const mid = [(p.x0 + p.target[0]) / 2, (p.y0 + p.target[1]) / 2];
    const path2 = [[p.x0, p.y0], mid, p.target];
    g.append("path").attr("class","traj").attr("d", d3.line().x(d=>xs(d[0])).y(d=>ys(d[1]))(path2)).attr("fill","none").attr("stroke","#f97316").attr("stroke-width", 1.8).attr("opacity", 0.9).attr("stroke-dasharray", "4,2");
    g.append("circle").attr("class","head").attr("cx", xs(p.target[0])).attr("cy", ys(p.target[1])).attr("r", 3.5).attr("fill", "#f97316");

// 1-step iMF (red) — direct jump
    const path3 = [[p.x0, p.y0], p.target];
    g.append("path").attr("class","traj").attr("d", d3.line().x(d=>xs(d[0])).y(d=>ys(d[1]))(path3)).attr("fill","none").attr("stroke","#dc2626").attr("stroke-width", 2.4).attr("opacity", 0.95);
    g.append("circle").attr("class","head").attr("cx", xs(p.target[0])).attr("cy", ys(p.target[1])).attr("r", 3.5).attr("fill", "#dc2626").attr("stroke", "#fff").attr("stroke-width", 0.8);
  });
}

let nfe = 25;
run();

const ctrl = d3.select(container).append("div").attr("style", "text-align:center; margin-top:8px; font-size:13px; color:#ddd;");
ctrl.append("span").text("多步 FM 的 NFE: ");
const lbl = ctrl.append("span").attr("style", "display:inline-block; min-width:30px; color:#fbbf24; font-weight:bold;").text("25");
ctrl.append("input").attr("type", "range").attr("min", 5).attr("max", 50).attr("value", 25).attr("step", 1).attr("style", "width:240px; margin:0 10px; vertical-align:middle;").on("input", function() { nfe = +this.value; lbl.text(nfe); run(); });

const legend = d3.select(container).append("div").attr("style", "text-align:center; margin-top:6px; font-size:12px; color:#f1f5f9;");
legend.append("span").attr("style", "color:#fbbf24; margin:0 10px;").text("● 多步 FM（弯曲）");
legend.append("span").attr("style", "color:#f97316; margin:0 10px;").text("● 2-NFE iMF");
legend.append("span").attr("style", "color:#dc2626; margin:0 10px;").text("● 1-NFE iMF (mean v)");
legend.append("span").attr("style", "color:#ef4444; margin:0 10px;").text("● 起点");

3.4 Mean Flow 的自依赖问题

朴素 Mean Flow 的实现是把恒等式直接当作损失：

\mathcal{L}_{\text{MF}}^{\text{naive}} = \mathbb{E}\Big[\|\bar v_\theta(s, t) - \big(v_\theta(x_t, t) - (t-s)\partial_t \bar v_\theta\big)\|^2\Big].

注意 RHS 里既有 $v_\theta$ 又有 $\bar v_\theta$ 的导数，而 LHS 也是 $\bar v_\theta$ 。如果让梯度同时穿过 LHS 和 RHS，相当于在做 unroll：网络的当前输出依赖于网络对自身的微分，优化器在追自己的尾巴。表现出来就是训练剧烈震荡、loss 曲线噪声很大、需要小学习率和长 warmup 才能收敛，且对超参极敏感。

这正是凯明在 D2 中反复出现的判断时机：当工程层面（小 lr、warmup、二阶优化）已经成为常态，他通常会回去问——问题的定义是不是出错了？

3.5 iMF：用 stop-gradient 切断闭环

iMF 的核心修改：把 RHS 里出现的 $v_\theta$ 用 stop-gradient 包起来（记作 $\mathrm{sg}[\cdot]$ ），不让梯度回传：

\mathcal{L}_{\text{iMF}} = \mathbb{E}\Big[\|\bar v_\theta(s, t) - \big(\mathrm{sg}[v_\theta(x_t, t)] - (t-s)\,\mathrm{sg}[\partial_t \bar v_\theta]\big)\|^2\Big].

这一行有几个直接的后果：

target 变成 boot-strap 目标：RHS 是一个数值固定的标量目标（在当前 mini-batch 内），LHS 才是被优化的预测。问题从"自我闭环"退化为"标准回归"。
不需要 unroll 计算图：JVP 只需要前向算一次，反向不再二阶。显存占用从 $O(L^2)$ 量级降回 $O(L)$ 。
训练曲线平稳：iMF 报告在同样架构下 FID 训练曲线噪声远小于 naive Mean Flow，learning rate 可以提高到正常 transformer 训练的量级。

这是典型的 D1+D2：削减是一行 stop-gradient（D1 朴素到极致），但削减背后的判断是"训练目标的定义里隐藏着自依赖，目标本身错了"（D2 改变问题假设）。

3.6 与一致性模型（Consistency Model）的关系

iMF 与 Song et al. 2023 的 Consistency Model（CM）属于同一类思想的两种表达。两者都遇到同样的核心困难——避免对自身预测的 unroll——也都用 stop-gradient 类的技巧化解。

维度	Consistency Model	iMF
学的对象	denoiser $f(x_t, t) \to x_0$	mean velocity $\bar v(s, t)$
监督目标的形式	$f(x_t, t) \approx f_{\text{EMA}}(x_{t-\Delta t}, t-\Delta t)$	$\bar v \approx \mathrm{sg}[v] - (t-s)\,\mathrm{sg}[\partial_t \bar v]$
切断梯度的工具	EMA 教师网络	stop-gradient 当前网络
学得的几何对象	端点映射（噪声 → 干净图像）	时间段平均速度

两者的差异本质上是"在哪个空间施加一致性约束"——CM 在 denoiser 空间，iMF 在 velocity 空间。详细推导见 Flow Matching 与一致性模型中的一致性模型一节。

3.7 训练循环伪代码

iMF 的训练循环大概长这样（简化版，省略 CFG 与多 token 条件）：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
def imf_train_step(model, x1_batch, optimizer):
    # 1. sample timesteps s < t and noise x0
    s, t = sample_pair(0, 1)              # (B,), (B,)
    x0   = torch.randn_like(x1_batch)
    xt   = (1 - t) * x0 + t * x1_batch    # OT-CFM linear interp

    # 2. instantaneous velocity v(x_t, t) (stop-gradient target)
    with torch.no_grad():
        v_inst = model.v_head(xt, t)      # OT-CFM target

    # 3. mean velocity prediction and its time-derivative
    vbar, dvbar_dt = jvp(
        lambda tau: model.vbar_head(xt, s, tau),
        (t,), (torch.ones_like(t),)
    )                                     # forward-mode AD on t

    # 4. iMF target with stop-gradient on both terms
    target = v_inst.detach() - (t - s).unsqueeze(-1) * dvbar_dt.detach()
    loss   = F.mse_loss(vbar, target)

    loss.backward()
    optimizer.step()

关键的两处 .detach() 即 stop-gradient——若去掉它们，训练会立刻退化为 naive Mean Flow，曲线会震荡。这就是 iMF 全部的代码改动。

3.8 实验数字（必须谨慎报告）

iMF 报告在 ImageNet 256 $\times$ 256（256 分辨率，而非 512 $^2$ ）、模型尺寸 XL/2（DiT-XL/2 同规模、约 675M 参数）、640 epoch 长训练下，1-NFE FID 1.72；2-NFE FID 1.54。对比基线：

模型	训练方式	NFE	ImageNet 256² FID
iMF-XL/2	从零训练，无蒸馏	1	1.72
iMF-XL/2	从零训练	2	1.54
FACM-XL/2	蒸馏	1	1.76
DMF-XL/2+	蒸馏	1	2.16
SiT-XL/2 + REPA	多步扩散	50	1.42

需要小心的一点是：iMF 的 1-NFE FID 与 SiT-XL/2+REPA 的 50-NFE FID 之间的差距（1.72 vs 1.42）不能直接比"单步够用了"。NFE 不同的方法应当在同 throughput 预算下比较，而不是同 FID 下比较；这一点会在第五节批判中展开。

读者解读：表中四行覆盖了两个关键对照——（一）iMF 1-NFE vs 蒸馏方法 1-NFE：iMF 1.72 优于 FACM 的 1.76 和 DMF 的 2.16，说明无蒸馏路径在 1-NFE 上已经超过有蒸馏路径；（二）iMF 多步 vs 多步扩散基线：iMF 2-NFE 1.54 接近 SiT+REPA 50-NFE 的 1.42，意味着多步采样并不只属于 score-based 模型，平均速度场也能在多步下继续受益。这两个对照合起来才支持"无蒸馏单步生成是可行路径"的论断。

四、五篇论文的方法论共性

CVPR 2026 五篇——VARC、JiT、BiFlow、iMF、Pixo——这里不展开各自的方法细节，只抓一个共性：每一篇都精确地砍掉了一个被默认接受的部件。

论文	默认接受的复杂性	这篇的削减	对应 DNA
JiT（arXiv:2511.13720）	扩散模型必须预测 $\varepsilon$ 或 $v$ ；图像必须经过 VAE tokenizer	直接预测 $x$ ；扔掉 VAE	D2（改变问题假设）+ D1（朴素到极致）
VARC（arXiv:2511.14761）	抽象推理必须借助语言模型	纯视觉 ViT + 画布 + 测试时训练	D2 + D4（解耦于 LLM 范式）
BiFlow（arXiv:2512.10953）	归一化流的逆向必须精确等于前向的逆	用单独的 transformer 近似逆向	D2 + D3（先验：逆向不必精确，监督已足够约束）
iMF（arXiv:2512.02012）	Mean Flow 的训练目标必须 unroll	stop-gradient 切断自依赖	D1 + D2
Pixo（arXiv:2512.15715）	大规模自监督必须在潜空间做	像素空间 + 20 亿图像 + 自筛选	D2 + D4

把 VARC、JiT、BiFlow、iMF、Pixo 这五篇并列，发现它们都是同一种姿态的不同投影：找到一个被默认接受、但没被深究过的复杂性，证明它可以被削掉。 这种姿态正是 §2.7 的 D1+D2 在 2026 年的集中爆发。

要注意 D3 在五篇中的隐含分布。BiFlow 的"逆向不必精确"看起来像是放松了约束，其实背后的先验很强——监督信号在两端配合下足以约束逆向到与真逆一致的程度。Pixo 的"像素监督也 work"的先验是图像在 20 亿规模下的多样性足以让重建任务成为有意义的监督。如果先验不对，每一项削减都会变成欠拟合。

延伸阅读建议：把五篇放在 SDE/ODE 统一框架与扩散模型的变分基础的视角下重新读，会发现 JiT 与 iMF 的预测目标改写其实是在同一个 $\varepsilon$ / $v$ / $x$ / $\bar v$ 参数化族里跳来跳去。哪一种参数化最稳定，取决于具体的训练动力学与数据分布——这本身是 DDPM 变分理论早就讨论过的问题。

五、批判：朴素路线的硬伤

凯明的方法论是真的好，但写到这里就停下不是负责任的做法。有三处明显的硬伤值得讨论。

第一，taste 是不可复制的，简单方法在评审制度下有隐形特权。MoCo、MAE、iMF 这种"我只改了一行"式的论文，如果作者换成无名研究生而非凯明，评审能给出同样的尊重吗？很可能不能。评审天然倾向于看到"工作量"——更多方程、更多消融、更多对比。这意味着朴素方法的成立依赖于作者声誉，而声誉本身来自更早的朴素方法被接受。这是一个先有鸡先有蛋的循环。换言之，“朴素到极致"作为方法论，对学术评审制度的鲁棒性远低于"工作量到极致”。年轻研究者直接学凯明的姿态，往往会发现自己的论文连一审都过不去。

第二，所有重大工作都在 vision domain，泛化性是开放问题。ResNet、Mask R-CNN、MoCo、MAE、ViTDet、SiT、iMF 全在 vision 上做。视觉数据有几个非常友好的归纳偏置——局部性、平移不变性、多尺度、空间冗余——这些偏置天然支持朴素方法（mask 75% 还能重建，是空间冗余决定的；EMA 给出稳定特征，是平移不变性决定的）。NLP 上 mask 15% 才合适，token 没有空间冗余；graph 上没有平移不变性；time series 上局部性失效得很快。凯明的 DNA 在 vision 之外是否同样 work，目前没有强证据。iMF 在 audio diffusion、protein generation、point cloud 上是否还成立，是这条研究线接下来要回答的真问题。

第三，“极致单步生成"是学术叙事还是产业需求？ iMF 把 1-NFE FID 推到 1.72，从学术角度漂亮，但产业部署最关心的是 throughput-per-dollar 与质量的 Pareto front，而非 1-NFE 本身。在 H100 上，一个 4-NFE 的 SiT-XL/2 的吞吐与一个 1-NFE 的 iMF-XL/2 接近（4 步 small step vs 1 步 large step，单步计算量同阶），但 4-NFE 模型的 FID 可能显著更低（1.5 以下）。如果用户的延迟预算允许 4-NFE，1-NFE 的全部努力就被抵消了。换言之，“极致单步"是一个高度依赖具体推理预算的工程目标，把它当作生成模型的圣杯有点过强。这一点凯明团队的论文里没有正面讨论，是 iMF 叙事中最薄弱的一处。

这三点不动摇凯明工作的质量，但提醒：方法论的伟大与方法论的可复制性、可泛化性、可落地性是四件不同的事。

六、References 与延伸阅读

直接引用

#	引用	链接
1	Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generation.	arXiv:2512.02012
2	Geng, Z., et al. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.	arXiv:2505.13447
3	Lipman, Y., et al. (2023). Flow Matching for Generative Modeling. ICLR 2023.	arXiv:2210.02747
4	Song, Y., et al. (2023). Consistency Models. ICML 2023.	arXiv:2303.01469
5	He, K., et al. (2016). Deep Residual Learning for Image Recognition. CVPR 2016 Best Paper.	arXiv:1512.03385
6	He, K., et al. (2017). Mask R-CNN. ICCV 2017 Best Paper.	arXiv:1703.06870
7	He, K., et al. (2020). Momentum Contrast for Unsupervised Visual Representation Learning. CVPR 2020.	arXiv:1911.05722
8	He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.	arXiv:2111.06377
9	Li, Y., et al. (2022). Exploring Plain Vision Transformer Backbones for Object Detection (ViTDet). ECCV 2022.	arXiv:2203.16527
10	Ma, N., et al. (2024). Scalable Interpolant Transformers (SiT).	arXiv:2401.08740
11	Yu, S., et al. (2025). Representation Alignment for Generation: REPA.	arXiv:2410.06940

同主题强相关阅读

Flow Matching 与一致性模型——CFM 推导、Reflow、Consistency Model 与 Mean Flow 的统一视角；本文 §3 的数学基础。
DDPM 的变分基础—— $\varepsilon$ / $v$ / $x$ 参数化的等价性证明；解释为什么 JiT 改预测目标在数学上无损。
SDE/ODE 统一框架——概率流 ODE 的推导；Flow Matching 在这个框架下是 OT 路径的特例。
得分匹配、GAN 与生成模型的统一——score function 视角，把 VAE / GAN / Diffusion / Flow Matching 放在分布匹配统一框架下。

CVPR 2026 五篇的另外四篇（不展开）

论文	arXiv
JiT (Jump into Image-space Transformers)	arXiv:2511.13720
VARC (Visual Abstract Reasoning with Canvas)	arXiv:2511.14761
BiFlow (Bidirectional Normalizing Flow)	arXiv:2512.10953
Pixo (Pixel Supervision)	arXiv:2512.15715

一、辨识度从何而来#

二、十年脉络：六个工作，一种姿态#

2.1 ResNet（2015）—— 恒等映射作为先验#

2.2 Mask R-CNN（2017）—— 任务的共性结构#

2.3 MoCo（2019）—— EMA 替代 large batch#

2.4 MAE（2021）—— 一个超参承担全部归纳偏置#

2.5 SiT / ViTDet（2023）—— 拆掉任务专用骨干#

2.6 Mean Flow / iMF（2025-2026）—— 把训练目标的自依赖消掉#

2.7 共同 DNA#

三、主线深读：iMF#

3.1 Flow Matching 的训练目标#

3.2 Mean Flow 的核心定义#

3.3 关键恒等式：平均速度与瞬时速度#

3.4 Mean Flow 的自依赖问题#

3.5 iMF：用 stop-gradient 切断闭环#

3.6 与一致性模型（Consistency Model）的关系#

3.7 训练循环伪代码#

3.8 实验数字（必须谨慎报告）#

四、五篇论文的方法论共性#

五、批判：朴素路线的硬伤#

六、References 与延伸阅读#

直接引用#

同主题强相关阅读#

CVPR 2026 五篇的另外四篇（不展开）#

相关文章