一、辨识度从何而来

何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。

这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。

ResNet 的核心机制只有一个加号;MoCo 的核心机制只有一个 momentum 更新;MAE 的核心机制只有一个 mask ratio 超参;2025 年的 iMF 在 Flow Matching 之上也只多了一行恒等式重写。每一篇都在告诉你:你以前以为复杂的那些东西,其实不需要

这并不是反智的"少即是多"口号。一个削减只在站对了先验时才成立——如果先验错了,朴素就变成了 underfit。凯明的辨识度,正是来自他识别哪些先验是稳的、哪些复杂性是冗余的判断力。这种判断力难以通过 prompt 工程移植给一个研究生,因为它来自十年以上的尝试与失败所沉淀出的品味(taste)。

本文做两件事:

  1. 以 iMF(Improved Mean Flow,arXiv:2512.02012)为主线深读,把它放进 Flow Matching 与一致性模型 的数学框架内,看清它解决了哪个具体的训练稳定性问题;
  2. 把 iMF 放回凯明十年的研究脉络里,找出 ResNet(2015)→ Mask R-CNN(2017)→ MoCo(2019)→ MAE(2021)→ SiT/ViTDet(2023)→ Mean Flow/iMF(2025-2026)这条主线上反复出现的方法论 DNA。

二、十年脉络:六个工作,一种姿态

这一节按时间顺序梳理凯明六个标志性工作。每一个都被很多文章讲过,所以这里不展开方法细节,只抓"被默认接受的复杂性是什么"以及"他做了什么削减"。

2.1 ResNet(2015)—— 恒等映射作为先验

2015 年之前的共识:要训练更深的网络,需要更精巧的初始化(Xavier、Kaiming He 本人的 init)、更强的归一化(BatchNorm)、更小心的学习率调度。这些手段都把"梯度消失"当作一个优化问题来解决。

ResNet 的回答不在优化层。它改变了网络应当学习什么的假设——

F(x)=H(x)x,output=F(x)+xF(x) = H(x) - x, \quad \text{output} = F(x) + x

让网络学习残差 F(x)F(x) 而不是目标映射 H(x)H(x)。当 H(x)xH(x) \approx x(即在已经够好的层上多堆一些)时,残差 F(x)0F(x) \approx 0 是一个极易学到的目标。恒等映射成为一个无成本的默认行为,深度网络才得以训练到 152 层、1000 层。

削减的复杂性:复杂初始化、深层归一化、warmup 调度。 站在哪个先验上:当前层的最优输出,往往就是上一层的输出加一个小修正。这个先验在视觉特征金字塔上尤其稳。

2.2 Mask R-CNN(2017)—— 任务的共性结构

物体检测、实例分割、关键点检测在 2017 年之前是三个研究社区,各有各的网络架构、各有各的 SOTA 工作。Mask R-CNN 把三个任务都还原成"在共享特征图上加一个小的预测头"——

  • 分类头是一个线性分类器;
  • 框回归头是一个线性回归器;
  • 分割头是一个小 FCN;
  • 关键点头是一个小热图回归器。

骨干网络(Faster R-CNN 的 RPN + ROIAlign)保持不变。每个任务的"特殊性"被压缩到最后一个轻量化的预测头里。

削减的复杂性:每个任务一个专门架构。 站在哪个先验上:视觉任务都依赖同一个"物体在哪里、是什么"的中间表征,把这个中间表征做对,任务头几乎是平凡的。

2.3 MoCo(2019)—— EMA 替代 large batch

2019 年的对比学习面临一个工程困境:要让 InfoNCE 损失有意义,负样本数必须很大;要负样本多,要么开超大的 batch(SimCLR 用 8192 batch),要么维护一个 memory bank(Wu et al. 2018)。两者都笨重。

MoCo 的解法是一个 momentum encoder——把 key 编码器作为 query 编码器的 EMA(exponential moving average):

θkmθk+(1m)θq,m=0.999\theta_k \leftarrow m \theta_k + (1 - m) \theta_q, \quad m = 0.999

负样本队列由 momentum encoder 产生,编码器更新慢,队列里的特征因此长期一致。EMA 这一个机制同时解决了"负样本要多"和"负样本特征要一致"两个问题。

削减的复杂性:超大 batch、显式 memory bank、记忆库刷新策略。 站在哪个先验上:好的表征应当对慢变化稳定,EMA 是这个先验最简单的实现。

2.4 MAE(2021)—— 一个超参承担全部归纳偏置

掩码自编码器(Masked Autoencoder)的设计极简:随机遮掉 75% 的图像 patch,让一个非对称结构 encoder-decoder 重建被遮的部分。encoder 只看可见的 25%,decoder 看全部位置但参数小。

整个方法只有一个关键超参——mask ratio。其他都是直接借用:编码器是标准 ViT,损失是普通的 MSE,没有对比损失,没有 momentum 网络,没有蒸馏。

为什么 75% 这个数字管用?因为图像在空间上是高度冗余的,遮 75% 仍能从 25% 重建;如果遮 15%(BERT 的 NLP 默认值),任务太容易,学不到东西。这个数字本身就是对图像归纳偏置的精确刻画——用一个超参承担了几乎全部的设计

削减的复杂性:对比损失、辅助任务、专门的掩码 token 设计、复杂的 augmentation。 站在哪个先验上:图像的空间冗余足以让重建任务在高 mask ratio 下仍可解,并且只有在高 ratio 下,重建任务才需要"真正理解"图像。

2.5 SiT / ViTDet(2023)—— 拆掉任务专用骨干

ViT 在 2020 年提出后,社区里默认 detection、segmentation 这些"位置敏感"的任务还是要用专门改造过的骨干(Swin、PVT 之类的金字塔结构)。ViTDet 把一个普通的、没有金字塔的、不带 shifted window 的 ViT 直接接在 Mask R-CNN 上,证明 plain ViT + 简单的特征金字塔后处理足以匹敌专门设计。

SiT 在生成方向上做了同样的事——把扩散 transformer 中各种针对生成的特殊设计(特殊 conditioning、特殊 attention)拆掉,回到标准 transformer 形式。

削减的复杂性:金字塔结构、shifted window、生成专用 transformer 改造。 站在哪个先验上:任务的视觉先验早就被 ViT 的 self-attention 表达了,再为每个任务定制骨干是过设计。

2.6 Mean Flow / iMF(2025-2026)—— 把训练目标的自依赖消掉

Flow Matching 把生成建模写成一个 ODE:从噪声 x0x_0 到数据 x1x_1 学习一个速度场 v(xt,t)v(x_t, t)。要采样得多步积分(NFE = 25–50)。

Mean Flow(Geng et al. 2025)想做单步:学习平均速度 vˉ(s,t)=1tsstv(τ)dτ\bar v(s, t) = \frac{1}{t-s}\int_s^t v(\tau)d\tau,单步采样直接 xt=xs+(ts)vˉ(s,t)x_t = x_s + (t-s)\bar v(s, t)

但训练目标的定义里 vˉ\bar v 会出现在自己 loss 的两端,导致 unroll 计算图、训练不稳定。

iMF(Geng et al. 2025-12,arXiv:2512.02012)的削减只有一句话:用 stop-gradient 的 v(xτ,τ)v(x_\tau, \tau) 作为 boot-strap 的监督信号,避免 unroll。

削减的复杂性:unroll 计算图、蒸馏教师模型、对抗损失、感知损失。 站在哪个先验上:平均速度与瞬时速度之间有一个恒等式,恒等式的右端不显式依赖待优化的平均速度网络,因此可以用瞬时速度做监督。这一点下一节会展开。

2.7 共同 DNA

把六个工作并排放,能抽出四条贯穿性的方法论 DNA。

DNA在这六个工作中的体现
D1 朴素到极致ResNet=加号;MoCo=EMA;MAE=mask;iMF=stop-gradient。每一个削减都把方法压到不能再压。
D2 改变问题假设ResNet 不在优化层求解梯度消失,而是改变网络学什么;MAE 不在对比损失上做文章,而是改变监督信号的生成方式;iMF 不在 unroll 上做工程优化,而是改变监督目标的定义。
D3 强先验、轻假设每个工作的显式假设都很轻(identity 是好的、mask 25% 可见足够、EMA 给出慢变化、平均速度可解析),但每一条假设背后都有一个强先验(视觉残差结构、空间冗余、表征稳定性、速度场可积分)。
D4 方法与任务解耦ResNet 不绑定于分类(后来用于检测、分割、NLP、AlphaGo),MAE 不绑定于 ImageNet(后来用于音频、视频、跨模态),iMF 也不绑定于 ImageNet 256(理论上可移植到任何 Flow Matching 训练)。

这四条是观察凯明工作时的稳定回归(regression line)。下文的 iMF 深读,会反复回到这四条。

另一张视角下的对照可以更直观——按"默认接受的复杂性 / 这篇做了什么削减 / 削减依赖的先验"列三列:

工作默认接受的复杂性这篇的削减削减依赖的先验
ResNet复杂初始化 + BN + warmup 才能训练深网F(x)+xF(x)+x 一个加号当前层输出 \approx 上一层输出 + 小修正
Mask R-CNN每个视觉任务一个专门架构共享骨干 + 多任务轻量头任务都依赖同一个"物体在哪、是什么"的中间表征
MoCo超大 batch 或 memory bankmomentum encoder好表征对慢变化稳定
MAE对比损失、辅助任务、复杂 augment一个 mask ratio图像在空间上高度冗余
ViTDet / SiT任务专用骨干(金字塔、shifted window)plain ViTself-attention 已表达视觉先验
iMFunroll 计算图、蒸馏教师一个 stop-gradient平均速度与瞬时速度有解析恒等式

读者解读:这张对照表的价值在于把"凯明方法论"这种模糊的口号落到可检验的描述。每一行的第三列(依赖的先验)才是判断哪些朴素方法能成立、哪些朴素方法是 underfit 的分水岭。Mask R-CNN 的先验在 detection-segmentation-keypoint 这三个任务上很稳,但如果再加上 OCR 或 medical imaging,“中间表征通用"这个先验未必成立,多任务头方案就会退化为欠拟合。同理,MAE 的"空间冗余"先验在自然图像上很稳,但在医学影像(高频纹理重要)、卫星图像(多光谱通道之间相关性弱)、文档图像(文字密集)上是否成立,是开放问题。把凯明的工作看作"先验的精确投放”,比看作"少即是多"要准确得多。


三、主线深读:iMF

iMF 是这次 CVPR 2026 五篇里数学含量最高的一篇,也是最能体现 D1–D4 的一篇。这一节按"Flow Matching 基础 → Mean Flow 动机 → iMF 的关键恒等式 → 自依赖如何消除 → 与一致性模型的关系 → 代码层面 → 实验"展开。

3.1 Flow Matching 的训练目标

回顾 Flow Matching 与一致性模型 中的 Conditional Flow Matching(CFM)训练目标:给定噪声分布 q(x0)q(x_0) 和数据分布 p(x1)p(x_1),在 t[0,1]t \in [0, 1] 上沿条件概率路径 pt(xx1)p_t(x | x_1) 走,对应的条件速度场为 ut(xx1)u_t(x | x_1)。模型 vθ(xt,t)v_\theta(x_t, t) 的训练损失是

LCFM=Et,q(x0),p(x1)[vθ(xt,t)ut(xtx1)2]. \mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, q(x_0), p(x_1)}\left[\|v_\theta(x_t, t) - u_t(x_t | x_1)\|^2\right].

OT-CFM 取直线插值 xt=(1t)x0+tx1x_t = (1-t) x_0 + t x_1,条件速度退化为常数 ut=x1x0u_t = x_1 - x_0。这样的训练目标已经可以在 25–50 步积分采样下匹敌 DDPM 多步采样,但仍不是单步生成。

3.2 Mean Flow 的核心定义

Mean Flow(Geng et al. 2025)引入平均速度

vˉ(s,t)    1tsstv(xτ,τ)dτ,0s<t1. \bar v(s, t) \;\triangleq\; \frac{1}{t - s} \int_s^t v(x_\tau, \tau) \, d\tau, \qquad 0 \le s < t \le 1.

平均速度的物理意义是从 sstt 这一段时间内 xx 的总位移除以总时间。当模型学到 vˉ\bar v 后,单步采样很直接:

xt=xs+(ts)vˉ(s,t). x_t = x_s + (t - s)\, \bar v(s, t).

特别地,s=0s = 0t=1t = 1 时只走一步即得到 x1x0+vˉ(0,1)x_1 \approx x_0 + \bar v(0, 1)。问题转化为:如何训练 vˉ\bar v

3.3 关键恒等式:平均速度与瞬时速度

对平均速度的定义对 tt 求导:

t[(ts)vˉ(s,t)]=v(xt,t). \frac{\partial}{\partial t} \Big[(t-s)\, \bar v(s, t)\Big] = v(x_t, t).

展开左端:

vˉ(s,t)+(ts)vˉt=v(xt,t). \bar v(s, t) + (t - s)\, \frac{\partial \bar v}{\partial t} = v(x_t, t).

整理:

  vˉ(s,t)  =  v(xt,t)    (ts)vˉ(s,t)t   \boxed{\;\bar v(s, t) \;=\; v(x_t, t) \;-\; (t - s)\, \frac{\partial \bar v(s, t)}{\partial t}\;}

这就是 Mean Flow 论文里的核心恒等式(Identity)。它的关键性质是:

  • 右端的第一项 v(xt,t)v(x_t, t) 是瞬时速度场,可以独立训练(直接 CFM);
  • 右端的第二项vˉ\bar vtt 的偏导数,通过 JVP(Jacobian-Vector Product)可以从网络对 tt 的依赖自动求出。

恒等式给出了一个递归式监督信号:知道 vvvˉ\bar vtt 的导数,就能算出 vˉ\bar v 本身应当是什么。

值得展开的一点是,恒等式的几何含义并不复杂。把 xxss 走到 tt 这一段时间内的位移记作 D(s,t)=(ts)vˉ(s,t)D(s, t) = (t-s)\bar v(s, t)。位移对终点时间 tt 的导数自然等于终点的瞬时速度 v(xt,t)v(x_t, t)——这是基础微积分。恒等式只是把位移导数展开成"平均速度 + 平均速度对时间的修正项",没有任何隐藏的物理假设。换言之,恒等式是定义的直接推论,不依赖任何模型形式或数据分布的假设。这一性质让 Mean Flow 的 prior 极其稳——只要 vv 的训练目标本身是良定义的,Mean Flow 的训练目标就跟着良定义。

下面的可视化把"为什么 mean velocity 让 1 步 = 25 步的平均效果"这件事在二维上演示出来:从同一组起点出发,三条采样轨迹分别用 25 步 FM、2 步 iMF、1 步 iMF 走向同一个 GMM 目标分布。注意终点偏差——1 步 iMF 用 vˉ(0,1)\bar v(0,1) 直接跳到与 25 步 FM 几乎相同的终点位置,而中间路径完全不同:这正是 mean velocity 与 instantaneous velocity 的本质区别。

iMF 平均速度场:1-NFE vs 25-NFE 的采样轨迹
Loading visualization...
同一组起点(高斯)出发,三种采样方式到达同一个 2D 三模 GMM 目标。绿:25 步多步 FM(沿 instantaneous v(x,t) 走 25 小步,黄色路径);橙:2 步 iMF(两段 mean velocity 跳跃);红:1 步 iMF(单步用 ̄v(0,1) 直接跳到终点)。注意:mean velocity 让 1 步终点 ≈ 25 步终点(在 sample 层面),但中间路径完全不同——loss 上两者不等价,只在最终分布上等价。

3.4 Mean Flow 的自依赖问题

朴素 Mean Flow 的实现是把恒等式直接当作损失:

LMFnaive=E[vˉθ(s,t)(vθ(xt,t)(ts)tvˉθ)2]. \mathcal{L}_{\text{MF}}^{\text{naive}} = \mathbb{E}\Big[\|\bar v_\theta(s, t) - \big(v_\theta(x_t, t) - (t-s)\partial_t \bar v_\theta\big)\|^2\Big].

注意 RHS 里既有 vθv_\theta 又有 vˉθ\bar v_\theta 的导数,而 LHS 也是 vˉθ\bar v_\theta。如果让梯度同时穿过 LHS 和 RHS,相当于在做 unroll:网络的当前输出依赖于网络对自身的微分,优化器在追自己的尾巴。表现出来就是训练剧烈震荡、loss 曲线噪声很大、需要小学习率和长 warmup 才能收敛,且对超参极敏感。

这正是凯明在 D2 中反复出现的判断时机:当工程层面(小 lr、warmup、二阶优化)已经成为常态,他通常会回去问——问题的定义是不是出错了

3.5 iMF:用 stop-gradient 切断闭环

iMF 的核心修改:把 RHS 里出现的 vθv_\theta 用 stop-gradient 包起来(记作 sg[]\mathrm{sg}[\cdot]),不让梯度回传:

LiMF=E[vˉθ(s,t)(sg[vθ(xt,t)](ts)sg[tvˉθ])2]. \mathcal{L}_{\text{iMF}} = \mathbb{E}\Big[\|\bar v_\theta(s, t) - \big(\mathrm{sg}[v_\theta(x_t, t)] - (t-s)\,\mathrm{sg}[\partial_t \bar v_\theta]\big)\|^2\Big].

这一行有几个直接的后果:

  1. target 变成 boot-strap 目标:RHS 是一个数值固定的标量目标(在当前 mini-batch 内),LHS 才是被优化的预测。问题从"自我闭环"退化为"标准回归"。
  2. 不需要 unroll 计算图:JVP 只需要前向算一次,反向不再二阶。显存占用从 O(L2)O(L^2) 量级降回 O(L)O(L)
  3. 训练曲线平稳:iMF 报告在同样架构下 FID 训练曲线噪声远小于 naive Mean Flow,learning rate 可以提高到正常 transformer 训练的量级。

这是典型的 D1+D2:削减是一行 stop-gradient(D1 朴素到极致),但削减背后的判断是"训练目标的定义里隐藏着自依赖,目标本身错了"(D2 改变问题假设)。

3.6 与一致性模型(Consistency Model)的关系

iMF 与 Song et al. 2023 的 Consistency Model(CM)属于同一类思想的两种表达。两者都遇到同样的核心困难——避免对自身预测的 unroll——也都用 stop-gradient 类的技巧化解。

维度Consistency ModeliMF
学的对象denoiser f(xt,t)x0f(x_t, t) \to x_0mean velocity vˉ(s,t)\bar v(s, t)
监督目标的形式f(xt,t)fEMA(xtΔt,tΔt)f(x_t, t) \approx f_{\text{EMA}}(x_{t-\Delta t}, t-\Delta t)vˉsg[v](ts)sg[tvˉ]\bar v \approx \mathrm{sg}[v] - (t-s)\,\mathrm{sg}[\partial_t \bar v]
切断梯度的工具EMA 教师网络stop-gradient 当前网络
学得的几何对象端点映射(噪声 → 干净图像)时间段平均速度

两者的差异本质上是"在哪个空间施加一致性约束"——CM 在 denoiser 空间,iMF 在 velocity 空间。详细推导见 Flow Matching 与一致性模型 中的一致性模型一节。

3.7 训练循环伪代码

iMF 的训练循环大概长这样(简化版,省略 CFG 与多 token 条件):

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
def imf_train_step(model, x1_batch, optimizer):
    # 1. sample timesteps s < t and noise x0
    s, t = sample_pair(0, 1)              # (B,), (B,)
    x0   = torch.randn_like(x1_batch)
    xt   = (1 - t) * x0 + t * x1_batch    # OT-CFM linear interp

    # 2. instantaneous velocity v(x_t, t) (stop-gradient target)
    with torch.no_grad():
        v_inst = model.v_head(xt, t)      # OT-CFM target

    # 3. mean velocity prediction and its time-derivative
    vbar, dvbar_dt = jvp(
        lambda tau: model.vbar_head(xt, s, tau),
        (t,), (torch.ones_like(t),)
    )                                     # forward-mode AD on t

    # 4. iMF target with stop-gradient on both terms
    target = v_inst.detach() - (t - s).unsqueeze(-1) * dvbar_dt.detach()
    loss   = F.mse_loss(vbar, target)

    loss.backward()
    optimizer.step()

关键的两处 .detach() 即 stop-gradient——若去掉它们,训练会立刻退化为 naive Mean Flow,曲线会震荡。这就是 iMF 全部的代码改动。

3.8 实验数字(必须谨慎报告)

iMF 报告在 ImageNet 256×\times256(256 分辨率,而非 5122^2)、模型尺寸 XL/2(DiT-XL/2 同规模、约 675M 参数)、640 epoch 长训练下,1-NFE FID 1.722-NFE FID 1.54。对比基线:

模型训练方式NFEImageNet 256² FID
iMF-XL/2从零训练,无蒸馏11.72
iMF-XL/2从零训练21.54
FACM-XL/2蒸馏11.76
DMF-XL/2+蒸馏12.16
SiT-XL/2 + REPA多步扩散501.42

需要小心的一点是:iMF 的 1-NFE FID 与 SiT-XL/2+REPA 的 50-NFE FID 之间的差距(1.72 vs 1.42)不能直接比"单步够用了"。NFE 不同的方法应当在同 throughput 预算下比较,而不是同 FID 下比较;这一点会在第五节批判中展开。

读者解读:表中四行覆盖了两个关键对照——(一)iMF 1-NFE vs 蒸馏方法 1-NFE:iMF 1.72 优于 FACM 的 1.76 和 DMF 的 2.16,说明无蒸馏路径在 1-NFE 上已经超过有蒸馏路径;(二)iMF 多步 vs 多步扩散基线:iMF 2-NFE 1.54 接近 SiT+REPA 50-NFE 的 1.42,意味着多步采样并不只属于 score-based 模型,平均速度场也能在多步下继续受益。这两个对照合起来才支持"无蒸馏单步生成是可行路径"的论断。


四、五篇论文的方法论共性

CVPR 2026 五篇——VARC、JiT、BiFlow、iMF、Pixo——这里不展开各自的方法细节,只抓一个共性:每一篇都精确地砍掉了一个被默认接受的部件

论文默认接受的复杂性这篇的削减对应 DNA
JiT(arXiv:2511.13720)扩散模型必须预测 ε\varepsilonvv;图像必须经过 VAE tokenizer直接预测 xx;扔掉 VAED2(改变问题假设)+ D1(朴素到极致)
VARC(arXiv:2511.14761)抽象推理必须借助语言模型纯视觉 ViT + 画布 + 测试时训练D2 + D4(解耦于 LLM 范式)
BiFlow(arXiv:2512.10953)归一化流的逆向必须精确等于前向的逆用单独的 transformer 近似逆向D2 + D3(先验:逆向不必精确,监督已足够约束)
iMF(arXiv:2512.02012)Mean Flow 的训练目标必须 unrollstop-gradient 切断自依赖D1 + D2
Pixo(arXiv:2512.15715)大规模自监督必须在潜空间做像素空间 + 20 亿图像 + 自筛选D2 + D4

把 VARC、JiT、BiFlow、iMF、Pixo 这五篇并列,发现它们都是同一种姿态的不同投影:找到一个被默认接受、但没被深究过的复杂性,证明它可以被削掉。 这种姿态正是 §2.7 的 D1+D2 在 2026 年的集中爆发。

要注意 D3 在五篇中的隐含分布。BiFlow 的"逆向不必精确"看起来像是放松了约束,其实背后的先验很强——监督信号在两端配合下足以约束逆向到与真逆一致的程度。Pixo 的"像素监督也 work"的先验是图像在 20 亿规模下的多样性足以让重建任务成为有意义的监督。如果先验不对,每一项削减都会变成欠拟合。

延伸阅读建议:把五篇放在 SDE/ODE 统一框架扩散模型的变分基础 的视角下重新读,会发现 JiT 与 iMF 的预测目标改写其实是在同一个 ε\varepsilon / vv / xx / vˉ\bar v 参数化族里跳来跳去。哪一种参数化最稳定,取决于具体的训练动力学与数据分布——这本身是 DDPM 变分理论早就讨论过的问题。


五、批判:朴素路线的硬伤

凯明的方法论是真的好,但写到这里就停下不是负责任的做法。有三处明显的硬伤值得讨论。

第一,taste 是不可复制的,简单方法在评审制度下有隐形特权。MoCo、MAE、iMF 这种"我只改了一行"式的论文,如果作者换成无名研究生而非凯明,评审能给出同样的尊重吗?很可能不能。评审天然倾向于看到"工作量"——更多方程、更多消融、更多对比。这意味着朴素方法的成立依赖于作者声誉,而声誉本身来自更早的朴素方法被接受。这是一个先有鸡先有蛋的循环。换言之,“朴素到极致"作为方法论,对学术评审制度的鲁棒性远低于"工作量到极致”。年轻研究者直接学凯明的姿态,往往会发现自己的论文连一审都过不去。

第二,所有重大工作都在 vision domain,泛化性是开放问题。ResNet、Mask R-CNN、MoCo、MAE、ViTDet、SiT、iMF 全在 vision 上做。视觉数据有几个非常友好的归纳偏置——局部性、平移不变性、多尺度、空间冗余——这些偏置天然支持朴素方法(mask 75% 还能重建,是空间冗余决定的;EMA 给出稳定特征,是平移不变性决定的)。NLP 上 mask 15% 才合适,token 没有空间冗余;graph 上没有平移不变性;time series 上局部性失效得很快。凯明的 DNA 在 vision 之外是否同样 work,目前没有强证据。iMF 在 audio diffusion、protein generation、point cloud 上是否还成立,是这条研究线接下来要回答的真问题。

第三,“极致单步生成"是学术叙事还是产业需求? iMF 把 1-NFE FID 推到 1.72,从学术角度漂亮,但产业部署最关心的是 throughput-per-dollar 与质量的 Pareto front,而非 1-NFE 本身。在 H100 上,一个 4-NFE 的 SiT-XL/2 的吞吐与一个 1-NFE 的 iMF-XL/2 接近(4 步 small step vs 1 步 large step,单步计算量同阶),但 4-NFE 模型的 FID 可能显著更低(1.5 以下)。如果用户的延迟预算允许 4-NFE,1-NFE 的全部努力就被抵消了。换言之,“极致单步"是一个高度依赖具体推理预算的工程目标,把它当作生成模型的圣杯有点过强。这一点凯明团队的论文里没有正面讨论,是 iMF 叙事中最薄弱的一处。

这三点不动摇凯明工作的质量,但提醒:方法论的伟大与方法论的可复制性、可泛化性、可落地性是四件不同的事。


六、References 与延伸阅读

直接引用

#引用链接
1Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generation.arXiv:2512.02012
2Geng, Z., et al. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.arXiv:2505.13447
3Lipman, Y., et al. (2023). Flow Matching for Generative Modeling. ICLR 2023.arXiv:2210.02747
4Song, Y., et al. (2023). Consistency Models. ICML 2023.arXiv:2303.01469
5He, K., et al. (2016). Deep Residual Learning for Image Recognition. CVPR 2016 Best Paper.arXiv:1512.03385
6He, K., et al. (2017). Mask R-CNN. ICCV 2017 Best Paper.arXiv:1703.06870
7He, K., et al. (2020). Momentum Contrast for Unsupervised Visual Representation Learning. CVPR 2020.arXiv:1911.05722
8He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.arXiv:2111.06377
9Li, Y., et al. (2022). Exploring Plain Vision Transformer Backbones for Object Detection (ViTDet). ECCV 2022.arXiv:2203.16527
10Ma, N., et al. (2024). Scalable Interpolant Transformers (SiT).arXiv:2401.08740
11Yu, S., et al. (2025). Representation Alignment for Generation: REPA.arXiv:2410.06940

同主题强相关阅读

CVPR 2026 五篇的另外四篇(不展开)

论文arXiv
JiT (Jump into Image-space Transformers)arXiv:2511.13720
VARC (Visual Abstract Reasoning with Canvas)arXiv:2511.14761
BiFlow (Bidirectional Normalizing Flow)arXiv:2512.10953
Pixo (Pixel Supervision)arXiv:2512.15715