一、辨识度从何而来
何恺明(Kaiming He)的论文有一种一眼能认出的辨识度。
这种辨识度并非来自文风。他的论文写作并不华丽,公式不多,章节短,图也常常只有一两张关键示意。真正"凯明味"的来源是方法本身的朴素的极致——把方法削减到几乎不能再简化的程度,但每一次削减都站在一个更深的先验(prior)上,因此不构成 cheating。
ResNet 的核心机制只有一个加号;MoCo 的核心机制只有一个 momentum 更新;MAE 的核心机制只有一个 mask ratio 超参;2025 年的 iMF 在 Flow Matching 之上也只多了一行恒等式重写。每一篇都在告诉你:你以前以为复杂的那些东西,其实不需要。
这并不是反智的"少即是多"口号。一个削减只在站对了先验时才成立——如果先验错了,朴素就变成了 underfit。凯明的辨识度,正是来自他识别哪些先验是稳的、哪些复杂性是冗余的判断力。这种判断力难以通过 prompt 工程移植给一个研究生,因为它来自十年以上的尝试与失败所沉淀出的品味(taste)。
本文做两件事:
- 以 iMF(Improved Mean Flow,arXiv:2512.02012)为主线深读,把它放进 Flow Matching 与一致性模型 的数学框架内,看清它解决了哪个具体的训练稳定性问题;
- 把 iMF 放回凯明十年的研究脉络里,找出 ResNet(2015)→ Mask R-CNN(2017)→ MoCo(2019)→ MAE(2021)→ SiT/ViTDet(2023)→ Mean Flow/iMF(2025-2026)这条主线上反复出现的方法论 DNA。
二、十年脉络:六个工作,一种姿态
这一节按时间顺序梳理凯明六个标志性工作。每一个都被很多文章讲过,所以这里不展开方法细节,只抓"被默认接受的复杂性是什么"以及"他做了什么削减"。
2.1 ResNet(2015)—— 恒等映射作为先验
2015 年之前的共识:要训练更深的网络,需要更精巧的初始化(Xavier、Kaiming He 本人的 init)、更强的归一化(BatchNorm)、更小心的学习率调度。这些手段都把"梯度消失"当作一个优化问题来解决。
ResNet 的回答不在优化层。它改变了网络应当学习什么的假设——
让网络学习残差 而不是目标映射 。当 (即在已经够好的层上多堆一些)时,残差 是一个极易学到的目标。恒等映射成为一个无成本的默认行为,深度网络才得以训练到 152 层、1000 层。
削减的复杂性:复杂初始化、深层归一化、warmup 调度。 站在哪个先验上:当前层的最优输出,往往就是上一层的输出加一个小修正。这个先验在视觉特征金字塔上尤其稳。
2.2 Mask R-CNN(2017)—— 任务的共性结构
物体检测、实例分割、关键点检测在 2017 年之前是三个研究社区,各有各的网络架构、各有各的 SOTA 工作。Mask R-CNN 把三个任务都还原成"在共享特征图上加一个小的预测头"——
- 分类头是一个线性分类器;
- 框回归头是一个线性回归器;
- 分割头是一个小 FCN;
- 关键点头是一个小热图回归器。
骨干网络(Faster R-CNN 的 RPN + ROIAlign)保持不变。每个任务的"特殊性"被压缩到最后一个轻量化的预测头里。
削减的复杂性:每个任务一个专门架构。 站在哪个先验上:视觉任务都依赖同一个"物体在哪里、是什么"的中间表征,把这个中间表征做对,任务头几乎是平凡的。
2.3 MoCo(2019)—— EMA 替代 large batch
2019 年的对比学习面临一个工程困境:要让 InfoNCE 损失有意义,负样本数必须很大;要负样本多,要么开超大的 batch(SimCLR 用 8192 batch),要么维护一个 memory bank(Wu et al. 2018)。两者都笨重。
MoCo 的解法是一个 momentum encoder——把 key 编码器作为 query 编码器的 EMA(exponential moving average):
负样本队列由 momentum encoder 产生,编码器更新慢,队列里的特征因此长期一致。EMA 这一个机制同时解决了"负样本要多"和"负样本特征要一致"两个问题。
削减的复杂性:超大 batch、显式 memory bank、记忆库刷新策略。 站在哪个先验上:好的表征应当对慢变化稳定,EMA 是这个先验最简单的实现。
2.4 MAE(2021)—— 一个超参承担全部归纳偏置
掩码自编码器(Masked Autoencoder)的设计极简:随机遮掉 75% 的图像 patch,让一个非对称结构 encoder-decoder 重建被遮的部分。encoder 只看可见的 25%,decoder 看全部位置但参数小。
整个方法只有一个关键超参——mask ratio。其他都是直接借用:编码器是标准 ViT,损失是普通的 MSE,没有对比损失,没有 momentum 网络,没有蒸馏。
为什么 75% 这个数字管用?因为图像在空间上是高度冗余的,遮 75% 仍能从 25% 重建;如果遮 15%(BERT 的 NLP 默认值),任务太容易,学不到东西。这个数字本身就是对图像归纳偏置的精确刻画——用一个超参承担了几乎全部的设计。
削减的复杂性:对比损失、辅助任务、专门的掩码 token 设计、复杂的 augmentation。 站在哪个先验上:图像的空间冗余足以让重建任务在高 mask ratio 下仍可解,并且只有在高 ratio 下,重建任务才需要"真正理解"图像。
2.5 SiT / ViTDet(2023)—— 拆掉任务专用骨干
ViT 在 2020 年提出后,社区里默认 detection、segmentation 这些"位置敏感"的任务还是要用专门改造过的骨干(Swin、PVT 之类的金字塔结构)。ViTDet 把一个普通的、没有金字塔的、不带 shifted window 的 ViT 直接接在 Mask R-CNN 上,证明 plain ViT + 简单的特征金字塔后处理足以匹敌专门设计。
SiT 在生成方向上做了同样的事——把扩散 transformer 中各种针对生成的特殊设计(特殊 conditioning、特殊 attention)拆掉,回到标准 transformer 形式。
削减的复杂性:金字塔结构、shifted window、生成专用 transformer 改造。 站在哪个先验上:任务的视觉先验早就被 ViT 的 self-attention 表达了,再为每个任务定制骨干是过设计。
2.6 Mean Flow / iMF(2025-2026)—— 把训练目标的自依赖消掉
Flow Matching 把生成建模写成一个 ODE:从噪声 到数据 学习一个速度场 。要采样得多步积分(NFE = 25–50)。
Mean Flow(Geng et al. 2025)想做单步:学习平均速度 ,单步采样直接 。
但训练目标的定义里 会出现在自己 loss 的两端,导致 unroll 计算图、训练不稳定。
iMF(Geng et al. 2025-12,arXiv:2512.02012)的削减只有一句话:用 stop-gradient 的 作为 boot-strap 的监督信号,避免 unroll。
削减的复杂性:unroll 计算图、蒸馏教师模型、对抗损失、感知损失。 站在哪个先验上:平均速度与瞬时速度之间有一个恒等式,恒等式的右端不显式依赖待优化的平均速度网络,因此可以用瞬时速度做监督。这一点下一节会展开。
2.7 共同 DNA
把六个工作并排放,能抽出四条贯穿性的方法论 DNA。
| DNA | 在这六个工作中的体现 |
|---|---|
| D1 朴素到极致 | ResNet=加号;MoCo=EMA;MAE=mask;iMF=stop-gradient。每一个削减都把方法压到不能再压。 |
| D2 改变问题假设 | ResNet 不在优化层求解梯度消失,而是改变网络学什么;MAE 不在对比损失上做文章,而是改变监督信号的生成方式;iMF 不在 unroll 上做工程优化,而是改变监督目标的定义。 |
| D3 强先验、轻假设 | 每个工作的显式假设都很轻(identity 是好的、mask 25% 可见足够、EMA 给出慢变化、平均速度可解析),但每一条假设背后都有一个强先验(视觉残差结构、空间冗余、表征稳定性、速度场可积分)。 |
| D4 方法与任务解耦 | ResNet 不绑定于分类(后来用于检测、分割、NLP、AlphaGo),MAE 不绑定于 ImageNet(后来用于音频、视频、跨模态),iMF 也不绑定于 ImageNet 256(理论上可移植到任何 Flow Matching 训练)。 |
这四条是观察凯明工作时的稳定回归(regression line)。下文的 iMF 深读,会反复回到这四条。
另一张视角下的对照可以更直观——按"默认接受的复杂性 / 这篇做了什么削减 / 削减依赖的先验"列三列:
| 工作 | 默认接受的复杂性 | 这篇的削减 | 削减依赖的先验 |
|---|---|---|---|
| ResNet | 复杂初始化 + BN + warmup 才能训练深网 | 一个加号 | 当前层输出 上一层输出 + 小修正 |
| Mask R-CNN | 每个视觉任务一个专门架构 | 共享骨干 + 多任务轻量头 | 任务都依赖同一个"物体在哪、是什么"的中间表征 |
| MoCo | 超大 batch 或 memory bank | momentum encoder | 好表征对慢变化稳定 |
| MAE | 对比损失、辅助任务、复杂 augment | 一个 mask ratio | 图像在空间上高度冗余 |
| ViTDet / SiT | 任务专用骨干(金字塔、shifted window) | plain ViT | self-attention 已表达视觉先验 |
| iMF | unroll 计算图、蒸馏教师 | 一个 stop-gradient | 平均速度与瞬时速度有解析恒等式 |
读者解读:这张对照表的价值在于把"凯明方法论"这种模糊的口号落到可检验的描述。每一行的第三列(依赖的先验)才是判断哪些朴素方法能成立、哪些朴素方法是 underfit 的分水岭。Mask R-CNN 的先验在 detection-segmentation-keypoint 这三个任务上很稳,但如果再加上 OCR 或 medical imaging,“中间表征通用"这个先验未必成立,多任务头方案就会退化为欠拟合。同理,MAE 的"空间冗余"先验在自然图像上很稳,但在医学影像(高频纹理重要)、卫星图像(多光谱通道之间相关性弱)、文档图像(文字密集)上是否成立,是开放问题。把凯明的工作看作"先验的精确投放”,比看作"少即是多"要准确得多。
三、主线深读:iMF
iMF 是这次 CVPR 2026 五篇里数学含量最高的一篇,也是最能体现 D1–D4 的一篇。这一节按"Flow Matching 基础 → Mean Flow 动机 → iMF 的关键恒等式 → 自依赖如何消除 → 与一致性模型的关系 → 代码层面 → 实验"展开。
3.1 Flow Matching 的训练目标
回顾 Flow Matching 与一致性模型 中的 Conditional Flow Matching(CFM)训练目标:给定噪声分布 和数据分布 ,在 上沿条件概率路径 走,对应的条件速度场为 。模型 的训练损失是
OT-CFM 取直线插值 ,条件速度退化为常数 。这样的训练目标已经可以在 25–50 步积分采样下匹敌 DDPM 多步采样,但仍不是单步生成。
3.2 Mean Flow 的核心定义
Mean Flow(Geng et al. 2025)引入平均速度:
平均速度的物理意义是从 到 这一段时间内 的总位移除以总时间。当模型学到 后,单步采样很直接:
特别地,、 时只走一步即得到 。问题转化为:如何训练 ?
3.3 关键恒等式:平均速度与瞬时速度
对平均速度的定义对 求导:
展开左端:
整理:
这就是 Mean Flow 论文里的核心恒等式(Identity)。它的关键性质是:
- 右端的第一项 是瞬时速度场,可以独立训练(直接 CFM);
- 右端的第二项 是 对 的偏导数,通过 JVP(Jacobian-Vector Product)可以从网络对 的依赖自动求出。
恒等式给出了一个递归式监督信号:知道 和 对 的导数,就能算出 本身应当是什么。
值得展开的一点是,恒等式的几何含义并不复杂。把 从 走到 这一段时间内的位移记作 。位移对终点时间 的导数自然等于终点的瞬时速度 ——这是基础微积分。恒等式只是把位移导数展开成"平均速度 + 平均速度对时间的修正项",没有任何隐藏的物理假设。换言之,恒等式是定义的直接推论,不依赖任何模型形式或数据分布的假设。这一性质让 Mean Flow 的 prior 极其稳——只要 的训练目标本身是良定义的,Mean Flow 的训练目标就跟着良定义。
下面的可视化把"为什么 mean velocity 让 1 步 = 25 步的平均效果"这件事在二维上演示出来:从同一组起点出发,三条采样轨迹分别用 25 步 FM、2 步 iMF、1 步 iMF 走向同一个 GMM 目标分布。注意终点偏差——1 步 iMF 用 直接跳到与 25 步 FM 几乎相同的终点位置,而中间路径完全不同:这正是 mean velocity 与 instantaneous velocity 的本质区别。
3.4 Mean Flow 的自依赖问题
朴素 Mean Flow 的实现是把恒等式直接当作损失:
注意 RHS 里既有 又有 的导数,而 LHS 也是 。如果让梯度同时穿过 LHS 和 RHS,相当于在做 unroll:网络的当前输出依赖于网络对自身的微分,优化器在追自己的尾巴。表现出来就是训练剧烈震荡、loss 曲线噪声很大、需要小学习率和长 warmup 才能收敛,且对超参极敏感。
这正是凯明在 D2 中反复出现的判断时机:当工程层面(小 lr、warmup、二阶优化)已经成为常态,他通常会回去问——问题的定义是不是出错了?
3.5 iMF:用 stop-gradient 切断闭环
iMF 的核心修改:把 RHS 里出现的 用 stop-gradient 包起来(记作 ),不让梯度回传:
这一行有几个直接的后果:
- target 变成 boot-strap 目标:RHS 是一个数值固定的标量目标(在当前 mini-batch 内),LHS 才是被优化的预测。问题从"自我闭环"退化为"标准回归"。
- 不需要 unroll 计算图:JVP 只需要前向算一次,反向不再二阶。显存占用从 量级降回 。
- 训练曲线平稳:iMF 报告在同样架构下 FID 训练曲线噪声远小于 naive Mean Flow,learning rate 可以提高到正常 transformer 训练的量级。
这是典型的 D1+D2:削减是一行 stop-gradient(D1 朴素到极致),但削减背后的判断是"训练目标的定义里隐藏着自依赖,目标本身错了"(D2 改变问题假设)。
3.6 与一致性模型(Consistency Model)的关系
iMF 与 Song et al. 2023 的 Consistency Model(CM)属于同一类思想的两种表达。两者都遇到同样的核心困难——避免对自身预测的 unroll——也都用 stop-gradient 类的技巧化解。
| 维度 | Consistency Model | iMF |
|---|---|---|
| 学的对象 | denoiser | mean velocity |
| 监督目标的形式 | ||
| 切断梯度的工具 | EMA 教师网络 | stop-gradient 当前网络 |
| 学得的几何对象 | 端点映射(噪声 → 干净图像) | 时间段平均速度 |
两者的差异本质上是"在哪个空间施加一致性约束"——CM 在 denoiser 空间,iMF 在 velocity 空间。详细推导见 Flow Matching 与一致性模型 中的一致性模型一节。
3.7 训练循环伪代码
iMF 的训练循环大概长这样(简化版,省略 CFG 与多 token 条件):
| |
关键的两处 .detach() 即 stop-gradient——若去掉它们,训练会立刻退化为 naive Mean Flow,曲线会震荡。这就是 iMF 全部的代码改动。
3.8 实验数字(必须谨慎报告)
iMF 报告在 ImageNet 256256(256 分辨率,而非 512)、模型尺寸 XL/2(DiT-XL/2 同规模、约 675M 参数)、640 epoch 长训练下,1-NFE FID 1.72;2-NFE FID 1.54。对比基线:
| 模型 | 训练方式 | NFE | ImageNet 256² FID |
|---|---|---|---|
| iMF-XL/2 | 从零训练,无蒸馏 | 1 | 1.72 |
| iMF-XL/2 | 从零训练 | 2 | 1.54 |
| FACM-XL/2 | 蒸馏 | 1 | 1.76 |
| DMF-XL/2+ | 蒸馏 | 1 | 2.16 |
| SiT-XL/2 + REPA | 多步扩散 | 50 | 1.42 |
需要小心的一点是:iMF 的 1-NFE FID 与 SiT-XL/2+REPA 的 50-NFE FID 之间的差距(1.72 vs 1.42)不能直接比"单步够用了"。NFE 不同的方法应当在同 throughput 预算下比较,而不是同 FID 下比较;这一点会在第五节批判中展开。
读者解读:表中四行覆盖了两个关键对照——(一)iMF 1-NFE vs 蒸馏方法 1-NFE:iMF 1.72 优于 FACM 的 1.76 和 DMF 的 2.16,说明无蒸馏路径在 1-NFE 上已经超过有蒸馏路径;(二)iMF 多步 vs 多步扩散基线:iMF 2-NFE 1.54 接近 SiT+REPA 50-NFE 的 1.42,意味着多步采样并不只属于 score-based 模型,平均速度场也能在多步下继续受益。这两个对照合起来才支持"无蒸馏单步生成是可行路径"的论断。
四、五篇论文的方法论共性
CVPR 2026 五篇——VARC、JiT、BiFlow、iMF、Pixo——这里不展开各自的方法细节,只抓一个共性:每一篇都精确地砍掉了一个被默认接受的部件。
| 论文 | 默认接受的复杂性 | 这篇的削减 | 对应 DNA |
|---|---|---|---|
| JiT(arXiv:2511.13720) | 扩散模型必须预测 或 ;图像必须经过 VAE tokenizer | 直接预测 ;扔掉 VAE | D2(改变问题假设)+ D1(朴素到极致) |
| VARC(arXiv:2511.14761) | 抽象推理必须借助语言模型 | 纯视觉 ViT + 画布 + 测试时训练 | D2 + D4(解耦于 LLM 范式) |
| BiFlow(arXiv:2512.10953) | 归一化流的逆向必须精确等于前向的逆 | 用单独的 transformer 近似逆向 | D2 + D3(先验:逆向不必精确,监督已足够约束) |
| iMF(arXiv:2512.02012) | Mean Flow 的训练目标必须 unroll | stop-gradient 切断自依赖 | D1 + D2 |
| Pixo(arXiv:2512.15715) | 大规模自监督必须在潜空间做 | 像素空间 + 20 亿图像 + 自筛选 | D2 + D4 |
把 VARC、JiT、BiFlow、iMF、Pixo 这五篇并列,发现它们都是同一种姿态的不同投影:找到一个被默认接受、但没被深究过的复杂性,证明它可以被削掉。 这种姿态正是 §2.7 的 D1+D2 在 2026 年的集中爆发。
要注意 D3 在五篇中的隐含分布。BiFlow 的"逆向不必精确"看起来像是放松了约束,其实背后的先验很强——监督信号在两端配合下足以约束逆向到与真逆一致的程度。Pixo 的"像素监督也 work"的先验是图像在 20 亿规模下的多样性足以让重建任务成为有意义的监督。如果先验不对,每一项削减都会变成欠拟合。
延伸阅读建议:把五篇放在 SDE/ODE 统一框架 与 扩散模型的变分基础 的视角下重新读,会发现 JiT 与 iMF 的预测目标改写其实是在同一个 / / / 参数化族里跳来跳去。哪一种参数化最稳定,取决于具体的训练动力学与数据分布——这本身是 DDPM 变分理论早就讨论过的问题。
五、批判:朴素路线的硬伤
凯明的方法论是真的好,但写到这里就停下不是负责任的做法。有三处明显的硬伤值得讨论。
第一,taste 是不可复制的,简单方法在评审制度下有隐形特权。MoCo、MAE、iMF 这种"我只改了一行"式的论文,如果作者换成无名研究生而非凯明,评审能给出同样的尊重吗?很可能不能。评审天然倾向于看到"工作量"——更多方程、更多消融、更多对比。这意味着朴素方法的成立依赖于作者声誉,而声誉本身来自更早的朴素方法被接受。这是一个先有鸡先有蛋的循环。换言之,“朴素到极致"作为方法论,对学术评审制度的鲁棒性远低于"工作量到极致”。年轻研究者直接学凯明的姿态,往往会发现自己的论文连一审都过不去。
第二,所有重大工作都在 vision domain,泛化性是开放问题。ResNet、Mask R-CNN、MoCo、MAE、ViTDet、SiT、iMF 全在 vision 上做。视觉数据有几个非常友好的归纳偏置——局部性、平移不变性、多尺度、空间冗余——这些偏置天然支持朴素方法(mask 75% 还能重建,是空间冗余决定的;EMA 给出稳定特征,是平移不变性决定的)。NLP 上 mask 15% 才合适,token 没有空间冗余;graph 上没有平移不变性;time series 上局部性失效得很快。凯明的 DNA 在 vision 之外是否同样 work,目前没有强证据。iMF 在 audio diffusion、protein generation、point cloud 上是否还成立,是这条研究线接下来要回答的真问题。
第三,“极致单步生成"是学术叙事还是产业需求? iMF 把 1-NFE FID 推到 1.72,从学术角度漂亮,但产业部署最关心的是 throughput-per-dollar 与质量的 Pareto front,而非 1-NFE 本身。在 H100 上,一个 4-NFE 的 SiT-XL/2 的吞吐与一个 1-NFE 的 iMF-XL/2 接近(4 步 small step vs 1 步 large step,单步计算量同阶),但 4-NFE 模型的 FID 可能显著更低(1.5 以下)。如果用户的延迟预算允许 4-NFE,1-NFE 的全部努力就被抵消了。换言之,“极致单步"是一个高度依赖具体推理预算的工程目标,把它当作生成模型的圣杯有点过强。这一点凯明团队的论文里没有正面讨论,是 iMF 叙事中最薄弱的一处。
这三点不动摇凯明工作的质量,但提醒:方法论的伟大与方法论的可复制性、可泛化性、可落地性是四件不同的事。
六、References 与延伸阅读
直接引用
| # | 引用 | 链接 |
|---|---|---|
| 1 | Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generation. | arXiv:2512.02012 |
| 2 | Geng, Z., et al. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral. | arXiv:2505.13447 |
| 3 | Lipman, Y., et al. (2023). Flow Matching for Generative Modeling. ICLR 2023. | arXiv:2210.02747 |
| 4 | Song, Y., et al. (2023). Consistency Models. ICML 2023. | arXiv:2303.01469 |
| 5 | He, K., et al. (2016). Deep Residual Learning for Image Recognition. CVPR 2016 Best Paper. | arXiv:1512.03385 |
| 6 | He, K., et al. (2017). Mask R-CNN. ICCV 2017 Best Paper. | arXiv:1703.06870 |
| 7 | He, K., et al. (2020). Momentum Contrast for Unsupervised Visual Representation Learning. CVPR 2020. | arXiv:1911.05722 |
| 8 | He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022. | arXiv:2111.06377 |
| 9 | Li, Y., et al. (2022). Exploring Plain Vision Transformer Backbones for Object Detection (ViTDet). ECCV 2022. | arXiv:2203.16527 |
| 10 | Ma, N., et al. (2024). Scalable Interpolant Transformers (SiT). | arXiv:2401.08740 |
| 11 | Yu, S., et al. (2025). Representation Alignment for Generation: REPA. | arXiv:2410.06940 |
同主题强相关阅读
- Flow Matching 与一致性模型——CFM 推导、Reflow、Consistency Model 与 Mean Flow 的统一视角;本文 §3 的数学基础。
- DDPM 的变分基础—— / / 参数化的等价性证明;解释为什么 JiT 改预测目标在数学上无损。
- SDE/ODE 统一框架——概率流 ODE 的推导;Flow Matching 在这个框架下是 OT 路径的特例。
- 得分匹配、GAN 与生成模型的统一——score function 视角,把 VAE / GAN / Diffusion / Flow Matching 放在分布匹配统一框架下。
CVPR 2026 五篇的另外四篇(不展开)
| 论文 | arXiv |
|---|---|
| JiT (Jump into Image-space Transformers) | arXiv:2511.13720 |
| VARC (Visual Abstract Reasoning with Canvas) | arXiv:2511.14761 |
| BiFlow (Bidirectional Normalizing Flow) | arXiv:2512.10953 |
| Pixo (Pixel Supervision) | arXiv:2512.15715 |