引言:扩散模型不是终点

2025-2026 年,流匹配(Flow Matching) 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力:用常微分方程(ODE)路径替代扩散模型的随机微分方程(SDE)路径,让数据从噪声到图像的转变不再依赖数百步迭代。

但理论可行与工程落地之间,横亘着大量技术细节——训练目标怎么设计?架构如何选择?速度与质量能否兼顾?

何恺明(Kaiming He)团队在 CVPR 2026 上一次性投中五篇论文,系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向,共享同一个战略判断:

扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。

更值得关注的是团队的方法论风格:不是在已有规则里优化指标,而是重新定义问题的前提。用最小化的架构挑战传统领地,并屡屡获胜。

本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。


一、JiT:让"去噪"模型真正做去噪

问题:预测目标"不属于这个世界"

当前扩散模型的训练目标存在一个根本性矛盾:

网络学习预测的是噪声 ε\varepsilon 或速度 vv,而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量,不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界",需要额外表达能力来处理高维噪声干扰,导致训练过程不稳定。

核心方案:直接预测 xx

JiT(Jump into Image-space Transformer)的核心思想极为朴素:

既然 xx(干净图像)在图像流形上,那就让网络直接预测 xx

具体实现:

方面传统扩散模型JiT
预测目标噪声 ε\varepsilon / 速度 vv干净图像 xx
架构U-Net / DiT标准 ViT
Patch 尺寸通常 8×88 \times 8支持 16×1616 \times 1632×3232 \times 32 甚至 64×6464 \times 64
VAE Tokenizer必须有完全去掉
损失函数往往需要 GAN 损失/感知损失最朴素的回归损失

为什么可以去掉 VAE?因为 xx 在图像流形上,无需处理高维噪声干扰,patch 增大不会导致信息缺失。这也带来了一个重要优势:

原生支持任意分辨率生成——只需调整 patch 大小即可,256 到 1024 分辨率下计算量几乎不变。

性能

指标结果
参数量86M
ImageNet 512×512512 \times 512 FID1.78
高分辨率版本 (JiT-G)保持竞争力 FID
蒸馏依赖
外部模型辅助

一个仅 86M 参数、从零训练、没有任何外部辅助的模型达到 FID 1.78,这在 ImageNet 生成任务上是相当亮眼的成绩。


二、VARC:跳出语言模型的舒适圈

ARC 任务与社区误区

ARC(Abstraction and Reasoning Corpus) 是 AI 领域历史最久的推理能力测试之一,包含数百个"视觉谜题":给定少数示例,要求推断底层规律并应用到测试样例。涉及概念涵盖物体对称、重力方向、颜色连续性、反射变换等物理世界抽象推理。

人类平均水平:60.2%

然而整个社区的解法几乎殊途同归:把 ARC 当成语言问题来解。GPT-4、Claude、DeepSeek 都在 ARC 上刷榜。这隐含了一个未经检验的错误假设:

视觉抽象推理必须借助语言才能完成。

VARC:ARC 作为图像翻译问题

何恺明团队提出了 VARC,将 ARC 重新建模为图像到图像的翻译问题

f:Input GridOutput Gridf: \text{Input Grid} \rightarrow \text{Output Grid}

技术实现:

方面具体方案
模型纯 ViT 从头训练
参数量仅 18M(顶级 LLM 的几千分之一)
语言依赖完全不依赖任何语言能力
输入处理不直接 tokenize 网格,使用 “画布(Canvas)“机制
画布大小32×3232 \times 32 预定义画布
关键机制测试时训练(Test-Time Training, TTT)

画布机制

直接对网格进行 tokenization 会产生极少的 token,限制 ViT 注意力机制的发挥。VARC 引入画布机制:

  • 将输入网格放置于 32×3232 \times 32 的更大画布中
  • 用第 11 种颜色填充背景区域
  • Token 数量从有限网格扩展到更大空间
  • 让注意力机制有充足施展余地,能捕捉远程视觉关系

测试时训练(TTT)

推理时利用少量示例快速微调模型参数——这是 VARC 达成高性能的关键机制之一。

结果:纯视觉模型 ≈ 人类水平

模型类型准确率
单模型 (VARC)54.5%
集成模型60.4%
人类平均水平60.2%
顶级大语言模型 (GPT-4o 等)约 60% 区间

一个参数量只有顶级 LLM 几千分之一的纯视觉模型,在视觉推理任务上达到了与人类相当的水平。

这个结果的深层含义是:视觉推理不需要语言模型作为中介。潜力释放的两个条件是:

  1. 一个足够大的视觉画布
  2. 一个让模型在推理时继续学习的机制(TTT)

三、BiFlow:归一化流的逆袭

归一化流的历史困境

归一化流(Normalizing Flows) 曾被视为"理论上优美、工程上鸡肋"的框架:

优势困境
可同时完成生成和似然估计架构约束:必须保证前向可逆 → 无法使用 Transformer
训练过程透明可解释解码约束:逆向自回归因果解码 → 无法并行,每步顺序计算

两个结构性约束导致其在实际应用中被扩散模型全面压制。

BiFlow:放弃精确逆

BiFlow(Bidirectional Flow)的核心洞察:

逆向过程不需要是前向过程的精确逆映射。

具体设计:

Forward: z=fθ(x),fθ 可逆\text{Forward: } z = f_\theta(x), \quad f_\theta \text{ 可逆}Reverse: x^=gϕ(z),gϕfθ1, 不要求精确相等\text{Reverse: } \hat{x} = g_\phi(z), \quad g_\phi \approx f_\theta^{-1}, \text{ 不要求精确相等}
方面设计
前向过程保持可逆(数学保证分布映射准确性)
逆向过程单独训练独立 Transformer 来近似逆映射
逆向架构完全并行的 Transformer → 真正单步生成
隐藏层对齐利用前向中间状态轨迹监督逆向模型,防止表示空间不一致

三大解放

  1. 逆向可用 Transformer 强大的序列建模能力
  2. 不再受自回归顺序瓶颈约束
  3. 通过对齐保持前向过程的分布结构完整性

性能

指标BiFlowTARFlow(对比)提升
ImageNet 256×256256 \times 256 FID2.39归一化流历史新纪录
单张图像生成时间0.001 秒0.7 秒约 700 倍加速

0.001 秒的单步生成速度 + FID 2.39 的质量,使归一化流从"理论玩具"变成了真正具有实用价值的方法。


四、iMF:无蒸馏的单步高质量生成

背景:MeanFlow 及其缺陷

Mean Flow(MF, 2025年5月)首次将均值速度场引入生成建模,目标是真正的单步高质量生成。但初代存在三大系统性缺陷:

#缺陷名称具体问题
1训练目标的”自依赖u-loss 包含网络自身输出推导项 → 优化器闭环震荡
2引导机制的"死板"CFG 强度固定训练,推理时无法调节质量-多样性权衡
3架构效率的"肥胖"adaLN-zero 简单求和多条件向量 → 条件互相干扰

iMF 的三大修复

修复一:训练目标重表述 —— v-loss

利用 MeanFlow 的数学恒等式,将平均速度损失(u-loss)转换为瞬时速度损失(v-loss)

u(xt,t)=xx0t=0tv(xτ,τ)dτu(x_t, t) = \frac{x - x_0}{t} = \int_0^t v(x_\tau, \tau) d\tau

其中瞬时速度 v=xttv = \frac{\partial x_t}{\partial t} 是网络在 tt 时刻的瞬时导数,与网络自身输出无关——这是纯粹的回归问题,直接消除了 MF 训练不稳定的根因。

修复二:灵活的无分类器引导(CFG)

CFG 强度 ω\omega、引导区间 [tmin,tmax][t_{\min}, t_{\max}] 编码为显式条件变量,训练时从幂分布中随机采样不同引导强度。推理时可自由调节 CFG 强度和引导区间。

修复三:高效多 Token 条件注入

摒弃条件向量求和的做法,每类条件转化为多个可学习的 token,沿序列维度拼接后联合处理:

条件类型Token 数量
类别标签8 个
时间步 tt4 个
CFG 强度 ω\omega4 个
引导区间4 个

Base 模型参数从 133M 降至 89M(减少约 1/3),FID 反而改善。

完整消融链路

1
2
3
4
5
6
原 MF 基线:           6.17 FID
    ↓ v-loss 替换      5.68 FID
    ↓ 灵活 CFG          4.57 FID
    ↓ 多 token 条件     4.09 FID
    ↓ Transformer 改进   3.39 FID
    ↓ 640 epoch 长训练  1.72 FID  ← 最终结果

最终性能对比

模型方法NFEFID
iMF-XL/2从零训练,无蒸馏11.72
iMF-XL/2从零训练21.54
FACM-XL/2蒸馏11.76
DMF-XL/2+蒸馏12.16
SiT-XL/2+REPA多步扩散数百步1.42

iMF 首次在无蒸馏条件下超越所有蒸馏方法。 这打破了一个长期存在的默认假设:高质量单步生成必须依赖蒸馏。

2-NFE 时 FID 1.54 已非常接近主流多步扩散的水平(SiT-XL/2+REPA 的 1.42)。单步模型与多步模型的性能差距第一次缩小到这个量级。


五、Pixo:像素监督的反击

主流叙事 vs. 何恺明的质疑

领域内的主流叙事是:

像素空间已经过时,潜空间才是未来。

代表工作是 DINOv3——通过 VAE Tokenizer 将图像压缩到低维潜空间再做对比学习。隐含前提是:大规模训练场景下,像素级自监督天然不如潜空间方法。

Pixo(Pixel Supervision)对此提出质疑:像素监督在大规模场景下是否真的不如潜空间方法?

Pixo 的增强策略

层面具体增强
预训练任务设计更具挑战性的掩码重建任务
模型架构针对大规模高效训练优化
训练策略自筛选机制,自动过滤低质量数据
数据规模20 亿张网络爬取图像

下游任务结果

Pixo 在以下任务上与 DINOv3 正面对抗,各有胜负

  • 深度估计
  • 前馈 3D 重建
  • 语义分割
  • 机器人操控

结论

范式适用优势
像素监督需要保留完整视觉细节的任务
潜空间方法语义理解类任务

像素监督的边界还远未到达——在 20 亿规模数据上,它依然是有力的竞争者,而非被淘汰的技术遗产。


六、五篇论文全景汇总

论文全称领域核心创新关键成果
JiTJump into Image-space Transformer图像生成直接预测干净图像 xx,去掉 VAEFID 1.78 @5122512^2, 86M 参数,原生任意分辨率
VARCVisual Abstract Reasoning with Canvas视觉推理ARC 作为图像翻译问题,ViT + 画布 + TTT60.4%(集成)\approx 人类 60.2%,18M 参数
BiFlowBidirectional Flow归一化流放弃精确逆,逆向并行 TransformerFID 2.39,700 倍加速(0.7s \to 0.001s)
iMFImproved Mean Flow流匹配/单步生成修复 MF 三大缺陷(v-loss / 灵活 CFG / 多 token 条件)FID 1.72 @1-NFE, 无蒸馏超越所有蒸馏方法
PixoPixel Supervision自监督预训练20 亿像素级 MAE 增强 + 自筛选与 DINOv3 正面对抗,各有胜负

七、方法论总结:返璞归真的力量

纵观五篇论文,何恺明团队展现了高度一致的方法论风格:

三大颠覆性认知突破

传统默认假设团队结论对应论文
归一化流"理论上优美、工程上鸡肋"可通过放弃精确逆 + 隐藏层对齐修复BiFlow
扩散模型的噪声预测目标天然合理换掉噪声预测为直接 xx 预测,显著提升稳定性JiT
单步高质量生成必须依赖蒸馏从零训练 FID 1.72 打破此假设iMF
视觉推理必须借助语言模型纯视觉 ViT + 画布 + TTT 即可达人类水平VARC
像素空间在大规模场景下已过时20 亿像素监督依然可与 DINOv3 正面对抗Pixo

共同特征

不是在已有框架内做增量优化,而是回到第一性原理,重新审视每个被默认接受的前提

  • JiT 回到最基本的问题:“我们到底该让网络学什么?” → 学 xx 而非噪声
  • VARC 回到任务本质:“ARC 到底是什么类型的问题?” → 图像翻译,不是语言理解
  • BiFlow 回到可逆性的必要性:“逆向过程必须精确等于前向逆吗?” → 不必
  • iMF 回到训练目标的合理性:“为什么 u-loss 不稳定?” → 因为它是自依赖的
  • Pixo 回到表征选择的根本:“像素真的比 latent 差吗?” -> 在足够大规模的数据下不一定

战略路线图

1
2
3
4
5
底层基础重构 → 归一化 / 去噪目标函数 / 流模型设计
重构视觉生成与理解的理论框架
流匹配 (iMF + BiFlow) 作为扩散模型之后的高效生成范式

这种系统性的范式重构——而非单点突破——或许才是何恺明团队最值得关注的特质。五篇论文共同指向一个结论:生成式 AI 的下一个阶段,可能不是更大的模型或更多的算力,而是对基础假设的根本性质疑与重构。


参考文献

  1. JiT: Jump into Image-space Transformers
  2. VARC: Visual Abstract Reasoning with Canvas
  3. BiFlow: Bidirectional Normalizing Flow
  4. iMF: Improved Mean Flow for One-Step Image Generation
  5. Pixo: Pixel Supervision