何恺明团队 CVPR 2026 五篇论文全景：流匹配范式的多角度突破

引言：扩散模型不是终点

2025-2026 年，流匹配（Flow Matching） 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力：用常微分方程（ODE）路径替代扩散模型的随机微分方程（SDE）路径，让数据从噪声到图像的转变不再依赖数百步迭代。

但理论可行与工程落地之间，横亘着大量技术细节——训练目标怎么设计？架构如何选择？速度与质量能否兼顾？

何恺明（Kaiming He）团队在 CVPR 2026 上一次性投中五篇论文，系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向，共享同一个战略判断：

扩散模型不是终点，而是某个更高效范式出现之前的过渡阶段。

更值得关注的是团队的方法论风格：不是在已有规则里优化指标，而是重新定义问题的前提。用最小化的架构挑战传统领地，并屡屡获胜。

本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。

一、JiT：让"去噪"模型真正做去噪

问题：预测目标"不属于这个世界"

当前扩散模型的训练目标存在一个根本性矛盾：

网络学习预测的是噪声 $\varepsilon$ 或速度 $v$ ，而非干净图像 $x$ 。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量，不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界"，需要额外表达能力来处理高维噪声干扰，导致训练过程不稳定。

核心方案：直接预测 $x$

JiT（Jump into Image-space Transformer）的核心思想极为朴素：

既然 $x$ （干净图像）在图像流形上，那就让网络直接预测 $x$ 。

具体实现：

方面	传统扩散模型	JiT
预测目标	噪声 $\varepsilon$ / 速度 $v$	干净图像 $x$
架构	U-Net / DiT	标准 ViT
Patch 尺寸	通常 $8 \times 8$	支持 $16 \times 16$ 、 $32 \times 32$ 甚至 $64 \times 64$
VAE Tokenizer	必须有	完全去掉
损失函数	往往需要 GAN 损失/感知损失	最朴素的回归损失

为什么可以去掉 VAE？因为 $x$ 在图像流形上，无需处理高维噪声干扰，patch 增大不会导致信息缺失。这也带来了一个重要优势：

原生支持任意分辨率生成——只需调整 patch 大小即可，256 到 1024 分辨率下计算量几乎不变。

性能

指标	结果
参数量	86M
ImageNet $512 \times 512$ FID	1.78
高分辨率版本 (JiT-G)	保持竞争力 FID
蒸馏依赖	无
外部模型辅助	无

一个仅 86M 参数、从零训练、没有任何外部辅助的模型达到 FID 1.78，这在 ImageNet 生成任务上是相当亮眼的成绩。

二、VARC：跳出语言模型的舒适圈

ARC 任务与社区误区

ARC（Abstraction and Reasoning Corpus） 是 AI 领域历史最久的推理能力测试之一，包含数百个"视觉谜题"：给定少数示例，要求推断底层规律并应用到测试样例。涉及概念涵盖物体对称、重力方向、颜色连续性、反射变换等物理世界抽象推理。

人类平均水平：60.2%。

然而整个社区的解法几乎殊途同归：把 ARC 当成语言问题来解。GPT-4、Claude、DeepSeek 都在 ARC 上刷榜。这隐含了一个未经检验的错误假设：

视觉抽象推理必须借助语言才能完成。

VARC：ARC 作为图像翻译问题

何恺明团队提出了 VARC，将 ARC 重新建模为图像到图像的翻译问题：

f: \text{Input Grid} \rightarrow \text{Output Grid}

技术实现：

方面	具体方案
模型	纯 ViT 从头训练
参数量	仅 18M（顶级 LLM 的几千分之一）
语言依赖	完全不依赖任何语言能力
输入处理	不直接 tokenize 网格，使用 “画布（Canvas）“机制
画布大小	$32 \times 32$ 预定义画布
关键机制	测试时训练（Test-Time Training, TTT）

画布机制

直接对网格进行 tokenization 会产生极少的 token，限制 ViT 注意力机制的发挥。VARC 引入画布机制：

将输入网格放置于 $32 \times 32$ 的更大画布中
用第 11 种颜色填充背景区域
Token 数量从有限网格扩展到更大空间
让注意力机制有充足施展余地，能捕捉远程视觉关系

测试时训练（TTT）

推理时利用少量示例快速微调模型参数——这是 VARC 达成高性能的关键机制之一。

结果：纯视觉模型 ≈ 人类水平

模型类型	准确率
单模型 (VARC)	54.5%
集成模型	60.4%
人类平均水平	60.2%
顶级大语言模型 (GPT-4o 等)	约 60% 区间

一个参数量只有顶级 LLM 几千分之一的纯视觉模型，在视觉推理任务上达到了与人类相当的水平。

这个结果的深层含义是：视觉推理不需要语言模型作为中介。潜力释放的两个条件是：

一个足够大的视觉画布
一个让模型在推理时继续学习的机制（TTT）

三、BiFlow：归一化流的逆袭

归一化流的历史困境

归一化流（Normalizing Flows） 曾被视为"理论上优美、工程上鸡肋"的框架：

优势	困境
可同时完成生成和似然估计	架构约束：必须保证前向可逆 → 无法使用 Transformer
训练过程透明可解释	解码约束：逆向自回归因果解码 → 无法并行，每步顺序计算

两个结构性约束导致其在实际应用中被扩散模型全面压制。

BiFlow：放弃精确逆

BiFlow（Bidirectional Flow）的核心洞察：

逆向过程不需要是前向过程的精确逆映射。

具体设计：

\text{Forward: } z = f_\theta(x), \quad f_\theta \text{ 可逆}

\text{Reverse: } \hat{x} = g_\phi(z), \quad g_\phi \approx f_\theta^{-1}, \text{ 不要求精确相等}

方面	设计
前向过程	保持可逆（数学保证分布映射准确性）
逆向过程	单独训练独立 Transformer 来近似逆映射
逆向架构	完全并行的 Transformer → 真正单步生成
隐藏层对齐	利用前向中间状态轨迹监督逆向模型，防止表示空间不一致

三大解放

逆向可用 Transformer 强大的序列建模能力
不再受自回归顺序瓶颈约束
通过对齐保持前向过程的分布结构完整性

性能

指标	BiFlow	TARFlow（对比）	提升
ImageNet $256 \times 256$ FID	2.39	—	归一化流历史新纪录
单张图像生成时间	0.001 秒	0.7 秒	约 700 倍加速

0.001 秒的单步生成速度 + FID 2.39 的质量，使归一化流从"理论玩具"变成了真正具有实用价值的方法。

四、iMF：无蒸馏的单步高质量生成

背景：MeanFlow 及其缺陷

Mean Flow（MF, 2025年5月）首次将均值速度场引入生成建模，目标是真正的单步高质量生成。但初代存在三大系统性缺陷：

#	缺陷名称	具体问题
1	训练目标的”自依赖”	u-loss 包含网络自身输出推导项 → 优化器闭环震荡
2	引导机制的"死板"	CFG 强度固定训练，推理时无法调节质量-多样性权衡
3	架构效率的"肥胖"	adaLN-zero 简单求和多条件向量 → 条件互相干扰

iMF 的三大修复

修复一：训练目标重表述 —— v-loss

利用 MeanFlow 的数学恒等式，将平均速度损失（u-loss）转换为瞬时速度损失（v-loss）：

u(x_t, t) = \frac{x - x_0}{t} = \int_0^t v(x_\tau, \tau) d\tau

其中瞬时速度 $v = \frac{\partial x_t}{\partial t}$ 是网络在 $t$ 时刻的瞬时导数，与网络自身输出无关——这是纯粹的回归问题，直接消除了 MF 训练不稳定的根因。

修复二：灵活的无分类器引导（CFG）

CFG 强度 $\omega$ 、引导区间 $[t_{\min}, t_{\max}]$ 编码为显式条件变量，训练时从幂分布中随机采样不同引导强度。推理时可自由调节 CFG 强度和引导区间。

修复三：高效多 Token 条件注入

摒弃条件向量求和的做法，每类条件转化为多个可学习的 token，沿序列维度拼接后联合处理：

条件类型	Token 数量
类别标签	8 个
时间步 $t$	4 个
CFG 强度 $\omega$	4 个
引导区间	4 个

Base 模型参数从 133M 降至 89M（减少约 1/3），FID 反而改善。

完整消融链路

1
2
3
4
5
6
原 MF 基线:           6.17 FID
    ↓ v-loss 替换      5.68 FID
    ↓ 灵活 CFG          4.57 FID
    ↓ 多 token 条件     4.09 FID
    ↓ Transformer 改进   3.39 FID
    ↓ 640 epoch 长训练  1.72 FID  ← 最终结果

最终性能对比

模型	方法	NFE	FID
iMF-XL/2	从零训练，无蒸馏	1	1.72
iMF-XL/2	从零训练	2	1.54
FACM-XL/2	蒸馏	1	1.76
DMF-XL/2+	蒸馏	1	2.16
SiT-XL/2+REPA	多步扩散	数百步	1.42

iMF 首次在无蒸馏条件下超越所有蒸馏方法。 这打破了一个长期存在的默认假设：高质量单步生成必须依赖蒸馏。

2-NFE 时 FID 1.54 已非常接近主流多步扩散的水平（SiT-XL/2+REPA 的 1.42）。单步模型与多步模型的性能差距第一次缩小到这个量级。

五、Pixo：像素监督的反击

主流叙事 vs. 何恺明的质疑

领域内的主流叙事是：

像素空间已经过时，潜空间才是未来。

代表工作是 DINOv3——通过 VAE Tokenizer 将图像压缩到低维潜空间再做对比学习。隐含前提是：大规模训练场景下，像素级自监督天然不如潜空间方法。

Pixo（Pixel Supervision）对此提出质疑：像素监督在大规模场景下是否真的不如潜空间方法？

Pixo 的增强策略

层面	具体增强
预训练任务	设计更具挑战性的掩码重建任务
模型架构	针对大规模高效训练优化
训练策略	自筛选机制，自动过滤低质量数据
数据规模	20 亿张网络爬取图像

下游任务结果

Pixo 在以下任务上与 DINOv3 正面对抗，各有胜负：

深度估计
前馈 3D 重建
语义分割
机器人操控

结论

范式	适用优势
像素监督	需要保留完整视觉细节的任务
潜空间方法	语义理解类任务

像素监督的边界还远未到达——在 20 亿规模数据上，它依然是有力的竞争者，而非被淘汰的技术遗产。

六、五篇论文全景汇总

论文	全称	领域	核心创新	关键成果
JiT	Jump into Image-space Transformer	图像生成	直接预测干净图像 $x$ ，去掉 VAE	FID 1.78 @ $512^2$ , 86M 参数，原生任意分辨率
VARC	Visual Abstract Reasoning with Canvas	视觉推理	ARC 作为图像翻译问题，ViT + 画布 + TTT	60.4%（集成） $\approx$ 人类 60.2%，18M 参数
BiFlow	Bidirectional Flow	归一化流	放弃精确逆，逆向并行 Transformer	FID 2.39，700 倍加速（0.7s $\to$ 0.001s）
iMF	Improved Mean Flow	流匹配/单步生成	修复 MF 三大缺陷（v-loss / 灵活 CFG / 多 token 条件）	FID 1.72 @1-NFE, 无蒸馏超越所有蒸馏方法
Pixo	Pixel Supervision	自监督预训练	20 亿像素级 MAE 增强 + 自筛选	与 DINOv3 正面对抗，各有胜负

七、方法论总结：返璞归真的力量

纵观五篇论文，何恺明团队展现了高度一致的方法论风格：

三大颠覆性认知突破

传统默认假设	团队结论	对应论文
归一化流"理论上优美、工程上鸡肋"	可通过放弃精确逆 + 隐藏层对齐修复	BiFlow
扩散模型的噪声预测目标天然合理	换掉噪声预测为直接 $x$ 预测，显著提升稳定性	JiT
单步高质量生成必须依赖蒸馏	从零训练 FID 1.72 打破此假设	iMF
视觉推理必须借助语言模型	纯视觉 ViT + 画布 + TTT 即可达人类水平	VARC
像素空间在大规模场景下已过时	20 亿像素监督依然可与 DINOv3 正面对抗	Pixo

共同特征

不是在已有框架内做增量优化，而是回到第一性原理，重新审视每个被默认接受的前提：

JiT 回到最基本的问题：“我们到底该让网络学什么？” → 学 $x$ 而非噪声
VARC 回到任务本质：“ARC 到底是什么类型的问题？” → 图像翻译，不是语言理解
BiFlow 回到可逆性的必要性：“逆向过程必须精确等于前向逆吗？” → 不必
iMF 回到训练目标的合理性：“为什么 u-loss 不稳定？” → 因为它是自依赖的
Pixo 回到表征选择的根本：“像素真的比 latent 差吗？” -> 在足够大规模的数据下不一定

战略路线图

1
2
3
4
5
底层基础重构 → 归一化 / 去噪目标函数 / 流模型设计
        ↓
重构视觉生成与理解的理论框架
        ↓
流匹配 (iMF + BiFlow) 作为扩散模型之后的高效生成范式

这种系统性的范式重构——而非单点突破——或许才是何恺明团队最值得关注的特质。五篇论文共同指向一个结论：生成式 AI 的下一个阶段，可能不是更大的模型或更多的算力，而是对基础假设的根本性质疑与重构。

参考文献

JiT: Jump into Image-space Transformers
VARC: Visual Abstract Reasoning with Canvas
BiFlow: Bidirectional Normalizing Flow
iMF: Improved Mean Flow for One-Step Image Generation
Pixo: Pixel Supervision

引言：扩散模型不是终点#

一、JiT：让"去噪"模型真正做去噪#

问题：预测目标"不属于这个世界"#

核心方案：直接预测 xx#

性能#

二、VARC：跳出语言模型的舒适圈#

ARC 任务与社区误区#

VARC：ARC 作为图像翻译问题#

画布机制#

测试时训练（TTT）#

结果：纯视觉模型 ≈ 人类水平#

三、BiFlow：归一化流的逆袭#

归一化流的历史困境#

BiFlow：放弃精确逆#

三大解放#

性能#

四、iMF：无蒸馏的单步高质量生成#

背景：MeanFlow 及其缺陷#

iMF 的三大修复#

修复一：训练目标重表述 —— v-loss#

修复二：灵活的无分类器引导（CFG）#

修复三：高效多 Token 条件注入#

完整消融链路#

最终性能对比#

五、Pixo：像素监督的反击#

主流叙事 vs. 何恺明的质疑#

Pixo 的增强策略#

下游任务结果#

结论#

六、五篇论文全景汇总#

七、方法论总结：返璞归真的力量#

三大颠覆性认知突破#

共同特征#

战略路线图#

参考文献#