引言:扩散模型不是终点
2025-2026 年,流匹配(Flow Matching) 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力:用常微分方程(ODE)路径替代扩散模型的随机微分方程(SDE)路径,让数据从噪声到图像的转变不再依赖数百步迭代。
但理论可行与工程落地之间,横亘着大量技术细节——训练目标怎么设计?架构如何选择?速度与质量能否兼顾?
何恺明(Kaiming He)团队在 CVPR 2026 上一次性投中五篇论文,系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向,共享同一个战略判断:
扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。
更值得关注的是团队的方法论风格:不是在已有规则里优化指标,而是重新定义问题的前提。用最小化的架构挑战传统领地,并屡屡获胜。
本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。
一、JiT:让"去噪"模型真正做去噪
问题:预测目标"不属于这个世界"
当前扩散模型的训练目标存在一个根本性矛盾:
网络学习预测的是噪声 或速度 ,而非干净图像 。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量,不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界",需要额外表达能力来处理高维噪声干扰,导致训练过程不稳定。
核心方案:直接预测
JiT(Jump into Image-space Transformer)的核心思想极为朴素:
既然 (干净图像)在图像流形上,那就让网络直接预测 。
具体实现:
| 方面 | 传统扩散模型 | JiT |
|---|---|---|
| 预测目标 | 噪声 / 速度 | 干净图像 |
| 架构 | U-Net / DiT | 标准 ViT |
| Patch 尺寸 | 通常 | 支持 、 甚至 |
| VAE Tokenizer | 必须有 | 完全去掉 |
| 损失函数 | 往往需要 GAN 损失/感知损失 | 最朴素的回归损失 |
为什么可以去掉 VAE?因为 在图像流形上,无需处理高维噪声干扰,patch 增大不会导致信息缺失。这也带来了一个重要优势:
原生支持任意分辨率生成——只需调整 patch 大小即可,256 到 1024 分辨率下计算量几乎不变。
性能
| 指标 | 结果 |
|---|---|
| 参数量 | 86M |
| ImageNet FID | 1.78 |
| 高分辨率版本 (JiT-G) | 保持竞争力 FID |
| 蒸馏依赖 | 无 |
| 外部模型辅助 | 无 |
一个仅 86M 参数、从零训练、没有任何外部辅助的模型达到 FID 1.78,这在 ImageNet 生成任务上是相当亮眼的成绩。
二、VARC:跳出语言模型的舒适圈
ARC 任务与社区误区
ARC(Abstraction and Reasoning Corpus) 是 AI 领域历史最久的推理能力测试之一,包含数百个"视觉谜题":给定少数示例,要求推断底层规律并应用到测试样例。涉及概念涵盖物体对称、重力方向、颜色连续性、反射变换等物理世界抽象推理。
人类平均水平:60.2%。
然而整个社区的解法几乎殊途同归:把 ARC 当成语言问题来解。GPT-4、Claude、DeepSeek 都在 ARC 上刷榜。这隐含了一个未经检验的错误假设:
视觉抽象推理必须借助语言才能完成。
VARC:ARC 作为图像翻译问题
何恺明团队提出了 VARC,将 ARC 重新建模为图像到图像的翻译问题:
技术实现:
| 方面 | 具体方案 |
|---|---|
| 模型 | 纯 ViT 从头训练 |
| 参数量 | 仅 18M(顶级 LLM 的几千分之一) |
| 语言依赖 | 完全不依赖任何语言能力 |
| 输入处理 | 不直接 tokenize 网格,使用 “画布(Canvas)“机制 |
| 画布大小 | 预定义画布 |
| 关键机制 | 测试时训练(Test-Time Training, TTT) |
画布机制
直接对网格进行 tokenization 会产生极少的 token,限制 ViT 注意力机制的发挥。VARC 引入画布机制:
- 将输入网格放置于 的更大画布中
- 用第 11 种颜色填充背景区域
- Token 数量从有限网格扩展到更大空间
- 让注意力机制有充足施展余地,能捕捉远程视觉关系
测试时训练(TTT)
推理时利用少量示例快速微调模型参数——这是 VARC 达成高性能的关键机制之一。
结果:纯视觉模型 ≈ 人类水平
| 模型类型 | 准确率 |
|---|---|
| 单模型 (VARC) | 54.5% |
| 集成模型 | 60.4% |
| 人类平均水平 | 60.2% |
| 顶级大语言模型 (GPT-4o 等) | 约 60% 区间 |
一个参数量只有顶级 LLM 几千分之一的纯视觉模型,在视觉推理任务上达到了与人类相当的水平。
这个结果的深层含义是:视觉推理不需要语言模型作为中介。潜力释放的两个条件是:
- 一个足够大的视觉画布
- 一个让模型在推理时继续学习的机制(TTT)
三、BiFlow:归一化流的逆袭
归一化流的历史困境
归一化流(Normalizing Flows) 曾被视为"理论上优美、工程上鸡肋"的框架:
| 优势 | 困境 |
|---|---|
| 可同时完成生成和似然估计 | 架构约束:必须保证前向可逆 → 无法使用 Transformer |
| 训练过程透明可解释 | 解码约束:逆向自回归因果解码 → 无法并行,每步顺序计算 |
两个结构性约束导致其在实际应用中被扩散模型全面压制。
BiFlow:放弃精确逆
BiFlow(Bidirectional Flow)的核心洞察:
逆向过程不需要是前向过程的精确逆映射。
具体设计:
| 方面 | 设计 |
|---|---|
| 前向过程 | 保持可逆(数学保证分布映射准确性) |
| 逆向过程 | 单独训练独立 Transformer 来近似逆映射 |
| 逆向架构 | 完全并行的 Transformer → 真正单步生成 |
| 隐藏层对齐 | 利用前向中间状态轨迹监督逆向模型,防止表示空间不一致 |
三大解放
- 逆向可用 Transformer 强大的序列建模能力
- 不再受自回归顺序瓶颈约束
- 通过对齐保持前向过程的分布结构完整性
性能
| 指标 | BiFlow | TARFlow(对比) | 提升 |
|---|---|---|---|
| ImageNet FID | 2.39 | — | 归一化流历史新纪录 |
| 单张图像生成时间 | 0.001 秒 | 0.7 秒 | 约 700 倍加速 |
0.001 秒的单步生成速度 + FID 2.39 的质量,使归一化流从"理论玩具"变成了真正具有实用价值的方法。
四、iMF:无蒸馏的单步高质量生成
背景:MeanFlow 及其缺陷
Mean Flow(MF, 2025年5月)首次将均值速度场引入生成建模,目标是真正的单步高质量生成。但初代存在三大系统性缺陷:
| # | 缺陷名称 | 具体问题 |
|---|---|---|
| 1 | 训练目标的”自依赖” | u-loss 包含网络自身输出推导项 → 优化器闭环震荡 |
| 2 | 引导机制的"死板" | CFG 强度固定训练,推理时无法调节质量-多样性权衡 |
| 3 | 架构效率的"肥胖" | adaLN-zero 简单求和多条件向量 → 条件互相干扰 |
iMF 的三大修复
修复一:训练目标重表述 —— v-loss
利用 MeanFlow 的数学恒等式,将平均速度损失(u-loss)转换为瞬时速度损失(v-loss):
其中瞬时速度 是网络在 时刻的瞬时导数,与网络自身输出无关——这是纯粹的回归问题,直接消除了 MF 训练不稳定的根因。
修复二:灵活的无分类器引导(CFG)
CFG 强度 、引导区间 编码为显式条件变量,训练时从幂分布中随机采样不同引导强度。推理时可自由调节 CFG 强度和引导区间。
修复三:高效多 Token 条件注入
摒弃条件向量求和的做法,每类条件转化为多个可学习的 token,沿序列维度拼接后联合处理:
| 条件类型 | Token 数量 |
|---|---|
| 类别标签 | 8 个 |
| 时间步 | 4 个 |
| CFG 强度 | 4 个 |
| 引导区间 | 4 个 |
Base 模型参数从 133M 降至 89M(减少约 1/3),FID 反而改善。
完整消融链路
| |
最终性能对比
| 模型 | 方法 | NFE | FID |
|---|---|---|---|
| iMF-XL/2 | 从零训练,无蒸馏 | 1 | 1.72 |
| iMF-XL/2 | 从零训练 | 2 | 1.54 |
| FACM-XL/2 | 蒸馏 | 1 | 1.76 |
| DMF-XL/2+ | 蒸馏 | 1 | 2.16 |
| SiT-XL/2+REPA | 多步扩散 | 数百步 | 1.42 |
iMF 首次在无蒸馏条件下超越所有蒸馏方法。 这打破了一个长期存在的默认假设:高质量单步生成必须依赖蒸馏。
2-NFE 时 FID 1.54 已非常接近主流多步扩散的水平(SiT-XL/2+REPA 的 1.42)。单步模型与多步模型的性能差距第一次缩小到这个量级。
五、Pixo:像素监督的反击
主流叙事 vs. 何恺明的质疑
领域内的主流叙事是:
像素空间已经过时,潜空间才是未来。
代表工作是 DINOv3——通过 VAE Tokenizer 将图像压缩到低维潜空间再做对比学习。隐含前提是:大规模训练场景下,像素级自监督天然不如潜空间方法。
Pixo(Pixel Supervision)对此提出质疑:像素监督在大规模场景下是否真的不如潜空间方法?
Pixo 的增强策略
| 层面 | 具体增强 |
|---|---|
| 预训练任务 | 设计更具挑战性的掩码重建任务 |
| 模型架构 | 针对大规模高效训练优化 |
| 训练策略 | 自筛选机制,自动过滤低质量数据 |
| 数据规模 | 20 亿张网络爬取图像 |
下游任务结果
Pixo 在以下任务上与 DINOv3 正面对抗,各有胜负:
- 深度估计
- 前馈 3D 重建
- 语义分割
- 机器人操控
结论
| 范式 | 适用优势 |
|---|---|
| 像素监督 | 需要保留完整视觉细节的任务 |
| 潜空间方法 | 语义理解类任务 |
像素监督的边界还远未到达——在 20 亿规模数据上,它依然是有力的竞争者,而非被淘汰的技术遗产。
六、五篇论文全景汇总
| 论文 | 全称 | 领域 | 核心创新 | 关键成果 |
|---|---|---|---|---|
| JiT | Jump into Image-space Transformer | 图像生成 | 直接预测干净图像 ,去掉 VAE | FID 1.78 @, 86M 参数,原生任意分辨率 |
| VARC | Visual Abstract Reasoning with Canvas | 视觉推理 | ARC 作为图像翻译问题,ViT + 画布 + TTT | 60.4%(集成) 人类 60.2%,18M 参数 |
| BiFlow | Bidirectional Flow | 归一化流 | 放弃精确逆,逆向并行 Transformer | FID 2.39,700 倍加速(0.7s 0.001s) |
| iMF | Improved Mean Flow | 流匹配/单步生成 | 修复 MF 三大缺陷(v-loss / 灵活 CFG / 多 token 条件) | FID 1.72 @1-NFE, 无蒸馏超越所有蒸馏方法 |
| Pixo | Pixel Supervision | 自监督预训练 | 20 亿像素级 MAE 增强 + 自筛选 | 与 DINOv3 正面对抗,各有胜负 |
七、方法论总结:返璞归真的力量
纵观五篇论文,何恺明团队展现了高度一致的方法论风格:
三大颠覆性认知突破
| 传统默认假设 | 团队结论 | 对应论文 |
|---|---|---|
| 归一化流"理论上优美、工程上鸡肋" | 可通过放弃精确逆 + 隐藏层对齐修复 | BiFlow |
| 扩散模型的噪声预测目标天然合理 | 换掉噪声预测为直接 预测,显著提升稳定性 | JiT |
| 单步高质量生成必须依赖蒸馏 | 从零训练 FID 1.72 打破此假设 | iMF |
| 视觉推理必须借助语言模型 | 纯视觉 ViT + 画布 + TTT 即可达人类水平 | VARC |
| 像素空间在大规模场景下已过时 | 20 亿像素监督依然可与 DINOv3 正面对抗 | Pixo |
共同特征
不是在已有框架内做增量优化,而是回到第一性原理,重新审视每个被默认接受的前提:
- JiT 回到最基本的问题:“我们到底该让网络学什么?” → 学 而非噪声
- VARC 回到任务本质:“ARC 到底是什么类型的问题?” → 图像翻译,不是语言理解
- BiFlow 回到可逆性的必要性:“逆向过程必须精确等于前向逆吗?” → 不必
- iMF 回到训练目标的合理性:“为什么 u-loss 不稳定?” → 因为它是自依赖的
- Pixo 回到表征选择的根本:“像素真的比 latent 差吗?” -> 在足够大规模的数据下不一定
战略路线图
| |
这种系统性的范式重构——而非单点突破——或许才是何恺明团队最值得关注的特质。五篇论文共同指向一个结论:生成式 AI 的下一个阶段,可能不是更大的模型或更多的算力,而是对基础假设的根本性质疑与重构。