何恺明团队 CVPR 2026 五篇论文全景:流匹配范式的多角度突破

引言:扩散模型不是终点 2025-2026 年,流匹配(Flow Matching) 已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力:用常微分方程(ODE)路径替代扩散模型的随机微分方程(SDE)路径,让数据从噪声到图像的转变不再依赖数百步迭代。 但理论可行与工程落地之间,横亘着大量技术细节——训练目标怎么设计?架构如何选择?速度与质量能否兼顾? 何恺明(Kaiming He)团队在 CVPR 2026 上一次性投中五篇论文,系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向,共享同一个战略判断: 扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。 更值得关注的是团队的方法论风格:不是在已有规则里优化指标,而是重新定义问题的前提。用最小化的架构挑战传统领地,并屡屡获胜。 本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。 一、JiT:让"去噪"模型真正做去噪 问题:预测目标"不属于这个世界" 当前扩散模型的训练目标存在一个根本性矛盾: 网络学习预测的是噪声 ε\varepsilon 或速度 vv,而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量,不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界",需要额外表达能力来处理高维噪声干扰,导致训练过程不稳定。 核心方案:直接预测 xx JiT(Jump into Image-space Transformer)的核心思想极为朴素: 既然 xx(干净图像)在图像流形上,那就让网络直接预测 xx。 具体实现: 方面 传统扩散模型 JiT 预测目标 噪声 ε\varepsilon / 速度 vv 干净图像 xx 架构 U-Net / DiT 标准 ViT Patch 尺寸 通常 8×88 \times 8 支持 16×1616 \times 16、32×3232 \times 32 甚至 64×6464 \times 64 VAE Tokenizer 必须有 完全去掉 损失函数 往往需要 GAN 损失/感知损失 最朴素的回归损失 为什么可以去掉 VAE?因为 xx 在图像流形上,无需处理高维噪声干扰,patch 增大不会导致信息缺失。这也带来了一个重要优势: 原生支持任意分辨率生成——只需调整 patch 大小即可,256 到 1024 分辨率下计算量几乎不变。 ...

May 8, 2026 · 4 min read · LexHsu