Biflow

引言：扩散模型不是终点 2025-2026 年，流匹配（Flow Matching）已成为生成式 AI 领域最受关注的研究方向。其核心思路简洁有力：用常微分方程（ODE）路径替代扩散模型的随机微分方程（SDE）路径，让数据从噪声到图像的转变不再依赖数百步迭代。但理论可行与工程落地之间，横亘着大量技术细节——训练目标怎么设计？架构如何选择？速度与质量能否兼顾？何恺明（Kaiming He）团队在 CVPR 2026 上一次性投中五篇论文，系统性地回答了这些问题。五篇论文覆盖了图像生成、视觉推理、归一化流、单步生成和自监督预训练五个方向，共享同一个战略判断：扩散模型不是终点，而是某个更高效范式出现之前的过渡阶段。更值得关注的是团队的方法论风格：不是在已有规则里优化指标，而是重新定义问题的前提。用最小化的架构挑战传统领地，并屡屡获胜。本文将逐一解析这五篇论文的技术细节、关键创新和实验结果。一、JiT：让"去噪"模型真正做去噪问题：预测目标"不属于这个世界" 当前扩散模型的训练目标存在一个根本性矛盾：网络学习预测的是噪声 ε\varepsilon 或速度 vv，而非干净图像 xx。而噪声和速度不在自然图像的流形上——它们本质上是高维空间中的随机向量，不服从图像数据的内在结构分布。这意味着网络的预测目标天然"不属于这个世界"，需要额外表达能力来处理高维噪声干扰，导致训练过程不稳定。核心方案：直接预测 xx JiT（Jump into Image-space Transformer）的核心思想极为朴素：既然 xx（干净图像）在图像流形上，那就让网络直接预测 xx。具体实现：方面传统扩散模型 JiT 预测目标噪声 ε\varepsilon / 速度 vv 干净图像 xx 架构 U-Net / DiT 标准 ViT Patch 尺寸通常 8×88 \times 8 支持 16×1616 \times 16、32×3232 \times 32 甚至 64×6464 \times 64 VAE Tokenizer 必须有完全去掉损失函数往往需要 GAN 损失/感知损失最朴素的回归损失为什么可以去掉 VAE？因为 xx 在图像流形上，无需处理高维噪声干扰，patch 增大不会导致信息缺失。这也带来了一个重要优势：原生支持任意分辨率生成——只需调整 patch 大小即可，256 到 1024 分辨率下计算量几乎不变。 ...