一、一个被默认接受的复杂性

文生图(Text-to-Image,T2I)在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮,但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文,第一反应是:先攒卡。

MIT 的 Xianbang Wang(IMO 2024 金牌,本科二年级)领着 Kaiming He 组的本科生 UROP 团队问了一个反方向的问题:如果文生图本质上不比 ImageNet 上的类条件生成复杂多少,那么"复杂工程流水线"是不是被默认接受了的多余复杂性?

MiniT2I-B/16 sample grid

他们的答案叫 MiniT2I——一个 258M 参数、像素空间、flow matching、用一台 8×H100 三天就能训完的 T2I 模型。在 GenEval 上拿到 0.873(B/16)和 0.883(L/16),数值上越过了同 benchmark 上 SD3-Medium 约 0.74、FLUX.1-dev 约 0.71 的报告值;但论文自己承认 GenEval 已经饱和,PRISM-Bench 才是真考场——MiniT2I-L/16 在 PRISM-Bench 上只有 62.4,仍然落后于 SD3-Medium(66.1)、FLUX.1-dev(68.5)和 Qwen-Image(74.1)(Wang et al. 2026)。

诚实是这篇论文的第一个让人愿意继续读下去的特征。

二、凯明系"去 codec"主线上的第三块拼图

要看清 MiniT2I 的位置,得把它放回 Kaiming He 团队过去十二个月的工作脉络里。我之前在凯明的方法论:从 ResNet 到 iMF里抽过四条贯穿性 DNA——D1 朴素到极致、D2 改变问题假设、D3 强先验轻假设、D4 方法与任务解耦。其中一条横向线索是"扔掉 VAE / 像素空间生成",从 2025 年下半年开始密集出现:

flowchart LR
    JiT["JiT (Li & He 2025)
arXiv:2511.13720
类条件 ImageNet
x-prediction 替代 ε/v"] PMF["Pixel Mean Flow (Lu et al. 2026)
arXiv:2601.22158
一步像素生成
无 codec 的 1-NFE"] iMF["iMF (Geng et al. 2025)
arXiv:2512.02012
训练目标修正
stop-gradient 切自依赖"] MiniT2I["MiniT2I (Wang et al. 2026)
T2I 落地
MM-JiT + frozen T5"] JiT --> MiniT2I JiT --> PMF iMF -.-> PMF PMF --> MiniT2I style MiniT2I fill:#fde047,stroke:#1e293b,stroke-width:2px

这四篇互相咬合得很紧:JiT 证明像素空间在类条件 ImageNet 上能匹敌潜空间,并发现 x-prediction 是高维像素扩散稳定训练的关键先验;Pixel Mean Flow 把一步生成搬到像素空间;iMF 修掉 Mean Flow 训练目标里的自依赖问题。MiniT2I 把这三块拼图组装起来,首次回答"文生图能不能也走这条路"。

值得注意的一点是 Pixel Mean Flow(Lu et al. 2026)的作者列表里就有 Xianbang Wang——MiniT2I 的项目 lead。这意味着 MiniT2I 团队既是 JiT 路线的使用者,也是它的共同推进者。MiniT2I 的 4 步蒸馏分支(Mean Flow distillation)正是直接调用了同团队的 Pixel Mean Flow 方法。

三、问题形式化:T2I = 类条件 + in-context text

论文的核心洞察可以用一句话写出来:把预训练语言模型给出的 token 序列当作 in-context condition,文生图在模型架构、计算量和数据需求上都和类条件 ImageNet 生成惊人地相似。这是一个 D2 式的命题——它没有改算法,只是改变了"T2I 应当被看作什么任务"的假设。

形式化:在直线插值路径上,给定噪声 ϵN(0,I)\epsilon \sim \mathcal{N}(0, I) 与真实图像 xx,在 t[0,1]t \in [0, 1] 上构造 zt=tx+(1t)ϵz_t = t x + (1 - t)\epsilon。模型 fθf_\theta 学习把 ztz_t 映射回干净图像,CFM 的训练目标可以写成

LCFM=Et,ϵ,x,c[fθ(zt,t,c)x2] \mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, \epsilon, x, c}\Big[\| f_\theta(z_t, t, c) - x \|^2\Big]

其中 cc 是文本条件——通常是预训练编码器的 token 序列。这和 Flow Matching 与一致性模型里推导的 OT-CFM 是同一个目标,只多了 cc 这一项。

像素空间 vs 潜空间是 T2I 设计里第一个被默认接受的复杂性。Latent Diffusion(Rombach et al. 2022)通过 VAE 把高分辨率图像压到 1/8×1/81/8 \times 1/8 的潜空间里去噪,再 decode 回像素。这套流水线优势明显(节省算力、降维易训),代价也很具体——VAE 重建有 artifact、训练分两阶段且两阶段优化目标错位(Skorokhodov et al. 2025)、潜空间的"可去噪性"未必好。

JiT 给出的反向选择是:把 512×512512 \times 512 图像直接切成 32×3232 \times 32 大 patch,得到 256 个图像 token,加上 256 个文本 token,序列长度 512,与 ImageNet 类条件 DiT 的实验范围吻合。扔掉 VAE 后单步前向计算从 1379 GFLOPs(VAE 1117 + backbone 262)降到 265 GFLOPs。这是免费午餐。

预测目标的选择就不是免费的了。在高维像素空间,参数化的三种选择——预测干净图像 xx、预测噪声 ϵ\epsilon、预测速度 v=xϵv = x - \epsilon——配合三种 loss 空间(xx-loss / ϵ\epsilon-loss / vv-loss)共九种组合,论文报告 B/32 在 250K 步 CC12M 预训练后的 MSCOCO FID:

Loss \ Predxx-predϵ\epsilon-predvv-pred
xx-loss15.3523.8229.1
ϵ\epsilon-loss15.2524.8231.4
vv-loss13.7524.0230.1

ϵ\epsilon- 和 vv- 预测全部 collapse,只有 xx-预测稳定。这一点继承自 JiT 的发现——在高维像素空间,预测干净图像是唯一稳定的网络输出选择,DDPM 变分基础里证明的 x/ϵ/vx / \epsilon / v 数学等价性,在训练动力学层面并不等价。MiniT2I 的最优配置是 xx-预测 + vv-loss——loss 空间和输出空间解耦,给优化更稳的几何。

四、MM-JiT:把 MM-DiT 压到不能再压

像素空间 MM-DiT baseline 已经能在 FID 上匹敌 latent,下一步是问"MM-DiT 里有多少零件其实是冗余的"。

MM-DiT 与 MM-JiT 对比

MM-DiT(Esser et al. 2024)每一个 block 包含:双流 joint attention(图像和文本 token 在自注意力里互相看见,但各自有独立 QKV/MLP 权重)+ AdaLN 调制(pooled text 与 timestep 经一个 side MLP,产出每 block 的 scale / shift / gate 共 6 个 1D 向量)。MiniT2I 的两步削减:

步骤 1:加 text adapter。frozen T5 的 token 不是为像素去噪器优化的,所以在 joint attention 之前先用两个浅层 transformer block 把 text token 重整一下。FID 18.7 → 17.4,参数 +18M。

步骤 2:删掉 AdaLN 调制。SD3 的设计里,prompt 通过 joint attention 进入 image stream(路径 1),同时被 pool 后变成 AdaLN 参数控制每个 block 的归一化(路径 2)。MiniT2I 的判断是路径 2 在小模型上是冗余的——prompt 已经从 joint attention 进入了,再做一次 per-block 调制是过设计。删掉之后剩下的就是普通 pre-norm transformer。FID 17.4 → 13.7,参数从 276M 降回 260M(省下 AdaLN 的 16M 调制参数,腾出空间把骨架加深到 17 层)。

BackboneLayersParamsGFLOPs/fwdFID ↓
MM-DiT, pixel12258M26518.7
+ 2 text adapters12276M27317.4
– AdaLN(MM-JiT, pixel17260M31313.7

最终的 MM-JiT block 与 Geng et al. (2025) 的 iMF、Lu et al. (2026) 的 Pixel Mean Flow、Zeng et al. (2026) 的 i1 用的是同一类"plain pre-norm"骨架——这成了凯明系 2025-2026 在生成方向上的共同建筑选择。

五、数据:CC12M + 120K,预训练-微调 LLM 范式

模型架构定下来后,第一版 MM-JiT 报告 FID 13.7,听起来已经接近 SOTA。但论文坦承这时候的样本"看起来软、平均、像素细节不到位、prompt 跟随很弱"——FID 在测分布层面给了好分,但在 prompt 层面失真。

pretrain only 与 alignment 后的 labyrinth 对比

修正办法和 LLM 的 SFT 完全同构:CC12M 给广度(1200 万图文对,但 caption 是带噪 web alt-text),120K 张高质合成数据给"prompt-image alignment"。三份合成集合都来自公开渠道:

SourceSize
BLIP3o-60K58.9K
LAION DALL·E 3 Discord set19.0K
ShareGPT-4o-Image41.4K
Total119.3K

在 CC12M 250K 步预训练后,再 fine-tune 40K 步,得到 GenEval 0.826 / DPG 82.3(B/32)。论文给的消融写得很清楚:在 CC12M 上继续 fine-tune 不动 alignment(GenEval 0.529),只用 120K 合成集预训练则 coverage 崩掉(GenEval 0.408)。两份数据职责截然——pretrain 买广度,fine-tune 教模型"什么样的回答叫好"。这是从 InstructGPT(Ouyang et al. 2022)借来的 framing,在 T2I 上一比一映射。

六、Scaling 的反应:B/32 → B/16 → L/16

所有的设计决策都在 B/32 上做完,下一步是问"在更大的设置下这个配方还能站住吗"。B/16 把 patch 从 32 缩到 16,token 数 4×到 1024;L/16 在 1024 token 上把骨架放大到 912M 参数。

ModelTokensParamsGFLOPs/fwdFID ↓GenEval ↑DPG ↑
MiniT2I-B/32256260M31313.690.82682.3
MiniT2I-B/161024258M57010.510.87384.2
MiniT2I-L/161024912M14938.990.88385.9

scaling 行为足够干净——同一份配方在三个尺寸上稳定收敛,没有需要重新调超参。论文也不回避它的局限:受限于 8×H100 + TPU Research Cloud 的预算,他们没做"真 frontier 级"的 scaling 实验,scaling laws 的最终形态需要后续工作(Wang et al. 2026, §05)。

七、诚实的失败:PRISM-Bench 是真考场

读到这里你可能已经注意到,GenEval 0.873 这个数字看起来高得不像 258M 模型该有的——SD3-Medium(约 2B 参数)在 GenEval 上才 0.74 左右,FLUX.1-dev(12B)才 0.71。是真的反超还是 benchmark 出了问题?

论文给的回答是后者。他们用自己的 ablation 证明:GenEval 和 DPG-Bench 都对 alignment fine-tune 极度敏感,混入一小批高质合成数据就能让分数大幅上跳。SD3 / FLUX 这种 web 数据训练系统在 GenEval 上分数不高,主要原因是没专门针对 GenEval 风格的合成数据 fine-tune——和 prompt 跟随能力的真实差距不是一回事。

更可信的考场是 PRISM-Bench(Fang et al. 2025)——它把 prompt 拆成对齐、美学、想象、实体、文字、风格、情感、构图、长 prompt 九个维度,每个维度独立打分。结果如下:

ModelAvgAlignAesImagEntityTextStyleAffCompLong
SDXL57.060.154.044.368.027.972.172.670.044.3
SD3-Medium66.168.064.251.066.350.977.078.082.556.8
FLUX.1-dev68.572.164.954.266.262.673.479.481.662.1
Qwen-Image74.180.068.356.572.064.585.580.186.773.8
MiniT2I-B/1655.861.350.256.147.122.473.472.172.347.2
MiniT2I-L/1662.465.958.957.960.330.679.977.978.452.0

MiniT2I-L/16 在风格、构图、想象三个维度上能到工业模型的水平(Imag 维度 57.9 甚至最高),但文字渲染(30.6)和实体知识(60.3)落后明显。两个短板的归因都指向数据层而非架构层:文字渲染需要 TextAtlas5M 这种专门数据,实体知识需要更大规模的 web 数据覆盖(Zeng et al. 2026; Wang et al. 2025a)。

像素空间还有一个真实代价是 patch-boundary artifact:

Patch boundary artifact

在 CFG 倍率较大(T2I 常用 6 以上)时,CFG 把每个 patch 的预测做线性外推,patch 之间的外推方向不一致导致边界出现亮度突变。Latent 模型在 VAE decoder 里被平滑掉了,pixel 模型直接暴露在输出上。论文给出的量化指标是边界 vs 非边界 phase 的归一化梯度强度——latent B/16 是 0.99(无差别),pixel B/16 是 1.22(边界亮 22%),pixel L/16 是 1.17。这是 pixel-space T2I 必须正面解决的工程问题。

最后一个被诚实点出的代价是多样性下降。alignment fine-tune 与 LLM SFT 同构,包括同一个副作用:在窄数据分布上反复 overfit 会收窄样本多样性。

Diversity grid: MiniT2I-L/16 vs SD3-Medium Diversity grid: SD3-Medium

同一个 prompt(“a white rabbit under a starry sky”)下八张独立采样:SD3-Medium 的姿态、构图、调色明显比 MiniT2I-L/16 更多样。alignment / diversity 的 Pareto 权衡在 T2I 上与 LLM 同构,没有架构能直接绕开。

八、两个延伸:LoRA 与 4 步蒸馏

一个 baseline 的健康度,看的是 follow-up 工作能不能直接接上去。MiniT2I 测了两个:

LoRA 下游适配。在 Naruto BLIP captions 和 Pokemon BLIP captions 这两个 1K-image 小数据集上,attach LoRA adapter 到 attention / MLP / text projection,只训 adapter 400 步、batch 16,风格迁移就 work 了。258M 模型的世界知识不算丰富,但足够支撑 LoRA 风格化——这意味着 MiniT2I 不只是 academic 玩具,对个人开发者也算可用。

Mean Flow 4 步蒸馏。论文用同团队 Pixel Mean Flow(Lu et al. 2026)方法把 100 步 Euler 采样器蒸馏成 4 步:student 用 teacher 权重初始化,50K 步训练,throughput 从 2.6 img/s 跳到 128.8 img/s(约 50 倍);GenEval 从 0.874 下滑到 0.842,DPG 从 84.6 到 83.2,几乎没掉点。

ModelNFEThroughputGenEval ↑DPG ↑
MiniT2I-B/16, Euler2×1002.6 img/s0.87484.57
MiniT2I-B/16, Mean Flow4128.8 img/s0.84283.23

Mean Flow 4-step vs Euler 100-step Mean Flow 4-step output

LoRA 与蒸馏都跑通,是 baseline 健康的重要佐证。

九、放回凯明系:D1–D4 在 MiniT2I 上的具体投影

凯明的方法论里抽出的四条 DNA,在 MiniT2I 上有非常清晰的对应:

DNAMiniT2I 上的体现
D1 朴素到极致删掉 image tokenizer / cascaded gen / RL & DPO / prompt rewriting / AdaLN modulation / 大语言模型 text encoder。剩下:plain pre-norm transformer + frozen FLAN-T5-Large + flow matching。
D2 改变问题假设T2I 不被定义成"类条件生成的难化版本",而是"类条件生成 + in-context text token"。这一句换框就让 ImageNet 级实验范式可以直接借过来。
D3 强先验、轻假设xx-prediction 在高维像素空间稳定(先验来自 JiT),LLM 风格的 pretrain+finetune 范式可移植到生成(先验来自 InstructGPT)。每条假设都很轻,但背后的先验都被前一篇论文做实了。
D4 方法与任务解耦MM-JiT 骨架同时支持类条件 ImageNet(JiT)、一步生成(Pixel Mean Flow)、文生图(MiniT2I);预训练-微调范式从 LLM 借来,不为 T2I 专门设计。

但凯明系的姿态在 MiniT2I 上也暴露了几处真实硬伤——属于这条路线本身的天然代价,不是论文做得不够:

  1. Pixel space 的 patch boundary artifact 在 CFG 较大时是肉眼可见的。Latent decoder 把它平滑掉了;pixel 模型必须靠"更小的 patch、更长的 sequence、更精细的 sampler"来缓解,这些都不是免费的。
  2. Frontier compute 还没碰。Wang et al. 2026 的 scaling 只到 1B 量级,GenEval 已经触顶;下一步如果不显著加大 compute、数据规模和质量,PRISM-Bench 上和 Qwen-Image / FLUX 的差距很难自动缩小。
  3. alignment / diversity Pareto 是 T2I 的结构性问题,MiniT2I 与 LLM SFT 共享同一个机制。但 258M 模型的容量上限本来就更紧,alignment 收窄之后剩余多样性对 LoRA 适配的下游空间是有压力的——这条 follow-up 工作还要观察。

十、它的位置与意义

MiniT2I 没声称自己是 SOTA。它做的事情更接近"把 T2I 这个研究方向从工业封闭花园拉回到学术实验台"——code 公开、数据公开、checkpoint 公开、recipe 短到一页 README 能装下。

这件事的意义在两个层面。研究范式层面,凯明系"扔掉 VAE"主线在 T2I 上闭环了——JiT(类条件 ImageNet)+ Pixel Mean Flow(一步采样)+ iMF(训练目标修正)+ MiniT2I(T2I 落地)四块拼图把 pixel-space 生成从一个 niche 主题变成了一条与 latent diffusion 并行的可信路线。工程访问层面,“想做 T2I 必须有十亿级图文对 + 千卡集群"这个共识被打破了——一个学术组用 8×H100 三天 + 公开数据就能从零训出一个非平凡 baseline。

至于 PRISM-Bench 上和 Qwen-Image 之间 12 分的差距——那是数据规模、数据质量、训练算力共同决定的,超出这篇论文的承诺范围。MiniT2I 给出的是 baseline 而非 frontier。但有了这个 baseline,下一组想在 T2I 上做研究的本科生、PhD 一年级、独立开发者,就有了一个能跑、能改、能 break 的起点。

也许这才是凯明姿态最深层的方法论意义:把方法做到能让别人接着做下去,比把方法做到自己的天花板更难


References

#引用链接
1Wang, X., Zhao, H., Lu, Y., Zhou, K., Ma, L., He, K. (2026). MiniT2I: A Minimalist Baseline for Text-to-Image Generation.Blog · JAX · PyTorch
2Li, T., He, K. (2025). Back to Basics: Let Denoising Generative Models Denoise (JiT).arXiv:2511.13720
3Lu, Y., Lu, S., Sun, Q., Zhao, H., Jiang, Z., Wang, X., Li, T., Geng, Z., He, K. (2026). One-step Latent-free Image Generation with Pixel Mean Flows.arXiv:2601.22158
4Geng, Z., Deng, M., Bai, X., Kolter, J. Z., He, K. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.arXiv:2505.13447
5Geng, Z., Lu, Y., Wu, Z., Shechtman, E., Kolter, J. Z., He, K. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models (iMF).arXiv:2512.02012
6Esser, P. et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3).arXiv:2403.03206
7Lipman, Y. et al. (2022). Flow Matching for Generative Modeling.arXiv:2210.02747
8Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models.arXiv:2112.10752
9Chung, H. W. et al. (2022). Scaling Instruction-Finetuned Language Models (FLAN-T5).arXiv:2210.11416
10Ghosh, D., Hajishirzi, H., Schmidt, L. (2023). GenEval: An Object-Focused Framework for Evaluating T2I Alignment.arXiv:2310.11513
11Hu, X. et al. (2024). ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment (DPG-Bench).arXiv:2403.05135
12Fang, R. et al. (2025). FLUX-Reason-6M & PRISM-Bench.arXiv:2509.09680
13Skorokhodov, I. et al. (2025). Improving the Diffusability of Autoencoders.arXiv:2502.14831
14Zeng, B. et al. (2026). i1: A Simple and Fully Open Recipe for Strong T2I Models.arXiv:2606.11289
15Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback (InstructGPT).arXiv:2203.02155

同主题强相关阅读