一、一个被默认接受的复杂性
文生图(Text-to-Image,T2I)在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮,但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文,第一反应是:先攒卡。
MIT 的 Xianbang Wang(IMO 2024 金牌,本科二年级)领着 Kaiming He 组的本科生 UROP 团队问了一个反方向的问题:如果文生图本质上不比 ImageNet 上的类条件生成复杂多少,那么"复杂工程流水线"是不是被默认接受了的多余复杂性?

他们的答案叫 MiniT2I——一个 258M 参数、像素空间、flow matching、用一台 8×H100 三天就能训完的 T2I 模型。在 GenEval 上拿到 0.873(B/16)和 0.883(L/16),数值上越过了同 benchmark 上 SD3-Medium 约 0.74、FLUX.1-dev 约 0.71 的报告值;但论文自己承认 GenEval 已经饱和,PRISM-Bench 才是真考场——MiniT2I-L/16 在 PRISM-Bench 上只有 62.4,仍然落后于 SD3-Medium(66.1)、FLUX.1-dev(68.5)和 Qwen-Image(74.1)(Wang et al. 2026)。
诚实是这篇论文的第一个让人愿意继续读下去的特征。
二、凯明系"去 codec"主线上的第三块拼图
要看清 MiniT2I 的位置,得把它放回 Kaiming He 团队过去十二个月的工作脉络里。我之前在凯明的方法论:从 ResNet 到 iMF里抽过四条贯穿性 DNA——D1 朴素到极致、D2 改变问题假设、D3 强先验轻假设、D4 方法与任务解耦。其中一条横向线索是"扔掉 VAE / 像素空间生成",从 2025 年下半年开始密集出现:
flowchart LR
JiT["JiT (Li & He 2025)
arXiv:2511.13720
类条件 ImageNet
x-prediction 替代 ε/v"]
PMF["Pixel Mean Flow (Lu et al. 2026)
arXiv:2601.22158
一步像素生成
无 codec 的 1-NFE"]
iMF["iMF (Geng et al. 2025)
arXiv:2512.02012
训练目标修正
stop-gradient 切自依赖"]
MiniT2I["MiniT2I (Wang et al. 2026)
T2I 落地
MM-JiT + frozen T5"]
JiT --> MiniT2I
JiT --> PMF
iMF -.-> PMF
PMF --> MiniT2I
style MiniT2I fill:#fde047,stroke:#1e293b,stroke-width:2px这四篇互相咬合得很紧:JiT 证明像素空间在类条件 ImageNet 上能匹敌潜空间,并发现 x-prediction 是高维像素扩散稳定训练的关键先验;Pixel Mean Flow 把一步生成搬到像素空间;iMF 修掉 Mean Flow 训练目标里的自依赖问题。MiniT2I 把这三块拼图组装起来,首次回答"文生图能不能也走这条路"。
值得注意的一点是 Pixel Mean Flow(Lu et al. 2026)的作者列表里就有 Xianbang Wang——MiniT2I 的项目 lead。这意味着 MiniT2I 团队既是 JiT 路线的使用者,也是它的共同推进者。MiniT2I 的 4 步蒸馏分支(Mean Flow distillation)正是直接调用了同团队的 Pixel Mean Flow 方法。
三、问题形式化:T2I = 类条件 + in-context text
论文的核心洞察可以用一句话写出来:把预训练语言模型给出的 token 序列当作 in-context condition,文生图在模型架构、计算量和数据需求上都和类条件 ImageNet 生成惊人地相似。这是一个 D2 式的命题——它没有改算法,只是改变了"T2I 应当被看作什么任务"的假设。
形式化:在直线插值路径上,给定噪声 与真实图像 ,在 上构造 。模型 学习把 映射回干净图像,CFM 的训练目标可以写成
其中 是文本条件——通常是预训练编码器的 token 序列。这和 Flow Matching 与一致性模型里推导的 OT-CFM 是同一个目标,只多了 这一项。
像素空间 vs 潜空间是 T2I 设计里第一个被默认接受的复杂性。Latent Diffusion(Rombach et al. 2022)通过 VAE 把高分辨率图像压到 的潜空间里去噪,再 decode 回像素。这套流水线优势明显(节省算力、降维易训),代价也很具体——VAE 重建有 artifact、训练分两阶段且两阶段优化目标错位(Skorokhodov et al. 2025)、潜空间的"可去噪性"未必好。
JiT 给出的反向选择是:把 图像直接切成 大 patch,得到 256 个图像 token,加上 256 个文本 token,序列长度 512,与 ImageNet 类条件 DiT 的实验范围吻合。扔掉 VAE 后单步前向计算从 1379 GFLOPs(VAE 1117 + backbone 262)降到 265 GFLOPs。这是免费午餐。
但预测目标的选择就不是免费的了。在高维像素空间,参数化的三种选择——预测干净图像 、预测噪声 、预测速度 ——配合三种 loss 空间(-loss / -loss / -loss)共九种组合,论文报告 B/32 在 250K 步 CC12M 预训练后的 MSCOCO FID:
| Loss \ Pred | -pred | -pred | -pred |
|---|---|---|---|
| -loss | 15.3 | 523.8 | 229.1 |
| -loss | 15.2 | 524.8 | 231.4 |
| -loss | 13.7 | 524.0 | 230.1 |
- 和 - 预测全部 collapse,只有 -预测稳定。这一点继承自 JiT 的发现——在高维像素空间,预测干净图像是唯一稳定的网络输出选择,DDPM 变分基础里证明的 数学等价性,在训练动力学层面并不等价。MiniT2I 的最优配置是 -预测 + -loss——loss 空间和输出空间解耦,给优化更稳的几何。
四、MM-JiT:把 MM-DiT 压到不能再压
像素空间 MM-DiT baseline 已经能在 FID 上匹敌 latent,下一步是问"MM-DiT 里有多少零件其实是冗余的"。
MM-DiT(Esser et al. 2024)每一个 block 包含:双流 joint attention(图像和文本 token 在自注意力里互相看见,但各自有独立 QKV/MLP 权重)+ AdaLN 调制(pooled text 与 timestep 经一个 side MLP,产出每 block 的 scale / shift / gate 共 6 个 1D 向量)。MiniT2I 的两步削减:
步骤 1:加 text adapter。frozen T5 的 token 不是为像素去噪器优化的,所以在 joint attention 之前先用两个浅层 transformer block 把 text token 重整一下。FID 18.7 → 17.4,参数 +18M。
步骤 2:删掉 AdaLN 调制。SD3 的设计里,prompt 通过 joint attention 进入 image stream(路径 1),同时被 pool 后变成 AdaLN 参数控制每个 block 的归一化(路径 2)。MiniT2I 的判断是路径 2 在小模型上是冗余的——prompt 已经从 joint attention 进入了,再做一次 per-block 调制是过设计。删掉之后剩下的就是普通 pre-norm transformer。FID 17.4 → 13.7,参数从 276M 降回 260M(省下 AdaLN 的 16M 调制参数,腾出空间把骨架加深到 17 层)。
| Backbone | Layers | Params | GFLOPs/fwd | FID ↓ |
|---|---|---|---|---|
| MM-DiT, pixel | 12 | 258M | 265 | 18.7 |
| + 2 text adapters | 12 | 276M | 273 | 17.4 |
| – AdaLN(MM-JiT, pixel) | 17 | 260M | 313 | 13.7 |
最终的 MM-JiT block 与 Geng et al. (2025) 的 iMF、Lu et al. (2026) 的 Pixel Mean Flow、Zeng et al. (2026) 的 i1 用的是同一类"plain pre-norm"骨架——这成了凯明系 2025-2026 在生成方向上的共同建筑选择。
五、数据:CC12M + 120K,预训练-微调 LLM 范式
模型架构定下来后,第一版 MM-JiT 报告 FID 13.7,听起来已经接近 SOTA。但论文坦承这时候的样本"看起来软、平均、像素细节不到位、prompt 跟随很弱"——FID 在测分布层面给了好分,但在 prompt 层面失真。

修正办法和 LLM 的 SFT 完全同构:CC12M 给广度(1200 万图文对,但 caption 是带噪 web alt-text),120K 张高质合成数据给"prompt-image alignment"。三份合成集合都来自公开渠道:
| Source | Size |
|---|---|
| BLIP3o-60K | 58.9K |
| LAION DALL·E 3 Discord set | 19.0K |
| ShareGPT-4o-Image | 41.4K |
| Total | 119.3K |
在 CC12M 250K 步预训练后,再 fine-tune 40K 步,得到 GenEval 0.826 / DPG 82.3(B/32)。论文给的消融写得很清楚:在 CC12M 上继续 fine-tune 不动 alignment(GenEval 0.529),只用 120K 合成集预训练则 coverage 崩掉(GenEval 0.408)。两份数据职责截然——pretrain 买广度,fine-tune 教模型"什么样的回答叫好"。这是从 InstructGPT(Ouyang et al. 2022)借来的 framing,在 T2I 上一比一映射。
六、Scaling 的反应:B/32 → B/16 → L/16
所有的设计决策都在 B/32 上做完,下一步是问"在更大的设置下这个配方还能站住吗"。B/16 把 patch 从 32 缩到 16,token 数 4×到 1024;L/16 在 1024 token 上把骨架放大到 912M 参数。
| Model | Tokens | Params | GFLOPs/fwd | FID ↓ | GenEval ↑ | DPG ↑ |
|---|---|---|---|---|---|---|
| MiniT2I-B/32 | 256 | 260M | 313 | 13.69 | 0.826 | 82.3 |
| MiniT2I-B/16 | 1024 | 258M | 570 | 10.51 | 0.873 | 84.2 |
| MiniT2I-L/16 | 1024 | 912M | 1493 | 8.99 | 0.883 | 85.9 |
scaling 行为足够干净——同一份配方在三个尺寸上稳定收敛,没有需要重新调超参。论文也不回避它的局限:受限于 8×H100 + TPU Research Cloud 的预算,他们没做"真 frontier 级"的 scaling 实验,scaling laws 的最终形态需要后续工作(Wang et al. 2026, §05)。
七、诚实的失败:PRISM-Bench 是真考场
读到这里你可能已经注意到,GenEval 0.873 这个数字看起来高得不像 258M 模型该有的——SD3-Medium(约 2B 参数)在 GenEval 上才 0.74 左右,FLUX.1-dev(12B)才 0.71。是真的反超还是 benchmark 出了问题?
论文给的回答是后者。他们用自己的 ablation 证明:GenEval 和 DPG-Bench 都对 alignment fine-tune 极度敏感,混入一小批高质合成数据就能让分数大幅上跳。SD3 / FLUX 这种 web 数据训练系统在 GenEval 上分数不高,主要原因是没专门针对 GenEval 风格的合成数据 fine-tune——和 prompt 跟随能力的真实差距不是一回事。
更可信的考场是 PRISM-Bench(Fang et al. 2025)——它把 prompt 拆成对齐、美学、想象、实体、文字、风格、情感、构图、长 prompt 九个维度,每个维度独立打分。结果如下:
| Model | Avg | Align | Aes | Imag | Entity | Text | Style | Aff | Comp | Long |
|---|---|---|---|---|---|---|---|---|---|---|
| SDXL | 57.0 | 60.1 | 54.0 | 44.3 | 68.0 | 27.9 | 72.1 | 72.6 | 70.0 | 44.3 |
| SD3-Medium | 66.1 | 68.0 | 64.2 | 51.0 | 66.3 | 50.9 | 77.0 | 78.0 | 82.5 | 56.8 |
| FLUX.1-dev | 68.5 | 72.1 | 64.9 | 54.2 | 66.2 | 62.6 | 73.4 | 79.4 | 81.6 | 62.1 |
| Qwen-Image | 74.1 | 80.0 | 68.3 | 56.5 | 72.0 | 64.5 | 85.5 | 80.1 | 86.7 | 73.8 |
| MiniT2I-B/16 | 55.8 | 61.3 | 50.2 | 56.1 | 47.1 | 22.4 | 73.4 | 72.1 | 72.3 | 47.2 |
| MiniT2I-L/16 | 62.4 | 65.9 | 58.9 | 57.9 | 60.3 | 30.6 | 79.9 | 77.9 | 78.4 | 52.0 |
MiniT2I-L/16 在风格、构图、想象三个维度上能到工业模型的水平(Imag 维度 57.9 甚至最高),但文字渲染(30.6)和实体知识(60.3)落后明显。两个短板的归因都指向数据层而非架构层:文字渲染需要 TextAtlas5M 这种专门数据,实体知识需要更大规模的 web 数据覆盖(Zeng et al. 2026; Wang et al. 2025a)。
像素空间还有一个真实代价是 patch-boundary artifact:
在 CFG 倍率较大(T2I 常用 6 以上)时,CFG 把每个 patch 的预测做线性外推,patch 之间的外推方向不一致导致边界出现亮度突变。Latent 模型在 VAE decoder 里被平滑掉了,pixel 模型直接暴露在输出上。论文给出的量化指标是边界 vs 非边界 phase 的归一化梯度强度——latent B/16 是 0.99(无差别),pixel B/16 是 1.22(边界亮 22%),pixel L/16 是 1.17。这是 pixel-space T2I 必须正面解决的工程问题。
最后一个被诚实点出的代价是多样性下降。alignment fine-tune 与 LLM SFT 同构,包括同一个副作用:在窄数据分布上反复 overfit 会收窄样本多样性。

同一个 prompt(“a white rabbit under a starry sky”)下八张独立采样:SD3-Medium 的姿态、构图、调色明显比 MiniT2I-L/16 更多样。alignment / diversity 的 Pareto 权衡在 T2I 上与 LLM 同构,没有架构能直接绕开。
八、两个延伸:LoRA 与 4 步蒸馏
一个 baseline 的健康度,看的是 follow-up 工作能不能直接接上去。MiniT2I 测了两个:
LoRA 下游适配。在 Naruto BLIP captions 和 Pokemon BLIP captions 这两个 1K-image 小数据集上,attach LoRA adapter 到 attention / MLP / text projection,只训 adapter 400 步、batch 16,风格迁移就 work 了。258M 模型的世界知识不算丰富,但足够支撑 LoRA 风格化——这意味着 MiniT2I 不只是 academic 玩具,对个人开发者也算可用。
Mean Flow 4 步蒸馏。论文用同团队 Pixel Mean Flow(Lu et al. 2026)方法把 100 步 Euler 采样器蒸馏成 4 步:student 用 teacher 权重初始化,50K 步训练,throughput 从 2.6 img/s 跳到 128.8 img/s(约 50 倍);GenEval 从 0.874 下滑到 0.842,DPG 从 84.6 到 83.2,几乎没掉点。
| Model | NFE | Throughput | GenEval ↑ | DPG ↑ |
|---|---|---|---|---|
| MiniT2I-B/16, Euler | 2×100 | 2.6 img/s | 0.874 | 84.57 |
| MiniT2I-B/16, Mean Flow | 4 | 128.8 img/s | 0.842 | 83.23 |

LoRA 与蒸馏都跑通,是 baseline 健康的重要佐证。
九、放回凯明系:D1–D4 在 MiniT2I 上的具体投影
在凯明的方法论里抽出的四条 DNA,在 MiniT2I 上有非常清晰的对应:
| DNA | MiniT2I 上的体现 |
|---|---|
| D1 朴素到极致 | 删掉 image tokenizer / cascaded gen / RL & DPO / prompt rewriting / AdaLN modulation / 大语言模型 text encoder。剩下:plain pre-norm transformer + frozen FLAN-T5-Large + flow matching。 |
| D2 改变问题假设 | T2I 不被定义成"类条件生成的难化版本",而是"类条件生成 + in-context text token"。这一句换框就让 ImageNet 级实验范式可以直接借过来。 |
| D3 强先验、轻假设 | -prediction 在高维像素空间稳定(先验来自 JiT),LLM 风格的 pretrain+finetune 范式可移植到生成(先验来自 InstructGPT)。每条假设都很轻,但背后的先验都被前一篇论文做实了。 |
| D4 方法与任务解耦 | MM-JiT 骨架同时支持类条件 ImageNet(JiT)、一步生成(Pixel Mean Flow)、文生图(MiniT2I);预训练-微调范式从 LLM 借来,不为 T2I 专门设计。 |
但凯明系的姿态在 MiniT2I 上也暴露了几处真实硬伤——属于这条路线本身的天然代价,不是论文做得不够:
- Pixel space 的 patch boundary artifact 在 CFG 较大时是肉眼可见的。Latent decoder 把它平滑掉了;pixel 模型必须靠"更小的 patch、更长的 sequence、更精细的 sampler"来缓解,这些都不是免费的。
- Frontier compute 还没碰。Wang et al. 2026 的 scaling 只到 1B 量级,GenEval 已经触顶;下一步如果不显著加大 compute、数据规模和质量,PRISM-Bench 上和 Qwen-Image / FLUX 的差距很难自动缩小。
- alignment / diversity Pareto 是 T2I 的结构性问题,MiniT2I 与 LLM SFT 共享同一个机制。但 258M 模型的容量上限本来就更紧,alignment 收窄之后剩余多样性对 LoRA 适配的下游空间是有压力的——这条 follow-up 工作还要观察。
十、它的位置与意义
MiniT2I 没声称自己是 SOTA。它做的事情更接近"把 T2I 这个研究方向从工业封闭花园拉回到学术实验台"——code 公开、数据公开、checkpoint 公开、recipe 短到一页 README 能装下。
这件事的意义在两个层面。研究范式层面,凯明系"扔掉 VAE"主线在 T2I 上闭环了——JiT(类条件 ImageNet)+ Pixel Mean Flow(一步采样)+ iMF(训练目标修正)+ MiniT2I(T2I 落地)四块拼图把 pixel-space 生成从一个 niche 主题变成了一条与 latent diffusion 并行的可信路线。工程访问层面,“想做 T2I 必须有十亿级图文对 + 千卡集群"这个共识被打破了——一个学术组用 8×H100 三天 + 公开数据就能从零训出一个非平凡 baseline。
至于 PRISM-Bench 上和 Qwen-Image 之间 12 分的差距——那是数据规模、数据质量、训练算力共同决定的,超出这篇论文的承诺范围。MiniT2I 给出的是 baseline 而非 frontier。但有了这个 baseline,下一组想在 T2I 上做研究的本科生、PhD 一年级、独立开发者,就有了一个能跑、能改、能 break 的起点。
也许这才是凯明姿态最深层的方法论意义:把方法做到能让别人接着做下去,比把方法做到自己的天花板更难。
References
| # | 引用 | 链接 |
|---|---|---|
| 1 | Wang, X., Zhao, H., Lu, Y., Zhou, K., Ma, L., He, K. (2026). MiniT2I: A Minimalist Baseline for Text-to-Image Generation. | Blog · JAX · PyTorch |
| 2 | Li, T., He, K. (2025). Back to Basics: Let Denoising Generative Models Denoise (JiT). | arXiv:2511.13720 |
| 3 | Lu, Y., Lu, S., Sun, Q., Zhao, H., Jiang, Z., Wang, X., Li, T., Geng, Z., He, K. (2026). One-step Latent-free Image Generation with Pixel Mean Flows. | arXiv:2601.22158 |
| 4 | Geng, Z., Deng, M., Bai, X., Kolter, J. Z., He, K. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral. | arXiv:2505.13447 |
| 5 | Geng, Z., Lu, Y., Wu, Z., Shechtman, E., Kolter, J. Z., He, K. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models (iMF). | arXiv:2512.02012 |
| 6 | Esser, P. et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3). | arXiv:2403.03206 |
| 7 | Lipman, Y. et al. (2022). Flow Matching for Generative Modeling. | arXiv:2210.02747 |
| 8 | Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. | arXiv:2112.10752 |
| 9 | Chung, H. W. et al. (2022). Scaling Instruction-Finetuned Language Models (FLAN-T5). | arXiv:2210.11416 |
| 10 | Ghosh, D., Hajishirzi, H., Schmidt, L. (2023). GenEval: An Object-Focused Framework for Evaluating T2I Alignment. | arXiv:2310.11513 |
| 11 | Hu, X. et al. (2024). ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment (DPG-Bench). | arXiv:2403.05135 |
| 12 | Fang, R. et al. (2025). FLUX-Reason-6M & PRISM-Bench. | arXiv:2509.09680 |
| 13 | Skorokhodov, I. et al. (2025). Improving the Diffusability of Autoencoders. | arXiv:2502.14831 |
| 14 | Zeng, B. et al. (2026). i1: A Simple and Fully Open Recipe for Strong T2I Models. | arXiv:2606.11289 |
| 15 | Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback (InstructGPT). | arXiv:2203.02155 |
同主题强相关阅读
- 凯明的方法论:从 ResNet 到 iMF —— 本文反复引用的 D1–D4 来源;JiT / Pixel Mean Flow / iMF 三块拼图的方法论纲领。
- Flow Matching 与一致性模型 —— OT-CFM 推导、Mean Flow 与一致性模型的统一框架;本文 §3 的数学锚点。
- 扩散模型的变分基础:从 ELBO 到去噪 —— / / 参数化的等价性证明;解释为什么"等价"在数学上成立但训练动力学上失败。
- 扩散模型的 SDE/ODE 统一 —— 概率流 ODE,Flow Matching 在该框架下的位置。