MiniT2I：把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性

文生图（Text-to-Image，T2I）在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮，但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文，第一反应是：先攒卡。

MIT 的 Xianbang Wang（IMO 2024 金牌，本科二年级）领着 Kaiming He 组的本科生 UROP 团队问了一个反方向的问题：如果文生图本质上不比 ImageNet 上的类条件生成复杂多少，那么"复杂工程流水线"是不是被默认接受了的多余复杂性？

MiniT2I-B/16 sample grid

他们的答案叫 MiniT2I——一个 258M 参数、像素空间、flow matching、用一台 8×H100 三天就能训完的 T2I 模型。在 GenEval 上拿到 0.873（B/16）和 0.883（L/16），数值上越过了同 benchmark 上 SD3-Medium 约 0.74、FLUX.1-dev 约 0.71 的报告值；但论文自己承认 GenEval 已经饱和，PRISM-Bench 才是真考场——MiniT2I-L/16 在 PRISM-Bench 上只有 62.4，仍然落后于 SD3-Medium（66.1）、FLUX.1-dev（68.5）和 Qwen-Image（74.1）（Wang et al. 2026）。

诚实是这篇论文的第一个让人愿意继续读下去的特征。

二、凯明系"去 codec"主线上的第三块拼图

要看清 MiniT2I 的位置，得把它放回 Kaiming He 团队过去十二个月的工作脉络里。我之前在凯明的方法论：从 ResNet 到 iMF里抽过四条贯穿性 DNA——D1 朴素到极致、D2 改变问题假设、D3 强先验轻假设、D4 方法与任务解耦。其中一条横向线索是"扔掉 VAE / 像素空间生成"，从 2025 年下半年开始密集出现：

flowchart LR
    JiT["JiT (Li & He 2025)
arXiv:2511.13720
类条件 ImageNet
x-prediction 替代 ε/v"]
    PMF["Pixel Mean Flow (Lu et al. 2026)
arXiv:2601.22158
一步像素生成
无 codec 的 1-NFE"]
    iMF["iMF (Geng et al. 2025)
arXiv:2512.02012
训练目标修正
stop-gradient 切自依赖"]
    MiniT2I["MiniT2I (Wang et al. 2026)
T2I 落地
MM-JiT + frozen T5"]

    JiT --> MiniT2I
    JiT --> PMF
    iMF -.-> PMF
    PMF --> MiniT2I

    style MiniT2I fill:#fde047,stroke:#1e293b,stroke-width:2px

这四篇互相咬合得很紧：JiT 证明像素空间在类条件 ImageNet 上能匹敌潜空间，并发现 x-prediction 是高维像素扩散稳定训练的关键先验；Pixel Mean Flow 把一步生成搬到像素空间；iMF 修掉 Mean Flow 训练目标里的自依赖问题。MiniT2I 把这三块拼图组装起来，首次回答"文生图能不能也走这条路"。

值得注意的一点是 Pixel Mean Flow（Lu et al. 2026）的作者列表里就有 Xianbang Wang——MiniT2I 的项目 lead。这意味着 MiniT2I 团队既是 JiT 路线的使用者，也是它的共同推进者。MiniT2I 的 4 步蒸馏分支（Mean Flow distillation）正是直接调用了同团队的 Pixel Mean Flow 方法。

三、问题形式化：T2I = 类条件 + in-context text

论文的核心洞察可以用一句话写出来：把预训练语言模型给出的 token 序列当作 in-context condition，文生图在模型架构、计算量和数据需求上都和类条件 ImageNet 生成惊人地相似。这是一个 D2 式的命题——它没有改算法，只是改变了"T2I 应当被看作什么任务"的假设。

形式化：在直线插值路径上，给定噪声 $\epsilon \sim \mathcal{N}(0, I)$ 与真实图像 $x$ ，在 $t \in [0, 1]$ 上构造 $z_t = t x + (1 - t)\epsilon$ 。模型 $f_\theta$ 学习把 $z_t$ 映射回干净图像，CFM 的训练目标可以写成

\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, \epsilon, x, c}\Big[\| f_\theta(z_t, t, c) - x \|^2\Big]

其中 $c$ 是文本条件——通常是预训练编码器的 token 序列。这和 Flow Matching 与一致性模型里推导的 OT-CFM 是同一个目标，只多了 $c$ 这一项。

像素空间 vs 潜空间是 T2I 设计里第一个被默认接受的复杂性。Latent Diffusion（Rombach et al. 2022）通过 VAE 把高分辨率图像压到 $1/8 \times 1/8$ 的潜空间里去噪，再 decode 回像素。这套流水线优势明显（节省算力、降维易训），代价也很具体——VAE 重建有 artifact、训练分两阶段且两阶段优化目标错位（Skorokhodov et al. 2025）、潜空间的"可去噪性"未必好。

JiT 给出的反向选择是：把 $512 \times 512$ 图像直接切成 $32 \times 32$ 大 patch，得到 256 个图像 token，加上 256 个文本 token，序列长度 512，与 ImageNet 类条件 DiT 的实验范围吻合。扔掉 VAE 后单步前向计算从 1379 GFLOPs（VAE 1117 + backbone 262）降到 265 GFLOPs。这是免费午餐。

但预测目标的选择就不是免费的了。在高维像素空间，参数化的三种选择——预测干净图像 $x$ 、预测噪声 $\epsilon$ 、预测速度 $v = x - \epsilon$ ——配合三种 loss 空间（ $x$ -loss / $\epsilon$ -loss / $v$ -loss）共九种组合，论文报告 B/32 在 250K 步 CC12M 预训练后的 MSCOCO FID：

Loss \ Pred	$x$ -pred	$\epsilon$ -pred	$v$ -pred
$x$ -loss	15.3	523.8	229.1
$\epsilon$ -loss	15.2	524.8	231.4
$v$ -loss	13.7	524.0	230.1

$\epsilon$ - 和 $v$ - 预测全部 collapse，只有 $x$ -预测稳定。这一点继承自 JiT 的发现——在高维像素空间，预测干净图像是唯一稳定的网络输出选择，DDPM 变分基础里证明的 $x / \epsilon / v$ 数学等价性，在训练动力学层面并不等价。MiniT2I 的最优配置是 $x$ -预测 + $v$ -loss——loss 空间和输出空间解耦，给优化更稳的几何。

四、MM-JiT：把 MM-DiT 压到不能再压

像素空间 MM-DiT baseline 已经能在 FID 上匹敌 latent，下一步是问"MM-DiT 里有多少零件其实是冗余的"。

MM-DiT 与 MM-JiT 对比

MM-DiT（Esser et al. 2024）每一个 block 包含：双流 joint attention（图像和文本 token 在自注意力里互相看见，但各自有独立 QKV/MLP 权重）+ AdaLN 调制（pooled text 与 timestep 经一个 side MLP，产出每 block 的 scale / shift / gate 共 6 个 1D 向量）。MiniT2I 的两步削减：

步骤 1：加 text adapter。frozen T5 的 token 不是为像素去噪器优化的，所以在 joint attention 之前先用两个浅层 transformer block 把 text token 重整一下。FID 18.7 → 17.4，参数 +18M。

步骤 2：删掉 AdaLN 调制。SD3 的设计里，prompt 通过 joint attention 进入 image stream（路径 1），同时被 pool 后变成 AdaLN 参数控制每个 block 的归一化（路径 2）。MiniT2I 的判断是路径 2 在小模型上是冗余的——prompt 已经从 joint attention 进入了，再做一次 per-block 调制是过设计。删掉之后剩下的就是普通 pre-norm transformer。FID 17.4 → 13.7，参数从 276M 降回 260M（省下 AdaLN 的 16M 调制参数，腾出空间把骨架加深到 17 层）。

Backbone	Layers	Params	GFLOPs/fwd	FID ↓
MM-DiT, pixel	12	258M	265	18.7
+ 2 text adapters	12	276M	273	17.4
– AdaLN（MM-JiT, pixel）	17	260M	313	13.7

最终的 MM-JiT block 与 Geng et al. (2025) 的 iMF、Lu et al. (2026) 的 Pixel Mean Flow、Zeng et al. (2026) 的 i1 用的是同一类"plain pre-norm"骨架——这成了凯明系 2025-2026 在生成方向上的共同建筑选择。

五、数据：CC12M + 120K，预训练-微调 LLM 范式

模型架构定下来后，第一版 MM-JiT 报告 FID 13.7，听起来已经接近 SOTA。但论文坦承这时候的样本"看起来软、平均、像素细节不到位、prompt 跟随很弱"——FID 在测分布层面给了好分，但在 prompt 层面失真。

pretrain only 与 alignment 后的 labyrinth 对比

修正办法和 LLM 的 SFT 完全同构：CC12M 给广度（1200 万图文对，但 caption 是带噪 web alt-text），120K 张高质合成数据给"prompt-image alignment"。三份合成集合都来自公开渠道：

Source	Size
BLIP3o-60K	58.9K
LAION DALL·E 3 Discord set	19.0K
ShareGPT-4o-Image	41.4K
Total	119.3K

在 CC12M 250K 步预训练后，再 fine-tune 40K 步，得到 GenEval 0.826 / DPG 82.3（B/32）。论文给的消融写得很清楚：在 CC12M 上继续 fine-tune 不动 alignment（GenEval 0.529），只用 120K 合成集预训练则 coverage 崩掉（GenEval 0.408）。两份数据职责截然——pretrain 买广度，fine-tune 教模型"什么样的回答叫好"。这是从 InstructGPT（Ouyang et al. 2022）借来的 framing，在 T2I 上一比一映射。

六、Scaling 的反应：B/32 → B/16 → L/16

所有的设计决策都在 B/32 上做完，下一步是问"在更大的设置下这个配方还能站住吗"。B/16 把 patch 从 32 缩到 16，token 数 4×到 1024；L/16 在 1024 token 上把骨架放大到 912M 参数。

Model	Tokens	Params	GFLOPs/fwd	FID ↓	GenEval ↑	DPG ↑
MiniT2I-B/32	256	260M	313	13.69	0.826	82.3
MiniT2I-B/16	1024	258M	570	10.51	0.873	84.2
MiniT2I-L/16	1024	912M	1493	8.99	0.883	85.9

scaling 行为足够干净——同一份配方在三个尺寸上稳定收敛，没有需要重新调超参。论文也不回避它的局限：受限于 8×H100 + TPU Research Cloud 的预算，他们没做"真 frontier 级"的 scaling 实验，scaling laws 的最终形态需要后续工作（Wang et al. 2026, §05）。

七、诚实的失败：PRISM-Bench 是真考场

读到这里你可能已经注意到，GenEval 0.873 这个数字看起来高得不像 258M 模型该有的——SD3-Medium（约 2B 参数）在 GenEval 上才 0.74 左右，FLUX.1-dev（12B）才 0.71。是真的反超还是 benchmark 出了问题？

论文给的回答是后者。他们用自己的 ablation 证明：GenEval 和 DPG-Bench 都对 alignment fine-tune 极度敏感，混入一小批高质合成数据就能让分数大幅上跳。SD3 / FLUX 这种 web 数据训练系统在 GenEval 上分数不高，主要原因是没专门针对 GenEval 风格的合成数据 fine-tune——和 prompt 跟随能力的真实差距不是一回事。

更可信的考场是 PRISM-Bench（Fang et al. 2025）——它把 prompt 拆成对齐、美学、想象、实体、文字、风格、情感、构图、长 prompt 九个维度，每个维度独立打分。结果如下：

Model	Avg	Align	Aes	Imag	Entity	Text	Style	Aff	Comp	Long
SDXL	57.0	60.1	54.0	44.3	68.0	27.9	72.1	72.6	70.0	44.3
SD3-Medium	66.1	68.0	64.2	51.0	66.3	50.9	77.0	78.0	82.5	56.8
FLUX.1-dev	68.5	72.1	64.9	54.2	66.2	62.6	73.4	79.4	81.6	62.1
Qwen-Image	74.1	80.0	68.3	56.5	72.0	64.5	85.5	80.1	86.7	73.8
MiniT2I-B/16	55.8	61.3	50.2	56.1	47.1	22.4	73.4	72.1	72.3	47.2
MiniT2I-L/16	62.4	65.9	58.9	57.9	60.3	30.6	79.9	77.9	78.4	52.0

MiniT2I-L/16 在风格、构图、想象三个维度上能到工业模型的水平（Imag 维度 57.9 甚至最高），但文字渲染（30.6）和实体知识（60.3）落后明显。两个短板的归因都指向数据层而非架构层：文字渲染需要 TextAtlas5M 这种专门数据，实体知识需要更大规模的 web 数据覆盖（Zeng et al. 2026; Wang et al. 2025a）。

像素空间还有一个真实代价是 patch-boundary artifact：

Patch boundary artifact

在 CFG 倍率较大（T2I 常用 6 以上）时，CFG 把每个 patch 的预测做线性外推，patch 之间的外推方向不一致导致边界出现亮度突变。Latent 模型在 VAE decoder 里被平滑掉了，pixel 模型直接暴露在输出上。论文给出的量化指标是边界 vs 非边界 phase 的归一化梯度强度——latent B/16 是 0.99（无差别），pixel B/16 是 1.22（边界亮 22%），pixel L/16 是 1.17。这是 pixel-space T2I 必须正面解决的工程问题。

最后一个被诚实点出的代价是多样性下降。alignment fine-tune 与 LLM SFT 同构，包括同一个副作用：在窄数据分布上反复 overfit 会收窄样本多样性。

Diversity grid: MiniT2I-L/16 vs SD3-Medium Diversity grid: SD3-Medium

同一个 prompt（“a white rabbit under a starry sky”）下八张独立采样：SD3-Medium 的姿态、构图、调色明显比 MiniT2I-L/16 更多样。alignment / diversity 的 Pareto 权衡在 T2I 上与 LLM 同构，没有架构能直接绕开。

八、两个延伸：LoRA 与 4 步蒸馏

一个 baseline 的健康度，看的是 follow-up 工作能不能直接接上去。MiniT2I 测了两个：

LoRA 下游适配。在 Naruto BLIP captions 和 Pokemon BLIP captions 这两个 1K-image 小数据集上，attach LoRA adapter 到 attention / MLP / text projection，只训 adapter 400 步、batch 16，风格迁移就 work 了。258M 模型的世界知识不算丰富，但足够支撑 LoRA 风格化——这意味着 MiniT2I 不只是 academic 玩具，对个人开发者也算可用。

Mean Flow 4 步蒸馏。论文用同团队 Pixel Mean Flow（Lu et al. 2026）方法把 100 步 Euler 采样器蒸馏成 4 步：student 用 teacher 权重初始化，50K 步训练，throughput 从 2.6 img/s 跳到 128.8 img/s（约 50 倍）；GenEval 从 0.874 下滑到 0.842，DPG 从 84.6 到 83.2，几乎没掉点。

Model	NFE	Throughput	GenEval ↑	DPG ↑
MiniT2I-B/16, Euler	2×100	2.6 img/s	0.874	84.57
MiniT2I-B/16, Mean Flow	4	128.8 img/s	0.842	83.23

Mean Flow 4-step vs Euler 100-step Mean Flow 4-step output

LoRA 与蒸馏都跑通，是 baseline 健康的重要佐证。

九、放回凯明系：D1–D4 在 MiniT2I 上的具体投影

在凯明的方法论里抽出的四条 DNA，在 MiniT2I 上有非常清晰的对应：

DNA	MiniT2I 上的体现
D1 朴素到极致	删掉 image tokenizer / cascaded gen / RL & DPO / prompt rewriting / AdaLN modulation / 大语言模型 text encoder。剩下：plain pre-norm transformer + frozen FLAN-T5-Large + flow matching。
D2 改变问题假设	T2I 不被定义成"类条件生成的难化版本"，而是"类条件生成 + in-context text token"。这一句换框就让 ImageNet 级实验范式可以直接借过来。
D3 强先验、轻假设	$x$ -prediction 在高维像素空间稳定（先验来自 JiT），LLM 风格的 pretrain+finetune 范式可移植到生成（先验来自 InstructGPT）。每条假设都很轻，但背后的先验都被前一篇论文做实了。
D4 方法与任务解耦	MM-JiT 骨架同时支持类条件 ImageNet（JiT）、一步生成（Pixel Mean Flow）、文生图（MiniT2I）；预训练-微调范式从 LLM 借来，不为 T2I 专门设计。

但凯明系的姿态在 MiniT2I 上也暴露了几处真实硬伤——属于这条路线本身的天然代价，不是论文做得不够：

Pixel space 的 patch boundary artifact 在 CFG 较大时是肉眼可见的。Latent decoder 把它平滑掉了；pixel 模型必须靠"更小的 patch、更长的 sequence、更精细的 sampler"来缓解，这些都不是免费的。
Frontier compute 还没碰。Wang et al. 2026 的 scaling 只到 1B 量级，GenEval 已经触顶；下一步如果不显著加大 compute、数据规模和质量，PRISM-Bench 上和 Qwen-Image / FLUX 的差距很难自动缩小。
alignment / diversity Pareto 是 T2I 的结构性问题，MiniT2I 与 LLM SFT 共享同一个机制。但 258M 模型的容量上限本来就更紧，alignment 收窄之后剩余多样性对 LoRA 适配的下游空间是有压力的——这条 follow-up 工作还要观察。

十、它的位置与意义

MiniT2I 没声称自己是 SOTA。它做的事情更接近"把 T2I 这个研究方向从工业封闭花园拉回到学术实验台"——code 公开、数据公开、checkpoint 公开、recipe 短到一页 README 能装下。

这件事的意义在两个层面。研究范式层面，凯明系"扔掉 VAE"主线在 T2I 上闭环了——JiT（类条件 ImageNet）+ Pixel Mean Flow（一步采样）+ iMF（训练目标修正）+ MiniT2I（T2I 落地）四块拼图把 pixel-space 生成从一个 niche 主题变成了一条与 latent diffusion 并行的可信路线。工程访问层面，“想做 T2I 必须有十亿级图文对 + 千卡集群"这个共识被打破了——一个学术组用 8×H100 三天 + 公开数据就能从零训出一个非平凡 baseline。

至于 PRISM-Bench 上和 Qwen-Image 之间 12 分的差距——那是数据规模、数据质量、训练算力共同决定的，超出这篇论文的承诺范围。MiniT2I 给出的是 baseline 而非 frontier。但有了这个 baseline，下一组想在 T2I 上做研究的本科生、PhD 一年级、独立开发者，就有了一个能跑、能改、能 break 的起点。

也许这才是凯明姿态最深层的方法论意义：把方法做到能让别人接着做下去，比把方法做到自己的天花板更难。

References

#	引用	链接
1	Wang, X., Zhao, H., Lu, Y., Zhou, K., Ma, L., He, K. (2026). MiniT2I: A Minimalist Baseline for Text-to-Image Generation.	Blog · JAX · PyTorch
2	Li, T., He, K. (2025). Back to Basics: Let Denoising Generative Models Denoise (JiT).	arXiv:2511.13720
3	Lu, Y., Lu, S., Sun, Q., Zhao, H., Jiang, Z., Wang, X., Li, T., Geng, Z., He, K. (2026). One-step Latent-free Image Generation with Pixel Mean Flows.	arXiv:2601.22158
4	Geng, Z., Deng, M., Bai, X., Kolter, J. Z., He, K. (2025). Mean Flows for One-step Generative Modeling. NeurIPS 2025 Oral.	arXiv:2505.13447
5	Geng, Z., Lu, Y., Wu, Z., Shechtman, E., Kolter, J. Z., He, K. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models (iMF).	arXiv:2512.02012
6	Esser, P. et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (SD3).	arXiv:2403.03206
7	Lipman, Y. et al. (2022). Flow Matching for Generative Modeling.	arXiv:2210.02747
8	Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models.	arXiv:2112.10752
9	Chung, H. W. et al. (2022). Scaling Instruction-Finetuned Language Models (FLAN-T5).	arXiv:2210.11416
10	Ghosh, D., Hajishirzi, H., Schmidt, L. (2023). GenEval: An Object-Focused Framework for Evaluating T2I Alignment.	arXiv:2310.11513
11	Hu, X. et al. (2024). ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment (DPG-Bench).	arXiv:2403.05135
12	Fang, R. et al. (2025). FLUX-Reason-6M & PRISM-Bench.	arXiv:2509.09680
13	Skorokhodov, I. et al. (2025). Improving the Diffusability of Autoencoders.	arXiv:2502.14831
14	Zeng, B. et al. (2026). i1: A Simple and Fully Open Recipe for Strong T2I Models.	arXiv:2606.11289
15	Ouyang, L. et al. (2022). Training Language Models to Follow Instructions with Human Feedback (InstructGPT).	arXiv:2203.02155

同主题强相关阅读

凯明的方法论：从 ResNet 到 iMF —— 本文反复引用的 D1–D4 来源；JiT / Pixel Mean Flow / iMF 三块拼图的方法论纲领。
Flow Matching 与一致性模型 —— OT-CFM 推导、Mean Flow 与一致性模型的统一框架；本文 §3 的数学锚点。
扩散模型的变分基础：从 ELBO 到去噪 —— $x$ / $\epsilon$ / $v$ 参数化的等价性证明；解释为什么"等价"在数学上成立但训练动力学上失败。
扩散模型的 SDE/ODE 统一 —— 概率流 ODE，Flow Matching 在该框架下的位置。

一、一个被默认接受的复杂性#

二、凯明系"去 codec"主线上的第三块拼图#

三、问题形式化：T2I = 类条件 + in-context text#

四、MM-JiT：把 MM-DiT 压到不能再压#

五、数据：CC12M + 120K，预训练-微调 LLM 范式#

六、Scaling 的反应：B/32 → B/16 → L/16#

七、诚实的失败：PRISM-Bench 是真考场#

八、两个延伸：LoRA 与 4 步蒸馏#

九、放回凯明系：D1–D4 在 MiniT2I 上的具体投影#

十、它的位置与意义#

References#

同主题强相关阅读#

相关文章