扩散模型：DDPM → SDE/ODE → Flow Matching

为什么大扩散模型不会背诵训练数据：两个时间尺度的隐式正则化

2023 年 Carlini 等人做了一件让 Stable Diffusion 团队和版权律师同时紧张的事：他们用一种"提示词反演"的攻击方法，从 Stable Diffusion 中逐像素重建出了部分训练图像，包括有身份的人脸和受版权保护的画作 [Carlini et al. 2023, USENIX]。论文里一张攻击图与训练原图的对照让人发凉——大模型确实在"背诵"。 ...

Flow Matching 与一致性模型：生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来：是否存在一条"最优"路径？Flow Matching 给出了肯定的回答：最优传输路径是直线。一致性模型则进一步追问：如果路径已经是最优的，能否一步走完？ ...

扩散模型的 SDE/ODE 统一：随机微分方程到确定性采样

一、从离散到连续：马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链：每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时，马尔可夫链收敛于一个随机微分方程（SDE）。 ...

扩散模型的变分基础：从 ELBO 到去噪

DDPM 前向/反向过程的基础推导见扩散模型与自动驾驶规划，本文聚焦变分下界的分解与最优参数化。从直觉出发：拆楼与建楼 DDPM 的核心思想可以用一个朴素的类比来理解：一栋大楼（数据）可以逐步拆解为砖瓦水泥（噪声），反过来，学会拆楼的逆过程就能从砖瓦水泥重建大楼。这个类比的核心在于：逐步拆比一步拆更可控。如果一次爆破将大楼瞬间化为废墟，从废墟中重建大楼几乎不可能——因为信息丢失太严重，逆过程极度复杂。但如果每步只拆一小部分，每步的变化都很小，那么每步的逆过程也足够简单，可以用一个简单的高斯分布来描述。 ...