Training-Dynamics on Xu'Blog

Training-Dynamics on Xu'Bloghttps://xuquant.com/tags/training-dynamics/Recent content in Training-Dynamics on Xu'BlogXu'Bloghttps://xuquant.com/og-default.pnghttps://xuquant.com/og-default.pngHugo -- 0.152.2zhMon, 18 May 2026 09:00:00 +0800为什么大扩散模型不会背诵训练数据：两个时间尺度的隐式正则化https://xuquant.com/posts/mathematics/diffusion/why-diffusion-dont-memorize/Mon, 18 May 2026 09:00:00 +0800https://xuquant.com/posts/mathematics/diffusion/why-diffusion-dont-memorize/NeurIPS 2025 Best Paper (Bonnaire et al. 2025) 给出了一个干净的回答：扩散模型训练存在两个分离的时间尺度——泛化窗口 τ_gen 和记忆窗口 τ_mem。τ_mem 正比于数据集规模 n（实测斜率约 300K steps per sample），意味着数据集越大，安全训练窗口自动越长。背后机制是神经网络梯度流的 spectral bias：低频 population score 先被学到，高频 empirical score 尖刺要等大量步数才被追上。本文从 Carlini 2023 的实证担忧切入，详解两个时间尺度的实验现象、n-线性标度律的推导、Random Feature 网络的谱分析，以及对训练实践的启示。