<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Mathematics on Xu'Blog</title><link>https://xuquant.com/categories/mathematics/</link><description>Recent content in Mathematics on Xu'Blog</description><image><title>Xu'Blog</title><url>https://xuquant.com/og-default.png</url><link>https://xuquant.com/og-default.png</link></image><generator>Hugo -- 0.152.2</generator><language>zh</language><lastBuildDate>Thu, 28 May 2026 08:00:00 +0800</lastBuildDate><atom:link href="https://xuquant.com/categories/mathematics/index.xml" rel="self" type="application/rss+xml"/><item><title>深入理解 KL 散度：四个视角</title><link>https://xuquant.com/posts/mathematics/probability/kl-divergence-four-views/</link><pubDate>Thu, 28 May 2026 08:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/probability/kl-divergence-four-views/</guid><description>KL 散度在 ML 里到处出现——cross-entropy / ELBO / Information Bottleneck / RLHF / SAC——但它的&amp;#39;为什么是这一坨&amp;#39;容易卡在公式层面。本文从 coding length、似然比、信息几何（Bregman）、mode-seeking vs mass-covering 四个互补视角拆 KL，每个视角解释它的一个性质。最后把这四个视角挂回 cross-entropy / ELBO / IB / SAC / RLHF 几个具体应用，看每个用了哪个视角的语言。</description></item><item><title>熵与信息论：从 -log p 到深度学习</title><link>https://xuquant.com/posts/mathematics/probability/entropy-and-information/</link><pubDate>Mon, 25 May 2026 20:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/probability/entropy-and-information/</guid><description>从公理化角度推出 -log p 的必然性，依次过熵、互信息、KL 散度、最大熵原理，再回到深度学习里反复出现的几种形态——交叉熵损失、ELBO、信息瓶颈、最大熵强化学习。</description></item><item><title>Polar Express：用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍</title><link>https://xuquant.com/posts/mathematics/matrix/polar-express/</link><pubDate>Mon, 18 May 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/matrix/polar-express/</guid><description>Newton-Schulz 迭代在 Muon 优化器里有个隐疾——前十几步几乎不动。ICLR 2026 Honorable Mention 论文 The Polar Express 用区间最优多项式 + Chebyshev 等振荡逼近修好了这个问题，并给出 GPT-2 上一致的 val loss 改善。本文从 Newton-Schulz 的痛点出发，对比 Jordan 启发式、You 六步法、Polar Express 三家解法，详解 Remez 算法在 odd quintic 上的应用、区间复合多项式的收敛性证明，以及 bfloat16 上的工程取舍。</description></item><item><title>为什么大扩散模型不会背诵训练数据：两个时间尺度的隐式正则化</title><link>https://xuquant.com/posts/mathematics/diffusion/why-diffusion-dont-memorize/</link><pubDate>Mon, 18 May 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/diffusion/why-diffusion-dont-memorize/</guid><description>NeurIPS 2025 Best Paper (Bonnaire et al. 2025) 给出了一个干净的回答：扩散模型训练存在两个分离的时间尺度——泛化窗口 τ_gen 和记忆窗口 τ_mem。τ_mem 正比于数据集规模 n（实测斜率约 300K steps per sample），意味着数据集越大，安全训练窗口自动越长。背后机制是神经网络梯度流的 spectral bias：低频 population score 先被学到，高频 empirical score 尖刺要等大量步数才被追上。本文从 Carlini 2023 的实证担忧切入，详解两个时间尺度的实验现象、n-线性标度律的推导、Random Feature 网络的谱分析，以及对训练实践的启示。</description></item><item><title>得分匹配、GAN 与生成模型的统一</title><link>https://xuquant.com/posts/mathematics/probability/score-matching-gan/</link><pubDate>Mon, 11 May 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/probability/score-matching-gan/</guid><description>从 Hyvarinen 得分匹配到去噪得分匹配，从 GAN 的对抗训练到得分函数，建立 VAE、GAN、扩散模型在分布匹配框架下的统一理解。</description></item><item><title>最优传输与 Wasserstein 距离：从 Monge 到 Kantorovich</title><link>https://xuquant.com/posts/mathematics/probability/optimal-transport-wasserstein/</link><pubDate>Wed, 06 May 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/probability/optimal-transport-wasserstein/</guid><description>从 Monge 搬运问题到 Kantorovich 松弛，推导 Wasserstein 距离的定义与对偶形式，解释为何 W 距离比 KL 散度更适合衡量分布差异。</description></item><item><title>变分自编码器：从 ELBO 到重参数化</title><link>https://xuquant.com/posts/mathematics/probability/vae-elbo/</link><pubDate>Sat, 02 May 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/probability/vae-elbo/</guid><description>从生成模型的推断难题出发，推导 ELBO 的两种等价形式，解释重参数化技巧的必要性，分析 VAE 的信息瓶颈与后验坍塌问题。</description></item><item><title>Flow Matching 与一致性模型：生成范式的新统一</title><link>https://xuquant.com/posts/mathematics/diffusion/flow-matching-consistency/</link><pubDate>Sat, 25 Apr 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/diffusion/flow-matching-consistency/</guid><description>从扩散模型的随机路径到 Flow Matching 的确定性最优传输路径，再到一致性模型的单步蒸馏，建立生成模型 ODE 视角的统一框架。</description></item><item><title>扩散模型的 SDE/ODE 统一：随机微分方程到确定性采样</title><link>https://xuquant.com/posts/mathematics/diffusion/sde-ode-unified/</link><pubDate>Wed, 22 Apr 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/diffusion/sde-ode-unified/</guid><description>从离散马尔可夫链推导连续 SDE 极限，建立概率流 ODE 的严格推导，解释得分函数的几何意义与朗之万动力学的等价性。</description></item><item><title>扩散模型的变分基础：从 ELBO 到去噪</title><link>https://xuquant.com/posts/mathematics/diffusion/ddpm-variational/</link><pubDate>Sat, 18 Apr 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/diffusion/ddpm-variational/</guid><description>从 ELBO 推导 DDPM 的变分下界，解释三项分解的物理意义，证明预测噪声与预测数据的等价性，建立扩散训练的变分理解。</description></item><item><title>旋转约束下的压缩：从 RoPE 到 DeepSeek MLA</title><link>https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/</link><pubDate>Sat, 11 Apr 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/position-encoding/mla-from-rope/</guid><description>RoPE 与低秩压缩的不兼容性是 MLA 设计的核心驱动力——从旋转矩阵破坏低秩结构的数学证明，到解耦 RoPE 设计的工程解法。</description></item><item><title>RoPE 的 β 进制类比与长度外推</title><link>https://xuquant.com/posts/mathematics/position-encoding/rope-ntk-extrapolation/</link><pubDate>Sat, 04 Apr 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/position-encoding/rope-ntk-extrapolation/</guid><description>将 RoPE 的旋转角度类比为 β 进制数的各位数字，统一理解 NTK-Aware、YaRN 等长度外推方法，揭示分辨率与范围的根本取舍。</description></item><item><title>旋转位置编码的几何本质：从复数到旋转矩阵</title><link>https://xuquant.com/posts/mathematics/position-encoding/rope-geometry/</link><pubDate>Sat, 28 Mar 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/position-encoding/rope-geometry/</guid><description>从复数乘法 = 旋转的几何直觉出发，推导 RoPE 的分块对角旋转矩阵构造，解释内积只依赖相对位置的核心性质。</description></item><item><title>Muon 优化器：矩阵正交化驱动的梯度更新</title><link>https://xuquant.com/posts/mathematics/matrix/muon-optimizer/</link><pubDate>Sat, 14 Mar 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/matrix/muon-optimizer/</guid><description>从动量法到矩阵动量的正交化，推导 Newton-Schulz 迭代的收敛性，解释流式幂迭代的工程折衷，以及 Muon 在 Kimi K2 训练中的 2x 加速。</description></item><item><title>谱范数、条件数与优化景观</title><link>https://xuquant.com/posts/mathematics/matrix/spectral-norm/</link><pubDate>Sat, 07 Mar 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/matrix/spectral-norm/</guid><description>谱范数是矩阵的最大拉伸因子，条件数决定梯度下降的收敛速度——从优化景观的几何到谱归一化的实践。</description></item><item><title>奇异值分解与低秩近似：从矩阵压缩到 LoRA 微调</title><link>https://xuquant.com/posts/mathematics/matrix/svd-low-rank/</link><pubDate>Sat, 28 Feb 2026 09:00:00 +0800</pubDate><guid>https://xuquant.com/posts/mathematics/matrix/svd-low-rank/</guid><description>从 SVD 的几何直觉出发，推导 Eckart-Young 低秩近似定理，解释 LoRA 微调背后的矩阵论原理——为什么一个 rank 远小于 d 的分解仍然有效。</description></item></channel></rss>