Mathematics for AI: 从推导到应用

数学是理解"为什么有效"的唯一路径。

这个系列从第一性原理出发，对 AI 领域的核心数学推导做深入浅出的解读。每篇文章都配有交互式可视化——让推导中那些"显然"的地方变得真正显然。

四条主线

每条主线内部有序，主线之间可并行阅读。

A. 矩阵论：SVD → 谱范数 → Muon

Article	Topic
SVD 与低秩近似	从矩阵压缩到 LoRA 微调的数学基础
谱范数与条件数	优化景观的曲率与训练稳定性
Muon 优化器	矩阵正交化驱动的梯度更新
Polar Express	Chebyshev 区间最优多项式把 Newton-Schulz 提速一倍

B. 位置编码：RoPE → β进制 → MLA

Article	Topic
RoPE 的旋转几何	复平面上的旋转为什么能编码位置
β进制与长度外推	旋转频率的进制类比与上下文扩展
从 RoPE 到 MLA	旋转约束下的低秩压缩

C. 扩散模型：DDPM → SDE/ODE → Flow Matching

Article	Topic
DDPM 的变分推断	从 ELBO 到去噪的变分基础
SDE/ODE 统一视角	随机微分方程到确定性采样
Flow Matching 与一致性模型	生成范式的新统一
扩散模型为什么不背诵训练数据	两个时间尺度的隐式正则化

D. 概率/信息论：VAE → 最优传输 → 得分匹配

Article	Topic
VAE 与变分推断	从 ELBO 到重参数化
最优传输与 Wasserstein 距离	从 Monge 到 Kantorovich
得分匹配、GAN 与统一	生成模型的分布匹配框架

阅读路线

1
推荐入门路径：D1 → A1 → B1 → C1

D1 (VAE/ELBO) 建立变分推断基础，是 C1 (DDPM) 的前置知识
A1 (SVD) 建立低秩分解概念，是 B3 (MLA) 的前置知识
B1 (RoPE) 和 C1 (DDPM) 可独立阅读

核心概念索引

概念	定义	引用文章
SVD	任意实矩阵 A=UΣV^T，旋转-拉伸-旋转的几何分解	A1, A2, A3
低秩近似	Eckart-Young定理：截断SVD是最优低秩近似	A1, B3
谱范数	‖A‖₂=σ_max，矩阵最大拉伸因子	A2, A3
条件数	κ(A)=σ_max/σ_min，决定GD收敛速度	A2
msign	msign(G)=U[:,:r]V[:,:r]^T，投影到最近正交矩阵	A3
幂迭代	近似计算σ_max的O(mn)方法	A2, A3
LoRA	ΔW=AB低秩参数化微调	A1
RoPE	乘性旋转位置编码，内积只依赖相对位置	B1, B2, B3
β进制类比	RoPE角度m/β^{2i/d}等价于β进制数各位	B2
NTK-Aware缩放	增大底数β实现非均匀频率缩放	B2
解耦RoPE	内容注意力+位置注意力分离设计	B3
权重吸收	W_Q^T·W_K预计算合并，RoPE使其失效	B3
ELBO	log p(x)≥E_q[log p(x,z)/q(z	x)]，变分下界
得分函数	s(x,t)=∇_x log p_t(x)，指向密度增长最快方向	C2
概率流ODE	与SDE相同边际分布的确定性路径	C2, C3
Flow Matching	学习向量场使ODE边际分布匹配目标演化	C3
一致性模型	ODE路径上任意点直接映射到x₀，单步生成	C3
MeanFlow	建模平均速度(x₁-x₀)而非瞬时速度	C3
重参数化	z=μ+σ⊙ε，消除采样路径的梯度断裂	D1
Wasserstein距离	W(p,q)=inf_γ E[‖x-y‖]，最优传输的对偶形式	D2
得分匹配	∇_θ E_p[tr(∇_x s_θ)+½‖s_θ‖²]，直接估计得分函数	D3

跨系列连接

概念	本系列文章	外部系列
SVD/低秩	A1(SVD), B3(MLA)	DeepSeek MLA, X-Cache
RoPE	B1(几何), B2(外推), B3(解耦)	DINOv3, Qwen3.5, Driving JEPA
Flow Matching	C3(核心)	Wan2.2, Diffusion-for-Driving, 何恺明CVPR2026
ELBO	C1(变分基础)	VAE/概率论

参考文献

本系列的核心数学推导参考了苏剑林科学空间博客中的多篇深度技术文章。每篇文章末尾的"参考文献"章节会标注具体的原文链接。

深入理解 KL 散度：四个视角

熵与信息论 §4 给了 KL 散度的定义跟几条性质，但容易在 ∑plog⁡(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL，每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用，每一个都能直接挂到其中一个视角的语言下。 ...

熵与信息论：从 -log p 到深度学习

信息论里最反直觉的事情，是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式，却几乎是被三条无害的要求强制出来的。本文从这一点起步，走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方：分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...

Polar Express：用 Chebyshev 逼近把 Muon 的矩阵正交化提速一倍

在 Muon 优化器：矩阵正交化驱动的梯度更新中，我们建立了 msign 算子的数学骨架：把梯度矩阵 GG 投影到最近的正交矩阵 msign(G)=UVT\text{msign}(G) = UV^T，并用 Newton-Schulz 迭代避免完整的 SVD。这套方案已经在 Kimi K2 上实现了 2× 训练加速，但它有一个隐疾：Newton-Schulz 在矩阵奇异值跨度大时，前十几步几乎不动。 ...

为什么大扩散模型不会背诵训练数据：两个时间尺度的隐式正则化

2023 年 Carlini 等人做了一件让 Stable Diffusion 团队和版权律师同时紧张的事：他们用一种"提示词反演"的攻击方法，从 Stable Diffusion 中逐像素重建出了部分训练图像，包括有身份的人脸和受版权保护的画作 [Carlini et al. 2023, USENIX]。论文里一张攻击图与训练原图的对照让人发凉——大模型确实在"背诵"。 ...

得分匹配、GAN 与生成模型的统一

概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 pθ(x)p_\theta(x)，这在复杂模型中往往不可行，因为归一化常数 Zθ=∫p~θ(x)dxZ_\theta = \int \tilde{p}_\theta(x)dx 的高维积分无法解析求解。2005 年，Aapo Hyvarinen 提出了一个绕过归一化常数的方法：得分匹配（Score Matching）。它不估计密度本身，而是估计密度的梯度——得分函数。 ...

最优传输与 Wasserstein 距离：从 Monge 到 Kantorovich

1781 年，Gaspard Monge 在研究土木工程时提出了一个问题：如何以最小的代价将一堆土从一个地方搬到另一个地方？这个看似质朴的问题，在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法，还揭示了概率度量与函数空间之间的深刻对偶关系。 ...

变分自编码器：从 ELBO 到重参数化

生成模型的核心任务是学习数据分布 p(x)p(x)，然后从中采样生成新样本。对于观测变量 xx，一个自然的框架是引入隐变量 zz，通过联合分布 p(x,z)=p(x∣z)p(z)p(x, z) = p(x|z)p(z) 建模数据生成过程。然而，一旦模型建好，真正困难的步骤浮现出来：如何从观测 xx 推断隐变量 zz 的后验分布 p(z∣x)p(z|x)？这里需要澄清一个常见的混淆：先验假设与后验假设是两件不同的事。VAE 假设先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I)，这只是对边际分布的约束——它规定了隐空间的整体结构，但并未约束给定 xx 后 zz 的条件分布。真正核心的建模假设是：编码器输出的 qϕ(z∣x)=N(μϕ(x),σϕ2(x)I)q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \sigma_\phi^2(x) I) 近似真实后验 p(z∣x)p(z|x)。换言之，VAE 假设的核心不在于边际分布层面的"zz 是正态的"，而在于条件分布层面的"给定 xx 后，zz 的后验是正态的"——并且用参数化的编码器来逼近这个后验。 ...

Flow Matching 与一致性模型：生成范式的新统一

扩散模型的概率流 ODE 将生成过程表述为从噪声到数据的确定性映射。但 ODE 路径并非唯一——不同的漂移和扩散系数定义了不同的路径。一个自然的问题随之而来：是否存在一条"最优"路径？Flow Matching 给出了肯定的回答：最优传输路径是直线。一致性模型则进一步追问：如果路径已经是最优的，能否一步走完？ ...

扩散模型的 SDE/ODE 统一：随机微分方程到确定性采样

一、从离散到连续：马尔可夫链的 SDE 极限 DDPM 的前向过程是一个离散的马尔可夫链：每一步从 xt−1x_{t-1} 到 xtx_t 添加一个小的高斯噪声。这个离散过程有一个自然的连续极限——当时间步长 Δt→0\Delta t \to 0 时，马尔可夫链收敛于一个随机微分方程（SDE）。 ...

扩散模型的变分基础：从 ELBO 到去噪

DDPM 前向/反向过程的基础推导见扩散模型与自动驾驶规划，本文聚焦变分下界的分解与最优参数化。从直觉出发：拆楼与建楼 DDPM 的核心思想可以用一个朴素的类比来理解：一栋大楼（数据）可以逐步拆解为砖瓦水泥（噪声），反过来，学会拆楼的逆过程就能从砖瓦水泥重建大楼。这个类比的核心在于：逐步拆比一步拆更可控。如果一次爆破将大楼瞬间化为废墟，从废墟中重建大楼几乎不可能——因为信息丢失太严重，逆过程极度复杂。但如果每步只拆一小部分，每步的变化都很小，那么每步的逆过程也足够简单，可以用一个简单的高斯分布来描述。 ...

旋转约束下的压缩：从 RoPE 到 DeepSeek MLA

Transformer 推理的一个核心瓶颈是 KV Cache：每个 token 的 Key 和 Value 向量需要缓存以供后续 token 的注意力计算使用，其存储量随序列长度线性增长。当上下文窗口扩展到 128K 甚至 1M token 时，KV Cache 的显存占用成为部署的硬约束。低秩压缩是最自然的思路——将高维的 KV 向量投影到低维空间存储——但 RoPE 的旋转操作让这件事变得远比想象中复杂。 ...

RoPE 的 β 进制类比与长度外推

RoPE 优雅地解决了"用绝对编码实现相对位置"的问题，但它自身面临另一个挑战：当模型需要处理训练时未见过的更长序列时，位置编码会发生什么？这个问题——长度外推——直接决定了模型能否在推理阶段扩展上下文窗口。理解长度外推的关键，在于苏剑林提出的一个深刻类比：RoPE 的旋转角度就是 β\beta 进制数的各位数字。 ...

旋转位置编码的几何本质：从复数到旋转矩阵

位置编码是 Transformer 架构中一个看似简单却深刻的设计问题。自注意力机制本身是位置无关的——它对输入序列的排列不变，这意味着同一个句子打乱词序后，自注意力的计算逻辑完全不变。然而语言的本质是序列性的，“猫吃鱼"和"鱼吃猫"含义截然不同。位置编码的使命，就是将序的结构注入一个天生无视顺序的机制中。 ...

Muon 优化器：矩阵正交化驱动的梯度更新

在前两篇文章中，我们建立了奇异值分解和谱范数的理论基础。SVD 告诉我们矩阵可以分解为旋转和拉伸的组合，谱范数量化了最大拉伸因子，条件数决定了优化的难易程度。现在，我们将这些概念串联起来，理解一个正在改变大模型训练范式的优化器——Muon。 ...

谱范数、条件数与优化景观

在上一篇文章中，我们讨论了奇异值分解与低秩近似。奇异值不仅刻画了矩阵的"能量分布"，还定义了两个极其重要的量：谱范数和条件数。谱范数衡量矩阵的最大拉伸能力，条件数则刻画了矩阵"各向异性"的程度。这两个概念在优化理论和深度学习实践中扮演着核心角色——条件数决定了梯度下降的收敛速度，谱范数则是控制神经网络 Lipschitz 常数的关键工具。 ...

奇异值分解与低秩近似：从矩阵压缩到 LoRA 微调

线性代数中，矩阵分解是一个反复出现的主题。特征值分解告诉我们方阵的内在振动模式，QR 分解揭示了正交性的力量，而奇异值分解（Singular Value Decomposition, SVD）则是所有分解中最深刻的一个——它对矩阵的形状没有任何要求，却能揭示矩阵最本质的几何结构。 ...

四条主线#

A. 矩阵论：SVD → 谱范数 → Muon#

B. 位置编码：RoPE → β进制 → MLA#

C. 扩散模型：DDPM → SDE/ODE → Flow Matching#

D. 概率/信息论：VAE → 最优传输 → 得分匹配#

阅读路线#

核心概念索引#

跨系列连接#

参考文献#