数学是理解"为什么有效"的唯一路径。
这个系列从第一性原理出发,对 AI 领域的核心数学推导做深入浅出的解读。每篇文章都配有交互式可视化——让推导中那些"显然"的地方变得真正显然。
四条主线
每条主线内部有序,主线之间可并行阅读。
A. 矩阵论:SVD → 谱范数 → Muon
| Article | Topic |
|---|---|
| SVD 与低秩近似 | 从矩阵压缩到 LoRA 微调的数学基础 |
| 谱范数与条件数 | 优化景观的曲率与训练稳定性 |
| Muon 优化器 | 矩阵正交化驱动的梯度更新 |
| Polar Express | Chebyshev 区间最优多项式把 Newton-Schulz 提速一倍 |
B. 位置编码:RoPE → β进制 → MLA
| Article | Topic |
|---|---|
| RoPE 的旋转几何 | 复平面上的旋转为什么能编码位置 |
| β进制与长度外推 | 旋转频率的进制类比与上下文扩展 |
| 从 RoPE 到 MLA | 旋转约束下的低秩压缩 |
C. 扩散模型:DDPM → SDE/ODE → Flow Matching
| Article | Topic |
|---|---|
| DDPM 的变分推断 | 从 ELBO 到去噪的变分基础 |
| SDE/ODE 统一视角 | 随机微分方程到确定性采样 |
| Flow Matching 与一致性模型 | 生成范式的新统一 |
| 扩散模型为什么不背诵训练数据 | 两个时间尺度的隐式正则化 |
D. 概率/信息论:VAE → 最优传输 → 得分匹配
| Article | Topic |
|---|---|
| VAE 与变分推断 | 从 ELBO 到重参数化 |
| 最优传输与 Wasserstein 距离 | 从 Monge 到 Kantorovich |
| 得分匹配、GAN 与统一 | 生成模型的分布匹配框架 |
阅读路线
| |
- D1 (VAE/ELBO) 建立变分推断基础,是 C1 (DDPM) 的前置知识
- A1 (SVD) 建立低秩分解概念,是 B3 (MLA) 的前置知识
- B1 (RoPE) 和 C1 (DDPM) 可独立阅读
核心概念索引
| 概念 | 定义 | 引用文章 |
|---|---|---|
| SVD | 任意实矩阵 A=UΣV^T,旋转-拉伸-旋转的几何分解 | A1, A2, A3 |
| 低秩近似 | Eckart-Young定理:截断SVD是最优低秩近似 | A1, B3 |
| 谱范数 | ‖A‖₂=σ_max,矩阵最大拉伸因子 | A2, A3 |
| 条件数 | κ(A)=σ_max/σ_min,决定GD收敛速度 | A2 |
| msign | msign(G)=U[:,:r]V[:,:r]^T,投影到最近正交矩阵 | A3 |
| 幂迭代 | 近似计算σ_max的O(mn)方法 | A2, A3 |
| LoRA | ΔW=AB低秩参数化微调 | A1 |
| RoPE | 乘性旋转位置编码,内积只依赖相对位置 | B1, B2, B3 |
| β进制类比 | RoPE角度m/β^{2i/d}等价于β进制数各位 | B2 |
| NTK-Aware缩放 | 增大底数β实现非均匀频率缩放 | B2 |
| 解耦RoPE | 内容注意力+位置注意力分离设计 | B3 |
| 权重吸收 | W_Q^T·W_K预计算合并,RoPE使其失效 | B3 |
| ELBO | log p(x)≥E_q[log p(x,z)/q(z | x)],变分下界 |
| 得分函数 | s(x,t)=∇_x log p_t(x),指向密度增长最快方向 | C2 |
| 概率流ODE | 与SDE相同边际分布的确定性路径 | C2, C3 |
| Flow Matching | 学习向量场使ODE边际分布匹配目标演化 | C3 |
| 一致性模型 | ODE路径上任意点直接映射到x₀,单步生成 | C3 |
| MeanFlow | 建模平均速度(x₁-x₀)而非瞬时速度 | C3 |
| 重参数化 | z=μ+σ⊙ε,消除采样路径的梯度断裂 | D1 |
| Wasserstein距离 | W(p,q)=inf_γ E[‖x-y‖],最优传输的对偶形式 | D2 |
| 得分匹配 | ∇_θ E_p[tr(∇_x s_θ)+½‖s_θ‖²],直接估计得分函数 | D3 |
跨系列连接
| 概念 | 本系列文章 | 外部系列 |
|---|---|---|
| SVD/低秩 | A1(SVD), B3(MLA) | DeepSeek MLA, X-Cache |
| RoPE | B1(几何), B2(外推), B3(解耦) | DINOv3, Qwen3.5, Driving JEPA |
| Flow Matching | C3(核心) | Wan2.2, Diffusion-for-Driving, 何恺明CVPR2026 |
| ELBO | C1(变分基础) | VAE/概率论 |
参考文献
本系列的核心数学推导参考了苏剑林 科学空间 博客中的多篇深度技术文章。每篇文章末尾的"参考文献"章节会标注具体的原文链接。