数学是理解"为什么有效"的唯一路径。

这个系列从第一性原理出发,对 AI 领域的核心数学推导做深入浅出的解读。每篇文章都配有交互式可视化——让推导中那些"显然"的地方变得真正显然。

四条主线

每条主线内部有序,主线之间可并行阅读。

A. 矩阵论:SVD → 谱范数 → Muon

ArticleTopic
SVD 与低秩近似从矩阵压缩到 LoRA 微调的数学基础
谱范数与条件数优化景观的曲率与训练稳定性
Muon 优化器矩阵正交化驱动的梯度更新
Polar ExpressChebyshev 区间最优多项式把 Newton-Schulz 提速一倍

B. 位置编码:RoPE → β进制 → MLA

ArticleTopic
RoPE 的旋转几何复平面上的旋转为什么能编码位置
β进制与长度外推旋转频率的进制类比与上下文扩展
从 RoPE 到 MLA旋转约束下的低秩压缩

C. 扩散模型:DDPM → SDE/ODE → Flow Matching

ArticleTopic
DDPM 的变分推断从 ELBO 到去噪的变分基础
SDE/ODE 统一视角随机微分方程到确定性采样
Flow Matching 与一致性模型生成范式的新统一
扩散模型为什么不背诵训练数据两个时间尺度的隐式正则化

D. 概率/信息论:VAE → 最优传输 → 得分匹配

ArticleTopic
VAE 与变分推断从 ELBO 到重参数化
最优传输与 Wasserstein 距离从 Monge 到 Kantorovich
得分匹配、GAN 与统一生成模型的分布匹配框架

阅读路线

1
推荐入门路径:D1 → A1 → B1 → C1

核心概念索引

概念定义引用文章
SVD任意实矩阵 A=UΣV^T,旋转-拉伸-旋转的几何分解A1, A2, A3
低秩近似Eckart-Young定理:截断SVD是最优低秩近似A1, B3
谱范数‖A‖₂=σ_max,矩阵最大拉伸因子A2, A3
条件数κ(A)=σ_max/σ_min,决定GD收敛速度A2
msignmsign(G)=U[:,:r]V[:,:r]^T,投影到最近正交矩阵A3
幂迭代近似计算σ_max的O(mn)方法A2, A3
LoRAΔW=AB低秩参数化微调A1
RoPE乘性旋转位置编码,内积只依赖相对位置B1, B2, B3
β进制类比RoPE角度m/β^{2i/d}等价于β进制数各位B2
NTK-Aware缩放增大底数β实现非均匀频率缩放B2
解耦RoPE内容注意力+位置注意力分离设计B3
权重吸收W_Q^T·W_K预计算合并,RoPE使其失效B3
ELBOlog p(x)≥E_q[log p(x,z)/q(zx)],变分下界
得分函数s(x,t)=∇_x log p_t(x),指向密度增长最快方向C2
概率流ODE与SDE相同边际分布的确定性路径C2, C3
Flow Matching学习向量场使ODE边际分布匹配目标演化C3
一致性模型ODE路径上任意点直接映射到x₀,单步生成C3
MeanFlow建模平均速度(x₁-x₀)而非瞬时速度C3
重参数化z=μ+σ⊙ε,消除采样路径的梯度断裂D1
Wasserstein距离W(p,q)=inf_γ E[‖x-y‖],最优传输的对偶形式D2
得分匹配∇_θ E_p[tr(∇_x s_θ)+½‖s_θ‖²],直接估计得分函数D3

跨系列连接

概念本系列文章外部系列
SVD/低秩A1(SVD), B3(MLA)DeepSeek MLA, X-Cache
RoPEB1(几何), B2(外推), B3(解耦)DINOv3, Qwen3.5, Driving JEPA
Flow MatchingC3(核心)Wan2.2, Diffusion-for-Driving, 何恺明CVPR2026
ELBOC1(变分基础)VAE/概率论

参考文献

本系列的核心数学推导参考了苏剑林 科学空间 博客中的多篇深度技术文章。每篇文章末尾的"参考文献"章节会标注具体的原文链接。