深入理解 KL 散度:四个视角
熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...
熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...
信息论里最反直觉的事情,是它的核心度量 −logp-\log p 看起来完全像个随手挑的形式,却几乎是被三条无害的要求强制出来的。本文从这一点起步,走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方:分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...
概率密度估计的经典方法——最大似然估计——要求模型给出归一化的概率密度 pθ(x)p_\theta(x),这在复杂模型中往往不可行,因为归一化常数 Zθ=∫p~θ(x)dxZ_\theta = \int \tilde{p}_\theta(x)dx 的高维积分无法解析求解。2005 年,Aapo Hyvarinen 提出了一个绕过归一化常数的方法:得分匹配(Score Matching)。它不估计密度本身,而是估计密度的梯度——得分函数。 ...
1781 年,Gaspard Monge 在研究土木工程时提出了一个问题:如何以最小的代价将一堆土从一个地方搬到另一个地方?这个看似质朴的问题,在两百多年后成为概率论、优化和机器学习的交汇点。最优传输理论不仅给出了一种衡量概率分布之间距离的原则性方法,还揭示了概率度量与函数空间之间的深刻对偶关系。 ...
生成模型的核心任务是学习数据分布 p(x)p(x),然后从中采样生成新样本。对于观测变量 xx,一个自然的框架是引入隐变量 zz,通过联合分布 p(x,z)=p(x∣z)p(z)p(x, z) = p(x|z)p(z) 建模数据生成过程。然而,一旦模型建好,真正困难的步骤浮现出来:如何从观测 xx 推断隐变量 zz 的后验分布 p(z∣x)p(z|x)? 这里需要澄清一个常见的混淆:先验假设与后验假设是两件不同的事。VAE 假设先验 p(z)=N(0,I)p(z) = \mathcal{N}(0, I),这只是对边际分布的约束——它规定了隐空间的整体结构,但并未约束给定 xx 后 zz 的条件分布。真正核心的建模假设是:编码器输出的 qϕ(z∣x)=N(μϕ(x),σϕ2(x)I)q_\phi(z|x) = \mathcal{N}(\mu_\phi(x), \sigma_\phi^2(x) I) 近似真实后验 p(z∣x)p(z|x)。换言之,VAE 假设的核心不在于边际分布层面的"zz 是正态的",而在于条件分布层面的"给定 xx 后,zz 的后验是正态的"——并且用参数化的编码器来逼近这个后验。 ...