深入理解 KL 散度:四个视角

熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog⁡(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...

2026年5月28日 · 12 分钟 · LexHsu

熵与信息论:从 -log p 到深度学习

信息论里最反直觉的事情,是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式,却几乎是被三条无害的要求强制出来的。本文从这一点起步,走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方:分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...

2026年5月25日 · 18 分钟 · LexHsu
访客 704 人次 · 访问 1065 次