熵与信息论:从 -log p 到深度学习

信息论里最反直觉的事情,是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式,却几乎是被三条无害的要求强制出来的。本文从这一点起步,走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方:分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...

2026年5月25日 · 18 分钟 · LexHsu
访客 704 人次 · 访问 1065 次