Entropy

信息论里最反直觉的事情，是它的核心度量 −log⁡p-\log p 看起来完全像个随手挑的形式，却几乎是被三条无害的要求强制出来的。本文从这一点起步，走完香农体系的主干——熵、条件熵、互信息、KL 散度、最大熵原理——再回到当代深度学习里这些量反复出现的地方：分类损失、VAE 的 ELBO、信息瓶颈、SAC 里的 entropy bonus。 ...