深入理解 KL 散度:四个视角
熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...
熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...