熵
熵是衡量一个随机变量不确定性的度量。对于一个离散型随机变量 及其 PDF ,我们定义它的 熵 为:
熵越高,意味着随机变量的不确定性越大;熵越低,则意味着随机变量的分布越集中。
信息是对不确定性的消除。对于一个伯努利试验,在成功的情况下,我们认为“成功”这个信息的信息量是 ,其中 是成功的概率。也就是说,我们认为 一件事发生的概率越小,所蕴含的信息量就越大 。因此,熵就是 随机变量信息的期望 ,或者说是用来描述随机变量取值的最小平均信息量。
对于有 个取值的离散随机变量 ,可以证明熵的最大值是 ,此时 的分布为 ,即PDF是均匀的;熵的最小值是 ,此时的分布是 ,即已经确定 的取值一定为 。这两个结论可以从信息的角度来理解,当 满足均匀分布时,说明我们对这个随机变量一无所知,因此此时的熵是最大的;而当 的取值被确定后,知道 的取值不会带来任何新信息,因此熵为 。
微分熵
把上面的内容扩展到连续情况下,可以得到连续型随机变量熵的定义,称为 微分熵 :
可以证明,在只知道方差 和均值 的情况下, 高斯分布 时具有最大的熵 。因此在得到一些随机变量的样本时,我们一般假设它符合高斯分布。这称为 最大熵原理 。
同时,将一个随机变量的熵用高斯分布的熵来减,得到的值可以用来衡量系统的有序性或偏离高斯分布的程度。我们称这个正的差值为 负熵
联合熵
对于多个随机变量可以定义他们的 联合熵 为:
其中 是这些随机变量的联合分布。
条件熵
对于两个随机变量 和 ,他们条件熵为:
可以证明, ,从信息的角度也不难理解:总的信息被拆成了 和 两部分。
KL 散度
对于随机变量 的两个不同 PDF 和 , KL散度 是他们熵差的均值:
直观来看,KL散度衡量了 用 来近似 时损失了多少信息 ,故KL散度可以衡量两个分布的不同。
需要注意的是,KL散度并不是对称的,即 。
交叉熵
当我们不知道一个随机变量的精确分布时,我们只能用通过已有信息及样本近似出来的分布来描述它。此时用近似分布来计算的熵就是 交叉熵 :
其中 是随机变量 的真实分布, 是我们的近似分布。交叉熵就是使用近似分布估算出来的熵。
交叉熵的值会比熵更大。更精确地,对于 的任意两个分布 和 ,有:
这是由于我们使用近似出来的分布计算熵,因此相比于真实情况会有失真。由于使用最少的平均信息描述随机变量的取值需要用到其的分布,所以失真的分布会使得平均信息量增大。
从这个角度来看,交叉熵和熵的差值可以用来衡量两个分布的差异。而这个差值正好是上文提到的 KL散度 :
互信息
互信息用于衡量当知道一个随机变量的值后,另外一个随机变量不确定性减小的程度。互信息相当于两个随机变量“共有”的信息,因此其应该具有对称性。互信息的定义为:
从上面的公式可以看出,互信息是 和 的 KL散度,即 和 相互独立时的分布与真实分布间的熵差,联想容斥原理,就不难理解互信息这样定义的原因了。当 既 和 相互独立时,互信息取到最小值 。
Comments NOTHING