熵、KL散度、交叉熵与互信息

Junity 发布于 18 天前 426 次阅读 最后更新于 18 天前 1282 字 预计阅读时间: 6 分钟


AI 摘要

本文系统阐述了熵及其衍生概念的关系:熵量化随机变量不确定性,KL散度度量分布差异,交叉熵反映近似分布的失真程度,互信息衡量变量间依赖程度。从离散到连续形式延伸,揭示了信息量、分布近似与变量关联的本质度量方法,构建了完整的信息理论度量体系。

是衡量一个随机变量不确定性的度量。对于一个离散型随机变量 X 及其 PDF p(x) ,我们定义它的 为:

H(X)=xp(x)logp(x)

熵越高,意味着随机变量的不确定性越大;熵越低,则意味着随机变量的分布越集中。

信息是对不确定性的消除。对于一个伯努利试验,在成功的情况下,我们认为“成功”这个信息的信息量是 logp ,其中 p 是成功的概率。也就是说,我们认为 一件事发生的概率越小,所蕴含的信息量就越大 。因此,熵就是 随机变量信息的期望 ,或者说是用来描述随机变量取值的最小平均信息量

对于有 N 个取值的离散随机变量 X ,可以证明熵的最大值是 logN ,此时 的分布为 p(xi)=1N ,即PDF是均匀的;熵的最小值是 0 ,此时的分布是 p(xi)={1i=k0ik ,即已经确定 X 的取值一定为 xk 。这两个结论可以从信息的角度来理解,当 X 满足均匀分布时,说明我们对这个随机变量一无所知,因此此时的熵是最大的;而当 X 的取值被确定后,知道 X 的取值不会带来任何新信息,因此熵为 0

微分熵

把上面的内容扩展到连续情况下,可以得到连续型随机变量熵的定义,称为 微分熵

H(X)=Sp(x)logp(x)dx

可以证明,在只知道方差 μ 和均值 σ2 的情况下, 高斯分布 时具有最大的熵 HG(X)=12log(2πeσ2) 。因此在得到一些随机变量的样本时,我们一般假设它符合高斯分布。这称为 最大熵原理

同时,将一个随机变量的熵用高斯分布的熵来减,得到的值可以用来衡量系统的有序性或偏离高斯分布的程度。我们称这个正的差值为 负熵

联合熵

对于多个随机变量可以定义他们的 联合熵 为:

H(X1,X2,...,Xn)=Sp(x1,x2,...,xn)logp(x1,x2,...,xn)dx1dx2...dxn

其中 p(x1,x2,...,xn) 是这些随机变量的联合分布。

条件熵

对于两个随机变量 XY ,他们条件熵为:

H(X|Y)=p(x,y)logp(x|y)dxdy

可以证明,H(X,Y)=H(X|Y)+H(Y)=H(Y|X)+H(X) ,从信息的角度也不难理解:总的信息被拆成了 H(X|Y)H(Y) 两部分。

KL 散度

对于随机变量 X 的两个不同 PDF p(x)q(x)KL散度 是他们熵差的均值:

KL(p(x)||q(x))=p(x)logq(x)p(x)dx=p(x)(logp(x)(logp(x)))dx

直观来看,KL散度衡量了 q(x) 来近似 p(x) 时损失了多少信息 ,故KL散度可以衡量两个分布的不同。
需要注意的是,KL散度并不是对称的,即 KL(p(x)||q(x))KL(q(x)||p(x))

交叉熵

当我们不知道一个随机变量的精确分布时,我们只能用通过已有信息及样本近似出来的分布来描述它。此时用近似分布来计算的熵就是 交叉熵

CrossEntropyx|p(x),q(x)=Sp(x)logq(x)dx

其中 p(x) 是随机变量 X 的真实分布,q(x) 是我们的近似分布。交叉熵就是使用近似分布估算出来的熵。

交叉熵的值会比熵更大。更精确地,对于 X 的任意两个分布 p(x)q(x) ,有:

H(X)CrossEntropyx|p(x),q(x)

这是由于我们使用近似出来的分布计算熵,因此相比于真实情况会有失真。由于使用最少的平均信息描述随机变量的取值需要用到其的分布,所以失真的分布会使得平均信息量增大。

从这个角度来看,交叉熵和熵的差值可以用来衡量两个分布的差异。而这个差值正好是上文提到的 KL散度

H(X)+KL(p(x)||q(x))=CrossEntropyx|p(x),q(x)

互信息

互信息用于衡量当知道一个随机变量的值后,另外一个随机变量不确定性减小的程度。互信息相当于两个随机变量“共有”的信息,因此其应该具有对称性。互信息的定义为:

I(X;Y)=KL(p(x,y)||p(x)p(y))=Sp(x,y)logp(x,y)p(x)p(y)dxdy

从上面的公式可以看出,互信息是 p(x,y)p(x)p(y) 的 KL散度,即 XY 相互独立时的分布与真实分布间的熵差,联想容斥原理,就不难理解互信息这样定义的原因了。当 p(x,y)=p(x)p(y)XY 相互独立时,互信息取到最小值 0

此作者没有提供个人介绍。
最后更新于 2025-04-26