KL散度、交叉熵——谈谈自己对信息熵的理解

一、序言

二、什么是KL散度

这个熵差即被称为Kullback-Leibler Divergence(KL散度)也称为交叉熵。记作: D k L ( P ∣ ∣ Q ) D_{kL}(P||Q) DkL(P∣∣Q) 关于KL散度的性质,这里便不再赘述,其余的博客已经讲的很清楚了

三、KL散度的应用

其实看到这里很多小伙伴已经想到,上文的例子,就像在机器学习中,我们估计出一个概率分布为P(x)的模型,而GroundTruth的概率分布为Q(x)。KL散度反应了GT和预测之差,即LOSS。然而,很多人把KL散度的概念列为:描述一个概率分布P与另一个概率分布Q不同的度量。我认为这是不够严谨的,并且是容易造成迷惑的。 如果P和Q的分布相同,那么他们的KL散度是0。但如果KL散度是0,并不能说明他们的概率分布是相同的。又由于它的非负等性质,把他称为“散度”,才是最严谨的,他反应的是两个概率分布的差异程度。这给GAN等目前大火的、非常awesome的网络提供了理论基础。

参考文献

[1]wiki,https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence [2]关于KL散度(Kullback-Leibler Divergence)的笔记,https://zhuanlan.zhihu.com/p/438129018

结语

经验分享 程序员 微信小程序 职场和发展