快捷搜索: 王者荣耀 脱发

信息熵,交叉熵,KL散度,JS散度之间的关系

(1)信息熵介绍:

对于连续型随机变量,假设P为随机变量X的概率分布,则p(x)为随机变量X在X = x处的概率,随机变量X在x处的香农信息量为:

香农信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。很容易看到:当 X = x 的概率 p (x) 比较大时,就代表此事发生的概率比较大,不确定性因素小,从而 f (P) 会比较小。如随机事件“买了彩票却没中奖” 发生的概率比较大,不需要多少信息量就可以消除不确定性,因此该随机事件的香农信息量就少。

而信息熵 H(p) 是香农信息量 -logp(x) 的数学期望,即所有 X= x 处的香农信息量的和,由于每一个x的出现概率不一样(用概率密度函数值p(x)衡量),需要用p(x) 加权求和。因此信息熵是用于刻画消除随机变量X的不确定性所需要的总体信息量的大小。

其数学定义如下:

(2)下面这篇博客介绍了交叉熵,KL散度,JS散度以及它们之间的关系,写得很直白(补充:其中的H(X)为信息熵)结合来看,应该对这几者之间的关系就明确了

经验分享 程序员 微信小程序 职场和发展