浏览量:6403 最近编辑于:2021-10-21 20:32:01
信息量
I(x) = - \log p(x)
事件发生概率越低,信息量越大
熵
H(X)=-\sum p(x) \log p(x)
熵是在结果出来之前对可能产生的信息量求期望-考虑该随机变量的所有可能取值
描述随机变量不确定程度,熵越大,信息量越大
交叉熵
H(p|q)=-\sum p(x) \log q(x)
p为gt,q为预测分布
KL散度(相对熵)
D_{KL}(p||q)= \sum p(x) \log \frac {p(x)}{q(x)}
Kl散度衡量两个分布的差异
KL-散度和交叉熵关系: D_{KL}=H(p,q)-H(p)
互信息
I(X;Y)=\sum p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X)-H(X|Y)=H(Y)-H(Y|X)
互信息衡量两种分布的相关联程度,是双向对称的
评论
夏总的迷弟
牛啊