浏览量:5456 最近编辑于:2021-10-21 20:32:01
## 信息量
$$ I(x)$ = - $\log p(x)$$
>事件发生概率越低,信息量越大
## 熵
$$ H(X)=-\sum p(x) \log p(x)$$
>熵是在结果出来之前对可能产生的**信息量求期望**-考虑该随机变量的所有可能取值
>描述随机变量不确定程度,熵越大,信息量越大
## 交叉熵
$$ H(p|q)=-\sum p(x) \log q(x)$$
> p为gt,q为预测分布
## KL散度(相对熵)
$$ D_{KL}(p||q)= \sum p(x) \log \frac {p(x)}{q(x)} $$
>Kl散度衡量两个分布的差异
>KL-散度和交叉熵关系:$$ D_{KL}=H(p,q)-H(p)$$
## 互信息
$$ I(X;Y)=\sum p(x,y) \log \frac{p(x,y)}{p(x)p(y)} = H(X)-H(X|Y)=H(Y)-H(Y|X)$$
> 互信息衡量两种分布的相关联程度,是双向对称的