1. 信息熵(Entropy)——不确定性

  • 定义:( H(A) = -\sum p(a) \log p(a) )
  • 直观理解“事件 A 的不确定性”。熵越大,表示事件 A 的可能结果越多,或结果分布越均匀,不确定性越高。
    • 例子:抛一枚均匀硬币(( H=1 ) 比特)比抛一枚偏向正面的硬币(( H<1 ) 比特)不确定性更高。

2. 条件熵(Conditional Entropy)——已知部分信息后的剩余不确定性

  • 定义:( H(A|B) = -\sum p(b) \sum p(a|b) \log p(a|b) )
  • 直观理解“已知事件 B 后,事件 A 剩余的不确定性”
    • 例子:假设 B 是天气预报(晴/雨),A 是是否带伞。若天气预报准确,( H(A|B) ) 很小(已知天气后,带伞的不确定性低);若预报不准,( H(A|B) ) 较大。

3. 联合熵(Joint Entropy)——整体的不确定性

  • 定义:( H(A,B) = -\sum \sum p(a,b) \log p(a,b) )
  • 直观理解“事件 A 和 B 一起发生时的总不确定性”
    • 例子:A 是天气(晴/雨),B 是温度(高/低)。联合熵衡量的是“同时知道天气和温度”所需的信息量。
    • 关键关系:( H(A,B) = H(A) + H(B|A) = H(B) + H(A|B) ),即总不确定性等于一个事件的不确定性加上已知它后另一个事件的剩余不确定性。

4. 互信息(Mutual Information)——共享的信息

  • 定义:( I(A;B) = H(A) - H(A|B) = H(B) - H(B|A) )
  • 直观理解“事件 A 和 B 之间共享的信息量”,即知道其中一个事件后,减少的另一个事件的不确定性。
    • 例子:如果 A 是病人的症状,B 是疾病类型,互信息表示通过症状能确定疾病的信息量。
    • 关键性质
      • ( I(A;B) \geq 0 )(非负性,信息共享不会减少)。
      • 若 A 和 B 独立,( I(A;B)=0 )(无共享信息)。
      • 对称性:( I(A;B) = I(B;A) )。

5. 交叉熵(Cross Entropy)——对比两个分布的差异

  • 定义:( H(p, q) = -\sum p(a) \log q(a) )
  • 直观理解“用分布 q 的编码方式去描述真实分布 p 时,所需的平均信息量”
    • 例子:如果真实分布 p 是正确答案,q 是模型的预测分布,交叉熵越小,说明 q 越接近 p。