信息度量的方法有很多,这里用的是统计度量

信息量与信息熵

离散信源:信源输出的是一个个符号,符号的取值是可数的,取自一个有限集合

有简化符号:

这里的概率实际上就是一个分布,彼此之间不一样

单符号离散信源的数学模型

大写字母代表随机变量,a 是具体的某个符号

指向原始笔记的链接

满足一系列归一化、正值的性质

自信息量

一个随机事件发生某一个结果后可以得到的信息量

概率越小,信息量越大;概率越大,信息量越小;一个确定事件的信息量是 0

单位:比特(bit 2)、奈特(nat e)、哈特(hart 10)

自信息量是一个随机变量的函数,可以推广到联合自信息量

当相互独立的时候,对数有一个比较好的性质:

自信息量的定义可通过公理化条件唯一确定。

  1. 非负性;
  2. 单调性 越小, 越大;
  3. 可加性

条件自信息量

在已知 b 的情况下的信息量(不确定性),部分消除了 a 的不确定性

不确定度表示含有多少信息,信息量表示随机事件发生后能够得到多少信息

信源熵

各个离散消息自信息量的数学期望,即信源的平均信息量

  • 表示信源输出后,离散消息所提供的平均信息量
  • 表示输出前,信源的平均不确定度。不确定度越高(越靠近等概率),熵越高。
  • 反映了变量 X 的随机性

条件熵

这里是联合概率 ,因为这里是两个变量的期望,要算两次,一次条件,一次单独的变量,合在一起就是联合概率了

联合熵

熵的性质

  • 可加性
  • 非负性:熵结果非负
  • 对称性:熵只和结构有关,不与具体的值有关(变量取值或者顺序)
  • 最大离散熵定理:包含 n 种不同的离散信息,最大的信源熵是 ,证明:

,因为

等式取等当且仅当 ,所以是等概率时最大

  • 扩展性: 当一个事件概率很小的时候,它的信息量很大,但是对整个信息熵的影响很小。
  • 确定性:当有一个是 1 的时候(确知信源),最后的熵的结果为 0
  • 极值性:对任意两个消息数相同的信源,有:

对其他信源的自信息量与自身分布求期望,结果要大于自身的熵。这个可以推出:

即已知 Y 的信息会导致 X 的不确定度下降

  • 上凸性:熵是一个严格上凸函数:

信源熵的相对率

信源的冗余度

信息变差