信息度量的方法有很多,这里用的是统计度量
离散信源:信源输出的是一个个符号,符号的取值是可数的,取自一个有限集合
有简化符号:
这里的概率实际上就是一个分布,彼此之间不一样
单符号离散信源的数学模型
大写字母代表随机变量,a 是具体的某个符号
指向原始笔记的链接
满足一系列归一化、正值的性质
自信息量
一个随机事件发生某一个结果后可以得到的信息量
概率越小,信息量越大;概率越大,信息量越小;一个确定事件的信息量是 0
单位:比特(bit 2)、奈特(nat e)、哈特(hart 10)
自信息量是一个随机变量的函数,可以推广到联合自信息量
当相互独立的时候,对数有一个比较好的性质:
自信息量的定义可通过公理化条件唯一确定。
- 非负性:;
- 单调性: 越小, 越大;
- 可加性:。
条件自信息量
在已知 b 的情况下的信息量(不确定性),部分消除了 a 的不确定性
不确定度表示含有多少信息,信息量表示随机事件发生后能够得到多少信息
信源熵
各个离散消息自信息量的数学期望,即信源的平均信息量
- 表示信源输出后,离散消息所提供的平均信息量
- 表示输出前,信源的平均不确定度。不确定度越高(越靠近等概率),熵越高。
- 反映了变量 X 的随机性
条件熵
这里是联合概率 ,因为这里是两个变量的期望,要算两次,一次条件,一次单独的变量,合在一起就是联合概率了
联合熵
熵的性质
- 可加性:
- 非负性:熵结果非负
- 对称性:熵只和结构有关,不与具体的值有关(变量取值或者顺序)
- 最大离散熵定理:包含 n 种不同的离散信息,最大的信源熵是 ,证明:
令 ,因为
等式取等当且仅当 ,所以是等概率时最大
- 扩展性: 当一个事件概率很小的时候,它的信息量很大,但是对整个信息熵的影响很小。
- 确定性:当有一个是 1 的时候(确知信源),最后的熵的结果为 0
- 极值性:对任意两个消息数相同的信源,有:
对其他信源的自信息量与自身分布求期望,结果要大于自身的熵。这个可以推出:
即已知 Y 的信息会导致 X 的不确定度下降
- 上凸性:熵是一个严格上凸函数:
信源熵的相对率
信源的冗余度
信息变差