求离散信道容量的一般方法

$P β = (P ⊙ lo g_{2} P) 1_{m}$
$C = lo g_{2} (1_{m}^{T} 2^{β})$
$p_{b} = (2^{- C}) \cdot 2^{β}$
$p_{b} = P^{T} p_{a}$

j = 1 \sum m p (b_{j} ∣ a_{i}) β_{j} = j = 1 \sum m p (b_{j} ∣ a_{i}) lo g_{2} p (b_{j} ∣ a_{i}) \to β_{j} (1)

上式对所有 $p (a_{i}) > 0$ 的 $a_{i}$ 成立，可以列一个 n 元方程组解出所有 $β_{j}$

C = lo g_{2} (j = 1 \sum m 2^{β_{j}}) \to C (2)

p (b_{j}) = 2^{β_{j} - C} \to p (b_{j}) (3)

p (b_{j}) = i = 1 \sum n p (a_{i}) p (b_{j} ∣ a_{i}) \to p (a_{u}) (4)

需要确认所有的 $p (a_{i})$ 大于等于 0，所求的 C 才存在。

核心目标：最大化平均互信息

信道容量的定义是：

C = p (a_{i}) max I (X; Y)

其中， $X$ 是信道输入， $Y$ 是信道输出， $p (a_{i})$ 是输入符号 $a_{i}$ 的概率分布。平均互信息 $I (X; Y)$ 可以表示为：

I (X; Y) = H (Y) - H (Y ∣ X) = - j \sum p (b_{j}) lo g p (b_{j}) + i \sum p (a_{i}) j \sum p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i})

这里， $p (b_{j})$ 是输出符号 $b_{j}$ 的概率， $p (b_{j} ∣ a_{i})$ 是信道转移概率（即输入 $a_{i}$ 时输出 $b_{j}$ 的概率）。同时，输入概率分布需要满足约束条件： $\sum_{i = 1}^{n} p (a_{i}) = 1$ 。

1. 构造拉格朗日函数

为了解决这个约束优化问题，我们使用拉格朗日乘数法，引入拉格朗日乘子 $λ$ ，构造拉格朗日函数 $ϕ$ ：

ϕ = I (X; Y) - λ (i = 1 \sum n p (a_{i}) - 1)

将 $I (X; Y)$ 的表达式代入：

ϕ = [- j = 1 \sum m p (b_{j}) lo g p (b_{j}) + k = 1 \sum n p (a_{k}) j = 1 \sum m p (b_{j} ∣ a_{k}) lo g p (b_{j} ∣ a_{k})] - λ (k = 1 \sum n p (a_{k}) - 1)

注意，为了求导方便，这里将求和的索引 $i$ 换成了 $k$ 。我们的目标是求 $\frac{\partial ϕ}{\partial p ( a _{i} )} = 0$ 。

2. 求偏导并化简

对 $ϕ$ 关于 $p (a_{i})$ 求偏导。这里需要用到几个关系：

$p (b_{j}) = \sum_{k = 1}^{n} p (a_{k}) p (b_{j} ∣ a_{k})$ ，所以 $\frac{\partial p ( b _{j} )}{\partial p ( a _{i} )} = p (b_{j} ∣ a_{i})$ 。
$\frac{d}{d x} (lo g x) = \frac{1}{x} lo g e$ (如果 $lo g$ 不是自然对数 $ln$ ；如果 $lo g$ 是 $ln$ ，则 $lo g e = 1$ )。图片中明确指出 $lo g x = ln x lo g e$ ，这说明推导中的 $lo g$ 是某个底数的对数，求导时会产生一个 $lo g_{base} e$ 的因子。

求导结果：

\frac{\partial ϕ}{\partial p ( a _{i} )} = - {j \sum [p (b_{j} ∣ a_{i}) lo g p (b_{j}) + p (b_{j} ∣ a_{i}) lo g e]} + j \sum p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i}) - λ = 0

整理一下：

j \sum p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i}) - j \sum p (b_{j} ∣ a_{i}) lo g p (b_{j}) - j \sum p (b_{j} ∣ a_{i}) lo g e - λ = 0

利用 $\sum_{j = 1}^{m} p (b_{j} ∣ a_{i}) = 1$ (给定输入 $a_{i}$ ，所有输出的概率之和为 1)，上式可以化简为：

j \sum p (b_{j} ∣ a_{i}) lo g \frac{p ( b _{j} ∣ a _{i} )}{p ( b _{j} )} - lo g e - λ = 0

移项得到 (4.2.16)：

j = 1 \sum m p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i}) - j = 1 \sum m p (b_{j} ∣ a_{i}) lo g p (b_{j}) = lo g e + λ

这个等式的左边其实就是特定输入 $a_{i}$ 对平均互信息的贡献，记作 $I (a_{i}; Y)$ 。这意味着，对于最优的输入分布，所有被使用的输入 $a_{i}$ (即 $p (a_{i}) > 0$ )，其 $I (a_{i}; Y)$ 的值都应该是一个常数，即 $lo g e + λ$ 。

3. 引入信道容量 $C$

将 (4.2.16) 两边乘以 $p (a_{i})$ 并对 $i$ 求和：

i \sum p (a_{i}) [j \sum p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i}) - j \sum p (b_{j} ∣ a_{i}) lo g p (b_{j})] = i \sum p (a_{i}) (lo g e + λ)

左边就是平均互信息 $I (X; Y)$ 。右边因为 $\sum p (a_{i}) = 1$ ，所以等于 $lo g e + λ$ 。因此， $I (X; Y) = lo g e + λ$ 。由于信道容量 $C$ 是 $I (X; Y)$ 的最大值，所以当达到最大值时，我们有 (4.2.17)：

C = lo g e + λ

通常在信息论中，对数的底取 2，单位是比特。所以这里明确写出 $C = lo g_{2} e + λ$ 。这意味着前面推导中的 $lo g$ 如果是 $lo g_{2}$ ，那么 $lo g e$ 就是 $lo g_{2} e$ 。

将 $C$ 代回到 (4.2.16)（并将对数底统一为 2）：

j \sum p (b_{j} ∣ a_{i}) lo g_{2} p (b_{j} ∣ a_{i}) - j \sum p (b_{j} ∣ a_{i}) lo g_{2} p (b_{j}) = C

为了简化，引入变量 $β_{j}$ (如 (4.2.18) 所示)：

β_{j} = lo g_{2} p (b_{j}) + C

于是上式可以写成 (4.2.19)：

j = 1 \sum m p (b_{j} ∣ a_{i}) lo g_{2} p (b_{j} ∣ a_{i}) = j = 1 \sum m p (b_{j} ∣ a_{i}) β_{j}

这个条件对于所有使得 $p (a_{i}) > 0$ 的输入 $a_{i}$ 都必须成立。

4. 求解输出概率 $p (b_{j})$ 和 $C$

由 (4.2.18) $β_{j} = lo g_{2} p (b_{j}) + C$ ，可以反解出 $p (b_{j})$ ：

lo g_{2} p (b_{j}) = β_{j} - C ⟹ p (b_{j}) = 2^{β_{j} - C}

利用概率之和为 1 的约束条件 $\sum_{j = 1}^{m} p (b_{j}) = 1$ ：

j = 1 \sum m 2^{β_{j} - C} = 1

2^{- C} j = 1 \sum m 2^{β_{j}} = 1

所以， $2^{C} = \sum_{j = 1}^{m} 2^{β_{j}}$ 。两边取 $lo g_{2}$ ，得到 $C$ 的表达式（图中橙色框）：

C = lo g_{2} j = 1 \sum m 2^{β_{j}}

最后提到 ” 由 $p (b_{j}) = \sum_{i = 1}^{n} p (a_{i}) p (b_{j} ∣ a_{i})$ 求出 $p (a_{i})$ “。这通常不是直接求解，而是指这些方程组是寻找最优 $p (a_{i})$ 的充要条件，实际求解往往需要迭代算法（如 Arimoto-Blahut 算法）。当找到的 $p (a_{i})$ 满足概率约束且使上述所有条件成立时， $C$ 就是正确的信道容量。

5. 总结 $C$ 的求法

这张图总结了在最优条件下，各个量之间应该满足的关系，也暗示了一个迭代求解的思路：

由 $\sum_{j} p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i}) = \sum_{j} p (b_{j} ∣ a_{i}) β_{j}$ 求 $β_{j}$ ： 这个等式 (4.2.19) 应该对所有 $p (a_{i}) > 0$ 的 $a_{i}$ 成立。等式左边 $\sum_{j} p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i})$ 对于给定的信道是一个只依赖于 $a_{i}$ 的常数。这一步表明 $β_{j}$ 的取值要满足这个条件。
由 $C = lo g_{2} \sum_{j = 1}^{m} 2^{β_{j}}$ 求 $C$ ： 一旦确定了 $β_{j}$ (或者在迭代中的当前估计值)，就可以用这个公式计算信道容量 $C$ 。
由 $p (b_{j}) = 2^{β_{j} - C}$ 求 $p (b_{j})$ ： 知道了 $β_{j}$ 和 $C$ ，就可以得到对应的输出概率分布 $p (b_{j})$ 。
由 $\sum_{j} p (b_{j} ∣ a_{i}) lo g p (b_{j} ∣ a_{i}) = \sum_{j} p (b_{j} ∣ a_{i}) β_{j}$ (应为 $p (b_{j}) = \sum_{i} p (a_{i}) p (b_{j} ∣ a_{i})$ ) 求出 $p (a_{i})$ ，并验证： 这里有点小笔误，图中的公式重复了步骤 1 的。正确的应该是，找到一个输入分布 $p (a_{i})$ ，它能产生步骤 3 得到的 $p (b_{j})$ (即满足 $p (b_{j}) = \sum_{i} p (a_{i}) p (b_{j} ∣ a_{i})$ )，并且这个 $p (a_{i})$ 只在那些满足步骤 1 条件的 $a_{i}$ 上取非零值。然后验证整个解是否自洽。

整体思路： 整个推导过程是通过拉格朗日乘子法，从最大化互信息的目标出发，推导出最优输入输出概率分布以及信道容量必须满足的一系列条件。实际计算信道容量时，往往采用迭代算法 (如 Arimoto-Blahut 算法)，不断迭代更新 $p (a_{i})$ 和 $p (b_{j})$ (或相关的量如 $β_{j}, C$ )，直到这些条件近似满足，从而得到信道容量的数值解。这些图片为你展示了这些迭代算法所依据的数学原理和最优解的特性。

可以将图片中描述的求解信道容量 $C$ 的核心方程组用矩阵和向量的形式表示出来，这样可能更清晰和便于记忆。

首先，我们定义相关的向量和矩阵：

$p_{a}$ : 输入概率分布列向量，维度为 $n \times 1$ 。

p_{a} = p (a_{1}) p (a_{2}) ⋮ p (a_{n})

$p_{b}$ : 输出概率分布列向量，维度为 $m \times 1$ 。

p_{b} = p (b_{1}) p (b_{2}) ⋮ p (b_{m})

$P$ : 信道转移概率矩阵，维度为 $n \times m$ 。矩阵的第 $i$ 行第 $k$ 列元素 $P_{ik} = p (b_{k} ∣ a_{i})$ 表示输入为 $a_{i}$ 时，输出为 $b_{k}$ 的概率。

P = p (b_{1} ∣ a_{1}) p (b_{1} ∣ a_{2}) ⋮ p (b_{1} ∣ a_{n}) p (b_{2} ∣ a_{1}) p (b_{2} ∣ a_{2}) ⋮ p (b_{2} ∣ a_{n}) \dots \dots ⋱ \dots p (b_{m} ∣ a_{1}) p (b_{m} ∣ a_{2}) ⋮ p (b_{m} ∣ a_{n})

$β$ : 一个辅助列向量，维度为 $m \times 1$ 。

β = β_{1} β_{2} ⋮ β_{m}

$C$ : 信道容量，是一个标量。
$1_{k}$ : 元素全为 1 的 $k \times 1$ 列向量。
$lo g_{2} (\cdot)$ 和 $2^{(\cdot)}$ : 表示对矩阵或向量中的每个元素进行操作。
$A ⊙ B$ : 表示 Hadamard 积（element-wise product），即矩阵（或向量） $A$ 和 $B$ 的对应元素相乘。

我们可以将其改写为矩阵形式：

第一个公式: $\sum_{j = 1}^{m} p (b_{j} ∣ a_{i}) β_{j} = \sum_{j = 1}^{m} p (b_{j} ∣ a_{i}) lo g_{2} p (b_{j} ∣ a_{i})$ 这个公式的左边是矩阵 $P$ 的第 $i$ 行与向量 $β$ 的点积。右边是矩阵 $P$ 的第 $i$ 行与该行元素取 $lo g_{2}$ 后的点积。我们可以定义一个 $n \times 1$ 的列向量 $k_{P}$ ，其第 $i$ 个元素为 $k_{P, i} = \sum_{j = 1}^{m} p (b_{j} ∣ a_{i}) lo g_{2} p (b_{j} ∣ a_{i})$ 。这个向量可以表示为： $k_{P} = (P ⊙ lo g_{2} P) 1_{m}$ 。于是，第一个公式可以表示为：

P β = (P ⊙ lo g_{2} P) 1_{m} (1^{'})

需要注意的是，这个等式仅对那些使得 $p(a_i) > 0$ 的输入 $a_i$ （即第 $i$ 行）成立。

2. 第二个公式: $C = lo g_{2} (\sum_{j = 1}^{m} 2^{β_{j}})$ 这可以表示为：

C = lo g_{2} (1_{m}^{T} 2^{β}) (2^{'})

其中 $2^{\mathbf{\beta}}$ 是对向量 $\mathbf{\beta}$ 的每个元素取 $2$ 的幂次。$\mathbf{1_m}^T 2^{\mathbf{\beta}}$ 计算了 $2^{\beta_j}$ 的总和。

3. 第三个公式: $p (b_{j}) = 2^{β_{j} - C}$ 这可以表示为元素级的运算：

p_{b} = 2^{β - C 1_{m}}

或者可以写作：

p_{b} = (2^{- C}) \cdot 2^{β} (3^{'})

第四个公式: $p (b_{j}) = \sum_{i = 1}^{n} p (a_{i}) p (b_{j} ∣ a_{i})$ 这表示输出概率是输入概率通过信道转移的加权和。 $p (b_{j}) = \sum_{i = 1}^{n} (p_{a})_{i} P_{ij}$ 。这正是矩阵乘法 $p_{a}^{T} P$ 的第 $j$ 个元素（如果 $p_{a}$ 是列向量）。更常见的写法是：

p_{b} = P^{T} p_{a} (4^{'})

这里 $\mathbf{P}^T$ 是矩阵 $\mathbf{P}$ 的转置，维度为 $m \times n$。 $\mathbf{P}^T \mathbf{p_a}$ 的结果是一个 $m \times 1$ 的列向量，与 $\mathbf{p_b}$ 维度一致。

总结一下矩阵形式的方程组：

$P β = (P ⊙ lo g_{2} P) 1_{m}$ (此条件对 $p (a_{i}) > 0$ 的 $i$ 成立)
$C = lo g_{2} (1_{m}^{T} 2^{β})$
$p_{b} = (2^{- C}) \cdot 2^{β}$
$p_{b} = P^{T} p_{a}$

这些方程描述了当信道达到容量 $C$ 时，最优的 $p_{a}$ 、 $p_{b}$ 和辅助量 $β$ 之间必须满足的关系。图片中箭头指示的“求解过程”暗示了这些变量之间的依赖关系，实际求解通常依赖迭代算法 (如 Arimoto-Blahut 算法) 来找到满足这些条件的解。

🪴 Cyril

探索

求离散信道容量的一般方法

核心目标：最大化平均互信息

1. 构造拉格朗日函数

2. 求偏导并化简

3. 引入信道容量 $C$

4. 求解输出概率 $p (b_{j})$ 和 $C$

5. 总结 $C$ 的求法

关系图谱

目录

最近笔记

信源熵

学习方法论

反向链接

🪴 Cyril

探索

求离散信道容量的一般方法

核心目标：最大化平均互信息

1. 构造拉格朗日函数

2. 求偏导并化简

3. 引入信道容量 C

4. 求解输出概率 p(bj​) 和 C

5. 总结 C 的求法

关系图谱

目录

最近笔记

信源熵

学习方法论

反向链接

3. 引入信道容量 $C$

4. 求解输出概率 $p (b_{j})$ 和 $C$

5. 总结 $C$ 的求法