《统计学习方法》——逻辑斯谛回归与最大熵模型(下)网站首页 学无止境

《统计学习方法》——逻辑斯谛回归与最大熵模型(下)

愤怒的可乐 2024-09-17 00:01:04

简介《统计学习方法》——逻辑斯谛回归与最大熵模型(下)

最大熵模型

极大似然估计

下面证明对偶函数的极大化等价于最大熵模型的极大似然估计。

极大似然估计的思想就是通过概率最大化来求出最符合的分类。对应的步骤为：

根据训练集，写出不同分类下的概率函数
将不同分类下的概率函数进行汇总，写出联合概率函数
根据训练集得出似然函数
假设似然函数可微，求偏导得到极大值，否则遍历。且也可以转换为对数似然函数来求解。

最大熵模型用极大似然估计的目的是为了估计最大条件概率分布，就是为了解决分类问题。

对于训练集中的某一个样本点 $(x, y)$ ，对应的条件概率是 $P_w(y|x)$ ，假设该样本点在训练集中出现了很多次，假设为 $m$ 次。那么对应的概率函数可以表示为：
$P_w(y|x)^m$
然后，就可以按照极大似然估计的步骤，求出联合概率函数
$prod_{x,y} P_w(y|x)^m$
那最大熵模型这里的 $m$ 等于多少呢？对于训练数据集来说，它就是样本总数 $N$ 乘以对应这组数据出现的经验概率 $\tilde{P} (x, y)$ ，即：
$m = N \cdot \tilde{P} (x, y)$
我们就可以把联合概率函数写成：
$prod_{x,y} P_w(y|x)^{N cdot ilde P(x,y)}$
由于对于固定的训练集来说， $N$ 是常数，故下文省去。

这里我们可以计算对数似然函数，对数似然函数可以表示为
$L_{ ilde P}(P_w) = log prod_{x,y} P(y|x)^{ ilde P(x,y)} =sum_{x,y} ilde P(x,y) log P(y|x)$
当条件概率分布 $P (y ∣ x)$ 是最大熵模型 $(6.22)$ 和 $(6.23)$ 时，对数似然函数 $L_{ ilde P}(P_w)$ 为
$L_{ ilde P}(P_w) &= sum_{x,y} ilde P(x,y) log P(y|x) \ &= sum_{x,y} ilde P(x,y) log left[ frac{1}{Z_w(x)} expleft(sum_{i=1}^n w_if_i(x,y) ight) ight] \ &= sum_{x,y} ilde P(x,y) left(sum_{i=1}^n w_if_i(x,y) -log Z_w(x) ight)\ &= sum_{x,y} ilde P(x,y) sum_{i=1}^n w_if_i(x,y) - sum_{x,y} ilde P(x,y) log Z_w(x) \ &= sum_{x,y} ilde P(x,y) sum_{i=1}^n w_if_i(x,y) - sum_{x} ilde P(x) log Z_w(x) end{aligned} ag{6.26}$
再看对偶函数 $Ψ (w)$ ，由式 $(6.17)$ 和式 $(6.20)$ 可得
$sum_{x,y} ilde P(x)P_w(y|x) log P_w(y|x) + sum_{i=1}^n w_i left( sum_{x,y} ilde P(x,y)f_i(x,y) - sum_{x,y} ilde P(x) P_w(y|x)f_i(x,y) ight) \ &= sum_{x,y} ilde P(x) P_w(y|x) log frac{ exp(sum_{i=1}^n w_if_i(x,y))}{Z_w(x)} + sum_{i=1}^n w_isum_{x,y} ilde P(x,y)f_i(x,y) -sum_{i=1}^n w_i sum_{x,y} ilde P(x) P_w(y|x)f_i(x,y) \ &= sum_{x,y} ilde P(x) P_w(y|x) left(sum_{i=1}^n w_if_i(x,y)) - log Z_w(x) ight) + sum_{i=1}^nsum_{x,y} w_i ilde P(x,y)f_i(x,y) -sum_{i=1}^n sum_{x,y} w_i ilde P(x) P_w(y|x)f_i(x,y) \ &= sum_{x,y} ilde P(x) P_w(y|x) sum_{i=1}^n w_if_i(x,y)) - sum_{x,y} ilde P(x) P_w(y|x) log Z_w(x) + sum_{i=1}^nsum_{x,y} w_i ilde P(x,y)f_i(x,y) -sum_{i=1}^n sum_{x,y} w_i ilde P(x) P_w(y|x)f_i(x,y) \ &= cancel{sum_{i=1}^n sum_{x,y} w_i ilde P(x) P_w(y|x)f_i(x,y)} - sum_{x,y} ilde P(x) P_w(y|x) log Z_w(x) + sum_{i=1}^nsum_{x,y} w_i ilde P(x,y)f_i(x,y) -cancel{sum_{i=1}^n sum_{x,y} w_i ilde P(x) P_w(y|x)f_i(x,y) } \ &= sum_{i=1}^nsum_{x,y} w_i ilde P(x,y)f_i(x,y) - sum_{x,y} ilde P(x) P_w(y|x) log Z_w(x) \ &= sum_{i=1}^nsum_{x,y} w_i ilde P(x,y)f_i(x,y) - sum_{x} ilde P(x) log Z_w(x) quadquad 利用sum_y P_w(y|x)=1 \ &= sum_{x,y} ilde P(x,y)sum_{i=1}^n w_if_i(x,y) - sum_{x} ilde P(x) log Z_w(x) end{aligned} ag{6.27}$
上面用到了 $sum_y P_w(y|x)=1$ ，以及 $w_0left( 1 -sum_y P_w(y|x) ight) =0$ 。

比较 $(6.26)$ 和 $(6.27)$ ，可得
$L_{ ilde P}P(w)$
即对偶函数 $Ψ (w)$ 等价于对数似然函数 $L_{ ilde P}P(w)$ ，于是证明了最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计。

于是，最大熵模型的学习问题就转换为具体求解对数似然函数极大化或对偶函数极大化的问题。

可以将最大熵模型写成更一般的形式。
$P_w(y|x) = frac{1}{Z_w(x)} expleft(sum_{i=1}^n w_if_i(x,y) ight) ag{6.28}$
其中，
$Z_w(x) = sum_yexpleft(sum_{i=1}^n w_if_i(x,y) ight) ag{6.29}$
这里， $R^n$ 为输入， $y \in {1, 2, \dots, K}$ 为输出， $R^n$ 为权重向量， $f_i(x,y),,i=1,cdots,n$ 为任意实数值特征函数。

模型学习的最优化算法

改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS)是一种最大熵模型学习的最优化算法。

假设已知最大熵模型为
$P_w(y|x) = frac{1}{Z_w(x)} expleft( sum_{i=1}^n w_if_i(x,y) ight)$
其中，
$Z_w(x) = sum_y exp left( sum_{i=1}^n w_if_i(x,y) ight)$
对数似然函数为
$sum_{x,y} ilde P(x,y) sum_{i=1}^n w_if_i(x,y) - sum_x ilde P(x) log Z_w(x)$
目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值 $\overset{w}{^}$ 。

IIS的想法是：假设最大熵模型当前的参数向量是 $w=(w_1,w_2,cdots,w_n)^T$ ，希望找到一个新的向量 $w+delta=(w_1+delta_1,w_2+delta_2,cdots,w_n+delta_n)^T$ ，使得模型的对数似然函数值增大。

如果能有这样一种参数向量更新的方法 $τ : w \to w + δ$ ，那么久可以重复使用这一方法，直到找到对数似然函数的最大值。

对于给定的经验分布 $\tilde{P} (x, y)$ ，模型参数从 $w$ 到 $w + δ$ ，对数似然函数的改变量是
$sum_{x,y} ilde P(x,y) sum_{i=1}^n (w_i+delta_i)f_i(x,y) - sum_x ilde P(x) log Z_{w+delta}(x) - sum_{x,y} ilde P(x,y) sum_{i=1}^n w_if_i(x,y) + sum_x ilde P(x) log Z_w(x) \ &= sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_if_i(x,y) - sum_x ilde P(x) log frac{Z_{w+delta}(x)}{Z_w(x)} end{aligned}$
利用不等式
$- lo g α \geq 1 - α, α > 0$
建立对数似然函数改变量的下界：
$sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_i f_i(x,y) + 1 - sum_x ilde P(x) frac{Z_{w+delta}(x)}{Z_w(x)} \ &= sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_i f_i(x,y) + 1 - sum_x ilde P(x) frac{sum_yexpleft(sum_{i=1}^n (w_i+delta_i)f_i(x,y) ight)}{sum_yexpleft(sum_{i=1}^n w_if_i(x,y) ight)} \ &= sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_i f_i(x,y) + 1 - sum_x ilde P(x) frac{sum_yexp left(sum_{i=1}^n w_if_i(x,y) ight) cdot exp(sum_{i=1}^ndelta_if_i(x,y))}{sum_yexpleft(sum_{i=1}^n w_if_i(x,y) ight)} \ &= sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_i f_i(x,y) + 1 - sum_x ilde P(x) sum_y P_w(y|x) cdot exp(sum_{i=1}^ndelta_if_i(x,y)) \ end{aligned}$
记这个关于 $δ$ 的函数为 $A (δ ∣ w)$ ：
$sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_i f_i(x,y) + 1 - sum_x ilde P(x) sum_y P_w(y|x) cdot exp(sum_{i=1}^ndelta_if_i(x,y))$
代表了在已知参数 $w$ 的情况下所对应的 $δ$ 的函数。

于是有
$L (w + δ) - L (w) \geq A (δ ∣ w)$
即 $A (δ ∣ w)$ 是对数似然函数该变量的一个下界。

这个不等式为什么成立，这里来证明一下。

把这个不等式写成下面的形式：
$f (α) = - lo g α - (1 - α)$

它的函数图像是上面这样子的。

我们需要证明 $f (α) \geq 0$ ，其中 $α > 0$ 。对上式求导数：
$f^prime(alpha) = -frac{1}{alpha} + 1 = frac{alpha-1}{alpha}$
显然 $α = 1$ 时导数为零。

当 $α > 1$ 时， $f^prime (alpha) > 0$ ，说明在 $α > 1$ 是 $f (α)$ 是单调递增的；
当 $1 > α > 0$ 时， $f^prime(alpha) < 0$ ，说明在 $1 > α > 0$ 时， $f (α)$ 是单调递减的；

因此， $α = 1$ 是函数的极小值。把 $α = 1$ 代入得
$f (1) = - lo g 1 - (1 - 1) = 0$
说明 $f (α) \geq 0$ 。

如果能找到合适的 $δ$ 式下界 $A (δ ∣ w)$ 提高，那么对数似然函数也会提高。但是，函数 $A (δ ∣ w)$ 中的 $δ$ 是一个向量，含有多个变量，不利于同时优化。IIS试图一次只优化其中一个变量 $delta_i$ ，而固定其他变量 $delta_j ,, i eq j$ 。

为了达到这一目的，IIS进一步降低下界 $A (δ ∣ w)$ 。具体地，IIS引进一个量 $f^#(x,y)$ ：
$f^#(x,y) = sum_i f_i(x,y)$
同时有：
$frac{f_i(x,y)}{f^#(x,y)} geq 0$
且
$sum_i frac{f_i(x,y)}{f^#(x,y)} =1$
显然这是成立的。

因为 $f_i$ 是二值函数，当特征函数满足时取1，否则取0。因此 $f^#(x,y)$ 表示特征在 $(x, y)$ 出现的次数，对于固定的训练集来说是一个常量。这样 $A (δ ∣ w)$ 可以改写为：
$sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_if_i(x,y) + 1 - sum_x ilde P(x) sum_y P_w(y|x) exp left( f^#(x,y) sum_{i=1}^n frac{delta_i f_i(x,y)}{f^#(x,y)} ight) end{aligned} ag{6.30}$
如果尝试计算 $delta_i}$ ，会发现第三项的 $(sum_i delta_i f_i(x,y))$ 项不好消，还是会和所有的 $delta_i$ 有关，因此我们尝试利用Jesen不等式，改写这个式子。

根据Jesen不等式，得到
$sum_{i=1}^n frac{ f_i(x,y)}{f^#(x,y)} delta_if^#(x,y) ight) leq sum_{i=1}^n frac{f_i(x,y)}{f^#(x,y)} exp(delta_i f^#(x,y))$

Jensen不等式的说明参见：EM算法

于是式 $(6.30)$ 可以改写为
$sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_if_i(x,y) + 1 - sum_x ilde P(x) sum_y P_w(y|x) sum_{i=1}^n left( frac{f_i(x,y)}{f^#(x,y)} ight) exp(delta_i f^#(x,y)) ag{6.31}$
记不等式右端为
$sum_{x,y} ilde P(x,y) sum_{i=1}^n delta_if_i(x,y) + 1 - sum_x ilde P(x) sum_y P_w(y|x) sum_{i=1}^n left( frac{f_i(x,y)}{f^#(x,y)} ight) exp(delta_i f^#(x,y))$
进而得到
$L (w + δ) - L (w) \geq B (δ ∣ w)$
此时， $B (δ ∣ w)$ 是对数似然函数改变量的一个新的下界。

求 $B (δ ∣ w)$ 对 $delta_i$ 的偏导数：
$delta_i} = sum_{x,y} ilde P(x,y) f_i(x,y) - sum_x ilde P(x) sum_y P_w(y|x) f_i(x,y) exp(delta_i f^#(x,y)) ag{6.32}$
在上式中，除 $delta_i$ 外不含其他任何变量。令偏导数为0得到
$sum_{x,y} ilde P(x) P_w(y|x) f_i(x,y) exp(delta_if^#(x,y)) = E_{ ilde P}(f_i) ag{6.33}$
于是，依次对 $delta_i$ 求解方程 $(6.33)$ 就可以求出 $δ$ 。

这样就得到了一种求 $w$ 的最优解的迭代算法，即改进的迭代尺度算法IIS。

算法6.1 (改进的迭代尺度算法IIS)

输入：特征函数 $f_1,f_2,cdots,f_n$ ；经验分布 $\tilde{P} (X, Y)$ ，模型 $P_w(y|x)$ ；

输出：最优参数值 $w^*_i$ ；最优模型 $P_{w^*}$ 。

(1) 对所有 $i \in {1, 2, \dots, n}$ ，取初值 $w_i=0$ 。

(2) 对每一 $i \in {1, 2, \dots, n}$

(a) 令 $delta_i$ 是方程
$sum_{x,y} ilde P(x) P_w(y|x) f_i(x,y) exp(delta_if^#(x,y)) = E_{ ilde P}(f_i)$
的解，这里，
$f^#(x,y) = sum_{i=1}^n f_i(x,y)$
(b) 更新 $w_i$ 值： $w_i leftarrow w_i + delta_i$ 。

(3) 如果不是所有 $w_i$ 都收敛，重复步(2)。

拟牛顿法

最大熵模型的学习还可以应用牛顿法或拟牛顿法。

对于最大熵模型而言，
$P_w(y|x) = frac{expleft( sum_{i=1}^n w_if_i(x,y) ight)}{ sum_y exp left( sum_{i=1}^n w_if_i(x,y) ight)}$
目标函数：
$min_{win Bbb R^n} f(w) = sum_{x} ilde P(x)log sum_y exp left(sum_{i=1}^n w_if_i(x,y) ight) - sum_{x,y} ilde P(x,y) sum_{i=1}^n w_i f_i(x,y)$
梯度：
$w_1} ,frac{partial f(w)}{partial w_2},cdots, frac{partial f(w)}{partial w_n} ight)^T$
其中
$w_i} = sum_{x,y} ilde P(x)P_w(y|x) f_i(x,y) - E_{ ilde P}(f_i),quad i=1,2cdots,n$

BFGS算法

输入：特征函数 $f_1,f_2,cdots,f_n$ ；经验分布 $\tilde{P} (x, y)$ ，目标函数 $f (w)$ ，梯度 $g (w) = \nabla f (w)$ ，精度要求 $ϵ$ ；

输出：最优化参数 $w^*$ ；最优模型 $P_{w^*}(y|x)$ 。

(1) 选定初始值 $w^{(0)}$ ，取 $B_0$ 为正定对称矩阵，置 $k = 0$ 。

(2) 计算 $g_k=g(w^{(k)})$ 。若 $||g_k||<epsilon$ ，则停止计算，得近似解 $w^*=w^{(k)}$ ；否则转(3)。

(3) 由 $B_kp_k=-g_k$ 求出 $p_k$ 。

(4) 一维搜索：即求得 $lambda_k$ 使得
$f(w^{(k)} + lambda_k p_k) = min_{lambda geq 0} f(w^{(k)} + lambda p_k)$
(5) 置 $w^{(k+1)}=w^{(k)} + lambda_kp_k$ 。

(6) 计算 $g_{k+1} = g(w^{(k+1)})$ ，若 $||g_{k+1} || < epsilon$ ，则停止计算，得近似解 $w^*=w^{(k+1)}$ ；否则，按式下式算出 $B_{k+1}$ ：
$B_{k+1} = B_k + frac{y_ky^T_k}{y_k^Tdelta_k} - frac{B_kdelta_kdelta_k^TB_k}{delta_k^TB_kdelta_k}$
其中，
$y_k=g_{k+1} - g_k,quad delta_k = w^{(k+1)} - w^{(k)}$
(7) 置 $k = k + 1$ ，转(3)。