@dongxi 2017-08-01T12:04:42.000000Z 字数 4825 阅读 1117

广义线性模型

机器学习 CS229

前言

在之前的文章中，我们谈到了服从高斯分布的线性回归和服从伯努利分布的逻辑回归，它们的解决过程十分相似。实际上，他们都是广义线性模型的特例，对于这类问题我们有比较统一的解决方案。

指数分布族

在介绍广义线性模型之前，我们先来引入指数分布族这一概念，一个单参数指数分布族可以表示为：

$p(y;\eta) = b(y)exp(\eta^TT(y) - a(\eta))$
在这里,

$\eta$ 被称为自然参数（natrual parameter），

$T(y)$ 被称为充分统计量（sufficient statistic）（一般来说，

$T(y) = y$ ），

$a(\eta)$ 被称为log partition function。这里

$e^{-a(\eta)}$ 寄到归一化常数的作用。如果我们确定

$T, a, b$ ，通过不断改变

$\eta$ ，我们就可以得到一个分布组。

伯努利分布

伯努利分布的具体形式在此就不赘述，对于伯努利分布我们有：

$p(y;\phi ) = \phi ^y(1 - \phi )^{(1 - y)} \\ = exp(ylog\phi + (1 - y)log(1 - \phi )) \\ = exp\left(log\left(\frac{\phi }{1 - \phi } \right)y+ log(1 - \phi)\right)$
很显然，伯努利方程是符合指数分布族形式，其中我们假设

$\eta = log(1 - \phi)$ ，那么我们得到一个有意思的公式

$\phi = \frac{1}{1 + e^{(- \eta)}}$ ，也就是Sigmoid函数。根据以上的信息我们有：

$T(y) = y \\ a(\eta) = -log(1 - \phi) = log(1 + e^\eta) \\ b(y) = 1 \\$

高斯分布

在对高斯分布进行线性回归中，很显然方差 $\sigma$ 是可以忽略的变量，所以为了方便起见我们将 $\sigma$ 设置为1（实际上是因为我们上面引入的指数分布族是基于单参数的，关于多参数的内容以后应该会单独写一篇文章来讲述），那么我们就会有：

$p(y;\mu) = \frac{1}{\sqrt{2\pi}}exp\left(-\frac{1}{2}(y - \mu)^2\right) \\ = \frac{1}{\sqrt{2\pi}}exp\left(-\frac{1}{2}y^2\right)exp\left(\mu y - \frac{1}{2}\mu^2\right)$
因此，在指数分布族形式下，我们只需要进行如下转换：

$\eta = \mu \\ T(y) = y \\ a(\eta) = \mu^2/2 = \eta^2/2 \\ b(y) = (1/\sqrt{2\pi})exp(-y^2/2)$
其实还有很多分布服从指数分布族，详细的内容可以浏览维基百科的相关内容。

广义线性模型

在构建广义线性模型之前，我们需要对给定 $x$ 的分布 $y$ 的分布做出一些假设：

$y|x;\theta \sim 指数分布(\mu)$ 。
$\eta$ 与 $x$ 成线性关系，即 $\eta = \theta^TX$ 。
给定一个 $x$ ，我们需要目标函数为 $h_\theta(x) = E[T(y)|x]$ 。

关于上面的内容有一点需要注意的是，与基本线性模型不同， $E[T(y)|x]$ 和 $\eta = \theta^TX$ 也不一定是简单的相等关系，它们的关系可以用 $\eta = g(E[T(y)|x])$ 描述，其中 $g(E[T(y)|x])$ 称为链接函数。
根据如上假设，我们可以推导出高斯分布的线性回归模型：

$h_\theta(x) = E[y|x;\theta] \\ = \mu \\ = \eta \\ = \theta^Tx$
上式中第一个等号是因为假设三，第二个等号则是由于高斯分布的基本性质，第三个等号则是由于前文中高斯分布中推导过的

$\mu$ 和

$\eta$ 的关系，最后一个等号则是由于假设二。
同样，我们也可以推导出逻辑回归模型：

$h_\theta(x) = E[y|x;\theta] \\ = \phi \\ = \frac{1}{1 + e^{-\mu}} \\ = \theta^Tx$
上式中第一个等号是因为假设三，第二个等号则是由于伯努利分布的基本性质，第三个等号则是由于前文中伯努利分布中推导过的

$\phi$ 和

$\eta$ 的关系，最后一个等号则是由于假设二。
高斯分布的推导过程比较简单，我们就不仔细分析了，我们以伯努利分布为例进行一下简单的分析，观察上述分析过程，我们很明显的可以发现，在推导过程中

$\phi= 1/(1 + e^{-\mu})$ 这一步显得尤为重要，它起到了一个连接预测值

$E[y|x;\theta]$ 和自然参数

$\eta$ 的作用，也就是我们在前文中提到的连接函数

$g$ 。
回顾上述推导过程，我们可以看到构建广义线性模型需要两个步骤：

确定预测变量 $y$ 的分布是一个指数分布族。
确定连接函数。实际上，在确定指数分布族的同时，我们就可以据此推导出一个标准连接函数。所以一般来说，只要我们确定了第一步，那么第二部中的连接函数也就随之确定了。

Softmax回归

多项分布推导出的GLM可以解决多分类问题是logistic模型的扩展。所分类问题目标值 $y \in \{1,2,3,...,k\}$ ，我们假设其概率分布为：

$p(y = i) = \phi_i$
又由于

$\sum\phi_i = 1$ ，所以我们可以将参数数量减少为

$k - 1$ 个，使得：

$\phi_k = 1 - \sum_{i = 1}^{k - 1}\phi_i$
为了方便表达，我们引入向量

$T(y) \in R^{k - 1}$ ，如下：

$T(1) =\begin{bmatrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix} ,T(2) =\begin{bmatrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{bmatrix} ,T(3) =\begin{bmatrix} 0 \\ 0 \\ 1 \\ \vdots \\ 0 \end{bmatrix} ,T(k - 1) =\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots \\ 1 \end{bmatrix} ,T(k) =\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix}$
在这里我们采用

$(T(y))_i$ 向量

$T(y)$ 中的第

$i$ 个元素，同时我们引入指示函数，定义如下：

$I(True) = 1, I(False) = 0$
现在我们可以将多项式表示成指数分布族的成员了：

$p(y;\phi) = \phi_1^{I\{y = 1\}}\phi_2^{I\{y = 2\}}···\phi_k^{I\{y = k\}} \\ = \phi_1^{I\{y = 1\}}\phi_2^{I\{y = 2\}}···\phi_k^{1 - \sum_{i = 1}^{k - 1}I{y = i}} \\ = \phi_1^{(T(y))_1}\phi_2^{(T(y))_2}···\phi_k^{1 - \sum_{i = 1}^{k - 1}(T(y))_i} \\ = exp\left((T(y))_1\log(\phi_1) + (T(y))_2\log(\phi_2) + \\··· + (1 - \sum_{i = 1}^{k - 1}(T(y))_i)\log(\phi_k)\right) \\ = exp\left((T(y))_1\log(\phi_1/\phi_k) + (T(y))_2\log(\phi_2/\phi_k) + \\··· + \log(\phi_k)\right) \\ = b(y)exp(\eta^TT(y) - a(\eta))$
其中：

$\eta =\begin{bmatrix} \log(\phi_1/\phi_k) \\ \log(\phi_2/\phi_k) \\ \vdots \\ \log(\phi_{k-1}/\phi_k) \end{bmatrix} \\ a(\eta) = -\log(\phi_k) \\ b(y) = 1$
需要注意的是，上面为了简化计算，我们将

$\eta$ 设置为了

$n - 1$ 维，所以为了简化计算我们定义

$\eta_k = 0$ 。由

$\eta$ 的表达式可知：

$\eta_i = \log{\frac{\phi_i}{\phi_k}} \implies \phi_i = \phi_ke^{\eta_i} \implies \phi_k = \frac{1}{\sum_{i = 1}^{k}e^{\eta_i}}$
在这里我们多说几句，实际上

$\eta_i = \log{\frac{\phi_i}{\phi_k}}$ 就是跟函数的链接函数，所谓链接函数就是自然参数

$\eta$ 与均值

$E(Y|X;\theta)$ 的函数关系，而在本式中

$E(y^{(i)}|x^{(i)};\theta) = \phi_i$ ，所以上一式便是本模型的链接函数，也验证了我们之前所说的只要模型确定，那么链接函数也已经确定了。
由上式我们又可以知道：

$\phi_i = \frac{e^{\eta_i}}{\sum_{i = 1}^{k}e^{\eta_i}}$
这个从

$\eta_i$ 映射到

$\phi_i$ 的函数被称为Softmax函数。
根据我们上面所推导的那些知识，我们有：

$p(y = i| x; \theta) = \phi_i \\ = \frac{e^{\eta_i}}{\sum_{j = 1}^{k}e^{\eta_j}} \\ = \frac{e^{\theta_i^Tx}}{\sum_{j = 1}^{k}e^{\theta_j^Tx}}$
上述这个模型被称为Softmax回归模型，这是一个广义的逻辑回归模型。不过这里我还是要多说几句，这里的

$\theta_j \in R^{n + 1}$ 是我们模型的参数，跟之前一样，为了方便起见我们定义

$\theta_k = 0$ ，因此

$\eta_k = \theta_k^Tx = 0$ ，跟我们之前所提及的一样。
到此为止，我们可以推导出

$h_\theta(x)$ 的形式：

$h_\theta(x) = E(T(y)|x;\theta) \\ = \begin{bmatrix} \phi_1 \\ \phi_2 \\ \vdots \\ \phi_{k - 1} \\ \end{bmatrix} \\ = \begin{bmatrix} \frac{e^{\theta_1^Tx}}{\sum_{j = 1}^{k}e^{\theta_1^Tx}} \\ \frac{e^{\theta_1^Tx}}{\sum_{j = 1}^{k}e^{\theta_1^Tx}} \\ \vdots \\ \frac{e^{\theta_{k - 1}^Tx}}{\sum_{j = 1}^{k}e^{\theta_{k - 1}^Tx}} \\ \end{bmatrix} \\$
由此可见，拟合函数的输出结果是每一个分类所对应概率组成的向量。
至于如何求得这个最佳的

$\theta$ 就十分简单了，还是采用原来的最大似然估计来拟合参数，那么会有（在此就不再细致推导）：

$l(\theta) = \sum_{i = 1}^{m}\log p(y^{(i)}|x^{(i)};\theta) \\ = \sum_{i = 1}^{m}\log\prod_{l = 1}^{k}\left(\frac{e^{\theta_l^Tx^{(i)}}}{\sum_{j = 1}^{k}e^{\theta_j^Tx^{(i)}}}\right)^{I\{y^{(i)} = l\}}$
到此为止，我我们关于广义线性回归的内容就都结束了，至于上面的

$l(\theta)$ 采用牛顿迭代法还是梯度上升法都是很容易求解的，在此就不在赘述了。

结语

总的来说，本篇文章算是把关于广义线性模型的比较浅层的内容都简单讲述了一遍，虽然大部分都是翻译Andrew Ng讲义中的内容，不过也广泛结合网络上的优秀博客，也有自己对这方面的补充，不过这篇文章也是还有一定的缺陷的，首先便是这里我们讨论的都是单参数指数分布族，比如高斯分布我们就将其中的方差 $\sigma^2$ 修改成了定值，这方面的内容就需要等我以后的学习研究之后再补充到这里了，所以这篇文章到这里就结束了。

广义线性模型（GLM）
广义线性模型（Generalized Linear Model）
牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4
为什么广义线性模型（GLM）要求被解释变量属于指数分布族（Exponential Families）？

广义线性模型

前言

指数分布族

伯努利分布

高斯分布

广义线性模型

Softmax回归

结语

内容目录