[关闭]
@pluto-the-lost 2019-07-04T10:10:21.000000Z 字数 5634 阅读 79

线性分类器-1

pattern-recognition machine-learning


线性 = 齐次性 + 可加性,即被称为线性函数如果:
1.
2.

1. Minimum Square Error (MSE)

和线性回归中的MSE方法类似,MSE线性分类器希望自己给出的判别结果与数据标签之间的误差平方和(sum-of-square error)尽可能小。考虑一个类分类问题,每个样本属于其中一类,如果用one-hot向量编码样本的分类,每个样本对应一个维向量,个样本的组成的,就是模型需要逼近的目标,即

这里为了方便把写成一个矩阵乘积的形式,也就是,也叫增广向量。而矩阵是样本增广向量拼成的,矩阵个判别向量拼成的。

要解出,只需要令,解得

此处的的Moore-Penrose广义逆矩阵

解得后,我们可以给每个样本预测一个标签向量,是一个维向量,可以取其中最大的一维作为预测结果

需要注意:

image.png-134.1kB
该图展示了MSE对outlier敏感的特点,左右两张图中,绿线是Logistic regression的结果,紫线是MSE的结果

2. Fisher's Linear Discriminant (FLD)

如果把线性判别看作一个降维问题,其实就是将高维数据降到一维,再用一个阈值对两类进行区分,而的选择就是选择一个降维方向,使得降维后各类能最大程度地分开。当考虑有两类,一个很直观的想法是,我们会希望降维后两类的均值差尽可能大,而各自的方差尽可能小,即


这里的

稍微变换一下形式我们得到(其实就是把代入)


这里的分别叫类间散度(between-class covariance)和类内散度(within-class covariance),有如下形式


注意这里都是原空间的样本向量和均值向量,顺带一提这两个散度加起来等于全样本散度

考察目标函数发现,分子分母可以随意同比例缩放,所以不如固定分等母于一个常值,求分子的最大值,就变成带约束的优化问题,用拉格朗日乘子法解

的偏导为0,解得

代入发现, 是个标量,也是个标量,而我们要找的是投影方向,标量并不影响向量的方向,所以

是FLD的一个解

image.png-92kB
FLD示意图,对于同一批数据,显然右图的降维方式会使得数据在低维空间更可分

需要注意:

3. 感知机 (Perceptron)

感知机与上面两种方法不同,其没有闭式解,而是通过训练迭代的方法使 收敛到最优解。这种方法更像是“学习”的过程,感知机也在后来成为了神经网络的基本结构——神经元 (neurons)。

感知机的算法相当简单,假设数据 经过某些线性或非线性变换,变成了特征向量 ,再对 建立线性模型,这也叫对 的广义线性模型:


这里的是一个激活函数,把线性变换的结果映射成分类标签,我们就用最简单的

现在我们有两类数据,分别标记成1和-1,用 表示,我们希望 在1类中尽可能大,在-1类中尽可能小,则目标函数如下


注意这里的 表示分类错误的样本集,即我们只看错误的部分,已经分类正确的就不管了。如果用梯度下降的方式,会得到

这就是更新公式了,反复更新 ,使其最终收敛,就能得到判别方程。

感知机示意图
该图示意感知机的判别机制

image.png-136.7kB
该图示意感知机的迭代收敛过程

需要注意:

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注