@pluto-the-lost
2019-07-04T10:10:21.000000Z
字数 5634
阅读 79
pattern-recognition
machine-learning
线性 = 齐次性 + 可加性,即被称为线性函数如果:
1.
2.
和线性回归中的MSE方法类似,MSE线性分类器希望自己给出的判别结果与数据标签之间的误差平方和(sum-of-square error)尽可能小。考虑一个类分类问题,每个样本属于其中一类,如果用one-hot向量编码样本的分类,每个样本对应一个的维向量,个样本的组成的,就是模型需要逼近的目标,即
这里为了方便把写成一个矩阵乘积的形式,也就是,,也叫增广向量。而矩阵是样本增广向量拼成的,矩阵是个判别向量拼成的。
要解出,只需要令,解得
此处的是的Moore-Penrose广义逆矩阵
解得后,我们可以给每个样本预测一个标签向量,是一个维向量,可以取其中最大的一维作为预测结果
需要注意:
该图展示了MSE对outlier敏感的特点,左右两张图中,绿线是Logistic regression的结果,紫线是MSE的结果
如果把线性判别看作一个降维问题,其实就是将高维数据降到一维,再用一个阈值对两类进行区分,而的选择就是选择一个降维方向,使得降维后各类能最大程度地分开。当考虑有两类,一个很直观的想法是,我们会希望降维后两类的均值差尽可能大,而各自的方差尽可能小,即
稍微变换一下形式我们得到(其实就是把和代入)
考察目标函数发现,分子分母可以随意同比例缩放,所以不如固定分等母于一个常值,求分子的最大值,就变成带约束的优化问题,用拉格朗日乘子法解
令对 的偏导为0,解得
把代入发现, 是个标量,也是个标量,而我们要找的是投影方向,标量并不影响向量的方向,所以
即 是FLD的一个解
FLD示意图,对于同一批数据,显然右图的降维方式会使得数据在低维空间更可分
需要注意:
感知机与上面两种方法不同,其没有闭式解,而是通过训练迭代的方法使 收敛到最优解。这种方法更像是“学习”的过程,感知机也在后来成为了神经网络的基本结构——神经元 (neurons)。
感知机的算法相当简单,假设数据 经过某些线性或非线性变换,变成了特征向量 ,再对 建立线性模型,这也叫对 的广义线性模型:
现在我们有两类数据,分别标记成1和-1,用 表示,我们希望 在1类中尽可能大,在-1类中尽可能小,则目标函数如下
这就是更新公式了,反复更新 ,使其最终收敛,就能得到判别方程。
该图示意感知机的判别机制
该图示意感知机的迭代收敛过程
需要注意: