[关闭]
@Perfect-Demo 2018-03-21T14:37:12.000000Z 字数 1175 阅读 689

统计学习方法笔记(第二章个人笔记)

统计学习方法


感知机(P25)

感知机是神经网络与支持向量机的基础
要点:损失函数,利用梯度下降法对损失函数进行极小化。

1. 由输入空间到输出空间的函数:


其中,叫权值或权值向量,,叫做偏置,sign是符号函数


2. 感知机是一种线性分类模型,属于判别模型


3. 由各个误分类点(集合M)到超平面的距离,推出损失函数(也就是经验风险函数):


显然,损失函数是非负的,没有误分类点,损失函数为0


4. 感知机学习算法是误分类驱动的,具体采用随机梯度下降法


5. 算法的收敛性:

对于线性可分的数据集感知机学习算法原始形式收敛,即经过有限次的得带可以得到一个将训练数据集完全正确划分的分类超平面及感知机模型
定理2.1(P31),第二条需要注意,对于一组训练集,则感知机用该数据在算法运行中,误分类次数K满足:


所以,定理表明,误分类的次数k是由上界的,但例题2.1说明,感知机的学习算法存在许多解,这些解依赖于初值的选择和迭代过程中误分类点顺序的选择。


6. 感知机学习算法的对偶形式(也是机器学习里一般用到的形式)

可以发现,w和b的更新是一个累加的过程,如果我们假设w和b的初始值都为0,并且知道在更新的过程中,每个点选择了多少次,我们就可以直接得到了w和b的最终值。

我们假设第i个点更新了次,那么w和b的最终值应该是


其中,

这时候我们成功的把求w和b换成了求α和b。

初始值,b为0,为0向量(因为这时候每个点都没有被更新),之后每次找到一个分错类的点,更新α和b,直到每个点都被正确分类。

其中,某个点(xi,yi)分错类意味着(也就是把w向量替换成alpha向量):

更新方法为:


这时候可以发现在训练中,xj与xi的内积可以提前预处理,得到一个巨大的矩阵,之后在训练的过程中就可以直接使用。该矩阵称为Gram矩阵。

即:

举个例子:

则G=

另外书中最后一个例题(P35)很有代表性,也有步骤

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注