@Perfect-Demo 2018-03-21T14:37:12.000000Z 字数 1175 阅读 722

统计学习方法笔记(第二章个人笔记)

统计学习方法

感知机（P25）

感知机是神经网络与支持向量机的基础
要点：损失函数，利用梯度下降法对损失函数进行极小化。

$f(x)=sigm(w*x+b)$
其中

$w∈R^n$ ,叫权值或权值向量，

$b∈R$ ,叫做偏置，sign是符号函数

或 者

$sign(x)=1(X>=0)或者-1(x<0)$

$L(w,b)=-\sum_{x_i∈M}y_i(w*x_i+b)$
显然，损失函数

$L(w,b)$ 是非负的，没有误分类点，损失函数为0

$\min_{w,b}L(w,b)=-\sum_{x_i∈M}y_i(w*x_i+b)$

对于线性可分的数据集感知机学习算法原始形式收敛，即经过有限次的得带可以得到一个将训练数据集完全正确划分的分类超平面及感知机模型
定理2.1（P31），第二条需要注意，对于一组训练集 $x_i为R^n$ ,则感知机用该数据在算法运行中，误分类次数K满足：

$k≤(\frac{R}{})^2$
所以，定理表明，误分类的次数k是由上界的，但例题2.1说明，感知机的学习算法存在许多解，这些解依赖于初值的选择和迭代过程中误分类点顺序的选择。

可以发现，w和b的更新是一个累加的过程，如果我们假设w和b的初始值都为0，并且知道在更新的过程中，每个点选择了多少次，我们就可以直接得到了w和b的最终值。

我们假设第i个点更新了 $n_i$ 次，那么w和b的最终值应该是

$w=\sum_{i=1}^Nα_iy_ix_i$

$b=\sum_{i=1}^Nα_iy_i$

其中， $α_i=n_iη$

这时候我们成功的把求w和b换成了求α和b。

初始值，b为0，为0向量（因为这时候每个点都没有被更新），之后每次找到一个分错类的点，更新α和b，直到每个点都被正确分类。

其中，某个点(xi,yi)分错类意味着（也就是把w向量替换成alpha向量）：

$u_i(\sum_{j=1}^Nα_jy_jx_j*x_i+b)≤0$

更新方法为：

（ 即 增 加 了 这 里 学 习 率 是 ）

$α_i<——α_i+\eta（即α_i增加了1,这里学习率\eta 是1）$

$b_i<——b+\eta y_i$

这时候可以发现在训练中，xj与xi的内积可以提前预处理，得到一个巨大的矩阵，之后在训练的过程中就可以直接使用。该矩阵称为Gram矩阵。

即： $G=[x_i*x_i]_{N*N}$

举个例子：
$x_1=(2,3)^T,x_2=(4,5)^T,x_3=(2,9)^T$

则G= $[x_1,x_2,x_3]^T*[x_1,x_2,x_3]$