@lunar
2016-04-01T15:03:59.000000Z
字数 1506
阅读 1741
MachineLearning
Coursera
在Logistics regression中,我们约定的cost function是:
这里就是logistics函数,我们用两个近似函数和来替代他们,那么在SVM中
SVM hypothesis :
如果相对于样本个数来说,样本的特征个数较大也就是n较大时,使用逻辑回归。
如果n小,m中等,SVM(高斯).
如果n小,m大,逻辑回归。
margin指的是边界离样本的最近的距离,使margin最大化就是使cost function最小化的过程。因为使J变小也就是使变小(因为当C较大时我们会使前面那项尽可能为0,由此忽略)。但是因为时要有,所以要使小的话,就得大,也就是样本点离边界的距离要大,也就是margin要大。
SVM在处理异常点上会根据C的值来给定边界。
限定原有的特征变量组成的向量X=(),选择,那么可以使用x和l的相似度作为新的特征变量。这里的相似函数simrlarity也被称为核函数Kernel(这里用的是高斯核函数Gaussian Kernel)。
选择m个样本,将每一个都可以作为一个核。
就是将原来的特征向量转换为一个新的更适合SVM处理的特征向量。
Large C:Lower bias,high variance.
Small C:Higher bias,low variance.
Large:f分布更平滑,Higher bias,lower variance.
Small:较陡峭,Lower bias,Higher variance.
训练K个SVM。