@gump88
2016-09-08T22:47:43.000000Z
字数 1839
阅读 1647
title: 机器学习笔记(七)Logistic Regression
date: 2015-08-09 10:18:55
MachineLearning
对于一般的线性回归而言,会有
这里使用最大似然估计方法学习参数,似然函数写成
一般地,我们不直接对上述似然函数求解,而是将其转化为对数似然函数:
对(1)式求w的偏导数,得到
所以,w的更新公式为,这里的是步长。通过迭代,就可以求出最优解。
使用梯度下降存在一些问题,比如,计算梯度时需要遍历所有样本点,计算缓慢;梯度下降容易落到局部最优解。针对这些问题,我们可以使用Stochastic gradient descent,SGD在每次迭代计算时,不是计算所有样本点,而是随机选择一个样本点进行计算
求得后,预测模型即为:
softmax函数是将多个标量映射为一个概率分布。对K个标量,softmax函数定义为
这样我们可以将K个向量转换成一个分布:,满足
损失函数:
求解方式:梯度下降
one vs. one和one vs. rest都是将二分类算法推广到多分类的手段,下面分别简单介绍:
one vs. one:假设训练数据集D中有K个类别,那么对K个类别中的每两个类别之间都训练一个二分类器,一共需要训练个分类器。在这n个分类器中,一般采用多数表决的方法,输出最终的类别。
one vs. rest:假设训练数据集D中有K个类别,那么对每个类别和剩下$(K-1)个类别数据训练一个二分类器,一共需要训练K个分类器。在这K个分类其中,一般也采用多数表决的方法,输出最终的类别。