Logistic Loss函数、Logistics回归与极大似然估计
机器学习理论
一直对Loss函数的类型的具体由来是怎样的弄不清楚。现在学到了经验风险最小化方面的知识,感觉可以尝试去探索一番。
Logistic函数与Logistic回归
通常,Logistic函数的定义如下:
P(x)=11+exp(−x)(1)
其中
x∈R,
P(x)∈[0,1]。其中一个重要性质为:
P(−x)=11+exp(x)=11+1exp(−x)=exp(−x)1+exp(−x)=1−11+exp(−x)=1−P(x)
logistic函数图像:
公式(1)则是被应用到了Logistic回归中,常见形式如下:
P(y=1|β,x)=11+exp(−βTx)=exp(βTx)1+exp(βTx)P(y=0|β,x)=1−11+exp(−βTx)=11+exp(βTx)(2)
其中
β为相应参数,
x表示特征向量,此时
y∈{0,1}表示的是样本标签。
另一种表示形式将标签与预测函数放在了一起:
P(g=±1|β,x)=11+exp(−gβTx)(3)
此时的样本标签
g∈{±1}。很容易证明
P(g=1|β,x)=1−P(g=−1|β,x)。显然,这种形式和第一种logistic回归形式本质上并没有区别。
第一种形式的分类法则:
相似的,第二中形式的分类法则:
Logistic Loss
既然两种形式是等价的,为了适应更加广泛的分类Loss最小化框架,我们使用第二种形式来表示Logistic回归。
首先定义y为样本标签,x为特征向量。该分类Loss最小化框架可以表示为:
argminβ∑iL(yi,f(xi))
其中
f为假设函数,
L表示的是loss函数。
对于logistic回归,对应于该分类框架,我们有:
f(x)=βTxL(y,f(x))=log(1+exp(−yf(x)))
这里使用的Loss函数即为Logistic Loss函数。实际上,我们可以通过该Loss最小化框架得到极大似然法则。如果将Logistic回归
第二种表示形式代入到此时的
L(y,f(x)),可得:
L(y,f(x))=log(1+exp(−yf(x)))=log(1P(y|β,x))
由此,Loss最小化可以表示为:
argminβ∑iL(yi,f(xi))=argminβ∑ilog(1P(yi|β,xi))=argmaxβ∑ilog(P(yi|β,xi))=argmaxβ∏iP(yi|β,xi)
上式等式最后即为极大似然估计的表示形式。也就是说,Logistic回归模型使用的Loss函数为Logistic Loss函数,使用极大似然估计法的目的是为了使得该Loss函数最小。
感想
这个时候,我似乎想明白了很多事情。将之前零散的知识点串联起来了。网易《机器学习》第二课中讲到线性回归的时候,将12∑i(f(xi)−yi)2作为Loss函数,最终通过极大似然估计解释了使用这个Loss函数的原因。接着就直接使用极大似然估计来求解Logistic回归问题,至于为什么以及最小化的是哪一个Loss函数,并没有提及。直到现在才弄懂。
当然,如果在Loss函数后面加上一个关于变量的L2范数,这个时候可以推导出贝叶斯学派的极大后验概率估计法则(MAP),在此不展开。似乎,很多算法之间的差异性都可以用Loss函数来解释。
参考文献:
《Regularized Regression under Quadratic Loss, Logistic Loss, Sigmoidal Loss, and Hinge Loss》
《Notes on Logistic Loss Function》