[关闭]
@coolwyj 2017-07-10T17:04:46.000000Z 字数 3854 阅读 3846

从概率论角度来理解线性回归中的最小二乘法、Ridge回归、Lasso回归以及稀疏编码

概率论 回归分析



本文参考:
https://www.zhihu.com/question/20447622
http://ufldl.stanford.edu/tutorial/unsupervised/SparseCoding/

本文涉及了线性回归的最小二乘法、Ridge回归、Lasso回归以及稀疏编码。这些方法的共性在于均具有线性关系。从概率角度来理解这些方法,切入点在于对误差的建模。

假设线性模型具有如下形式,与一般形式的不同点在于引入了误差项。


其中,误差
当前已知,要求

1、最小二乘法

假设误差满足,那么用最大似然估计求解有:


2、Ridge回归

假设误差满足,用最大后验估计推导:


3、Lasso回归

假设误差满足,用最大后验估计推导:


4. 从概率角度解释稀疏编码

将自然图像看作是k个独立源以及噪声(误差)的线性叠加。


目标是找一组特征向量使得图像的分布函数尽可能近似于输入数据的经验分布函数。可以通过最小化两个分布的KL散度来实现,即:

由于是一个常量,所以只需要使最大,即求的最大似然估计。
假设噪声,则有下式成立:

所以为了求,可以先求出,这样就有
假设各个特征变量之间相互独立,那么有
同时,引入稀疏假设S,令。这里S会决定先验分布的形状。
由以上分析,我们的问题可以转化为:

由于对的积分难于求解,因此使用其最大值来作为近似估计值。(因为的分布足够陡峭)
这样,我们的问题就转化为了

通过减小扩大可以增大概率的估算值,因此需要对加以限制。最后,我们可以定义一种线性生成模型的能量函数,从而将原先的代价函数重新表述为:

因为最大化对数似然函数等同于最小化能量函数(见RBM中关于能量函数以及正则分布的表述。温度相同时,能量越小,处于该状态的概率越大),我们就可以将原先的优化问题重新表述为:

当稀疏函数S选择L1和时,分别对应于使用了拉普拉斯概率和柯西先验概率

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注