[关闭]
@fsfzp888 2018-05-20T16:55:21.000000Z 字数 1544 阅读 1370

(九)最小二乘的矩阵表达

线性代数 机器学习基础


最小二乘是非常重要的拟合工具之一,在神经网络前向传播的过程中,实际上也有最小二乘表达式的身影。对于最小二乘的理解,通常是基于数理统计层面,这里依托于矩阵,进行简要的总结分析,力图通过简单直观的解释,更好地理解这一个工具。本文主要从两个视角解释最小二乘的意义:

  • 向量求导
  • 几何

最小二乘其实还可以通过高斯分布来解释,不过这里只涉及到矩阵的视角。
对于最小二乘来说,实际上可以写成如下所示的公式:


其中是我们想要得到的参数,是我们观察得到的结果,而则是观察得到的数据。矩阵中的每一个样本就是一个行向量,通过映射到一个结果上,只不过,通常样本比较多,也就是说,的行数要远远多于列数,而且由于误差等原因,要想从这个超定方程组中解出精确解,本身是不太可能的。所以,在实际中,总是希望可以找到一个近似解,使得最终得到的结果可以近可能的接近。按照统计的标准,最早最小二乘的由来可以说就是希望它们的方差最小,也就是

转化成矩阵表达并求导,即






最后得到了解析等式8,所以,最小二乘如果想要直接求解的话,可以通过等式8直接求解。关于等式8,我这里其实还有两个疑问:

  • 在对向量求导的过程中,为什么可以转换到?
  • 对等式6求导后,为什么是得到等式7?

关于这两个问题,也许会在后续专门的矩阵向量求导的总结文章中总结,这里只是罗列这个公式,表明最小二乘的矩阵表达的形式。
其实对于这个最小二乘的问题来说,本质上还有更为直观的理解,而且非常简单,结合行列空间和投影的概念,可以很快的得到等式8,这个理解是从几何层面上进行理解。
在初次学习最小二乘的时候,可能很多人根本就不会这样想,最直接的一般就认为是参数估计了,这本身没有错,但是对于最小二乘而言,还有更为直观的理解,而且这种理解,在某种程度上,体现了线性代数优美的一面。
现在再来看等式1,实际上,要想方程组有解,也就是说,向量必须要在的列空间中,只不过,对于超定方程组来说,一般是不成立的。首先来看下图:
projection
我们可以想象,矩阵的列空间是图中的绿色的超平面,如果在它的列空间中,那么显然之可以出现在这个平面之内,但是通常不是这样,也就是说一般会向途中红色的向量一样,有这个超平面以外的成分。这个时候,如果希望找寻超平面中的一个向量来尽可能地减少误差,那么只能是选择投影了,即图中黄色的向量。这个时候,必然有正交于矩阵的列空间,即正交于的行空间,所以





可以看到,和等式8是一样的。
至于为什么方差会到几何上变成了投影,我想,可能是因为使用了欧几里得距离的缘故,它们的范数应该都是2。

@fsfzp888
2018 年 05月 20日

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注