@fsfzp888
2018-05-20T16:55:21.000000Z
字数 1544
阅读 1384
线性代数
机器学习基础
最小二乘是非常重要的拟合工具之一,在神经网络前向传播的过程中,实际上也有最小二乘表达式的身影。对于最小二乘的理解,通常是基于数理统计层面,这里依托于矩阵,进行简要的总结分析,力图通过简单直观的解释,更好地理解这一个工具。本文主要从两个视角解释最小二乘的意义:
- 向量求导
- 几何
最小二乘其实还可以通过高斯分布来解释,不过这里只涉及到矩阵的视角。
对于最小二乘来说,实际上可以写成如下所示的公式:
- 在对向量求导的过程中,为什么可以转换到?
- 对等式6求导后,为什么是得到等式7?
关于这两个问题,也许会在后续专门的矩阵向量求导的总结文章中总结,这里只是罗列这个公式,表明最小二乘的矩阵表达的形式。
其实对于这个最小二乘的问题来说,本质上还有更为直观的理解,而且非常简单,结合行列空间和投影的概念,可以很快的得到等式8,这个理解是从几何层面上进行理解。
在初次学习最小二乘的时候,可能很多人根本就不会这样想,最直接的一般就认为是参数估计了,这本身没有错,但是对于最小二乘而言,还有更为直观的理解,而且这种理解,在某种程度上,体现了线性代数优美的一面。
现在再来看等式1,实际上,要想方程组有解,也就是说,向量必须要在的列空间中,只不过,对于超定方程组来说,一般是不成立的。首先来看下图:
我们可以想象,矩阵的列空间是图中的绿色的超平面,如果在它的列空间中,那么显然之可以出现在这个平面之内,但是通常不是这样,也就是说一般会向途中红色的向量一样,有这个超平面以外的成分。这个时候,如果希望找寻超平面中的一个向量来尽可能地减少误差,那么只能是选择投影了,即图中黄色的向量。这个时候,必然有正交于矩阵的列空间,即正交于的行空间,所以
@fsfzp888
2018 年 05月 20日