@fsfzp888 2018-05-20T08:55:21.000000Z 字数 1544 阅读 1517

(九)最小二乘的矩阵表达

线性代数 机器学习基础

最小二乘是非常重要的拟合工具之一，在神经网络前向传播的过程中，实际上也有最小二乘表达式的身影。对于最小二乘的理解，通常是基于数理统计层面，这里依托于矩阵，进行简要的总结分析，力图通过简单直观的解释，更好地理解这一个工具。本文主要从两个视角解释最小二乘的意义：

向量求导

几何

最小二乘其实还可以通过高斯分布来解释，不过这里只涉及到矩阵的视角。
对于最小二乘来说，实际上可以写成如下所示的公式：

$y=Wx \tag{1}$
其中

$x$ 是我们想要得到的参数，

$y$ 是我们观察得到的结果，而

$W$ 则是观察得到的数据。矩阵

$W$ 中的每一个样本就是一个行向量

$w^{(i)}$ ，通过

$x$ 映射到一个结果

$y^{(i)}$ 上，只不过，通常样本比较多，也就是说，

$W$ 的行数要远远多于列数，而且由于误差等原因，要想从这个超定方程组中解出精确解，本身是不太可能的。所以，在实际中，总是希望可以找到一个近似解，使得最终得到的结果

$y'$ 可以近可能的接近

$y$ 。按照统计的标准，最早最小二乘的由来可以说就是希望它们的方差最小，也就是

$argmin \Sigma(y-y')^{2} \tag{2}$
转化成矩阵表达并求导，即

$\nabla_{x}(Wx - y)^{2} \tag{3}$

$\implies \nabla_{x}(Wx - y)^{T}(Wx - y) \tag{4}$

$\implies \nabla_{x}(x^{T}W^{T}Wx - y^{T}Wx - x^{T}W^{T}y + y^{2}) \tag{5}$

$\implies \nabla_{x}(x^{T}W^{T}Wx - 2x^{T}W^{T}y) \tag{6}$

$\implies 2W^{T}Wx = 2W^{T}y \tag{7}$

$\implies x = (W^{T}W)^{-1}W^{T}y \tag{8}$
最后得到了解析等式8，所以，最小二乘如果想要直接求解的话，可以通过等式8直接求解。关于等式8，我这里其实还有两个疑问：

在对向量 $x$ 求导的过程中，为什么 $y^{T}Wx$ 可以转换到 $x^{T}W^{T}y$ ?

对等式6求导后，为什么是得到等式7?

关于这两个问题，也许会在后续专门的矩阵向量求导的总结文章中总结，这里只是罗列这个公式，表明最小二乘的矩阵表达的形式。
其实对于这个最小二乘的问题来说，本质上还有更为直观的理解，而且非常简单，结合行列空间和投影的概念，可以很快的得到等式8，这个理解是从几何层面上进行理解。
在初次学习最小二乘的时候，可能很多人根本就不会这样想，最直接的一般就认为是参数估计了，这本身没有错，但是对于最小二乘而言，还有更为直观的理解，而且这种理解，在某种程度上，体现了线性代数优美的一面。
现在再来看等式1，实际上，要想方程组有解，也就是说，向量 $y$ 必须要在 $W$ 的列空间中，只不过，对于超定方程组来说，一般是不成立的。首先来看下图：
projection
我们可以想象，矩阵 $W$ 的列空间是图中的绿色的超平面，如果 $y$ 在它的列空间中，那么显然之可以出现在这个平面之内，但是通常不是这样，也就是说 $y$ 一般会向途中红色的向量一样，有这个超平面以外的成分。这个时候，如果希望找寻超平面中的一个向量来尽可能地减少误差，那么只能是选择投影了，即图中黄色的向量。这个时候，必然有 $(y - y')$ 正交于矩阵 $W$ 的列空间，即正交于 $W^{T}$ 的行空间，所以

$W^{T}(y - y') = 0 \tag{9}$

$\implies W^{T}(y - Wx) = 0 \tag{10}$

$\implies W^{T}Wx = W^{T}y \tag{11}$

$\implies x = (W^{T}W)^{-1}W^{T}y \tag{12}$
可以看到，和等式8是一样的。
至于为什么方差会到几何上变成了投影，我想，可能是因为使用了欧几里得距离的缘故，它们的范数应该都是2。

@fsfzp888
2018 年 05月 20日

(九)最小二乘的矩阵表达

内容目录