@lunar 2016-06-08T08:36:28.000000Z 字数 4638 阅读 4149

ch6 正交性和最小二乘法 ‘线性代数及其应用笔记’

具体数学

ch6 正交性和最小二乘法 ‘线性代数及其应用笔记’

6.1 内积，长度和正交性

内积

如果u和v是 $\mathbb{R}^n$ 空间中的向量，可以将u和v作为 $n\times 1$ 矩阵，我们将一个不加括号的实数，如 $u^Tv$ 称为u和v的内积，并记作 $u\cdot v$ 。内积又称点积。

内积运算满足

$u\cdot v=v\cdot u$
$(u+v)\cdot w=u\cdot w+v\cdot w$
$(cu)\cdot v=c(u\cdot v)=u\cdot (cv)$
$u\cdot u \ge 0$ ，并且 $u\cdot u=0$ 的充要条件是 $u=0$

向量长度
向量v的长度（范数）是非负数 $\|v\|=\sqrt{v\cdot v}$
且有 $\|v\|^2=v\cdot v$ 。

将某向量除以自身长度的过程叫做单位化， $u=\frac{v}{\|v\|}$ ，u和v方向相同。
向量距离
u和v距离， $dist(u,v)=\|u-v\|$

正交向量
两条直线几何上垂直当且仅当从u到v和从u到-v的距离相等。
那么容易得出 $\mathbb{R}^n$ 空间上向量互相垂直（或者说线性代数中的术语正交）的条件。

定义：如果 $u\cdot v=0$ 那么两个向量u和v正交。

正交充要条件(毕达哥拉斯定理) $\|u+v\|^2=\|u\|^3+\|v\|^2$

正交补
如果向量z和 $\mathbb{R}^n$ 子空间W中任意向量都正交，则称z正交于W。与子空间W正交的向量z的全体组成集合称为W的正交补，记作 $W^\bot$ 。

正交补有如下性质：
1. 向量x属于 $W^\bot$ 的充要条件是x与W的任一向量都正交。
2. $W^\bot$ 是 $\mathbb{R}^n$ 的一个子空间

6.2 正交集

向量集合中任意两个不同向量都正交的集合叫做正交集。

若 $S=\{u_1,...,u_p\}$ 是 $\mathbb{R}^n$ 空间中非零向量构成的正交集，那么S是线性无关集，因此构成所生成的子空间S的一组基。

把正交和基搅和到一起给出一个正交基的定义， $\mathbb{R}^n$ 中子空间W的一个正交基是W的一个基，且是正交基。

之前已经有基了呀，为啥还要搞一个基，这是因为正交基比较优越，线性组合中的权值比较容易计算。（比如笛卡尔坐标基），它有这样的性质：假设 $\{u_1,...,u_p\}$ 是 $\mathbb{R}^n$ 中子空间W正交基，那么对于W中每个 $y=c_1u_1+...+c_pu_p$ 中的权值可以由

$c_j=\frac{y\cdot u_j}{u_j\cdot u_j }$ 计算得出。正交基单位化后称为单位正交基

下面是一个几何解释：正交投影
对于 $\mathbb{R}^n$ 中一个非零向量u，对一个向量y进行分解使 $y=\hat{y}+z$ ，其中 $\hat{y}=\alpha u$ ,z和u正交。 $\hat{y}$ 称为y在u上的正交投影，z称为y垂直u的分量。容易得到
$\hat{y}=\frac{y\cdot u}{u\cdot u}\\ z=y-\hat{y}$

定理

一个 $m\times n$ 矩阵U具有单位正交列向量的充要条件是 $U^TU=I$
假设U是一个具有单位正交列的矩阵，且x和y是的向量，那么
1. $\|Ux\|=\|x\|$
2. $(Ux)\cdot(Uy)=x\cdot y$
3. $(Ux)\cdot (Uy)=0的充要条件是x\cdot y=0$

其实就是说，单位正交列构成的矩阵U代表的变换保持长度和正交性。

哦哦对咯，如果U是方阵的话，显然U可逆， $U^{-1}=U^T$ ，这样的U就叫做正交矩阵。

6.3 正交投影

我们把上面提到的正交分解拓展到 $\mathbb{R}^n$ 子空间。
正交分解定理

若W是 $\mathbb{R}^n$ 的一个子空间，那么 $\mathbb{R}^n$ 中每一个向量y可以唯一的表示为

$y=\hat{y}+z$
此处 $\hat{y}\in W,z\in W^\bot$ 。
如果 $u_1,...,u_p$ 是W的任意正交基，那么有
$\hat{y}=\frac{y\cdot u_1}{u_1\cdot u_1}u_1+\cdots+\frac{y\cdot u_p}{u_p\cdot u_p}u_p$
$\hat{y}$ 就称为y在W上的正交投影。

正交投影有一个性质，称为最佳逼近定理:

假设W是 $\mathbb{R}^n$ 一个子空间，y是 $\mathbb{R}^n$ 的任意向量， $\hat{y}$ 是 $y$ 在W上正交投影，那么 $\hat{y}$ 是W中最接近 $y$ 的点，也就是对于任意异于 $\hat{y}$ 而又属于W的 $v$ ,



$\|y-\hat{y}\|<\|y-v\|$

当W的基是单位正交基时，计算 $proj_wy$ 可以被简化。令 $U=\{u_1,..,u_p\}$ 为子空间W的单位正交基，则y在W上的投影为 $proj_wy=UU^Ty$

6.4 格拉姆-施密特方法

格拉姆-是米他方法是对 $\mathbb{R}^n$ 中任何非零子空间，构造（标准）正交基的简单算法。
步骤
对 $\mathbb{R}^n$ 中子空间的一个基 $\{x_1,...,x_p\}$ ，定义

那 么 是 的 一 个 正 交 基 ， 此 外 ，

$v_1=x_1\\ v_2=x_2-\frac{x_2\cdot v_1}{v_1\cdot v_1}v_1\\ \vdots \\ v_p=x_p-\frac{x_p\cdot v_1}{v_1\cdot v_1}v_1-\frac{x_p\cdot v_2}{v_2\cdot v_2}v_2-\cdots -\frac{x_p\cdot v_{p-1}}{v_{p-1}\cdot v_{p-1}}v_{p-1} \\ 那么\{v_1,...,v_p\}是W的一个正交基，此外，\\Span\{v_1,...,v_p\}=Span\{x_1,...,x_p\}$

QR分解

如果 $m\times n$ 矩阵A的列线性无关，那么A可以分解为A=QR，其中Q是一个 $m\times n$ 矩阵，其列形成Col A的一个标准正交基，R是一个 $n\times n$ 的上三角可逆矩阵且在对角线上的元素为正数。

其中的Q可以用格拉姆-施密特方法加上单位化求解，因为R可逆（6.4.19习题证明），所以其对角线上不可能为0，所以如果是负数的话可以可以通过行变换改变正负（同时相应改变Q的某些元素正负值），所以R的对角线上元素可以全为正数。

6.5 最小二乘问题

在求解方程组 $Ax=b$ 时，解可能不存在但又需要求解，最好的办法是去去寻找使 $Ax$ 尽可能接近 $b$ 的 $x$ 。一般的最小二乘问题就是去找出使 $\|b-Ax\|$ 尽量小的 $x$ 。
定义

如果 $m\times n$ 矩阵A和向量b属于 $\mathbb{R}^n$ , $Ax=b$ 的最小二乘解是 $\mathbb{R}^n$ 中的 $\hat{x}$ 使得
$\|b-A\hat{x}\|\le\|b-Ax\|$ 对于所有 $x\in\mathbb{R}^n$ 成立。

易知无论如何选择x，Ax都属于列空间ColA。所以我们可以应用6.3中的最佳逼近定理于ColA空间。

$\hat{b}=proj_{ColA}b$
那么就有

$A\hat{x}=\hat{b}$ ，然后就可以解出

$\hat{x}$ 了。

可是这样还要求b的投影好麻烦，这里有个等价表述（证明见p359）：
定理方程 $Ax=b$ 的最小二乘解集合法方程 $A^TAx=A^Tb$ 的非空解集一致。

呀，太棒了，那就不用管要先求正交基啊再求b的投影巴拉巴拉，直接解法方程就好啦。解方程有时会发现会有多个解，咦？正交投影应该是唯一的啊，为啥会有多个解呢？ -_-||你傻呀。。 $\hat{b}$ 是唯一的，但是 $A\hat{x}=\hat{b}$ 可以有好多解啊。

那啥时候只有一个解呢？
再一个定理 矩阵 $A^TA$ 可逆的充分必要条件是：A的列是线性无关的。在这种情况下，方程 $Ax=b$ 有唯一的最小二乘解 $\hat{x}=(A^TA)^{-1}A^Tb$

有时需要知道解的误差，即最小二乘误差：b到 $A\hat{x}$ 的距离。

另一种算法，当我们发现 $A$ 的列正交时，即 $A$ 的列就是 $ColA$ 的正交基，那么求 $b$ 在 $ColA$ 的正交投影很方便，那么我们可以把投影 $\hat{b}$ 算出来,然后求解方程 $A\hat{x}=b$

有时在求解 $A^TA$ 出现的小误差会导致 $\hat{x}$ 出现大误差，那么在A的列线性无关情况下，我们利用QR分解可以更可靠的求出。

本节最后一个定理啦 对于有着线性无关列的矩阵A，对A做QR分解 $A=QR$ （忘了QR分解，滚回去看），那么对于每一个 $b\in \mathbb{R}^n$ ， $Ax=b$ 都有唯一的最小二乘解

$\hat{x}=R^{-1}Q^Tb$

6.6 线性模型中的应用

最小二乘直线
对于线性方程 $y=\beta_0+\beta_1x$ ，给定点列，确定参数，使直线尽可能靠近这些点。(●▼●;)，不就是线性回归嘛。。）
至于度量接近程度，最常见的选择是余差平方之和（因为算起来简单）。那么我们将方程写为 $X\beta=y，X=\begin{bmatrix}1&x_1\\ \vdots &\vdots \\ 1&x_n\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\ \beta_1 \end{bmatrix},y=\begin{bmatrix}y_1\\ \vdots y_n\end{bmatrix}$
这里好像很熟悉。。这不就是前一节里的 $Ax=b$ 的最小二乘解嘛，换了个马甲而已。那么这里求（线性）回归系数 $\beta$ 就可以用到之前的方法了。
一般线性模型
引入余差向量 $\varepsilon$ 后将方程记作

$y=X\beta+\varepsilon$
具有这种形式的方程就叫线性模型，一旦X和y被确定，使

$\varepsilon$ 最小化相当于之前找

$X\beta=y$ 最小二乘解。

其他曲线
当数据拟合的曲线明显不是直线时，我们也可以用最小二乘拟合来拟合其他曲线，如三次幂的话如下：
00.png-22.6kB

多重回归
若一个实验包含两个（或多个）独立变量和一个函数变量例如：

$y=\beta_0+\beta_1u+\beta_2v$
当然也可以是高次幂的，这里以u和v的一次幂为例。这种最小二乘拟合称为趋势曲面。
一般形式为

为 某 类 已 知 函 数 ， 为 未 知 权 值

$y=\beta_0f_0(u,v)+...+\beta_kf_k(u,v)\\ f为某类已知函数，\beta为未知权值$
这中问题和前面的简单回归模型有着一样的抽象形式，如下： 55.png-32.5kB

无论多少变量，我们依然可以得到最小二乘解

$\hat{\beta}=(X^TX)^{-1}X^Ty$

6.7 内积空间

好题解析

6.5.19-21 证明A的列向量线性无关的充要条件是 $A^TA$ 可逆。

解:
$首先若，那么易得其次若那么和等价，那么若可逆，则只含有零向量，又则可逆的列向量线性无关。至此我们由可逆推出的列线性无关同理我们也能由线性无关推出可逆，用的还是这个条件。原题得证$
$首先若Ax=0，那么易得A^TAx=0\\ 其次若A^TAx=0\\ \therefore x^TA^TAx=0\\ \therefore (Ax)^TAX=0 \\ \therefore Ax\cdot Ax=0\\ \therefore Ax=0\\ 那么 Ax=0 和A^TAx=0等价，\\ \therefore NulA=NulA^TA\\ 那么若A^TA可逆，则NulA^TA只含有零向量，\\又NulA=NulA^TA,则A可逆\\ \therefore A的列向量线性无关。\\ 至此我们由A^TA可逆推出A的列线性无关\\ 同理我们也能由A线性无关推出A^TA可逆，\\用的还是NulA=NulA^TA这个条件。\\ 原题得证$