(十一)协方差矩阵
线性代数
机器学习基础
在数理统计中,方差是一个很重要的统计指标,表明了数据偏离均值的程度:
当统计量只有一个维度的时候,方差只有如上述所示的等式这一种情况。
但是当统计量有多个维度的信息的时候,通常也需要知道这些维度之间的相关程度,这些维度的数据同时变化,通常使用协方差衡量两个维度之间的相关程度:
协方差可以衡量两个维度之间的关联程度,有正相关和负相关等。不过,协方差的具体含义不会在本文中阐述总结。
当统计量具有多个维度成分的时候,使用等式(2)来描述协方差非常的不直观,而且,表达多个关系需要非常多这样的表达式,这是很不好的。实际上,使用矩阵可以更加好的表达这样的关系。
令
是
的样本矩阵,每一个样本是一个行向量,一共有
个维度的成分。如果我们已经把每一个列向量中心化,那么等式(2)实际上可以转化成下边这样的形式:
,所以协方差矩阵为:
表达式(2)仔细观察就会发现其实是
的列向量两两相乘求和的结果。
如果
中的每一个列向量表示一个样本,那么也可以表示成
,这个在不同的文档有不同的约定,实际上都是一样的。
可以看到,在把数据中心化后,可以使用矩阵方便地表示协方差关系!不要一看到协方差矩阵不知道是怎么来的,实际上,它的由来非常简单!!!
@fsfzp888
2018 年 05月 21日