9.3 主成分分析
高等工程数学
讲义
2024AU
问题的提出
评价一个指标时,可能会考虑多个相关因素,每个因素的影响大小(重要程度)有所不同.
- 例如,评估高等院校的排名时,需要考虑的因素可能包括:
- 师资队伍 学历构成、年龄构成、学源结构、院士、杰青、优青、长江学者、...
- 教学水平 学科方向设置、信息化水平、名师数量、...
- 科研水平 项目经费、来源、论文数量、SCI检索数量、被引用数、高引用论文数、ESI 前1%论文数量、成果应用的效益、...
评价因素众多可能带来的问题
数据量大、数据关系复杂;重要性难以取舍.
- 综合评价难以兼顾效率和精确性.
- 问题:恰当地把握不同因素的取舍,在提高处理效率的同时,尽可能保证评价的准确可靠?
- 主成分分析(Principal Components Analysis,PCA)利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为 主成分.
主成分分析(PCA)
- Karl Pearson 于1901年发明,用于分析数据及建立数理模型.
- 1930年左右,由 Harold Hotelling 独立发展并命名.
- PCA 是最简单的以特征量分析多元统计分布的方法,这种运算可以被看作是揭露数据的内部结构,从而更好地解释数据背后的决定因素的方法.
其他的 PCA
from: https://en.wikipedia.org/wiki/Principal_component_analysis
the discrete Karhunen–Loève transform (KLT)
in signal processing
the Hotelling transform
in multivariate quality control
proper orthogonal decomposition (POD)
in mechanical engineering
singular value decomposition (SVD)
of , and eigenvalue decomposition (EVD)
of in linear algebra
factor analysis
Eckart–Young theorem
, or empirical orthogonal functions (EOF)
in meteorological science
empirical eigenfunction decomposition
empirical component analysis
quasiharmonic modes
spectral decomposition
in noise and vibration
empirical modal analysis
in structural dynamics
PCA 的基本思想
- 分析变量(因素)间的依赖关系.
- 用
较少的变量
去解释(还原)原始数据中的大部分信息,达到剔除冗余信息,压缩数据量的目的.
- 将许多相关性很高的变量转化成
个数较少
、彼此互相独立
且 影响最为显著
的几个新变量.

PCA 的实质
- 给定一个高维数据集,PCA 就能够提供与之对应的一幅比较低维的图像,该图像可以视为高维数据集在低维空间中的
投影.
- PCA 的实质是
选择合适的低维空间,以最大限度地保留原数据集的特征,同时大大降低数据处理的复杂度.
- 应用领域:高维数据处理、数据可视化、机器学习(过拟合的处理)、模式识别、语义网格、...
PCA 的数学描述
- 设 是待考察的随机变量, 是待构造的 个随机变量.
- 称 张成的空间为 维 主平面 (Principal Plane).
- 满足:
- 是 的线性组合,.
- .
- 中应尽可能多地包含 中的信息.
- 问题:如何度量随机变量中包含信息的多少?
信息量与方差
信息熵
(Shannon):一个变量的不确定性越大,其中包含的信息越多.
- 特别地,如果一个变量的取值确定了,则它包含的信息量为零.
- 对随机变量而言,
方差
越大意味着随机变量的取值越 分散
.
- 随机变量的取值越分散,则越
难以预测
该随机变量的取值.
- 越难以预测随机变量的取值,意味着该随机变量蕴含的
信息
越多.
- 信息量大 方差大.
主成分的构造原则
- 确定(构造) 的原则:
- 是 的
凸线性函数
,即:
- .
- 若 是 的凸线性函数,且 , 则
主成分的构造
定理 设 为 维随机向量,, 的 个特征根记为
对应的标准正交化的特征向量为 ,则 的第 个主成分为 ,且
证明:
先验证 的性质.
- 设 ,, 且 .
- 以下证明 .
- 该问题可转换为求 在 和 , 的条件下的极值问题.
- 令 .
- 由 Lagrange 乘子法,令 .
- ,也即:
- 可以验证 , 满足以上方程组.
- 此时 和 恰为相互对应的特征值和特征向量.
- 注意到能够满足 , 的最大特征值为 ,故 , .
主成分的性质
定理 设 为 维随机变量. 是 的第 个主成分 当且仅当以下两个条件同时成立:
- , 其中 为 的特征值.
- ,其中 , 为与 相对应的标准正交特征向量.
主成分的贡献率
设 的特征值为 .
- 称 为 的第 主成分的 贡献率 (Contribution Rate).
- 称 为前 个主成分的 累积贡献率 (Cumulative Contribution Rate).
- 选取主成分数量的一般原则:选取前 个 ,使得它们的累积贡献率不低于
例 设 的协方差阵为
试求各主成分与累积贡献率.
解:
- 先求出 的特征值:.
- 再求对应特征值的单位特征向量:.
- 第一主成分:,贡献率:.
- 第二主成分:,累积贡献率:.
PCA 在数据压缩中的应用
- 假设有容量为 的 维数据(样本观测值): .
- 计算各样本的相关系数:
- 记 ,求出 的特征值 和对应的特征向量 .
- 计算累积贡献率,确定主成分个数 ,满足 .
- 计算得到主成分:.
例:健康程度的刻画
在对某中学初中学生进行体检的过程中,测量了身高(), 体重(),胸围(),坐高(). 现得到 个学生的样本值. 经计算得到样本相关矩阵
试求各主成分.
解:
- 先求出 的特征值:.
- 再求对应的特征向量:
- 第一主成分:
- 第二主成分:
标准化变量的主成分
- 在实际问题中, 的各个分量的意义不同,因而量纲往往也不同.
- 量纲的差异常常会影响到协方差阵的特征根与特征向量,从而影响到主成分的选取.
- 为消除量纲差异的影响,可以考虑将变量标准化:令 .
- 称为 的 相关矩阵 (Correlation Matrix).
- 利用相关矩阵求主成分,称为 的 标准化变量的主成分.
PCA的发展与推广
Sparse PCA
- 利用数据自身的稀疏特征,添加一些规则,只使用 的部分分量来构造 .
- 有效提高数据处理的效率.
Robust PCA
- 野值的存在往往对严重影响 PCA 的效果.
- 通过添加数据的预处理环节,剔除野值,提高 PCA 的效果.
Nonlinear PCA
- 利用非线性的曲线或流形来构造主成分.
- 通常需要对数据的几何结构有所了解.
- 代表性的分支:
- elastic map
- principal geodesic analysis
- kernel PCA
- multilinear PCA (MPCA)
- N-way PCA
小结