@notmylove 2019-07-09T08:41:41.000000Z 字数 3822 阅读 10511

基于相关性分析和主成分分析的变量筛选方法

主成分分析法 指标筛选

既然在课程专题四中讲到主成分分析法，那么这里再进一步介绍主成分分析法，概括起来说，主成分分析主要由以下几个方面的作用。

主成分分析能降低所研究的数据空间的维数（降维）。即用研究m维的Y空间代替p维的X空间(m
多维数据的一种图形表示方法（可视化）。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。
由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析
用主成分分析筛选回归变量。回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。

前面三种都挺好理解，这里首先着重分析一下怎么用主成分分析来筛选回归变量。

主成分分析法

主成分分析( principal component analysis，PCA) ，也称主
分量分析或矩阵数据分析。它通过变量变换的方法把相关的变量变为若干不相关的综合指标变量，从而实现对数据集的降维，使得问题得以简化。

基本原理

主成分分析的原理可以简单的陈述如下:借助一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机变量，使之指向样本点散布最开的n个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统。通常数学上的处理就是将原来n个指标作线性组合，作为新的综合指标，并且这些新的综合指标之间是相互无关的。

计算过程

构造样本矩阵

$ $
$X = \begin{bmatrix} x_1^T \\ x_2^T \\ .... \\ x_m^T \\ \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} &... & x_{1n} \\ x_{21} & x_{22} &... & x_{2n} \\ ... & ... &... \\ x_{m1} & x_{m2} &... & x_{mn} \\ \end{bmatrix}$
其中， $x_{ij}$ 表示第 $i$ 组样本数据中的第 $j$ 个变量的值.
对矩阵 $X$ 做标准化变换得矩阵 $Z$
$ $
$Z = \begin{bmatrix} z_1^T \\ z_2^T \\ .... \\ z_m^T \\ \end{bmatrix} = \begin{bmatrix} z_{11} & z_{12} &... & z_{1n} \\ z_{21} &z_{22} &... &z_{2n} \\ ... & ... &... \\ z_{m1} & z_{m2} &... & z_{mn} \\ \end{bmatrix}$
其中
$Z_{ij}=\frac{x_{ij}-\bar{x}_j}{s_j},i=1,2,...,m; j=1,2,...,n$

$\bar{x}_j=\frac{\sum^{m}_{i=1}x_{ij}}{m},s^2_j=\frac{\sum^m_{i=1}(x_{ij}-\bar{x}_j)^2}{m-1}$
对标准化阵 $Z$ 求相关系数矩阵

　　
$R=\left[r_{ij}\right]_n = \frac{Z^T Z}{m-1}$
这里有一点需要注意的是：标准化后的矩阵Z的相关系数矩阵(就是每列变量之间的相关系数构成的矩阵)是等于矩阵Z的协方差矩阵。因为前面也有讲过相关系数就是标准化了的协方差（无量纲化）。也就是说 $Cov(Z) = Corr(X) = Corr(Z)$ .
对相关系数矩阵R求特征值与特征向量
解样本相关矩阵R 的特征方程 $\left|R-\lambda I_n\right|=0$ 得n个特征值, 并且 $λ_1 ≥ λ_2 ≥…≥λ_n ≥ 0$ (为矩阵R是非负定矩阵)
确定 $k$ 值，使信息的利用率达到 80% 以上。

$\frac{\sum^k_{j=1}\lambda_j}{\sum^n_{j=1}\lambda_j}\ge 0.8$ 这里就相当于我们专题四讲到的二八分析法了。
求出每个特征值的特征向量，并单位化
对每个 $λ_j, j=1,2,...,n$ 解方程组 $Rb = λ_jb$ ，得特征向量 $b_j$ ,再单位化得 $b_j^o = \frac{b_j}{‖bj‖}$
将标准化后的指标变量转换为主成分
　　
$U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,n$
　　其中 $U_1$ 称为第一主成分, $U_2$ 称为第二主成分....
对 $k$ 个主成分进行综合评价
　　对 $k$ 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率（单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小，换句话理解就是这个主成分对信息的利用率）.

基于相关性分析的指标筛选原理

两个指标之间的相关系数，反映了两个指标之间的相关性。相关系数越大，两个指标反映的信息相关性就越高。而为了使评价指标体系简洁有效，就需要避免指标反映信息重复。通过计算同一准则层中各个评价指标之间的相关系数，删除相关系数较大的指标，避免了评价指标所反映的信息重复。通过相关性分析，简化了指标体系，保证了指标体系的简洁有效，这部分内容在以前的文章中已有介绍。这次通过和主成分分析来结合使用。

基于主成分分析的指标筛选方法

因子载荷的原理

通过对剩余多个指标进行主成分分析，得到每个指标的因子载荷。因子载荷的绝对值小于等于1，而绝对值越是趋向于1，指标对评价结果越重要。

那么因子载荷怎么得到的呢？其实很简单，过程如下：

主成分分析的基本模型

设： $F_i$ 是第 $i$ 个主成分( $i=1, 2, 3, ...,k$ ); $u_{ij}$ 是第 $j$ 个特征值对应的特征向量的第 $i$ 个分量； $X_i$ 为第 $i$ 个指标的观测值; $k$ -主成分的个数; $n$ -指标的个数。则第 $i$ 个主成分 $F_i$ 为

$F_i = u_{1i}X_1 + u_{2i}X_2 + ... + u_{ni} \quad i = 1, 2,...,k$
含义：第

$i$ 个主成分表示为评价指标

$X_i$ 的线性组合，反映了原有海选指标的信息。

筛选过程

根据主成分分析法的计算过程，求得相关系数矩阵 $R$ 的特征值 $λ_j, j=1,2,...,n$ , $\lambda_j$ 反映了第 $i$ 个主成分所表示的原始信息含量，即 $F_i$ 所解释原始指标的数据总方差，则主成分 $F_i$ 表示的原始指标数据的方差贡献率 $\omega_i$ 为:

$\omega_i = \frac{\lambda_i}{\sum_{i=1}^n \lambda_i}$
主成分

$F_i$ 表示的原始指标数据的方差贡献率

$\omega_i$ ，即为第

$i$ 个主成分

$F_i$ 所表示的原始信息含量占所有主成分所表示的全部原始信息含量的比例.
因子载荷 $b_{ij}$ :

$b_{ij}=u_{ij}\sqrt{\lambda_j}$
得到了因子载荷矩阵就可以进行指标筛选了，因子载荷反映指标对评价结果的影响程度，通过主成分 $F_i$ 上因子载荷 $|b_{ji}|$ 的绝对值晒选指标， $|b_{ji}|$ 越大表示指标 $j$ 对评价结果越有显著影响，越应该保留；反之，越应该删除。通过对相关性分析筛选后的指标进行主成分分析，得到每个指标的因子载荷，从而删除因子载荷小的指标，保证筛选出重要的指标。

总结

通过基于相关性分析的第一次指标定量筛选。通过相关性分析的方法，进行第一次定量筛选，剔除了反应信息重复的指标，保证筛选后的指标体系简洁有效。基于相关性分析的第二次指标定量晒选。通过对评价指标进行主成分分析，删除因子载荷小的评价指标，保证筛选出重要的指标。

matlab程序

主成分分析法实现很简单，python直接调用包就行，这里提一下matlab上的简单实现，针对具体问题的程序，有需求再找我吧。

%输入数据(以矩阵形式输入）
X = [];

%数据预处理：标准化
mu = mean(X);
X_norm = bsxfun(@minus, X, mu);
sigma = std(X_norm);
X_norm = bsxfun(@rdivide, X_norm, sigma);

%协方差矩阵
covMat = cov(X_norm);

%奇异值分解，U为特征向量，S为特征值
[U, S] = svd(covMat);

%提取特征值
lambda = diag(S);
%累积信息占比，也就是累积方差贡献率
fprintf('累积信息占比：%.4f \n',  cumsum(lambda)/sum(lambda));

%求因子载荷矩阵
B = U .* sqtr(lambda');

基于相关性分析和主成分分析的变量筛选方法

主成分分析法

基本原理

计算过程

基于相关性分析的指标筛选原理

基于主成分分析的指标筛选方法

因子载荷的原理

主成分分析的基本模型

筛选过程

相关性分析和主成分分析相同点

相关性分析和主成分分析不同点

总结

matlab程序

基于相关性分析和主成分分析的变量筛选方法

主成分分析法

基本原理

计算过程

基于相关性分析的指标筛选原理

基于主成分分析的指标筛选方法

因子载荷的原理

主成分分析的基本模型

筛选过程

相关性分析和主成分分析相同点

相关性分析和主成分分析不同点

总结

matlab程序

内容目录