@notmylove 2019-07-19T08:25:29.000000Z 字数 5674 阅读 2566

主成分分析法原理及在建筑企业评价中的应用

机器学习 PCA 无监督学习 综合评价

应用场景：梳理指标较多，每个指标都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠，并且分析起来困难时（被应用在各种行业，经常是配合其他模型的使用）；需要降维可视化展现时；构造回归模型时，变量较多，可以筛选回归变量；

应用价值：这种方法在引进多指标的同时将复杂因素归结为几个主成分（对主成分可以赋予新的实际含义），在充分利用所有指标的信息量，使问题简单化，同时得到更加科学有效的数据信息；

这里再进一步介绍主成分分析法，概括起来说，主成分分析主要有以下几个方面的作用。

主成分分析能降低所研究的数据空间的维数（降维）。即用研究m维的Y空间代替p维的X空间(m
多维数据的一种图形表示方法（可视化）。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。
由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析
用主成分分析筛选回归变量。回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。

主成分分析法

主成分分析( principal component analysis，PCA)，也称主分量分析或矩阵数据分析。通过主成分分析法可以起到降低维度的作用，把多指标合成为少数几个相互无关的综合指标（即主成分），其中每个主成分都能够反映原始变量的绝大部分信息，而且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分，使问题简单化，同时得到更加科学有效的数据信息

基本原理

主成分分析的原理可以简单的陈述如下:借助一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机变量，使之指向样本点散布最开的n个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统。通常数学上的处理就是将原来n个指标作线性组合，作为新的综合指标，并且这些新的综合指标之间是相互无关的。

计算过程

构造样本矩阵

$ $
$X = \begin{bmatrix} x_1^T \\ x_2^T \\ .... \\ x_m^T \\ \end{bmatrix} = \begin{bmatrix} x_{11} & x_{12} &... & x_{1n} \\ x_{21} & x_{22} &... & x_{2n} \\ ... & ... &... \\ x_{m1} & x_{m2} &... & x_{mn} \\ \end{bmatrix}$
其中， $x_{ij}$ 表示第 $i$ 组样本数据中的第 $j$ 个变量的值.
对矩阵 $X$ 做标准化变换得矩阵 $Z$
$ $
$Z = \begin{bmatrix} z_1^T \\ z_2^T \\ .... \\ z_m^T \\ \end{bmatrix} = \begin{bmatrix} z_{11} & z_{12} &... & z_{1n} \\ z_{21} &z_{22} &... &z_{2n} \\ ... & ... &... \\ z_{m1} & z_{m2} &... & z_{mn} \\ \end{bmatrix}$
其中
$Z_{ij}=\frac{x_{ij}-\bar{x}_j}{s_j},i=1,2,...,m; j=1,2,...,n$

$\bar{x}_j=\frac{\sum^{m}_{i=1}x_{ij}}{m},s^2_j=\frac{\sum^m_{i=1}(x_{ij}-\bar{x}_j)^2}{m-1}$
对标准化阵 $Z$ 求相关系数矩阵

　　
$R=\left[r_{ij}\right]_n = \frac{Z^T Z}{m-1}$
这里有一点需要注意的是：标准化后的矩阵Z的相关系数矩阵(就是每列变量之间的相关系数构成的矩阵)是等于矩阵Z的协方差矩阵。因为前面也有讲过相关系数就是标准化了的协方差（无量纲化）。也就是说 $Cov(Z) = Corr(X) = Corr(Z)$ .
对相关系数矩阵R求特征值与特征向量
解样本相关矩阵R 的特征方程 $\left|R-\lambda I_n\right|=0$ 得n个特征值, 并且 $λ_1 ≥ λ_2 ≥…≥λ_n ≥ 0$ (为矩阵R是非负定矩阵)
确定 $k$ 值，使信息的利用率达到 80% 以上。

$\frac{\sum^k_{j=1}\lambda_j}{\sum^n_{j=1}\lambda_j}\ge 0.8$ 这里就相当于我们专题四讲到的二八分析法了。
求出每个特征值的特征向量，并单位化
对每个 $λ_j, j=1,2,...,n$ 解方程组 $Rb = λ_jb$ ，得特征向量 $b_j$ ,再单位化得 $b_j^o = \frac{b_j}{‖bj‖}$
将标准化后的指标变量转换为主成分
　　
$U_{ij}=z^{T}_{i}b^{o}_{j},j=1,2,...,n$
　　其中 $U_1$ 称为第一主成分, $U_2$ 称为第二主成分....
对 $k$ 个主成分进行综合评价
　　对 $k$ 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率（单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小，换句话理解就是这个主成分对信息的利用率）.

matlab简单实现

%输入数据(以矩阵形式输入）
X = [];

%数据预处理：标准化
mu = mean(X);
X_norm = bsxfun(@minus, X, mu);
sigma = std(X_norm);
X_norm = bsxfun(@rdivide, X_norm, sigma);

%协方差矩阵
covMat = cov(X_norm);

%奇异值分解，U为特征向量，S为特征值
[U, S] = svd(covMat);

%确定主成分个数，也就是k值，一般要利用信息的80%以上
lambda = diag(S);
fprintf('累积信息占比：%.4f \n', cumsum(lambda)/sum(lambda));
k = find(cumsum(lambda)/sum(lambda) < 0.8, 1, 'first') + 1;

%成分矩阵
u = U(:, 1:k);

主成分分析法在建筑企业评价中的应用

建筑业作为推动国民经济发展的重要支柱产业,为根据多项指标对建筑企业发展水平做出评价 ,使各地区部门得到有益的反馈,进而有效指导资源配置,提高建筑企业质量水平,利用主成分分析法对大陆地区除西藏外的30个省市自治区的建筑业进行了综合评价,分析比较了各地区建筑业的发展水平。

数据来源

数据取自中国建筑业统计年鉴中各地区建筑企业主要生产效益指标中的数据。选择反映建筑企业情况的 6 项主要指标: 建筑业企业个数( 个) $X_1$ 、计算劳动生产率的平均人数(人) $X_2$ 、按增加值计算的劳动生产率(元/ 人) $X_3$ 、人均竣工产值(元/ 人) $X_4$ 、人均施工面积(平方米/ 人) $X_5$ 、人均竣工面积(平方米/ 人) $X_6$ 。接下来利用MatLab对上述各地区的建筑业情况进行评价分析。

评价过程

数据预处理,结果如下：

序列	省份	X1	X2	X3	X4	X5	X6
1	北京	1. 8634	1. 4313	6. 1916	5. 2471	4. 5288	4. 1657
2	天津	0. 81307	0. 55016	6. 0182	4. 8546	3. 2422	3. 7754
3	河北	1. 4541	1. 79	3. 7978	2. 8462	2. 9334	4. 1266
4	山西	0. 95069	0. 91979	4. 183	2. 8024	2. 0031	2. 3999
5	内蒙古	0. 62836	0. 67611	3. 5108	2. 7557	2. 0388	3. 4535
6	辽宁	2. 1866	1. 8775	4. 3198	3. 1972	2. 4386	3. 3559
7	吉林	0. 73882	0. 66908	4. 1647	3. 769	2. 3396	3. 7267
8	黑龙江	1. 292	1. 0392	3. 9407	3. 337	2. 0269	3. 1803
9	上海	1. 5202	0. 98302	6. 9613	6. 2731	4. 0181	3. 8535
10	江苏	3. 6977	4. 0176	4. 7688	4. 1497	4. 3705	6. 0095
11	浙江	2. 8367	3. 2066	6. 0696	5. 1148	5. 6254	6. 2144
12	安徽	1. 5329	1. 4172	3. 8083	2. 7265	2. 8345	4. 234
13	福建	1. 4152	0. 68252	5. 4041	4. 5564	5. 1385	5. 7558
14	江西	0. 91448	0. 67579	3. 7269	2. 7053	3. 3056	4. 4193
15	山东	3. 714	3. 2927	3. 4792	2. 5348	2. 9176	3. 8242
16	河南	1. 4432	1. 4785	3. 393	2. 7392	3. 0482	3. 834
17	湖北	1. 4297	1. 4644	4. 5816	3. 1743	3. 1235	4. 4193
18	湖南	1. 2839	1. 4267	3. 9829	3. 0483	3. 1749	3. 9998
19	广东	3. 5176	2. 3463	5. 7378	4. 2186	5. 0909	5. 2973
20	广西	0. 83118	0. 57418	4. 0587	2. 7403	3. 3056	3. 5998
21	海南	0. 18471	0. 1125	3. 3714	2. 1215	3. 0641	2. 8974
22	重庆	1. 541	1. 3352	3. 7408	2. 5448	4. 125	5. 5022
23	四川	3. 0096	3. 1334	3. 6409	2. 5994	3. 0086	4. 1949
24	贵州	0. 5342	0. 43373	4. 2203	2. 8926	3. 3689	3. 7949
25	云南	1. 1734	0. 827	4. 2203	2. 8926	3. 3689	3. 7949
26	陕西	0. 78138	0. 76065	3. 8646	3. 1093	2. 7672	2. 9852
27	甘肃	0. 57675	0. 70295	3. 1033	2. 3299	2. 2129	3. 3169
28	青海	0. 28249	0. 19472	3. 649	2. 9821	1. 4687	1. 9511
29	宁夏	0. 39295	0. 23456	3. 6972	2. 9262	2. 2525	2. 8682
30	新疆	0. 61569	0. 57629	5. 5372	4. 1616	2. 8265	3. 9803

求出特征值、贡献率确定主成分

λ	λ1	λ2	λ3	λ4	λ5	λ6
特征值	3. 6544	1. 5854	0. 5779	0. 1141	0. 0382	0. 0300
贡献率( %)	60. 907	26. 423	9. 6318	1. 902	0. 6366	0. 4998

前两项特征值的累计贡献率为 $87. 3 \% > 85 \%$ ,说明前两个主成分基本包含了全部指标具有的信息,所以选取第一个主成分与第二个主成分作为评价的综合指标。相应的特征向量为 :

$U_1$	- 0. 4050	- 0. 3660	- 0. 3825	- 0. 3708	- 0. 4655	- 0. 4488
$U_2$	0. 4394	0. 5164	- 0. 5085	- 0. 5061	- 0. 0927	0. 1299

根据上述特征向量得前两个主成分组成的模型为:

$\begin{cases} F_1 = -0. 4050Z_1 - 0. 3660Z_2 - 0.3825Z_3 - 0.3708Z_4 - 0.4655Z_5 -0. 4488Z_6\\ F_2 = 0. 4394Z_1 + 0. 5164Z_2-0. 5085Z_3- 0. 5061Z_4 -0. 0927Z_5 + 0. 1299Z_6 \end{cases}$
其中(

$Z_1...Z_6$ 为标准化后的数据)是各地区原始数据标准化变换
后的数据。

求各省份前两个主成分的得分值

根据主成分模型即可求得各省份前两个主成分的得分值，结果如下：

序号	1	2	3	4	5	6	7	8	9	10
地区	北京	天津	河北	山西	内蒙古	辽宁	吉林	黑龙江	上海	江苏
F1 得分	- 2. 3208	- 0. 5869	0. 2798	1. 8792	1. 8839	0. 1975	0. 9532	1. 2303	- 2. 3148	- 3. 8131
F2 得分	- 1. 7110	- 2. 2722	0. 8695	- 0. 1129	0. 1187	0. 7392	- 0. 6742	0. 0506	- 2. 9972	1. 9639
序号	11	12	13	14	15	16	17	18	19	20
地区	浙江	安徽	福建	江西	山东	河南	湖北	湖南	广东	广西
F1 得分	- 4. 6991	0. 4226	- 2. 3054	0. 6809	- 0. 8051	0. 6706	- 0. 2324	0. 2805	- 3. 5403	0. 9798
F2 得分	- 0. 0729	0. 7900	- 1. 3945	0. 1679	2. 9205	0. 9153	0. 1464	0. 3718	0. 3347	- 0. 2141
序号	21	22	23	24	25	26	27	28	29	30
地区	海南	重庆	四川	贵州	云南	陕西	甘肃	青海	宁夏	新疆
F1 得分	2. 3307	- 0. 6275	- 0. 7561	0. 9161	0. 5133	1. 3956	2. 1890	3. 0031	2. 1696	0. 0260
F2 得分	- 0. 1428	0. 9227	2. 4535	- 0. 5569	- 0. 0729	- 0. 2577	0. 4987	- 0. 6092	- 0. 4898	- 1. 6850

结果分析

从上述主成分的表达式可以看出 ,第一主成分的各个系数都是负的 ,如果各个变量的数值都增加,则第一主成分数值的绝对值也会增加。第一、五、六项系数绝对值较大,对第一主成分贡献较大,所以将第一主成分看成反映企业个数、人均施工面积、人均竣工面积的综合指标。可以做为企业的生产规模,各地区对建筑的需求程度的指标。

第二主成分可看成计算劳动生产率的平均人数、按增加值计算的劳动生产率、人均竣工产值的综合指标。可以做为企业设备先进与否 ,生产效益指标。，主成分分析的重点与难点就是对综合指标也就是主成分赋予一个实际含义，这样才会有实际意义。

从 30 个地区 ,具有 6个指标的原始数据中其实很难评价出各地区的建筑企业情况,主成分分析方法以原始数据为基础 ,客观地建立起少数几个综合指标 ,最大可能反映原始数据信息。实验证明,主成分分析法是评价各地区建筑企业水平的一种客观、合理的方法。