[关闭]
@notmylove 2019-07-19T16:25:29.000000Z 字数 5674 阅读 2028

主成分分析法原理及在建筑企业评价中的应用

机器学习 PCA 无监督学习 综合评价


应用场景:梳理指标较多,每个指标都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠,并且分析起来困难时(被应用在各种行业,经常是配合其他模型的使用);需要降维可视化展现时;构造回归模型时,变量较多,可以筛选回归变量;

应用价值:这种方法在引进多指标的同时将复杂因素归结为几个主成分(对主成分可以赋予新的实际含义),在充分利用所有指标的信息量,使问题简单化,同时得到更加科学有效的数据信息;

这里再进一步介绍主成分分析法,概括起来说,主成分分析主要有以下几个方面的作用。

主成分分析法

主成分分析( principal component analysis,PCA),也称主分量分析或矩阵数据分析。通过主成分分析法可以起到降低维度的作用,把多指标合成为少数几个相互无关的综合指标(即主成分),其中每个主成分都能够反映原始变量的绝大部分信息,而且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到更加科学有效的数据信息

基本原理

主成分分析的原理可以简单的陈述如下:借助一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机变量,使之指向样本点散布最开的n个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统。通常数学上的处理就是将原来n个指标作线性组合,作为新的综合指标,并且这些新的综合指标之间是相互无关的。

计算过程

  1. 构造样本矩阵

    

    其中,表示第组样本数据中的第个变量的值.

  2. 对矩阵做标准化变换得矩阵

    

    其中

  3. 对标准化阵求相关系数矩阵

      


    这里有一点需要注意的是:标准化后的矩阵Z的相关系数矩阵(就是每列变量之间的相关系数构成的矩阵)是等于矩阵Z的协方差矩阵。因为前面也有讲过相关系数就是标准化了的协方差(无量纲化)。也就是说.

  4. 对相关系数矩阵R求特征值与特征向量
    解样本相关矩阵R 的特征方程得n个特征值, 并且(为矩阵R是非负定矩阵)

  5. 确定值,使信息的利用率达到 80% 以上。

    这里就相当于我们专题四讲到的二八分析法了

  6. 求出每个特征值的特征向量,并单位化
    对每个解方程组,得特征向量,再单位化得

  7. 将标准化后的指标变量转换为主成分
      


      其中称为第一主成分, 称为第二主成分....

  8. 个主成分进行综合评价
      对个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率(单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小,换句话理解就是这个主成分对信息的利用率).

matlab简单实现

%输入数据(以矩阵形式输入)
X = [];

%数据预处理:标准化
mu = mean(X);
X_norm = bsxfun(@minus, X, mu);
sigma = std(X_norm);
X_norm = bsxfun(@rdivide, X_norm, sigma);

%协方差矩阵
covMat = cov(X_norm);

%奇异值分解,U为特征向量,S为特征值
[U, S] = svd(covMat);

%确定主成分个数,也就是k值,一般要利用信息的80%以上
lambda = diag(S);
fprintf('累积信息占比:%.4f \n', cumsum(lambda)/sum(lambda));
k = find(cumsum(lambda)/sum(lambda) < 0.8, 1, 'first') + 1;

%成分矩阵
u = U(:, 1:k);

主成分分析法在建筑企业评价中的应用

建筑业作为推动国民经济发展的重要支柱产业,为根据多项指标对建筑企业发展水平做出评价 ,使各地区部门得到有益的反馈,进而有效指导资源配置,提高建筑企业质量水平,利用主成分分析法对大陆地区除西藏外的30个省市自治区的建筑业进行了综合评价,分析比较了各地区建筑业的发展水平。

数据来源

数据取自中国建筑业统计年鉴中各地区建筑企业主要生产效益指标中的数据。选择反映建筑企业情况的 6 项主要指标: 建筑业企业个数( 个) 、计算劳动生产率的平均人数(人) 、按增加值计算的劳动生产率(元/ 人) 、人均竣工产值(元/ 人) 、人均施工面积(平方米/ 人) 、人均竣工面积(平方米/ 人)。接下来利用MatLab对上述各地区的建筑业情况进行评价分析。

评价过程

数据预处理,结果如下:

序列 省份 X1 X2 X3 X4 X5 X6
1 北京 1. 8634 1. 4313 6. 1916 5. 2471 4. 5288 4. 1657
2 天津 0. 81307 0. 55016 6. 0182 4. 8546 3. 2422 3. 7754
3 河北 1. 4541 1. 79 3. 7978 2. 8462 2. 9334 4. 1266
4 山西 0. 95069 0. 91979 4. 183 2. 8024 2. 0031 2. 3999
5 内蒙古 0. 62836 0. 67611 3. 5108 2. 7557 2. 0388 3. 4535
6 辽宁 2. 1866 1. 8775 4. 3198 3. 1972 2. 4386 3. 3559
7 吉林 0. 73882 0. 66908 4. 1647 3. 769 2. 3396 3. 7267
8 黑龙江 1. 292 1. 0392 3. 9407 3. 337 2. 0269 3. 1803
9 上海 1. 5202 0. 98302 6. 9613 6. 2731 4. 0181 3. 8535
10 江苏 3. 6977 4. 0176 4. 7688 4. 1497 4. 3705 6. 0095
11 浙江 2. 8367 3. 2066 6. 0696 5. 1148 5. 6254 6. 2144
12 安徽 1. 5329 1. 4172 3. 8083 2. 7265 2. 8345 4. 234
13 福建 1. 4152 0. 68252 5. 4041 4. 5564 5. 1385 5. 7558
14 江西 0. 91448 0. 67579 3. 7269 2. 7053 3. 3056 4. 4193
15 山东 3. 714 3. 2927 3. 4792 2. 5348 2. 9176 3. 8242
16 河南 1. 4432 1. 4785 3. 393 2. 7392 3. 0482 3. 834
17 湖北 1. 4297 1. 4644 4. 5816 3. 1743 3. 1235 4. 4193
18 湖南 1. 2839 1. 4267 3. 9829 3. 0483 3. 1749 3. 9998
19 广东 3. 5176 2. 3463 5. 7378 4. 2186 5. 0909 5. 2973
20 广西 0. 83118 0. 57418 4. 0587 2. 7403 3. 3056 3. 5998
21 海南 0. 18471 0. 1125 3. 3714 2. 1215 3. 0641 2. 8974
22 重庆 1. 541 1. 3352 3. 7408 2. 5448 4. 125 5. 5022
23 四川 3. 0096 3. 1334 3. 6409 2. 5994 3. 0086 4. 1949
24 贵州 0. 5342 0. 43373 4. 2203 2. 8926 3. 3689 3. 7949
25 云南 1. 1734 0. 827 4. 2203 2. 8926 3. 3689 3. 7949
26 陕西 0. 78138 0. 76065 3. 8646 3. 1093 2. 7672 2. 9852
27 甘肃 0. 57675 0. 70295 3. 1033 2. 3299 2. 2129 3. 3169
28 青海 0. 28249 0. 19472 3. 649 2. 9821 1. 4687 1. 9511
29 宁夏 0. 39295 0. 23456 3. 6972 2. 9262 2. 2525 2. 8682
30 新疆 0. 61569 0. 57629 5. 5372 4. 1616 2. 8265 3. 9803

求出特征值、贡献率确定主成分


λ λ1 λ2 λ3 λ4 λ5 λ6
特征值 3. 6544 1. 5854 0. 5779 0. 1141 0. 0382 0. 0300
贡献率( %) 60. 907 26. 423 9. 6318 1. 902 0. 6366 0. 4998

前两项特征值的累计贡献率为,说明前两个主成分基本包含了全部指标具有的信息,所以选取第一个主成分与第二个主成分作为评价的综合指标。相应的特征向量为 :

- 0. 4050 - 0. 3660 - 0. 3825 - 0. 3708 - 0. 4655 - 0. 4488
0. 4394 0. 5164 - 0. 5085 - 0. 5061 - 0. 0927 0. 1299

根据上述特征向量得前两个主成分组成的模型为:


其中(为标准化后的数据)是各地区原始数据标准化变换
后的数据。

求各省份前两个主成分的得分值


根据主成分模型即可求得各省份前两个主成分的得分值,结果如下:

序号 1 2 3 4 5 6 7 8 9 10
地区 北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏
F1 得分 - 2. 3208 - 0. 5869 0. 2798 1. 8792 1. 8839 0. 1975 0. 9532 1. 2303 - 2. 3148 - 3. 8131
F2 得分 - 1. 7110 - 2. 2722 0. 8695 - 0. 1129 0. 1187 0. 7392 - 0. 6742 0. 0506 - 2. 9972 1. 9639
序号 11 12 13 14 15 16 17 18 19 20
地区 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西
F1 得分 - 4. 6991 0. 4226 - 2. 3054 0. 6809 - 0. 8051 0. 6706 - 0. 2324 0. 2805 - 3. 5403 0. 9798
F2 得分 - 0. 0729 0. 7900 - 1. 3945 0. 1679 2. 9205 0. 9153 0. 1464 0. 3718 0. 3347 - 0. 2141
序号 21 22 23 24 25 26 27 28 29 30
地区 海南 重庆 四川 贵州 云南 陕西 甘肃 青海 宁夏 新疆
F1 得分 2. 3307 - 0. 6275 - 0. 7561 0. 9161 0. 5133 1. 3956 2. 1890 3. 0031 2. 1696 0. 0260
F2 得分 - 0. 1428 0. 9227 2. 4535 - 0. 5569 - 0. 0729 - 0. 2577 0. 4987 - 0. 6092 - 0. 4898 - 1. 6850

结果分析

从上述主成分的表达式可以看出 ,第一主成分的各个系数都是负的 ,如果各个变量的数值都增加,则第一主成分数值的绝对值也会增加。第一、五、六项系数绝对值较大,对第一主成分贡献较大,所以将第一主成分看成反映企业个数、人均施工面积、人均竣工面积的综合指标。可以做为企业的生产规模,各地区对建筑的需求程度的指标。

第二主成分可看成计算劳动生产率的平均人数、按增加值计算的劳动生产率、人均竣工产值的综合指标。可以做为企业设备先进与否 ,生产效益指标。,主成分分析的重点与难点就是对综合指标也就是主成分赋予一个实际含义,这样才会有实际意义。

从 30 个地区 ,具有 6个指标的原始数据中其实很难评价出各地区的建筑企业情况,主成分分析方法以原始数据为基础 ,客观地建立起少数几个综合指标 ,最大可能反映原始数据信息。实验证明,主成分分析法是评价各地区建筑企业水平的一种客观、合理的方法。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注