@notmylove
2019-07-19T16:25:29.000000Z
字数 5674
阅读 2050
机器学习
PCA
无监督学习
综合评价
应用场景:梳理指标较多,每个指标都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠,并且分析起来困难时(被应用在各种行业,经常是配合其他模型的使用);需要降维可视化展现时;构造回归模型时,变量较多,可以筛选回归变量;
应用价值:这种方法在引进多指标的同时将复杂因素归结为几个主成分(对主成分可以赋予新的实际含义),在充分利用所有指标的信息量,使问题简单化,同时得到更加科学有效的数据信息;
这里再进一步介绍主成分分析法,概括起来说,主成分分析主要有以下几个方面的作用。
主成分分析( principal component analysis,PCA),也称主分量分析或矩阵数据分析。通过主成分分析法可以起到降低维度的作用,把多指标合成为少数几个相互无关的综合指标(即主成分),其中每个主成分都能够反映原始变量的绝大部分信息,而且所含信息互不重复。这种方法在引进多方面变量的同时将复杂因素归结为几个主成分,使问题简单化,同时得到更加科学有效的数据信息
主成分分析的原理可以简单的陈述如下:借助一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机变量,使之指向样本点散布最开的n个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统。通常数学上的处理就是将原来n个指标作线性组合,作为新的综合指标,并且这些新的综合指标之间是相互无关的。
构造样本矩阵
对矩阵做标准化变换得矩阵
对标准化阵求相关系数矩阵
对相关系数矩阵R求特征值与特征向量
解样本相关矩阵R 的特征方程得n个特征值, 并且(为矩阵R是非负定矩阵)
确定值,使信息的利用率达到 80% 以上。
求出每个特征值的特征向量,并单位化
对每个解方程组,得特征向量,再单位化得
将标准化后的指标变量转换为主成分
对个主成分进行综合评价
对个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率(单个公因子引起的变异占总变异的比例,说明此公因子对因变量的影响力大小,换句话理解就是这个主成分对信息的利用率).
%输入数据(以矩阵形式输入)
X = [];
%数据预处理:标准化
mu = mean(X);
X_norm = bsxfun(@minus, X, mu);
sigma = std(X_norm);
X_norm = bsxfun(@rdivide, X_norm, sigma);
%协方差矩阵
covMat = cov(X_norm);
%奇异值分解,U为特征向量,S为特征值
[U, S] = svd(covMat);
%确定主成分个数,也就是k值,一般要利用信息的80%以上
lambda = diag(S);
fprintf('累积信息占比:%.4f \n', cumsum(lambda)/sum(lambda));
k = find(cumsum(lambda)/sum(lambda) < 0.8, 1, 'first') + 1;
%成分矩阵
u = U(:, 1:k);
建筑业作为推动国民经济发展的重要支柱产业,为根据多项指标对建筑企业发展水平做出评价 ,使各地区部门得到有益的反馈,进而有效指导资源配置,提高建筑企业质量水平,利用主成分分析法对大陆地区除西藏外的30个省市自治区的建筑业进行了综合评价,分析比较了各地区建筑业的发展水平。
数据取自中国建筑业统计年鉴中各地区建筑企业主要生产效益指标中的数据。选择反映建筑企业情况的 6 项主要指标: 建筑业企业个数( 个) 、计算劳动生产率的平均人数(人) 、按增加值计算的劳动生产率(元/ 人) 、人均竣工产值(元/ 人) 、人均施工面积(平方米/ 人) 、人均竣工面积(平方米/ 人)。接下来利用MatLab对上述各地区的建筑业情况进行评价分析。
序列 | 省份 | X1 | X2 | X3 | X4 | X5 | X6 |
---|---|---|---|---|---|---|---|
1 | 北京 | 1. 8634 | 1. 4313 | 6. 1916 | 5. 2471 | 4. 5288 | 4. 1657 |
2 | 天津 | 0. 81307 | 0. 55016 | 6. 0182 | 4. 8546 | 3. 2422 | 3. 7754 |
3 | 河北 | 1. 4541 | 1. 79 | 3. 7978 | 2. 8462 | 2. 9334 | 4. 1266 |
4 | 山西 | 0. 95069 | 0. 91979 | 4. 183 | 2. 8024 | 2. 0031 | 2. 3999 |
5 | 内蒙古 | 0. 62836 | 0. 67611 | 3. 5108 | 2. 7557 | 2. 0388 | 3. 4535 |
6 | 辽宁 | 2. 1866 | 1. 8775 | 4. 3198 | 3. 1972 | 2. 4386 | 3. 3559 |
7 | 吉林 | 0. 73882 | 0. 66908 | 4. 1647 | 3. 769 | 2. 3396 | 3. 7267 |
8 | 黑龙江 | 1. 292 | 1. 0392 | 3. 9407 | 3. 337 | 2. 0269 | 3. 1803 |
9 | 上海 | 1. 5202 | 0. 98302 | 6. 9613 | 6. 2731 | 4. 0181 | 3. 8535 |
10 | 江苏 | 3. 6977 | 4. 0176 | 4. 7688 | 4. 1497 | 4. 3705 | 6. 0095 |
11 | 浙江 | 2. 8367 | 3. 2066 | 6. 0696 | 5. 1148 | 5. 6254 | 6. 2144 |
12 | 安徽 | 1. 5329 | 1. 4172 | 3. 8083 | 2. 7265 | 2. 8345 | 4. 234 |
13 | 福建 | 1. 4152 | 0. 68252 | 5. 4041 | 4. 5564 | 5. 1385 | 5. 7558 |
14 | 江西 | 0. 91448 | 0. 67579 | 3. 7269 | 2. 7053 | 3. 3056 | 4. 4193 |
15 | 山东 | 3. 714 | 3. 2927 | 3. 4792 | 2. 5348 | 2. 9176 | 3. 8242 |
16 | 河南 | 1. 4432 | 1. 4785 | 3. 393 | 2. 7392 | 3. 0482 | 3. 834 |
17 | 湖北 | 1. 4297 | 1. 4644 | 4. 5816 | 3. 1743 | 3. 1235 | 4. 4193 |
18 | 湖南 | 1. 2839 | 1. 4267 | 3. 9829 | 3. 0483 | 3. 1749 | 3. 9998 |
19 | 广东 | 3. 5176 | 2. 3463 | 5. 7378 | 4. 2186 | 5. 0909 | 5. 2973 |
20 | 广西 | 0. 83118 | 0. 57418 | 4. 0587 | 2. 7403 | 3. 3056 | 3. 5998 |
21 | 海南 | 0. 18471 | 0. 1125 | 3. 3714 | 2. 1215 | 3. 0641 | 2. 8974 |
22 | 重庆 | 1. 541 | 1. 3352 | 3. 7408 | 2. 5448 | 4. 125 | 5. 5022 |
23 | 四川 | 3. 0096 | 3. 1334 | 3. 6409 | 2. 5994 | 3. 0086 | 4. 1949 |
24 | 贵州 | 0. 5342 | 0. 43373 | 4. 2203 | 2. 8926 | 3. 3689 | 3. 7949 |
25 | 云南 | 1. 1734 | 0. 827 | 4. 2203 | 2. 8926 | 3. 3689 | 3. 7949 |
26 | 陕西 | 0. 78138 | 0. 76065 | 3. 8646 | 3. 1093 | 2. 7672 | 2. 9852 |
27 | 甘肃 | 0. 57675 | 0. 70295 | 3. 1033 | 2. 3299 | 2. 2129 | 3. 3169 |
28 | 青海 | 0. 28249 | 0. 19472 | 3. 649 | 2. 9821 | 1. 4687 | 1. 9511 |
29 | 宁夏 | 0. 39295 | 0. 23456 | 3. 6972 | 2. 9262 | 2. 2525 | 2. 8682 |
30 | 新疆 | 0. 61569 | 0. 57629 | 5. 5372 | 4. 1616 | 2. 8265 | 3. 9803 |
λ | λ1 | λ2 | λ3 | λ4 | λ5 | λ6 |
---|---|---|---|---|---|---|
特征值 | 3. 6544 | 1. 5854 | 0. 5779 | 0. 1141 | 0. 0382 | 0. 0300 |
贡献率( %) | 60. 907 | 26. 423 | 9. 6318 | 1. 902 | 0. 6366 | 0. 4998 |
前两项特征值的累计贡献率为,说明前两个主成分基本包含了全部指标具有的信息,所以选取第一个主成分与第二个主成分作为评价的综合指标。相应的特征向量为 :
- 0. 4050 | - 0. 3660 | - 0. 3825 | - 0. 3708 | - 0. 4655 | - 0. 4488 | |
---|---|---|---|---|---|---|
0. 4394 | 0. 5164 | - 0. 5085 | - 0. 5061 | - 0. 0927 | 0. 1299 |
根据上述特征向量得前两个主成分组成的模型为:
根据主成分模型即可求得各省份前两个主成分的得分值,结果如下:
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
地区 | 北京 | 天津 | 河北 | 山西 | 内蒙古 | 辽宁 | 吉林 | 黑龙江 | 上海 | 江苏 |
F1 得分 | - 2. 3208 | - 0. 5869 | 0. 2798 | 1. 8792 | 1. 8839 | 0. 1975 | 0. 9532 | 1. 2303 | - 2. 3148 | - 3. 8131 |
F2 得分 | - 1. 7110 | - 2. 2722 | 0. 8695 | - 0. 1129 | 0. 1187 | 0. 7392 | - 0. 6742 | 0. 0506 | - 2. 9972 | 1. 9639 |
序号 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
地区 | 浙江 | 安徽 | 福建 | 江西 | 山东 | 河南 | 湖北 | 湖南 | 广东 | 广西 |
F1 得分 | - 4. 6991 | 0. 4226 | - 2. 3054 | 0. 6809 | - 0. 8051 | 0. 6706 | - 0. 2324 | 0. 2805 | - 3. 5403 | 0. 9798 |
F2 得分 | - 0. 0729 | 0. 7900 | - 1. 3945 | 0. 1679 | 2. 9205 | 0. 9153 | 0. 1464 | 0. 3718 | 0. 3347 | - 0. 2141 |
序号 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
地区 | 海南 | 重庆 | 四川 | 贵州 | 云南 | 陕西 | 甘肃 | 青海 | 宁夏 | 新疆 |
F1 得分 | 2. 3307 | - 0. 6275 | - 0. 7561 | 0. 9161 | 0. 5133 | 1. 3956 | 2. 1890 | 3. 0031 | 2. 1696 | 0. 0260 |
F2 得分 | - 0. 1428 | 0. 9227 | 2. 4535 | - 0. 5569 | - 0. 0729 | - 0. 2577 | 0. 4987 | - 0. 6092 | - 0. 4898 | - 1. 6850 |
从上述主成分的表达式可以看出 ,第一主成分的各个系数都是负的 ,如果各个变量的数值都增加,则第一主成分数值的绝对值也会增加。第一、五、六项系数绝对值较大,对第一主成分贡献较大,所以将第一主成分看成反映企业个数、人均施工面积、人均竣工面积的综合指标。可以做为企业的生产规模,各地区对建筑的需求程度的指标。
第二主成分可看成计算劳动生产率的平均人数、按增加值计算的劳动生产率、人均竣工产值的综合指标。可以做为企业设备先进与否 ,生产效益指标。,主成分分析的重点与难点就是对综合指标也就是主成分赋予一个实际含义,这样才会有实际意义。
从 30 个地区 ,具有 6个指标的原始数据中其实很难评价出各地区的建筑企业情况,主成分分析方法以原始数据为基础 ,客观地建立起少数几个综合指标 ,最大可能反映原始数据信息。实验证明,主成分分析法是评价各地区建筑企业水平的一种客观、合理的方法。