农民生活水平进行主成分分析

发布时间:   来源:文档文库   
字号:

摘要本文利用主成分分析对题中给出的十六个地区的农民在某年支出情况的抽样调查数据进行了分析,通过六个关键的综合指标对各地区农民生活水平进行主成分分析,并以主成分得分为基础,对各地区农民生活水平进行分类关键词农民生活水平主成分分析

1问题的重述
1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。1)试对调查资料中的16个地区的农民生活水平进行主成分分析,2)并利用前两个主成分对16个地区的农民生活水平进行分类
1-116个地区的农民生活水平的调查数据(单位:元)
地区
食品X1
北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南
190.33135.2095.21104.78128.41145.68159.37116.22221.11144.98169.92153.11144.92140.54115.84101.18
衣着X243.7736.4022.8325.1127.6332.8333.3829.5738.6429.1232.7523.0921.2621.5030.2623.26
燃料X39.7310.479.306.408.9417.7918.3713.2412.5311.6712.7215.6216.9617.6412.208.46
住房X460.5444.1622.449.8912.5827.2911.8113.76115.6542.6047.1223.5419.5219.1933.6120.20
生活用品及其它X549.0136.4922.8118.1723.9939.0925.2921.7550.8227.3034.3518.1821.7515.9733.7720.50
文化生活服务X69.043.942.803.253.273.475.226.045.895.745.006.396.734.943.854.30
2、模型的假设及符号说明



21模型的假设
1)各地区的农民生活水平是互为独立的,各指标之间也互为独立。2)第一主成分和第二主成分对农民生活水平影响较大。3)题中所给的数据准确无误,符合实际的。
22符号说明
a表示题中原始数据的矩阵;ba的协方差矩阵;ca的标准差矩阵;ra的相关系数矩阵;
vr的特征向量矩阵,d是一个矩阵,其对角线上的元素是r的特征值;Vr的特征值按降序排列之后对应的特征向量矩阵;e是各地区主成分得分矩阵;
lamar的特征值按降序排列生成的61列的矩阵;gxl是贡献率;f是累计贡献率
3、模型的建立
1、对于问题(1,主成分分析是把原来多个指标华为少数几个互不相关的综合指标的一种多元统计方法,它可以达到数据简化、揭示变量之间的内在关系、以及进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供重要的信息。本题中是将六个生活消费指标进行分析,先对原始数据的矩阵a进行处理,求出其协方差矩阵b和标准差矩阵c,再得出相关矩阵r
rij
cov(xi,xjstd(xistd(xj

i,j1,2,...,6;
cov(xi,xj表示第i个指标与第j个指标的协方差,
std(xi表示第i个指标的标准差,std(xj表示第j个指标的
标准差。
矩阵b是一个66列的矩阵,c是一个16列的矩阵。
根据求出的r矩阵,进一步求出它的特征值矩阵d和对应的特征向量矩阵v并对d矩阵提取对角线元素进行降序排列得到新的61列的特征值矩阵lama特征值为1,2,...,6
V的第i列是lama中第i行的元素(特征值)对应的特征向量。
对应的特征向量分别V1,V2,...,V6;其中Vi

(V1i,V2i,...,V6i


i1,2,...,6;
把各特征向量的数值作为系数就可以写出预期的6个主成分表达式:
eia*Vi,i1,2,...,6;
e矩阵是主成分得分矩阵,为166列。
了说明各主成分(即新指标)反映的原信息量的多少,还应该求出主成分Zkk=1,2,,6)的贡献率k
m
p
(第k个主成分反映的信息量)和累计贡献率
ii1
p
(前k个主成分反映的总信息量)
k
i
i1
i1
2、对于问题(2,由(1)中的得分矩阵e,提取出各地区第一主成分和第二主成分的得分,据此画出第二主成分对第一主成分的散点图。
4、模型的求解
1、求出的相关系数矩阵:r=
1.00000.66350.33710.78000.70580.63460.66351.0000-0.08100.66300.90150.37480.3371-0.08101.0000-0.0887-0.06140.25420.78000.6630-0.08871.00000.83110.36350.70580.9015-0.06140.83111.00000.31120.63460.37480.25420.36350.31121.0000
2、主成分特征值、贡献率以及累计贡献率
主成分ek
特征值
贡献率i

ii1
6
累计贡献率

i
i
i1
i1
k6
e1
3.55841.31630.60820.37340.1072
0.593066670.219383330.101366670.062233330.01786667
0.593066670.812450000.913816670.976050000.99391667
e2
e3
e4e5



e6
0.03650.006083331.00000000

3各地区在第一主成分和第二主成分的得分表
地区第一主成分得分第二主成分得分
地区第一主成分得分第二主成分得分
地区第一主成分得分第二主成分得分
地区第一主成分得分第二主成分得分
北京167.1307-28.0084内蒙古93.5210-27.2420上海205.3218-27.4471福建102.2007-39.9080
天津121.9189-19.8101辽宁118.9345-31.1806江苏118.7231-28.1469江西96.7189-39.9484
河北79.2343-18.3375吉林112.4530-41.9522浙江137.7406-31.7251山东103.5932-20.0456
山西76.7761-21.6388黑龙江89.1217-28.5712安徽106.9547-40.5687河南80.5728-20.7458

5、模型的结果分析
1、主成分及其变量关系:
e10.4811a10.4612a20.0525a30.4668a40.4842a50.3173a6
e20.2570a10.2176a20.7777a30.1806a40.2438a50.4355a6
e30.0445a10.1001a20.5488a30.0726a40.2472a50.7877a6e40.2772a10.6540a20.1033a30.6571a40.1851a50.1370a6e50.7203a10.2379a20.2355a30.2900a40.4634a50.2652a6e60.3238a10.4957a20.1584a30.4779a40.6293a50.0016a6
结果分析:
根据前面得出了六个主成分的表达式。
第一主成分中a1a2a4a5的系数都在0.5附近,a6的系数也相差不远且都是正值,只有a3的系数比较小。它反映总体消费高的地区除燃料消费外,其



它消费基本也都较高。它的贡献率为59.31%,表达出的信息量很大。
第二主成分中a3的系数绝对值较大,它更多地反映了燃料消费的情况。它的贡献率为21.94%,表达的信息较大。第一主成分与第二主成分的累计贡献量达到81.25%
第三主成分更多地反映了农民文化生活服务消费的情况,它的贡献率为10.14%,已经较小;
从第四到第六主成分的贡献率都很小,它们表达的信息量也小,基本上它们反映的消费指标间的关系已经没有太多意义。因此可以用两个或三个新生成的指标来对各地区的消费情况进行分析总结。
2、第一主成分和第二成分的得分分别为:
e10.4811a10.4612a20.0525a30.4668a40.4842a50.3173a6

e20.2570a10.2176a20.7777a30.1806a40.2438a50.4355a6

第二主成分对第一主成分的散点图如下:
-15
-20
-25
-30
-35
-40
-4560
80100120140160180200220






从图中可以看出,这些地区大体上可分为四类
第一类包括:上海、北京。这些地区的农民总体消费最高,农民生活水平较高。
第二类包括:浙江、江苏、辽宁、黑龙江、内蒙古。这些地区燃料消费相对于总消费的比率相对趋中。总消费普遍高于后两类地区。
第三类包括:天津、山东、河南、河北、山西。这些地区燃料消费相对于总消费的比率较低。
第四类包括:吉林、安徽、福建、江西。这些地区燃料消费相对于总消费的比率很高。
如果要分得更简单点,可以只把北京和上海归为一类,其它14个地区分为另一类。只是这样的分类只需要依赖第一主成分,在反映信息的准确度上差了不少。当然,这样的分类也不能最完整地反映实际情况,从累计贡献率上可以看出两个主成分只反映了原信息量的81.25%。要达到更精确的分类,得取更多的主成分,而取更多主成分又势必增大评价难度。

参考文献:
[1]何文章桂占吉贾敬哈尔滨.哈尔滨工程大学出版社.1999
[2]刘卫国MATLAB程序设计教程北京.中国水利水电出版社.2009
[3]李志林欧宜贵数学建模及典型案例分析北京.化学工业出版社,2007

附程序:clear
a=[190.3343.779.7360.5449.019.04;135.2036.4010.4744.1636.493.94;95.2122.839.3022.4422.812.80;104.7825.116.409.8918.173.25;128.4127.638.9412.5823.993.27;145.6832.8317.7927.2939.093.47;159.3733.3818.3711.8125.295.22;116.2229.5713.2413.7621.756.04;221.1138.6412.53115.6550.825.89;144.9829.1211.6742.6027.305.74;169.9232.7512.7247.1234.355.00;153.1123.0915.6223.5418.186.39;144.9221.2616.9619.5221.756.73;



140.5421.5017.6419.1915.974.94;115.8430.2612.2033.6133.773.85;101.1823.268.4620.2020.504.30];b=cov(a;c=std(a;fori=1:6forj=1:6
r(i,j=b(i,j/(c(1,i*c(1,j;endendr;
[v,d]=eig(r;
lama=sort(diag(d,'descend'fori=1:6
V(:,7-i=v(:,i;ende=a*V
%贡献率fori=1:6
gxl(i=lama(i/sum(lama;endgxl%贡献率
s=cumsum(lama/sum(lama%累计贡献率
%画图
m=e(1:16,1:2;n=m';
plot(n(1,:,n(2,:,'*'



本文来源:https://www.2haoxitong.net/k/doc/75767e2de2bd960590c6779f.html

《农民生活水平进行主成分分析.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式