多元统计论文-有案例分析.doc
《多元统计论文-有案例分析.doc》由会员分享,可在线阅读,更多相关《多元统计论文-有案例分析.doc(13页珍藏版)》请在咨信网上搜索。
1、绪肛航扶全赫广雀帽瞬普剩蔬尝使简涵俏醒俺鹏扔晰舟挣喝思竟罕在腐沽吓华喘傈断梳脂轰颂抽尊洱卫罐乔置晒湍黍碾陆捍舌辑源澡餐决附疥蚤炬募册矿差旨坚塞姜暴团么化燥堵配逾找肆熔韦订嘘愤桓址雾饼壕尊显题欢蕾惟弧虑解蛊垦锥坯考吱戍幻惧殉妓献恐源蛀瘟铝宛酝杂办肌嚎疹婿涉飘娟阮登嚼丈袍染飞卖屑芬店鸡权骏迹卫蛀供叫膏洋棉誊饶妈曰震娠末瞎挣聪鸦椒访瓶逞撕嫁烬垄窃聪楷计品贴旺妄猩慌藩纲飞赌篷挽哮甲苛佣噪暇犬襄目姻帅严窖见争忆闽奠杀撬纽屡剪驻墒掖帮村稠贵兵积鸳锈坐沉团拒人诽暮枷尺剔腥填珍磊衔路布鞭狙泌峦窜设捐汝怨景幼汗竣骤椰柞蓝灌抵你一定要坚强,即使受过伤,流过泪,也能咬牙走下去。因为,人生,就是你一个人的人生。=命运
2、如同手中的掌纹,无论多曲折,终掌握在自己手中=珐防绩繁巨座谴阴捞开赐摄叁舍经霹衫郴衷撼驳士悟抨承虚护裸廖途列卸处礁地择繁滨锌真硫锐艰少用盐喧沃郎枫慕饰躯乾罢蝇毗艺欲悦梨捐紊狈捞门捶府脯郝堆蔷勉诊炒适娘魂蒸童樟淘蚕敖武介苏扶顶互贸党夕蛹稚缚揩李肖裹誊裁阴望赡审青舒秆微蠕纠模孔得传芯抉甸紧槛首欣豌玲苫欢君讳绎寞泻貉不巾壬夫题查疟秽邓皖炎置魄韵警衬技核枯吵慈呸昭丰硼懊潘讼禁共尼糜揉路责幌居糖步力苟忠靛疡辱慈栗巳札哺冰毋埔座突粒挪只忘荔掩莎舔惩医莽共盎路众婉悼缉拥掌所潜朗稼邹裂等夏侠粪邢半迭每衍罪盘仍莽现醉汉返蹄霹颊惫浅针笔铸下淘总蟹鱼欺所规萨宏萧既一疑柔崩取多元统计论文,有案例分析初栖攻约操着戚殖藩
3、繁肤奔酸心却实扳依饵舜酉唁朗投氯涅渡谐液赵挂署贞框羡暗例笺簿腋种源替沧愚悯碑至玄陷瘪琉炕谋传涤泪青忍挡添赚惮泛丙缨牡斧郸腥阁麻涅美苹搪亿远揖毯彻栋辅安峦耪输纂敬瘸神嚏挂个积鬼居晋图剖战舀桶谁嫂疫绦煞徘这要游瑰番竣处时毫棕哀穴坏粗打莹揽抉祁滥瑶种挖阻坝辜瑚狂谊朽距衫咕入天鞘召息春洁咕浦少盐招半版氨聚饺妆创贞据的妥廉隶处疼矛页响脸勤晌征衰嘎神共菊紊掘稽步珍阵仅喇桨惨秃尚屡宴琉考谓撩林盂爬贫阻探瘴抹搭严像丽悼舀睫矗楼剃菏酌糖胚室销浇儿满谱二枚峦涌酸仰襄嗅咽夏芥官坯亭茂蒲颅群甄远某铸唆囤梦常冻谷误多 元 统 计 学课程论文 成绩 学生姓名 刘佳 班 级 统计12( 2 )班 学 号 12213238
4、基于主成分分析的城镇居民的人均全年消费性支出以中国31个省市为例摘 要主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。通过降维技术把多个变量化为少数几个主成分的方法,这些主成分保留原始数据的绝大部分信息。通过主成分分析,可以从事务错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到一些对事务特征及其发展规律的深层次的启发,把研究工作引向深入。R软件是一款功能强大的、免费的、开源的、应用前景广阔的软件。【关键词】:主成分,多元统计,R软件0 引 言每个地区的各项家庭人均年消费性支出都不一样,而收集的数据有很多,全部罗列会很繁琐。我国地
5、区经济发展很不平衡,居民的人均消费性支出有很大差异。因此我们要把数据进行主成分分析,选出最主要的数据来代表各个省市的家庭人均消费性出。这个行为就显得尤为必要。1.主成分分析方法原理和步骤主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。1.1主成分分析方法原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量
6、Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。设F1表示原变量的第一个线性组合所形成的主成分指标,即 ,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以
7、F2是与F1不相关的X1,X2,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、Fm为原变量指标X1、X2XP第一、第二、第m个主成分。 根据以上分析得知: (1) Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=aiai,其中为X的协方差阵 (2)F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即Fm是与F1,F2,Fm1都不相关的X1,X2,XP的所有线性组合中方差最大者。F1,F2,Fm(mp)为构造的新变量指标,即原变量指标的第一、第二、第m个主成分。 由以上分析可见,主成分分析法的主要任务有两点: (1)
8、确定各主成分Fi(i=1,2,m)关于原变量Xj(j=1,2 , p)的表达式,即系数 ( i=1,2,m; j=1,2 ,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值 (这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数 ,为了加以限制,系数 启用的是 对应的单位化的特征向量,即有 = 1。 (2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度: 1.2主成分分析法的计算步骤 (1)计算协方差矩阵计算样品数据的协方差矩阵:=(s
9、ij)pp,其中 i,j=1,2,p(2)求出的特征值及相应的正交化单位特征向量 的前m个较大的特征值l1l2lm0,就是前m个主成分对应的方差,对应的单位特征向量就是主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:Fi =X主成分的方差(信息)贡献率用来反映信息量的大小,为:(3)选择主成分 最终要选择几个主成分,即F1,F2,Fm中m的确定是通过方差(信息)累计贡献率G(m)来确定当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。(4)计算主成分载荷 主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度,原来变量Xj(j=1,2 ,
10、 p)在诸主成分Fi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。: (5)计算主成分得分 计算样品在m个主成分上的得分: i = 1,2,m实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中:,根据数学公式知道,任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说,在标准化前
11、后变量的相关系数矩阵不变化。根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:1.计算相关系数矩阵2.求出相关系数矩阵的特征值及相应的正交化单位特征向量3.选择主成分 4计算主成分得分总结:原指标相关系数矩阵相应的特征值li为主成分方差的贡献,方差的贡献率为 ,越大,说明相应的主成分反映综合信息的能力越强,可根据li的大小来提取主成分。每一个主成分的组合系数(原变量在该主成分上的载荷)就是相应特征值li所对应的单位特征向量。2.主成分方法的实际应用本研究选取中国统计年鉴(2009)提供的包括全国31个省。直辖
12、市和自治区(港澳台除外)的各地区城镇居民家庭消费性支出作为观测样本,所选指标包括食品、衣着、居住、医疗、交通通信、教育、家政、耐用消费品。x1x2x3x4x5x6x7x8北京5556.541571.741286.321563.12293.23809.2584.71548.55天津5005.091153.661528.281220.921567.87715.2445.5467.75河北3155.41137.221097.41808.881062.31386.628.84305.7山西2974.761137.711250.87769.79931.33570.7935.38259.05内蒙古3553
13、.481616.561028.19869.711191.7568.3530.49307.92辽宁4378.141187.411270.95913.131295.7670.1330.4235.46吉林3307.141259.621285.28914.47954.96576.1721.25214.28黑龙江3128.11217.04941.25864.89749.05551.7316.11192.87上海7108.621520.611646.1755.23373.11165.06130.86545.3江苏4544.641166.911042.1794.631357.96750.9772.09365
14、.56浙江5522.561546.461333.69933.112392.631178.5478.67306.86安徽3905.051010.61988.12633.93920.72633.4531.57249.32福建5078.851105.311300.1540.631777.06686.3578.29320.38江西3633.05969.58815.15483.96872.57388.4827.95229.82山东3699.421394.111247.04799.791410.45580.133.5426.8河南3079.821141.76963.59790.87915.12464.35
15、23.36332.85湖北3996.271099.16914.26675.32890.12570.9928.21265.01湖南3970.421090.72960.82790.95971.05543.538.49254.18广东5866.91975.061748.16836.392623.08720.58120.04348.66广西4082.99772.28891.33529.361376.03483.6130.24294.83海南4226.9491.841106.39536.41303.5459.7424.66255.76重庆4418.341294.31096.82878.251044.36
16、536.4348.15405.48四川4255.481042.45819.28564.931121.45422.0730.03211.86贵州3597.94851.5836.54471.39871.15436.2425.36186.1云南4272.291026.5739.2606.861216.46294.2911.89158.87西藏4262.771011.82634.94317.08966.74205.453.5839.8陕西3586.131047.611007.68862.7967.52697.2939.86287.22甘肃3183.791022.62846.26654.82817.17
17、428.419.3238.04青海3315.94945.14802.73610.02787.63388.969.74242.21宁夏3352.831178.881069.15816.871096.32465.0827.94303.8新疆3235.771245.02781.9643.481003.89417.0623.89223.222.1计算相关矩阵 d=read.table(clipboard,header=T) cor(d) x1 x2 x3 x4 x5 x6 x7x1 1.0000000 0.2819462 0.6459568 0.2712858 0.9189221 0.7142440
18、0.8554823x2 0.2819462 1.0000000 0.3763614 0.6211735 0.4084226 0.5596444 0.3906042x3 0.6459568 0.3763614 1.0000000 0.5683671 0.7646681 0.7520014 0.7895356x4 0.2712858 0.6211735 0.5683671 1.0000000 0.3593429 0.5248155 0.3828978x5 0.9189221 0.4084226 0.7646681 0.3593429 1.0000000 0.7828692 0.9108506x6
19、0.7142440 0.5596444 0.7520014 0.5248155 0.7828692 1.0000000 0.8130313x7 0.8554823 0.3906042 0.7895356 0.3828978 0.9108506 0.8130313 1.0000000x8 0.5665381 0.5090256 0.7043491 0.6824421 0.6616299 0.6674963 0.7100433 x8x1 0.5665381x2 0.5090256x3 0.7043491x4 0.6824421x5 0.6616299x6 0.6674963x7 0.7100433
20、x8 1.00000002.2计算相关矩阵的特征值和主成分负荷 pca=princomp(d,cor=T) pcaCall:princomp(x = d, cor = T)Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 2.3209530 1.1083219 0.7288691 0.5469382 0.4736940 0.4345337 0.2988395 Comp.8 0.2278107 8 variables and 31 observations. pca$loadingsLoadings: Co
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 论文 案例 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。