主成分分析法教案.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 教案
- 资源描述:
-
主成分分析法 一、主成分分析(principal components analysis)也称为主分量分析,是由Holtelling于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。 二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是相关的, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。 任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。 例1、考察对象股票业绩(这里单个股票为观察个体)。 (1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。 因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数几个综合指标加以刻化。 (2)考察20支不同的股票。从数学角度看,每种影响因素是随机变量(Xi),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。 三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少? 1、主成分的一般定义 设有随机变量X1,X2,…,Xp, 其样本均数记为,,…,,样本标准差记为S1,S2,…,Sp。首先作标准化变换 我们有如下的定义: (1) 若Y1=a11x1+a12x2+ … +a1pxp,,且使 Var(Y1)最大,则称Y1为第一主成分; (2) 若Y2=a21x1+a22x2+…+a2pxp,,(a21,a22,…,a2p)垂直于(a11,a12,…,a1p),且使Var(Y2)最大,则称Y2为第二主成分; (3) 类似地,可有第三、四、五…主成分,至多有p个。 2、主成分的性质 :Y1,Y2,…,Yp具有如下几个性质 (1) 主成分间互不相关,即对任意i和j,Yi 和Yj的相关系数 Corr(Yi,Yj)=0 i ¹ j (2) 组合系数(ai1,ai2,…,aip)构成的向量为单位向量, (3) 各主成分的方差是依次递减的, 即 Var(Y1)≥Var(Y2)≥…≥Var(Yp) (4) 总方差不增不减, 即 Var(Y1)+Var(Y2)+ … +Var(Yp) =Var(x1)+Var(x2)+ … +Var(xp) 这一性质说明:主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。 (5) 主成分和原变量的相关系数 Corr(Yi,xj)=aij=aij (6) 令X1,X2,…,Xp的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值li就是第i主成分的方差, 即 Var(Yi)= li 其中li为相关矩阵R的第i个特征值(eigenvalue) l1≥l2≥…≥lp≥0 3、主成分的数目的选取 前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,Y1,Y2等前几个综合变量的方差较大,而Yp,Yp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。 保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。 四、主成分分析的一般步骤 1、设观察个体的变量指标为x1,x2,…,xp,它们的综合指标——主成分为z1,z2,…,zm(m≤p),则 z1,z2,…,zm分别称为原变量指标x1,x2,…,x6的第一,第二,…,第m主成分。 2.收集原始数据,得如下数据表: 观察个体 x1 x2 Xp 个体1 个体2 个体n 设有随机变量x1,x2,…,xp, 其样本均数记为,,…,,样本标准差记为S1,S2,…,Sp。首先作标准化变换 3、计算相关系数矩阵,对应的特征值(按从大到小排列)及其对应的特征向量 Matlab命令: (1)R= corrcoef(X) (2)[b,c]=eigs(R) 4.计算主成分贡献率及累计贡献率 类似形式结果: 5.计算主成分载荷 类似形式结果: 6.进行结果分析 类似形式: ▲ 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表; ▲ 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表; ▲ 第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表; ▲ 根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。 例2、主成分分析方法应用实例 1) 实例1: 流域系统的主成分分析(张超,1984) 表3.5.1(点击显示该表)给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数, x9代表流域盆地面积(km2)。 注:表中数据详见书本87和88页。 (1) 分析过程: ① 将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。 ② 由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。 z3上的载荷 (表3.5.4)。 (2) 结果分析: ▲ 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表; ▲ 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表; ▲ 第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表; ▲ 根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。 (2) 实例之二: 中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估 聚类分析 聚类分析就是用数学方法对事物进行分类,如(1)我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;(2)国家之间根据其发展水平可以划分为发达国家、发展中国家;环境优劣分类等。聚类分析一种多元统计方法。 基本思想: (1) 确定观察个体的观测指标,找出能够度量相似程度的统计量; (2) 建立相似关系矩阵R。 (3) 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。 (4) 分类结果可以用聚类谱系图表现,非常清楚直观。展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




主成分分析法教案.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/3057904.html