应用统计复习重点.doc
《应用统计复习重点.doc》由会员分享,可在线阅读,更多相关《应用统计复习重点.doc(22页珍藏版)》请在咨信网上搜索。
1、聚类分析l 做聚类分析时,层次聚类法、K-均值聚类法、以及两步聚类法三种方法。应该如何选择层次聚类法、K-均值聚类法?首先看数据类型:如果参与分类的变量是连续变量,则三种方法都适用;如果变量中包含离散变量,则需要先对离散变量进行标准化处理,否则应该适用两步聚类法。再看数据量:当数据量较少时(如100),三种方法都适用;当数据量较多时(如1000),则应该考虑K-均值法或者两步聚类法。最后看分类对象:对样本分类,三种方法都适用;对变量分类,应选择层次聚类法。l Q聚类主要针对什么进行分类?R聚类主要针对什么分类?Q聚类:样本R聚类:变量l 对样本进行聚类分析中,点间距离的计算有多种不同的计算公式
2、,试写出三个不同的距离公式。欧式距离Euclidean平方欧式距离Squared Euclidean块距离Block切比雪夫距离ChebychevMinkovski距离马氏距离l 对变量进行聚类分析中,有哪两种测度相似度的方法? 夹角余弦 Pearson相关系数 l 层次聚类法(系统聚类法)计算类间距离有多种方法,试写出两种方法。l 在聚类分析中,两个样品之间的距离主要有哪些种定义方法?各有什么特点?最短距离法(最近邻法):首先合并最近的或最相似的两类,用两类间最近点的距离代表类间的距离。最长距离法:用两类间最远点的距离代表两类之间的距离。重心法:用两个类别的重心之间的距离来表示两个类别之间的
3、距离。组间平均距离法:SPSS默认,是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离,既不是最大距离也不是最小距离。离差平方和距离法:常用,使各类别中的离差平方和较小,而不同类别之间的离差平方和较大。l K-均值聚类是针对样品(CASE)的聚类还是针对变量的聚类?K-均值聚类是否需要在聚类之前先做标准化处理?K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大
4、,对大批量数据的聚类效率不高K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高,也被称为快速聚类(quick cluster)要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验l 系统聚类和快速聚类的特点分别是什么?系统聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类。根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相
5、反。(事先无须知道分类对象的分类结构,而只需要一批数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图。)快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验。(处理速度快,占用内存少,适用于大样本的聚类分析。)l 七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图。 答案:判别分析l 简述Fishers判别的原理。建立Fisher判别函数的准则是什么?Fisher判别,亦称典则判别,是将自变量投影到较低维度
6、的空间,再进行分类。相当于将自变量先提取几个主成分,只需根据主成分分类。Fisher准则:使得综合指标Z在A类的均数与在B类的均数 的差异尽可能大,而两类内综合指标Z的变异尽可能小)l 对Bayes判别法与Fisher判别法作比较(1)当k个总体的均值向量共线性程度较高时,Fisher判别法可用较少的判别函数进行判别,因而比Bayes判别法简单。另外,Fisher判别法未对总体的分布提出什么特定的要求。(2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。而这不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不
7、符合客观实际时,Bayes判别法也可能会导致错误的结论。l 判别分析的求解步骤l 常用判别方法1)距离判别法:基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。 判别函数为:W(x)=D(x,G2)-D(x,G1)判别准则为:注意:距离一般采用马氏距离;适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求。2)Fisher判别法:基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。所谓的投影实际上是利用方差分析的思想构造成一
8、个或几个超平面,使得两组间的差别最大,每组内的差别最小。费歇尔判别函数为: 判别准则: Fisher判别对各类分布、方差都没有限制。但当总体个数较多时,计算比较麻烦。建立Fisher判别函数的准则是:使得综合指标Z在A类的均数与在B类的均数 的差异尽可能大,而两类内综合指标Z的变异尽可能小3)Bayes判别法:基本思想是:设有两个总体,它们的先验概率分别为q1、q2,各总体的密度函数为f1(x)、f2(x),在观测到一个样本x的情况下,可用贝叶斯公式计算它来自第k个总体的后验概率为:一种常用判别准则是:对于待判样本x,如果在所有的P(Gk/x)中P(Gh/x)是最大的,则判定x属于第h总体。通
9、常会以样本的频率作为各总体的先验概率。 Bayes判别主要用于多类判别,它要求总体呈多元正态分布4)逐步判别法:逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。l 解读上表为样品判别结果表,对每个样品给出了了大部分的判别结果,第一列为样品编号,第二列为所有样品的实际分组情况,第三列是通过判别函数预测的分组,包括训练样品的回判结果及待判样品的判别分组。本例中样品全部判对,说明判别函数比较合理,一个待判样
10、品的最终归类是判为第一组,表格最后3列则给出了所有样品的判别得分情况。 第一个表为未标准化的典则判别函数系数表,由此可得未标准化的判别函数为U1(x)=0.610X1+0.051X2+0.158X3-4.852X4第二个表为各类判别函数值的中心。l 已知判别类和的Fisher线性判别函数为 : ,并且已知 , , 。用下列公式计算临界值: , 并判别新样品属于哪一类? 主成分分析l 主成分分析的目的是什么?(数据的压缩;数据的解释;常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释)主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的
11、、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。l 设p个原始变量为 ,新的变量(即主成分)为 , 主成分和原始变量之间的关系表示为?l 在进行主成分分析时是否要对原来的p个指标进行标准化?SPSS软件是否能对数据自动进行标准化?标准化的目的是什么?(标准化的目的是消除变量在水平和量纲上的差异造成的影响)需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要
12、进行数据标准化;进行主成分分析时SPSS可以自动进行标准化;求解步骤n对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n根据标准化后的数据矩阵求出相关系数矩阵n求出协方差矩阵的特征根和特征向量n确定主成分,并对各主成分所包含的信息给予适当的解释l 根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS的输出结果,请根据结果写出结论)表一:数据输入界面表二数据输出界面a)此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。观察各相关系数。若相关矩阵中的大部分相关系数小于0.
13、3,则不适合作因子分析表三数据输出界面b)表三:为各成分的公因子方差表,该表是选择主成分的主要依据。ponent为各成分的序号;initial Eigenvalues是初始特征值,total是各成分的特征值,% of variance是各成分的方差占总方差的百分比(贡献率)。Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数。Extraction sums 是因子提取结果。一般来说,当特征根需大于1,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分。由表可知,第一个主成分的特征根为3.963,方差贡献率为66.052%,这表示第一个主成分解释了原
14、始6个变量66.052%的信息,可以看出前两个成分所解释的方差占总方差的95.57%,仅丢失了4.43%的信息。因此最后结果是提取两个主成分。在extraction sums of squared loadings一栏,自动提取了前两个公因子,因为前两个公因子就可以解释总方差的绝大部分95.6%。表四数据输出界面c)表四是表现各成分特征值的碎石图。可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。而因子3、4、5之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息。明显的拐点为3,因此提取2个因子比较合适。证实了表三中的结果。碎石图(Scree Plot),
15、从碎石图可以看到6个主轴长度变化的趋势。实践中,通常选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可。表五数据输出界面d)表五是初始提取的因子载荷矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aij 。比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大第一主成分(ponent 1)对财政收入,固定资产投资,社会消费品零售总额有绝对值较大的相关系数;第二主成分(ponent
16、 2)对人均gdp,年末总人口,居民消费水平有绝对值较大的相关系数。可以分别对其进行命名。 因子分析l 设p个原始变量为 ,要寻找的m个因子(m1)提取公因子时的公因子方差,表中的公因子方差都很高,说明提取的成分能很好的描述这些变量。所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的。 变量xi的信息能够被k个公因子解释的程度表四因子分析SPSS输出界面c)表四为各成分的公因子方差。各因子所解释的原始变量的方差 。ponent表示特征值按大小排序的因子编号。Initial下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。Extraction是所提
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 复习 重点
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。