医学统计学-第十九章-聚类分析.ppt
《医学统计学-第十九章-聚类分析.ppt》由会员分享,可在线阅读,更多相关《医学统计学-第十九章-聚类分析.ppt(39页珍藏版)》请在咨信网上搜索。
1、第十九章 聚类分析(Clustering Analysis)ContentSimilarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis 判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计分析方法。
2、聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数(similarity coefficient)的定义。第一节 相似系数1R型(指标)聚类的相似系数 X1,X2,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间
3、的相似系数:绝对值越大表明两变量间相似程度越高。同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。2Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。(1)欧氏距离:欧氏距离(Euclidean distance)(2)绝对距离:绝对距离(Manhattan distance)(3)Minkowski距离:绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单
4、;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。(4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobis distance)的计算公式为 其中向量 。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。第二节第二节 系统聚类系统聚类 系统聚类(hierarchical clustering analysis)是将相似的样品或变量归类的最常用方法,聚类过程如下:1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)
5、间的相似系数。相似系数矩阵是对称矩阵;2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数;重复第二步,直至全部样品(或变量)被并为一类。一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。1最大相似系数法 类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相
6、似系数最大。2最小相似系数法 类间相似系数计算公式为3重心法(仅用于样品聚类)用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为 4类平均法(仅用于样品聚类)对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。5离差平方和法 又称Ward法,仅用于样品聚类。此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果
7、将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。聚类过程如下:(1)各个指标独自成一类G1=X1,G2=X2,G3=X3,G4=X4,共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类合并成G5=X1,X2,形
8、成3类。计算G5与G3、G4间的类间相似系数 G3,G4,G5的类间相似矩阵(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并成G6=G3,G4,形成两类。计算G6与G5间的类间相似系数。(4)最终将G5,G6合并成G7=G5,G6,所有指标形成一大类。根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:X1,X2,X3,X4,即长度指标归为一类,围度指标归为另一类。身高下肢长腰围胸围图19-1 4个指标聚类的系统聚类图0.0850.7320.234例19-2 今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳
9、食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。表19-1 4个运动项目的测定值运动项目名称能耗 X1(焦耳/分、m2)糖耗 X2(%)负重下蹲G127.89261.421.3150.688引体向上G223.47556.830.1740.088俯 卧 撑G318.92445.13-1.001-1.441仰卧起坐G420.91361.25-0.4880.665本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化,分别是Xi的样本均数与标准差。变换后的数据列在表19-1的 ,列。聚类过程如下:(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵
10、。负重下蹲与引体向上之间的距离按公式(19-3)计算得同样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵(2)G2,G4间距离最小,将G2,G4并成一新类G5=G2,G4。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离G1,G3,G5的距离矩阵(3)G1,G5间距离最小,将G1,G5并成一新类G6=G1,G5。计算G6 与G3之间的距离(4)最终将G1,G6合并成G7=G1,G6,所有指标形成一大类。根据聚类过程,绘制出系统聚类图(见图19-2)。结合系统聚类图和专业知识认为分成两类较好:G1,G2,G4,G3。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大,训练时应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 统计学 孙振球 第十九 聚类分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。