6.3-模糊聚类.ppt
《6.3-模糊聚类.ppt》由会员分享,可在线阅读,更多相关《6.3-模糊聚类.ppt(65页珍藏版)》请在咨信网上搜索。
1、1第六章 聚类分析Clustering analysis 2模糊均值聚类模糊均值聚类1模糊减法聚类模糊减法聚类26.3 模糊均值聚类变量聚类变量聚类36.3.1 模糊C均值聚类 许多分类中,分类对象没有严格界限许多分类中,分类对象没有严格界限,如好人与坏人如好人与坏人,高与矮高与矮.用传统聚类方法用传统聚类方法(系系统聚类、统聚类、K K均值聚类均值聚类)进行分类进行分类,将待分类对将待分类对象严格划分到某个类中不尽合理象严格划分到某个类中不尽合理.L.A.Zadeh L.A.Zadeh于于2020世纪世纪6060年代中提出模糊年代中提出模糊集概念集概念,人们开始用模糊方法处理聚类问题人们开始
2、用模糊方法处理聚类问题,形成模糊聚类分析形成模糊聚类分析.模糊聚类样品以一定概模糊聚类样品以一定概率属于某个指定类率属于某个指定类.常用方法模糊常用方法模糊C C均值聚类均值聚类(fuzzy c-mean cluster)(fuzzy c-mean cluster)样品集,样品集,n-n-样本容量样本容量.将将X X分为分为c c类类且且设设是第是第个样品属于第个样品属于第 个中心的隶属度,则个中心的隶属度,则特点:每一列元素只有一个特点:每一列元素只有一个1 1,每个样品只能属于,每个样品只能属于1 1类类.-隶属度矩阵或特征矩阵隶属度矩阵或特征矩阵1.硬C均值聚类表明表明j j个样品归属个
3、样品归属i i类类样品集样品集隶属度矩阵定义:隶属度矩阵定义:j j个样品属于第个样品属于第i i个中心的隶属度个中心的隶属度-隶属度矩阵隶属度矩阵2.模糊C均值聚类思想-观测数据矩阵观测数据矩阵划分划分X X为为c c类类67定义目标函数:定义目标函数:其中其中是是c c个类的聚类中心个类的聚类中心是加权指数,是加权指数,的取值能够影响聚类的效果的取值能够影响聚类的效果(6.3.1)最优划分:选择最优划分:选择(1)(1)预先给定分类数预先给定分类数c c、加权指标数、加权指标数m m、初始化隶属度矩阵、初始化隶属度矩阵(2)(2)计算聚类中心计算聚类中心(3)(3)计算新的隶属度矩阵计算新
4、的隶属度矩阵;3.模糊C均值聚类步骤(6.3.3)(6.3.2)center,U,obj_fcn=fcm(data,n_cluster,options)udata-data-原始观测数据,每行为样本原始观测数据,每行为样本(或观测或观测),列为指标;,列为指标;un_clustern_cluster-预先给定的聚类数;预先给定的聚类数;uoptionsoptions包含包含4 4个元素的向量,用来设置迭代参数。第一个元素个元素的向量,用来设置迭代参数。第一个元素为隶属度幂指数为隶属度幂指数m m,值大于,值大于1 1,默认,默认2 2;第;第2 2个元素是最大迭代次数,个元素是最大迭代次数,默
5、认默认100100;第;第3 3个参数是目标函数的终止容限,默认个参数是目标函数的终止容限,默认0.000050.00005;第;第4 4个个元素用来控制是否显示元素用来控制是否显示 中间迭代过程,取中间迭代过程,取0 0表示不显示,表示不显示,1 1表示显表示显示示。4.MATLAB模糊C均值聚类命令fcm:center,U,obj_fcn=fcm(data,n_cluster,options)ucenter-n_clustercenter-n_cluster行行p p列矩阵,每列矩阵,每i i行表示第行表示第i i类重心类重心;uU-U-隶属度矩阵隶属度矩阵(n_cluster(n_clu
6、ster行行N N列列),每列元素和均为,每列元素和均为1 1;uU(i,j)-U(i,j)-第第j j个个体属于第个个体属于第i i列的隶属度列的隶属度;uobj_fcnobj_fcn目标函数向量列向量,第目标函数向量列向量,第k k个元素表示第个元素表示第k k步迭代目标步迭代目标函数值,在每次计算过程中均使用公式函数值,在每次计算过程中均使用公式(6.3.1).(6.3.1).4.MATLAB模糊C均值聚类命令fcm:例例6.3.1 6.3.1 用模糊均值聚类法对用模糊均值聚类法对FisherFisher的的IrisIris数据进行分类数据进行分类%导入导入irisiris数据数据,me
7、asmeas为为150150行行4 4列的列的3 3个总体的观测数据个总体的观测数据解:解:load load fisheririsfisheririscenter u=center u=fcmfcm(meas,3)(meas,3)%对对measmeas用模糊用模糊C C均值聚类法均值聚类法,分三分三类类,聚类中心聚类中心center,center,隶属度矩阵隶属度矩阵u u,距离为欧式距离,距离为欧式距离,m=2m=2index1=find(u(1,:)=max(u)index1=find(u(1,:)=max(u)%寻找属于第一类的样品,按隶属度最大原则归类寻找属于第一类的样品,按隶属度最
8、大原则归类index2=find(u(2,:)=max(u)index2=find(u(2,:)=max(u)%寻找属于第二类的样品寻找属于第二类的样品index3=find(u(3,:)=max(u)index3=find(u(3,:)=max(u)%寻找属于第三类的样品寻找属于第三类的样品index1=第一类样品编号第一类样品编号52 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 7071 72 73 74 75 76 77 79 80 81 83 84 85 86 87 8889 90 91 92 93 94 95 96 98 99 10
9、0 102 107 114 120 122 124 127 128 134 139 143 147 150index2=第二类样品编号第二类样品编号51 53 78 101 103 104 105 106 108 109 110 111 112 115 116117 118 119 121 123 125 126 129 130 131 132 133 135 136 137 138 140 141 142 144 145 146 148 149index3=第三类样品编号第三类样品编号522 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 5319 20 21 2
10、2 23 24 25 26 27 28 29 30 31 32 7034 35 36 37 38 39 40 41 42 43 44 45 46 47 8848 49 5013+3个误判个误判,误判率误判率16/150=0.106716/150=0.1067从聚类的结果来看,只有第三类与预先给定的完全一致,从聚类的结果来看,只有第三类与预先给定的完全一致,其余两类均与实际的分类情况相差较大,因此误判率较高,其余两类均与实际的分类情况相差较大,因此误判率较高,误判率为误判率为16/150=0.106716/150=0.1067若选择若选择m=3,m=3,则误判率为则误判率为15/150=0.11
11、5/150=0.1原程序原程序修改为修改为center u=fcm(x,3,3)center u=fcm(x,3,3)14案例案例 ExcelExcel表表anli6_3.xls anli6_3.xls 列出了列出了20062006年我国年我国3131个省、个省、市、自治区和直辖市的市、自治区和直辖市的1212个月的月平均气温数据,数据个月的月平均气温数据,数据保存在文件保存在文件anli6_3.xlsanli6_3.xls中,数据格式如表所示,根据中,数据格式如表所示,根据这些数据,利用模糊这些数据,利用模糊C C均值聚类方法,对各地区进行聚均值聚类方法,对各地区进行聚类分析,并给出聚类分析
12、,并给出聚3 3类结果。类结果。1516(1)读取anli6_3.xls中数据,并对数据进行标准化xdata,textdata=xlsread(anli6_3.xls);%从文件从文件anli6_3.xlsanli6_3.xls读取数据,读取数据,xdataxdata是是读取读取数据数据结果结果,textdatatextdata是提取是提取的的文本数据文本数据city=textdata(4:end,1);%提取元胞数据组提取元胞数据组textdatatextdata第第1 1列列4 4行至最后一行,即城市名称数据行至最后一行,即城市名称数据X=zscore(xdata);%调用调用zscore
13、zscore函数将平均气温数据函数将平均气温数据xdataxdata标准化标准化17读取的文本数据结果读取的文本数据结果textdata18读取的样本城市名称读取的样本城市名称读取的数值型原始数据读取的数值型原始数据19(2)模糊均值聚类调用调用fcmfcm函数,根据标准化的平均气温数据矩阵函数,根据标准化的平均气温数据矩阵X X对各地区进对各地区进行模糊均值聚类,将各地区分为行模糊均值聚类,将各地区分为3 3类。程序:类。程序:options=3,200,1e-6,0;options=3,200,1e-6,0;%设置幂指数设置幂指数m=3,m=3,最大迭代次数最大迭代次数200200,目标函
14、数终止容限为,目标函数终止容限为0.000060.00006,不显示中间迭代过程,不显示中间迭代过程,V,U,Jm=fcm(X,3,options)V,U,Jm=fcm(X,3,options)%调用调用fcmfcm函数进行模糊聚类,返回类中心坐标矩阵函数进行模糊聚类,返回类中心坐标矩阵centercenter,隶属度矩阵隶属度矩阵U U,目标函数,目标函数obj-fcnobj-fcn20V=类中心,每行为一个类的中心坐标类中心,每行为一个类的中心坐标-0.0068 0.0092 0.1915 0.1204 0.2096 0.4829 0.1347 0.0285 0.0972 0.1299 0
15、.0145-0.0330 第第1 1个类中心向量个类中心向量V1V1,各指标取值居于中间,各指标取值居于中间-1.2112 1.1743 1.2768-1.1717-0.9853-0.9953-0.8856-0.8888-1.0991-1.1692-1.1928-1.2039 第第2 2个类中心向个类中心向量量V2V2,各指标取值小,均为负值,气温低的地区,各指标取值小,均为负值,气温低的地区0.7462 0.6675 0.6983 0.7620 0.7274 0.5940 0.9069 0.9482 0.8846 0.8567 0.8363 0.8068第第3 3个类中心向量个类中心向量v3
16、v3,各指标取值均大于其他类,属于气温高的地区,各指标取值均大于其他类,属于气温高的地区21U=Columns 1 through 6 列列为样为样品品 0.5858 0.5614 0.7117 0.3973 0.1115 0.1628 归归1 1类隶属度类隶属度0.2075 0.2273 0.1149 0.4072 0.8180 0.7312大大 归归2 2类隶属度类隶属度0.2067 0.2113 0.1734 0.1955 0.0705 0.1060 隶属度隶属度 1 1号样品北京属于号样品北京属于1 1类隶属度类隶属度0.58580.5858最大,归属最大,归属1 1类,类,2 2号天
17、津号天津0.56140.5614归属归属1 1类,类,3 3号石家庄号石家庄0.71170.7117类似类似 Columns 7 through12 0.1752 0.2106 0.3008 0.4368 0.2424 0.4463 0.7023 0.6367 0.1059 0.1125 0.0866 0.1089 0.1226 0.1527 0.5934 0.4507 0.6710 0.4448 9 9号样品上海归属号样品上海归属3 3类隶属度类隶属度0.59340.5934最大,归最大,归3 3类类隶属度矩阵为3*31矩阵,每列是一个城市属于3类的隶属度22程序程序id1=find(U(1
18、,:)=max(U);id1=find(U(1,:)=max(U);%查找第查找第1 1类中所有城市序号类中所有城市序号id2=find(U(2,:)=max(U);id2=find(U(2,:)=max(U);%查找第查找第2 2类中所有城市序号类中所有城市序号id3=find(U(3,:)=max(U);id3=find(U(3,:)=max(U);%查找第查找第3 3类中所有城市序号类中所有城市序号city(id1)city(id1)%查找第查找第1 1类所包含的城市类所包含的城市city(id2)city(id2)%查找第查找第2 2类所包含的城市类所包含的城市city(id3)cit
19、y(id3)%查找第查找第3 3类所包含的城市类所包含的城市(3)查看聚类结果231 1号样品号样品北京北京隶属隶属1 1类隶属度类隶属度度度0.58580.5858大于大于其他其他2 2类,归属类,归属1 1类类,其他类似,得分类结果如下:,其他类似,得分类结果如下:ans=第一第一类类包含的城市名称包含的城市名称 北京北京 天津天津 石家庄石家庄 合肥合肥 济南济南 郑州郑州 温州温州 贵阳贵阳 昆明昆明 西安西安 ans=第第2类类包含的城市名称包含的城市名称 太原太原 呼和浩特呼和浩特 沈阳沈阳 长春长春 哈尔滨哈尔滨 拉拉 萨萨 兰州兰州 西宁西宁 银川银川 乌鲁木齐乌鲁木齐 ans
20、=第第3类类包含的城市名称包含的城市名称 上海上海 南京南京 杭州杭州 福州福州 南昌南昌 武汉武汉 长沙长沙 广州广州 南宁南宁 海口海口 重庆重庆 模糊模糊C C均值聚类的前提条件是需均值聚类的前提条件是需要知道分类数要知道分类数c,c,如果对于分类数无先如果对于分类数无先验信息,可运用模糊减法聚类以确定验信息,可运用模糊减法聚类以确定相应分类数和聚类中心,相应分类数和聚类中心,相应地该相应地该聚类数及聚类中心可以应用到模糊聚类数及聚类中心可以应用到模糊均值聚类,因此,模糊减法聚类可看均值聚类,因此,模糊减法聚类可看作是模糊均值聚类前期工作作是模糊均值聚类前期工作6.3.2模糊减法聚类(自
21、学不要求)设为样品集,为样本容量模糊减法表示聚类中心 与样品 之间欧氏距离处的爬山函数(mountainfunction)定义为聚类认为每个样品均为潜在的聚类中心,令平方,在其中是一个正常数.爬山函数的取值越大,说明聚类中心与样品的距离越小,因此,我们选择那些能够使得爬山作为聚类中心.函数取得较大值的令是爬山函数的最大值,即,同时令对应的中心为,于是,为第一个聚类中心,为了对聚类的影响,寻找其他的聚类中心,有必要消除因此,考虑如下的函数其中,为新的爬山函数,为上一步的爬山函数,是的最大值,是新的聚类中心,是一个正常数.MATLAB中模糊减法聚类命令SUBCLUST格式格式C=SUBCLUST(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 6.3 模糊
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。