高维空间数据灰色凸关联度聚类算法仿真.pdf
《高维空间数据灰色凸关联度聚类算法仿真.pdf》由会员分享,可在线阅读,更多相关《高维空间数据灰色凸关联度聚类算法仿真.pdf(5页珍藏版)》请在咨信网上搜索。
1、523第40 卷第6 期2023年6 月真机仿计算文章编号:10 0 6-9348(2 0 2 3)0 6-0 52 3-0 5高维空间数据灰色凸关联度聚类算法仿真杨成义,熊才权?(1.广东理工学院信息技术学院,广东肇庆52 6 10 0;2.湖北工业大学计算机学院,湖北武汉430 0 6 8)摘要:为了提升数据聚类效果与效率,提出一种基于灰色凸关联度的高维空间数据聚类算法。采用灰色凸关联度组建截断幂基三次样条函数,根据灰色凸关联算法组建关联度模型去除高维空间数据中的噪声。选择相似度最高的两个簇类合并处理,组建一个最相似线性表,采用其表示每个簇类和最相似簇类两者之间的相似度。在聚类过程中,选择
2、最相似的簇类合并,同时引人信息熵对聚类结果迭代寻优,最终实现高维空间数据聚类。经过具体实验测试结果分析可知,所提算法不仅能够有效降低时间复杂度,同时还能够获取精准的聚类结果。关键词:灰色凸关联度;高维空间;数据聚类;信息;最相似线性表中图分类号:TP391文献标识码:BSimulation of Grey Convex Correlation Degree ClusteringAlgorithm for High-Dimensional Spatial DataYANG Cheng-yi,XIONG Cai-quan?2(1.School of Information Technology,G
3、uangdong Technology College,Zhaoqing Guangdong 526100,China;2.School of Computer Science,Hubei University of Technology,Hubei Wuhan 430068,China)ABSTRACT:In order to improve the effect and efficiency of data clustering,this paper presented an algorithm forhigh-dimensional spatial data clustering bas
4、ed on gray convex relation.Firstly,the grey convex relation was used toconstruct a truncated power cubic spline function.And then,the algorithm based on grey convex relation was adoptedto build a relation model,thus removing the noise in high-dimensional spatial data.Secondly,the two clusters with t
5、hehighest similarity were merged to form a most similar linear table,which was used to represent the similarity betweeneach cluster and the most similar cluster.In the clustering process,the most similar clusters were merged.Meanwhile,information entropy was introduced to iteratively optimize the cl
6、ustering result.Finally,high-dimensional spatial dataclustering was completed.After analyzing the specific expermental tex results,it can be seen that the proposed algo-rithm can not only effectively reduce the time complexity,but also obtain accurate clustering results.KEYWORDS:Gray convex relation
7、;High-dimensional space;Data clustering;Information entropy;Most similarlineartable1引言由于受到维度灾难等多方面因素的影响,为数据聚类提出了全新的挑战1-2 ,高维空间数据聚类成为当前数据处理技术研究的主要内容。聚类分析主要是通过相似度将数据集中的各个对象划分为多个不同的类或者簇。目前,已经出现大量比较完善的低维数据聚类算法,但是由于受到“维数灾难效应”的影响,导致对低维数据有效的聚类算法常常对收稿日期:2 0 2 2-0 6-30高维数据失效,而高维数据一直占据主要地位,所以研究高维数据聚类问题是重中之重。武
8、森等人【3 通过调整参数对原始稀疏差异度展开拓展处理,同时采用位集的方式完成数据聚类。朱颖雯等人【4 将随机投影和自适应谐振理论两者有效结合实现数据流聚类处理。万静等人5 优先在高维数据集中选择合适的维度构建子空间,然后建立混合网络;最后利用子空间的相似度和相异度对数据维度实施剪枝处理,确保子空间密度得到大幅度提升,实现数据聚类处理。以上几种算法都取得了比较好的结果,但是聚类时间比较长,聚类结果也不是十分准确。524oa为此,结合灰色凸关联度提出一种全新的聚类算法。经实验对比分析可知,所提算法能够获取高效率以及高精度的聚类结果。2一种高维空间数据聚类算法2.1高维空间数据去噪对于二维数据,对应
9、的正离散系统行为序列H可以表示为以下形式hllh12h13mh22h23m3H(1)3mh2nZ13nhnl1nm式中,m代表行数;n代表列数。通过正离散系统行为序列组建数据在点(x,y)处的矩阵da(x,y),如式(2)所示da(x,y)2=c(+1,)-c(x,y)(2)da式中,da代表灰色凸关联度系数;c,代表灰色关联序列。当该矩阵属于半正定矩阵,则说明全部的主子式大于等于0,同时对应点所在的位置是凸的,也可以将其称为该点的凸度,将凸度看作包含分量的向量。假设随机两个对象在某一个点的凸度越接近,则说明两者的关联度就越大。结合灰色凸关联度组建一种可以降低噪声的截断幂基三次样条函数模型K(
10、S),如式(3)所示K(S)=G(x.)-y.):+2K;(3)m=1式中,G(x)代表惩罚项;y:代表惩罚参量;K,ISI,代表约束条件。从模型的表达式来看,主要通过约束条件来控制高维空间中噪声数据的变化情况。结合相关先验知识可知,当噪声使近似函数曲线的波动量以及曲率变化和凸变化率比较明显时,需要引人惩罚向量,以此降低弱噪声对曲线扰动产生的影响,确保离散数据的函数曲线更加平滑。为了有效降低噪声对系统因素间实际关系的影响,组建包含噪声数据灰色样条绝对关联度模型,通过模型去除数据中的噪声6-7 ,详细的操作步骤如下所示:1)通过截断幂基三次样条函数对离散噪声数据展开插值处理,同时对K(S)展开极
11、小化处理,得到与之对应的系数矩阵=(B B+G(x.)-y)(4)式中,o代表系数矩阵;B()代表欧式向量。2)通过截断幂基样条函数的连续性展开相关计算。3)通过构建的模型对高维空间数据去噪处理,得到去噪后的数据,如式(5)所示1+IP:+p,IRnoise(x,y)(5)1+Ip,I+IP,I+IP,-p,式中,Rnoise(x,y)代表去噪后的数据;P,和p,代表观测数据。2.2高维空间数据聚类簇类合并的重要依据即为相似度计算,各个数据集在子空间聚类的过程中8-9,会存在不同程度的差异,比较明显的差异就是子空间的大小不等。在计算随机簇类相似度问题的过程中,需要优先考虑任意两个簇类在子空间并
12、集上的相似度,以此为依据可以获取簇类不同属性,确保簇类的属性可以和子空间的并集相对应。簇类不仅仅用来记录全部数据集中的相关元素,同时还能够记录子空间的相关信息和各个簇类对应的信息表。另外,在实际计算的过程中,需要重点维护和管理最相似线性表,它主要负责计算不同簇类之间的相似度。在高维空间的基础上组建信息表,子空间内的各个簇会随着元素的不断调整而实时更新。设定数据集E中包含P个数据,则子空间内随机两个数据的相似度Sim(x,y)为1+IP,I+IP,I+IP,-P,lSim(x,y)=(6)I x,*y,*z,1式中,x,y,和z,分别代表不同类型数据的属性值。在实行簇类合并的过程中,需要计算不同
13、簇类之间的相似度,同时将其比较,选择相似度最高的两个簇类合并处理,以此为依据建立最相似线性表,为后续数据聚类奠定坚实的理论基础。在实际计算时,需要实时定位各个簇所在的具体坐标位置,同时准确区分各个簇,并对各个簇编号,方便后续的处理和研究。通过上述分析,引人信息熵,设定信源为U,则对应的概率空间可以表示为式(7)的形式TUui,u2,u3,um(7)Lt(u)Lt(ur),t(uz),t(u,),.,t(um)式中,U代表概率矢量;t(u)代表概率矢量的元函数。对应的信息摘计算公式为D(x)=-t(um)xl x,*y,*z,(8)m=式中,D(x)代表信息。设定所给定的分类数据集为R,各个数据
14、包含d个属性。将全部数据集归类到设定的类中,则第i个类对应的属性域l,中各个值的概率9,(i)可以表示为式(9)的形式(q(l,1),q.(5j,2),q(5.3),q;(lj.m),q(5.)9.(j)F3(9)式中,.(J.)代表数据集不确定性度量;F,代表数据集中各个数据的离散程度。通过相关的先验知识可知,不同数据集中的数据对象属性是完全独立的,则第i类的信息熵D(x)可以表示为:525m1D(x.)=-Zt(um(10)9.()n=1式中,平均信息摘可以表示为式(11)的形式D(x)=IP,I+IP,I(11)9(j)式中,D(x)代表平均信息摘。对于高维空间的数据而言,传统的相异度量
15、公式并不适用,需要设定一个全新的数据集和全新的维度,为各个类寻找对应的子空间,同时构建目标函数,确保目标函数的取值最小化,详细的操作步骤如下所示:1)在计算的初始阶段:需要选择相异度取值较大的多个数据集对象,主要借助贪婪算法实现,同时还需要将数据集中剩余部分的数据全部划分到对应的类别中10-在选取数据对象的过程中会消耗大量的时间,所以在贪婪算法的基础上加人ESCHCD抽样,确保计算时间得到大幅度降低。在原始数据集E中抽取样本S(ISIIEI),同时在S中通过贪婪算法选择差异度比较大的n个数据对象。加人抽样方法之后,在确保计算精度的情况下,还可以有效提升计算效率。通过式(12)计算得到样本集S的
16、大小11Slog(x,yi,z.)+210g(12)TD(x)IP经过选择得到相异度比较大的数据后,需要借助距离公式将全部数据集归类到以n个数据为中心点的类中,同时将其划分到相应类别中,直至数据集E中的数据全部划分到对应的类中。2)优化阶段:当高维空间中的数据集完成划分处理后12 ,得到对应的初始划分结果,以初始划分结果为依据展开相关计算,获取对应类的子空间;同时在迭代寻优的过程中如果数据持续发生变化则继续计算;反之,则停止迭代,实现优化的主要目的就是查找子空间同时完成迭代寻优。ESCHCD是现阶段使用比较广泛的一种聚类方法,同时还可以确定子空间的具体大小。子空间的成员以及大小全部是由子空间的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据 灰色 关联 度聚类 算法 仿真
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。