基于t-SNE降维的密度峰值聚类算法.pdf

上传人：自信****多点

文档编号：309463

上传时间：2023-08-01

格式：PDF

页数：5

大小：851.36KB

《基于t-SNE降维的密度峰值聚类算法.pdf》由会员分享，可在线阅读，更多相关《基于t-SNE降维的密度峰值聚类算法.pdf（5页珍藏版）》请在咨信网上搜索。

1、2023年4月Apr.,2023第39卷第2期Vo l.39,No.2滨州学院学报Jo u rn a l o f Bin zh o u Un iv ersit y【工程与技术研究】基于廿SNE降维的密度峰值聚类算法何婷霭，李秦(兰州交通大学数理学院，甘肃兰州730070)摘要：为了提高密度峰值聚类(DPC)算法处理复杂高维数据的能力，提出了一种基于 z-SNE降维的密度峰值聚类算法OSNE-DPC)。该算法用f-SNE算法对数据进行预处理，将高维数据点间的关系用概率分布映射到低维空间中，通过最小化相对爛最大化保留数据餉本质特征，使用密度峰值聚类算法进行聚类操作。仿真实验结果表明,f-SNE

2、-DPC可以高效地对高维数据进行聚类，在A MI指标上的聚类结果可达0.828。关键词:聚类分析；密度峰值聚类比SNE算法；有效性度量中图分类号:TP 181 文献标识码：A DOI：10.13486/j.c n k i.1673-2618.2023.02.014聚类分析是数据挖掘技术的基础与核心，它能够在无监督的条件下探索数据背后潜在的关系。依据原理的不同，将现有的聚类分为5类划分聚类、层次聚类、网格聚类、基于密度的聚类和模型聚类，每种聚类方法都有其独特的优势。密度峰值聚类(Den sit y Pea k s Cl u st erin g,DPC)算法是2014年由意大利学者Al ex

3、 Ro d rigu ez和 Al essa n d ro La io提出的，该算法不仅简单易懂、参数少，而且不需要迭代，能够对任意形状的数据集进行高效聚类。正是基于这些优势-DPC算法被广泛应用于机器学习、模式识别和图像处理等多个领域。但该算法也有不足之处:高维数据集聚类效果不佳;算法中的唯一参数一截断距离需人工选取，对聚类结果影响较大;不适用于大规模数据的聚类分析。在对高维数据进行聚类研究时发现，进行降维操作可以减少数据冗余，提高聚类效率。主成分分析(Prin c ipa l Co mpo n en t An a l ysis,PCA)可以去除部分噪声并发现数据中的部分数据结构,但对

4、于非线性数据，并不能很好地发现数据的隐含信息；线性判别分析(Lin ea r Disc rimin a n t An a l ysis,LDA)是一种基于监督学习的数据降维方法，但可能过度拟合数据;等度量映射(Iso met ric Ma ppin g,Iso ma p)使用测地线距离计算数据点间的距离，但对噪声敏感且它的拓扑结构不稳定。基于上述表述，将分布随机近邻嵌入(/-d ist ribu t ed St o c h a st ic Neigh bo r Embed d in g,t-SNE)这一降维方法引入 DPC 算法中，提出了一-种基于f-SNE降维的密度峰值聚类算法(z-

5、SNE-DPC).J-SNE-DPC将高维数据点通过概率分布映射到低维空间中，随后用传统的DPC算法将其进行聚类，通过实验验证,t-SNE-DPC对高维数据有很强的实用性。1 DPC算法密度峰值聚类算法是基于密度的聚类算法，它的核心在于对聚类中心的刻画。该算法适用于聚类中收稿日期：2022-04-12基金项目：国家自然科学基金地区科学基金项目(11262009)第一作者简介：何婷霭(1997),女，甘肃白银人，硕士研究生，主要从事机器学习研究。E-ma ih h 2398385335163.c o m 83 滨州学院学报第39卷1口0,(1)0,z$0。心点的局部密度较高，且比其密度高的点

6、之间的距离相对较远的情况。假设有数据集合S=d,工2，北”=1,2,”是其指标集，右=d is t(m,巧)是数据点竝与之间的欧氏距离期。定义局部密度 Pi为Pi=%(场一力),尤(工)=其中，么是截断距离,需要人为指定，一般选取整个数据集的1%2%作为截断阈值。x(z)是指示函数。定义相对距离&为Si=min dij),(2)当数据点8的局部密度达到最大时,相对距离变为ft=ma x W,)o局部密度和相对距离确定完成后，通过绘制决策图选k聚类中心，一般选择决策图右上方的点，这些点既有较高的局部密度，也有较大的相对距离。最后采用一步分配策略进行非聚类中心点的分配:若数据点巧不是中心点，则

7、将其归入密度比列大且距离最近的数据点九所在的类，该过程只执行一次，不用进行迭代更新匸讪。DPC算法的具体步骤如下:(I)确定截断参数dc,根据公式(1)计算每个数据点的局部密度p;(U)根据公式(2)计算每个数据点的相对距离&;(皿)以p为横坐标,d为纵坐标绘制决策图;(IV)根据决策图选取聚类中心，分配非聚类中心数据点，完成聚类。2 z-SNE算法J-SNE算法是基于流形学习的非线性降维方法。文献口提出了随机近邻嵌入(St o c h a st ic Neigh bo r Embed d in g,SNE)算法,文献口2在SNE算法的基础上进行了优化改进，提出了 t-SNE算法山。f-S

8、NE 算法在低维空间中用分布代替原来的高斯分布表示两点间的相似度，独有的长尾特征有效地解决了 SNE算法存在的拥挤问题。假设:高维数据点集合为X=Xl,x2，工”,映射到低维空间后的数据点集合为Y=yi,y2，-,%；P与Q均为”X矩阵，分别表示高维空间和低维空间中的概率分布，为与g”是其各自的矩阵元素.在Z-SNE方法中，联合概率分布为是对称条件概率Pa=2n(3)勿I；是点i相对于点j的概率分布PiM=ex p(-11-II2)ex p(匕尹?(4)其中,6是以为中心的高斯分布的方差，它反映了中心竝周围的样本分布密度，此参数的值由复杂度因子通过执行二元搜索来确定，复杂度因子定义为per

9、p(勿)=2皿竝，H(A)是分布Pi的爛=工的 Jo g?角“定义低维空间中y与兀之间的联合概率分布为=(1+H M 1 艺(1+N%M II 2)-1kl设两个分布间的相对爛为代价函数C,采用梯度下降法来最小化C,其计算过程为(5)(6)(7)84 第2期何婷霭，李秦基于f-SNE降维的密度峰值聚类算法C=KL(P|Q)=-(8)i 详 iM=4(為qv)Cyt 力)(1+|yi|2)-1。(9)o yi j为了避免优化过程陷入局部最优，在进行梯度计算时加入一个相对较大的动量项a(Z),则此时梯度更新为 Y=(1-1+备+&)(y-D-Y-),(10)其中表示第t次的迭代解,7)表示学习

10、率。综上所述,t-SNE算法的主要步骤如下：(1)根据式(5)和式(6)计算复杂度因子perp(A)；(n)设置参数迭代次数丁，学习率动量项();(ID)根据式(3)和式(4)计算并得到初始化结果Y(W=处，处，;(IV)从1=1到丁进行迭代更新,根据式(7)计算的，根据式(8)和式(9)计算梯度，根据式(10)进行梯度更新。3 Z-SNE-DPC如前所述,密度峰值聚类算法在聚类高维数据集时效果不佳，基于此将i-SNE算法引入DPC算法中，需要注意的是，在进行绘制决策图选取聚类中心时，横坐标采用公式 ft进行计算更新。故基于 z-SNE的Z-SNE-DPC设计思想如下:把待聚类的高维数据用Z

11、-SNE算法进行降维处理;将降维后的数据使用密度峰值聚类算法进行聚类。f-SNE-DPC算法具体步骤如下：(I)利用4-SNE算法进行高维数据预处理；(口)确定截断距离根据降维后得到的数据利用式(1)和式(2)计算局部密度p；和相对距离8.;(JU)根据&绘制决策图，选取聚类中心；(IV)分配其他数据点，得到聚类结果。4实验验证及结果分析4.1实验验证为验证提出的聚类算法i-SNE-DPC,采用结构化数据的经典数据集一手写数字数据集MNIST来进行仿真实验。此次实验使用MNIST手写数字数据集的t ra in训练集，选取手写数字06，共计1264个数据样本，且每个样本都具有64个特征。

12、图1为MNIST数据集在Iso ma p,f-SNE和f-SNE-DPC下的聚类可视化结果。(a)Iso ma p(b)j-SNE(c)z-SNE-DPC图1 MNIST数据集在三种降维算法下的聚类可视化结果从图1(a)(b)可以看出,Iso ma p对高维数据不能进行很好的聚类,应属于不同类簇的点错误地归类到 T同一类簇洽SNE方法相对来说效果好了很多，类簇与类簇间的分离效果可以明显肉眼识别，但仍然出现了同一类簇中混杂着其他数据点的情况。图1(c)是使用新算法f-SNE-DPC进行的聚类效果图，为了能够更直观地看出其效果，采用不同的记号来刻画每一个类簇。从图中可以很明显看出-SNE-D

13、PC可以准确确定聚类个数且聚类效果很好。85 滨州学院学报第39卷4.2算法性能评估为验证算法的有效性，采用三种外部评价指标:准确率、调整互信息匸和调整兰德指数来进行算法性能评估。记数据集X=皿，口”的真实类标记为U“,U2,U”，实验得到的类标记为VX,V2,，V”。定义1(准确率ACC)正确聚类的数据样本个数M占数据样本总数N的比率ACC=NJN。定义2(调整互信息AMI)皿设函数FQi,竝)为ma x函数，则有AMI=MZ(U,V)EMZ(U,V)/ma x H(U),H(V)EM“U,V),其中,MI(U,V)是互信息,E是期望,H(U)与H(V)是爛。定义3(调整兰德指数ARI

14、设a为同属于U与V的数据对个数;&为在U中属在同类，在V中属不同类的数据对个数;c为在U中属不同类，在V中属同类的数据对个数;d为在U与V中都属不同类的数据对个数，则有ARI=2(a dZc)/(a+Z)(Z+c Z)+(a+c)(c+d)。表1是DPC算法.PCA-DPC算法诙以及本文所提出的J-SNE-DPC算法分别在三个聚类指标下对MNIST数据集进行的性能对比结果。从表中数据可以看出,z-SNE-DPC的聚类效果远高于其他算法，在三个聚类指标上均有很大的提升，尤其在A MI指标上逼近于1,聚类性能很好。表1三种聚类算法在三个聚类指标上的计算结果算法ACCAMIARIDPC0.3

15、550.2730.163PCA-DPC0.2490.1510.039i-SNE-DPC0.7440.8280.7155结语针对密度峰值聚类算法对高维数据聚类效果不理想这一问题，提出了一种基于z-SNE降维的密度峰值聚类算法f-SNE-DPC,此算法把数据间的度量方式改用概率分布来表示，通过最小化相对爛将高维空间的数据映射到低维空间,再而进行聚类操作。最后将算法应用到MNIST数据集上进行实验，并对算法进行了有效性度量,实验结果表明新算法可以对高维复杂数据进行高效聚类，且在AMI指标上结果逼近于1,证实了新算法的有效性与可用性。参考文献：口 HAN J,PEI J,TONG H.Da t

16、 a min in g:c o n c ept s a n d t ec h n iq u esEM,Sa n Fra n c isc o:Mo rga n Ka u fma n n Pu bl ish ers In c,2022.2 XU R,WUNSCH D.Su rv ey o f c l u st erin g a l go rit h msEJ,IEEE Tra n sa c t io n s o n n eu ra l n et w o rk s,2005,16(3):645-67&3 段明秀.层次聚类算法的研究及应用D.长沙：中南大学,2009.4 XU D,TIAN Y.A c

17、 o mpreh en siv e su rv ey o f c l u st erin g a l go rit h ms.An n a l s o f d a t a sc ien c e,2015,2(2)：165-193.5 张敏，于剑.基于划分的模糊聚类算法J.软件学报，2004,15(6):858-86&6 RODRIGUEZ A,LAIO A.Cl u st erin g by fa st sea rc h a n d fin d o f d en sit y pea k sQj,Sc ien c e,2014,344(6191):1492-1496.86 第2期何婷霭，李秦

18、基于f-SNE降维的密度峰值聚类算法7 WOLD S,ESBENSEN K,GELADI P.Prin c ipa l c o mpo n en t a n a l ysisJ.Ch emo met ric s a n d in t el l igen t l a bo ra t o ry syst ems,1987,2(1)：37-52.8 BALAKRISHNAMA S,GANAPATHIRAJU A.Lin ea r d isc rimin a n t a n a l ysis:a brief t u t o ria l QJ In st it u t e fo r sign a l a

19、 n d in fo rma t io n pro c essin g,199818：1-8.9 TENENBAUM J B,SILVA V,LANGFORD J C.A gl o ba l geo met ric fra mew o rk fo r n o n l in ea r d imen sio n a l it y red u c t io n J.Sc ien c e,2000,290(5500)：2319-2323.10 陈俊芬，张明，赵佳成复杂高维数据的密度峰值快速搜索聚类算法Jl计算机科学,2020,47(3)：79-86.11 HINTON G E,ROWEIS S St

20、o c h a st ic n eigh bo r embed d in g J.Ad v a n c es in n eu ra l in fo rma t io n pro c essin g syst ems,2002(15)：857-864.口 2 VAN DER MAATEN L,HINTON G.Visu a l izin g d a t a u sin g z-SNEEJl Jo u rn a l o f ma c h in e l ea rnin g resea rc h,2008,9(11)：2579-2605.13 徐秀芳，徐森，花小朋，等.一种基于廿分布随机近邻嵌入的文本

21、聚类方法J.南京大学学报(自然科学版),2019,55(2)-264-271.口4 AMELIO A,PIZZUTI C.Co rrec t io n fo r c l o sen ess:a d ju st in g n o rma l ized mu t u a l in fo rma t io n mea su re fo r c l u st erin g c o mpa riso n EJ.Co mpu t a t io n a l in t el l igen c e,2017,33(3)：579-601.15 STEINLEY D.Pro pert ies o f t h e

22、Hu bert-Ara bl e a d ju st ed ra n d in d ex J.Psyc h o l o gic a l met h o d s,2004,9(3):386-396.16 杜明晶.密度峰值聚类算法研究DI徐州：中国矿业大学，201&Density Peak Clustering Algorithm Based on 卜SNE Dimensionality ReductionHE Tin g-a i,LI Qin(Sch o o l o f Mat h emat ics and Ph ysics 9Lanzh o u Jiao t o ng Universit y

23、Lanzh o u 730070,Ch ina)Abstract:In o rd er t o impro v e t h e a bil it y o f Den sit y Pea k Cl u st erin g(DPC)a l go rit h m t o d ea l w it h c o mpl ex h igh-d imen sio n a l d a t a,a d en sit y pea k c l u st erin g a l go rit h m is pro po sed ba sed o n i-SNE d imensio n a l it y red u c t

24、 io n(t-SNE-DPC).Th e a l go rit h m u ses t h e z-SNE a l go rit h m t o pre-pro c ess t h e d a t ama ps t h e rel a t io n sh ip bet w een h igh-d imen sio n a l d a t a po in t s t o t h e l o w-d imen sio n a l spa c e w it h pro ba bil it y d ist ribu t io n,ma x imizes t h e ret en t io n o f

25、 t h e essen t ia l c h a ra c t erist ic s o f t h e d a t a by min imizin g t h e rel a t iv e en t ro py,a n d fin a l l y u ses t h e d en sit y pea k c l u st erin g.Th e a l go rit h m perfo rms c l u st erin g o pera t io n s.Th e simu l a t io n resu l t s sh o w t h a t Z-SNE-DPC c a n effic ien t l y c l u st er h igh-d imen sio n a l d a t a,a n d t h e c l u st erin g resu l t s o f t-SNE-DPC o n t h e AMI in d ex c a n be a s h igh a s 0.82&Keywords：c l u st er a n a l ysis；d en sit y pea k c l u st erin g；Z-SNE a l go rit h m；effec t iv en ess mea su remen t(责任编辑：贾晶晶)87

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 SNE 密度峰值算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。