基于最大平均差异的迁移模糊C均值聚类.pdf
《基于最大平均差异的迁移模糊C均值聚类.pdf》由会员分享,可在线阅读,更多相关《基于最大平均差异的迁移模糊C均值聚类.pdf(10页珍藏版)》请在咨信网上搜索。
1、基于最大平均差异的迁移模糊C均值聚类焦连猛*王丰潘泉(西北工业大学自动化学院西安710072)摘要:该文针对迁移聚类问题,提出一种基于最大平均差异的迁移模糊C均值(TFCM-MMD)聚类算法。TFCM-MMD解决了迁移模糊C均值聚类算法在源域与目标域数据分布差异大的情况下迁移学习效果减弱的问题。该算法基于最大平均差异准则度量域间差异,通过学习源域和目标域的投影矩阵,以减小源域和目标域数据在公共子空间分布的差异,进而提升迁移学习的效果。最后,通过基于合成数据集和医学图像分割数据集的实验,进一步验证了TFCM-MMD算法在解决域间差异大的迁移聚类问题上的有效性。关键词:迁移学习;模糊聚类;最大平均
2、差异中图分类号:TN911.7;TP391.4文献标识码:A文章编号:1009-5896(2023)06-2216-10DOI:10.11999/JEIT220645Transfer Fuzzy C-Means Clustering Based onMaximum Mean DiscrepancyJIAOLianmengWANGFengPANQuan(School of Automation,Northwestern Polytechnical University,Xian 710072,China)Abstract:Inthispaper,aTransferFuzzyC-Meansclus
3、teringalgorithmbasedonMaximumMeanDiscrepancy(TFCM-MMD)isproposed.TFCM-MMDsolvestheproblemthatthetransferlearningeffectofthetransferfuzzyc-meansclusteringalgorithmisweakenedwhenthedatadistributionbetweensourcedomainandtargetdomainisverydifferent.Thealgorithmmeasuresinter-domaindifferencesbasedonthema
4、ximummeandiscrepancycriterion,andreducesthedifferencesofdatadistributionbetweensourcedomainandtargetdomaininthecommonsubspacebylearningtheprojectionmatrixofsourcedomainandtargetdomain,soastoimprovetheeffectoftransferlearning.Finally,experimentsbasedonsyntheticdatasetsandmedicalimagesegmentationdatas
5、etsfurtherverifytheeffectivenessofTFCM-MMDalgorithminsolvingtransferclusteringproblemswithlargeinter-domaindifferences.Key words:Transferlearning;Fuzzyclustering;MaximumMeanDiscrepancy(MMD)1 引言聚类就是对数据样本进行分组,使得同一组中的样本相对相似,而不同组中的样本相对不同。在过去的几十年里,已经提出了许多聚类算法,如模糊C均值聚类1,2、谱聚类3,4、最大熵聚类5,6等。聚类技术已经在许多工程领域得到了
6、广泛的应用,例如故障检测7、图像分割8等。但目前许多聚类算法只有在有足够高质量样本的前提下才能产生良好的聚类结果。但在实践中,存在着样本数量不足、质量差等问题,这大大影响了聚类算法的性能。迁移聚类正是为解决这一问题而提出的。迁移聚类9就是通过利用源域中的有用信息,来提高目标域的聚类效果。近年来,国内外学者从不同角度对迁移聚类进行了研究,并取得了一些重要研究成果。现有的迁移聚类算法根据迁移方式,大致可以分为4类9:基于实例的迁移方法10,该方法假设源域中的部分样本可以通过重加权的方式在目标域中被利用;基于参数的迁移方法1120,该方法假设源域与目标域模型有相似的参数和先验分布;基于特征表示的迁移
7、方法2126,该方法的核心思想是为目标域学习一个更有利于聚类的特征表示;基于相关性的迁移方法2730,该方法通过在源域与目标域之间构建相关知识的映射来提高目标域的聚类性能。基于参数的迁移方法是目前迁移聚类研究的一收稿日期:2022-05-19;改回日期:2022-12-25;网络出版:2022-12-28*通信作者:焦连猛基金项目:国家自然科学基金(62171386,61801386,61790552),陕西省重点研发计划(2022GY-081)FoundationItems:TheNationalNaturalScienceFoundationofChina(62171386,6180138
8、6,61790552),KeyResearchandDevelopmentPrograminShaanxiProvince(2022GY-081)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.2023个热点,目前已经发展了许多基于参数的迁移聚类算法。Deng等人11提出了迁移模糊C均值(TransferFuzzyC-Means,TFCM)聚类算法,该算法将迁移学习的概念应用于基于原型的模糊C均值(FuzzyC-Means,FCM)聚类,通过将源域的聚类中心作为迁移知识来构建TFCM的目标
9、函数,以提高目标域的聚类效果。Gargees等人12提出了迁移可能性C均值(TransferLearningPossibilisticC-Means,TLPCM)聚类算法,与TFCM类似,源域的聚类中心也被作为迁移知识来指导目标域数据的聚类。但上述基于参数的迁移聚类算法受域间差异的影响较大,当源域与目标域的分布差异较大时,迁移学习的效果会减弱,甚至会出现负迁移。针对这一问题,本文提出一种基于最大平均差异的迁移模糊C均值(TransferFuzzyC-MeansbasedonMaxi-mumMeanDiscrepancy,TFCM-MMD)聚类算法。TFCM-MMD借鉴基于特征表示的迁移方法的核
10、心思想,通过对源域与目标域数据进行投影的方式,解决域间差异大的问题。基于最大平均差异(MaximumMeanDiscrepancy,MMD)准则23,24,通过将源域和目标域数据投影到公共子空间,以减小源域和目标域分布的差异,从而提高聚类的鲁棒性。2 相关工作2.1 迁移模糊C均值聚类算法现有的许多经典的聚类算法,如FCM,只有在样本数量充足、质量良好的前提下才能产生较好的聚类结果。但在实践中,经常存在着样本数量不足、质量差等问题,这在一定程度上影响了聚类的效果。基于这一问题,Deng等人11提出了TFCM聚类算法。TFCM在保留了FCM目标函数基本结构的基础上,将从源域学习到的聚类中心和源域
11、与目标域之间的聚类中心相关性矩阵引入到TFCM聚类算法的目标函数中,得到TFCM的目标函数为minJTFCM=Nti=1Ctj=1um1ij|xi vj|2+Csk=1Ctj=1rm2kj|vk vj|2,s.t.uij,rkj 0,1,Ctj=1uij=1,Ctj=1rkj=1(1)xivj vkuijrkj其中,表示目标域第i个样本,表示目标域第j个聚类中心,表示源域中第k个聚类中心,表示第i个样本对第j个聚类中心的隶属度,表示源m1m2CsCt域第k个聚类中心和目标域第j个聚类中心的相关性,,是模糊加权系数,表示迁移率,和分别表示源域和目标域聚类中心的个数。2.2 最大平均差异Xs=x1
12、,s,x2,s,.,xNs,s,Xt=x1,t,x2,t,.,xNt,tPs(Xs)Pt(Xt)在迁移学习中,一个基本问题是如何评价源域和目标域之间的分布差异。而MMD作为一种非参数估计准则,被广泛用于分布的比较。假设分别表示来自源域和目标域的样本集,且分别服从分布和,则基于MMD准则度量源域与目标域的分布差异可表示为Dist(Ps(Xs),Pt(Xt)=?1NtNti=1(xi,t)1NsNsi=1(xi,s)?2(2)()其中,是一个映射函数,用于将源域数据与目标域数据映射到公共子空间中。3 基于最大平均差异的迁移模糊C均值聚类算法本节提出一种基于最大平均差异的迁移模糊C均值聚类算法TFC
13、M-MMD,以解决TFCM在源域与目标域分布差异较大时迁移学习效果减弱的问题。3.1节介绍了TFCM-MMD算法的基本思路,3.2节提出了TFCM-MMD的目标函数,3.3节给出了求解TFCM-MMD目标函数的方法,3.4节是对算法的总结与分析。3.1 算法基本思路在迁移学习中,通常假设源域与目标域的数据分布类似。但是在实际应用过程中,更多的情况是源域与目标域的分布差异较大,进而导致迁移学习效果减弱,甚至出现负迁移。基于这一问题,提出了基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD。TFCM-MMD的算法思路如图1所示。首先通过FCM聚类算法获得源域的聚类中心,随后学习一个投影矩阵使
14、得投影后源域数据与目标域数据的分布差异尽可能小,最后在公共子空间中利用投影后的源域聚类中心指导投影后的目标域数据进行聚类。3.2 TFCM-MMD目标函数H RrdH考虑存在一个公共子空间具有投影矩阵(其中r是公共子空间的维度,确定了数据投影后的特征维数,d是原始数据的维数)。假设源域和目标域中的样本具有相同的维度d,可使用投影矩阵将源域和目标域数据投影到公共子空间。源域第6期焦连猛等:基于最大平均差异的迁移模糊C均值聚类2217xi,sxi,tHxi,sHxi,t中的第i个样本和目标域中的第i个样本投影到特征维度为r的公共子空间内,可分别表示为和。基于MMD准则,公共子空间中源域和目标域分布
15、的差异可以通过投影变换后源域样本均值和目标域样本均值之间的距离来计算Dist(Ps,Pt)=?1NtNti=1Hxi,t1NsNsi=1Hxi,s?2=1N2tNti=1Ntj=1Hxi,txTj,tHT+1N2sNsi=1Nsj=1Hxi,sxTj,sHT2NtNsNti=1Nsj=1Hxi,txTj,sHT(3)=1N2tNti=1Ntj=1xi,txTj,t1N2sNsi=1Nsj=1xi,sxTj,s2NtNsNti=1Nsj=1xi,txTj,s设+,式(3)可进一步简化表示为Dist(Ps,Pt)=HHT,s.t.HHT=Irr(4)其中,I是维度为r的单位矩阵。约束条件保证了投影
16、矩阵H是正交矩阵。通过最小化式(4),即可缩小源域与目标域的域间差异,提高迁移聚类的效果。将式(4)引入到TFCM的目标函数中,得到基于最大平均差异的迁移模糊C均值聚类算法TFCM-MMD的目标函数为minJTFCM_MMD=Nti=1Ctj=1um1ij|Hxi vj|2+Csk=1Ctj=1rm2kj|H vk vj|2+HHT,s.t.uij,rkj 0,1,Ctj=1uij=1,Ctj=1rkj=1(5)xivj其中,表示目标域第i个样本,表示目标域第 vkj个聚类中心,是源域第k个聚类中心,是迁移系数,用于控制迁移学习的程度。对于式(5)有以下说明:(1)TFCM-MMD目标函数的第
17、1项是在FCM目标函数的基础上,引入了投影算子H,将目标域数据投影到公共子空间中进行聚类。(2)TFCM-MMD目标函数的第2项在TFCM目标函数第2项的基础上,引入了投影算子H,将源域聚类中心投影到公共子空间中来指导公共子空间中目标域数据的聚类。(3)TFCM-MMD目标函数的第3项通过最小化投影变换后域间分布差异,来提高迁移学习的效果。m1m2m1=m2=1m1m2(4)TFCM-MMD中所涉及的模糊加权系数,影响着模糊聚类结果的模糊程度,当,算法退化为硬聚类。文献31根据聚类有效性得出模糊加权系数的最佳取值范围为1.5,2.5,因此可以利用网格搜索策略在该区间内寻找,的最佳取值。(5)迁
18、移率的选取取决于实际的应用场景,可利用网格搜索策略通过优化聚类评价指标寻找最优的值。3.3 优化过程ik为了处理式(5)的约束条件,可通过引入拉格朗日乘子和,构造如式(6)的拉格朗日目标函数J=JTFCM-MMD+Nti=1i1 Ctj=1uij+Csk=1k1 Ctj=1rkj(6)式(6)的解与矩阵U,H,V和R均有关,因此采用迭代优化策略求解,在迭代算法中逐个优化U,H,V和R,即当一个参数被更新时,其他参数固定。首先固定U,H,R,求J关于V的偏导数,并使偏导数为0,可得到图1TFCM-MMD的算法思路2218电子与信息学报第45卷vj=Nti=1um1ijHxi+Csk=1rm2kj
19、H vkNti=1um1ij+Csk=1rm2kj,j=1,2,.,Ct(7)再固定V,H,R,求J关于U的偏导数,并使偏导数为0,可得到uij=(Hxi vj)2/(m11)Ctl=1(Hxi vl)2/(m11),i=1,2,.,Nt,j=1,2,.,Ct(8)再固定U,H,V,求J关于R的偏导数,并使偏导数为0,可得到rkj=(H vk vj)2/(m21)Ctl=1(H vk vl)2/(m21),k=1,2,.,Cs,j=1,2,.,Ct(9)投影矩阵H的迭代较为复杂,在这里先引入一些符号表示U1=u11,.,ui1,.,uNt1 R1NtU=U1,U2,.,UCt R1CtNtU=
20、diag(U)RCtNtCtNtR1=r11,.,rk1,.,rCs1 R1CsR=R1,R2,.,RCt R1CtCsR=diag(R)RCtCsCtCs(10)令V1=I1,I1,.,I1|zCt RNtCtNtV2=I2,I2,.,I2|zCt RCsCtCs(11)I1 RNtNt,I2 RCsCsI1I2其中,和是单位矩阵Q1=q1,1,q1,2,.,q1,Ct RrCtNtQ2=q2,1,q2,2,.,q2,Ct RrCtCs(12)q1,i=vi,vi,.,vi|zNtRrNtq2,i=vi,vi,.,vi|zCsRrCs其中,,。将式(8)式(12)代入式(5),式(5)中关于
21、H的优化问题可以转化为minG(H)=tr(HXtV1 Q1)UT(HXtV1 Q1)+tr(HVsV2 Q2)RT(HVsV2 Q2)+tr(HHT)(13)求G(H)关于H的偏导数为GH=2(HXtV1UVT1XTt Q1UVT1XTt)+2(HVsV2RVT2VTs Q2RVT2VTs)+2H(14)可采用梯度下降法来计算最优H。设置H的初始值H0,H的迭代更新过程为H H GH(15)3.4 算法总结与分析本文所提算法首先通过FCM获得源域的聚类中心,然后执行3.3节的迭代优化过程,直到满足停止条件停止迭代,得到最终的模糊隶属度矩阵U。通过U将每个目标域数据聚到模糊隶属度最大的一类,从
22、而得到目标域数据的聚类结果。TFCM-MMD的算法流程如算法1所示。NtCsO(Ct Nt)CtNt(1)复杂度分析:考虑到绝大多数情况下,目标域的样本个数要大于源域的聚类个数。因此TFCM-MMD算法的复杂度为,其中是目标域的聚类个数,是目标域的样本数。算法1TFCM-MMDXsXtCsCtm1m2输入:源域数据,目标域数据,源域聚类数,目标域聚类数,模糊加权系数,,迁移率,学习率,最大迭代次数nmax,终止阈值U输出:目标域模糊隶属度矩阵CsXsVk(1)根据源域聚类数,利用FCM对源域数据进行聚类,获得源域的聚类中心;CtU(0)R(0)H(0)(2)根据目标域聚类数初始化模糊隶属度矩阵
23、,聚类中心相关性矩阵,根据投影后矩阵的维数r初始化投影矩阵,迭代次数t=0;(3)重复;(4)t=t+1;V(t)(5)利用式(7)计算聚类中心;U(t)(6)利用式(8)计算模糊隶属度矩阵;R(t)(7)利用式(9)计算聚类中心相关性矩阵;H(t)(8)利用式(15)计算投影矩阵;|JTFCM-MMD(t)JTFCM-MMD(t 1)|nmax第6期焦连猛等:基于最大平均差异的迁移模糊C均值聚类2219(2)收敛性分析:基于Zangwill收敛定理32,采用类似于文献33的证明方法可以验证TFCM-MMD算法的收敛性。与类FCM算法相似,求解TFCM-MMD目标函数这一非凸优化问题只能得到局
24、部最优解,但局部最优解在大多数实际应用中都已足够有效。4 实验首先在合成数据集和医学图像数据集上对TFCM-MMD与TFCM在域间差异大情况下的聚类性能进行对比。接着将TFCM-MMD与基于最大平均差异的模糊C均值聚类算法(FuzzyC-MeansbasedonMaximumMeanDiscrepancy,FCM-MMD)24进行对比,以说明基于参数的迁移聚类算法相较于基于实例的迁移聚类算法的优势。最后研究模糊系数、学习率和终止阈值对算法性能的影响。聚类性能通过聚类评价指标准确率(ACcuracy,AC)、兰德系数(RandIndex,RI)和戴维森堡丁指数(Davies-Bouldinind
25、ex,DB)进行评估,其中AC,RI越大表示聚类性能越好,DB越小表示聚类性能越好。4.1 合成数据集实验首先使用高斯分布合成数据集进行实验验证。ii11223311223311223344112233令和分别表示生成数据集中第i个类的均值向量和协方差矩阵。实验共进行两组,分别讨论源域与目标域聚类数相同和不同两种情况:(1)聚类数相同:生成源域数据集S1_1中3个类的均值向量和协方差矩阵为=10,0,=2,0;0,2,=0,10,=2,0;0,2,=10,0,=2,0;0,2,其中每个类包含200个样本。生成目标域数据集T1_1中3个类的均值向量和协方差矩阵为=2,0,=2,0;0,2,=0,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 最大 平均 差异 迁移 模糊 均值
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。