不完备多视图的在线反向图正则化聚类.pdf
《不完备多视图的在线反向图正则化聚类.pdf》由会员分享,可在线阅读,更多相关《不完备多视图的在线反向图正则化聚类.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 年第 5 期计算机与数字工程收稿日期:2022年11月12日,修回日期:2022年12月17日基金项目:陕西省教育厅服务地方专项项目(编号:19JC036)资助。作者简介:邓万宇,男,博士,教授,硕士生导师,研究方向:数据挖掘与机器学习。耿美娜,女,硕士研究生,研究方向:数据挖掘与机器学习。李建强,男,硕士研究生,研究方向:计算机视觉与数据挖掘。1引言现今,随着信息技术、计算机技术以及互联网技术的迅速发展,获取数据的方式越来越多,人们已经进入了大数据时代。大数据在国内外已经如火如荼的发展起来,在各个领域都在渗透,近年来,人们对于数据信息价值性和可靠性都有着较高的要求,在大数据的时代背
2、景下,每天都会产生各种形式的数据,包括文字、图片、视频以及音频,这些数据优势是规模大、种类多、要求实时性强。在当今大数据时代,同一数据对象往往可以在不同的视图下进行描述,所获取的数据常常可以由多个特征集合进行表示,不同视图下的观测揭示了事物的不同属性,这类数据通常被称为多视图数据2。多视图数据的学习主要是在聚类这个背景下被研究,对于此类多视图的研究被称为多视图学不完备多视图的在线反向图正则化聚类邓万宇耿美娜李建强(西安邮电大学计算机学院西安710121)摘要在如今的大数据时代,多视图数据引起了越来越多的关注,对多视图聚类的假设是所有视图都是完整的,然而,这种假设在实际应用中很难得到满足。因此不
3、完备多视图聚类是一个重要挑战。针对大规模的不完备多视图数据,考虑到其数据的特征,利用互补性和一致性,论文提出了一种基于非负矩阵分解的在线反向图正则化聚类方法,首先利用加权非负矩阵分解作为基础模型,考虑到缺失实例的影响,引入一个动态权重矩阵;其次,学习所有视图的潜在特征矩阵并得到一个共识矩阵;同时,考虑到挖掘数据的局部结构,在基础模型上增加反向图正则化项;最后,对于大规模的数据,分块处理多视图数据以减少内存需求。在四个真实的数据集上进行了大量实验证明了所提出的方法的有效性。关键词多视图聚类;在线算法;不完备多视图;非负矩阵分解中图分类号TP391DOI:10.3969/j.issn.1672-9
4、722.2023.05.006Online Reverse Graph Regularized Clustering forIncomplete Multi-viewDENG WanyuGENG MeinaLI Jianqiang(School of Computer Science and Technology,Xian University of Post and Telecommunications,Xian710121)AbstractIn todays era of big data,multi-view data has attracted more and more attent
5、ion.The assumption of multi-viewclustering is that all views are complete.However,this assumption is difficult to meet in practical application.Therefore,incomplete multi-view clustering is an important challenge.For large-scale incomplete multi-view data,considering the characteristics ofthe data,u
6、sing complementarity and consistency,this paper proposes an online reverse graph regularization clustering methodbased on non-negative matrix factorization.Firstly,weighted non negative matrix factorization is used as the basic model,and a dynamic weight matrix is introduced considering the influenc
7、e of missing examples.Secondly,the potential feature moments of allviews are learned.At the same time,considering the local structure of the mining data,the regularization term of reverse graph isadded to the basic model.Finally,for large-scale data,multi view data is processed in blocks to reduce t
8、he memory requirement.Experiments on four real datasets show the effectiveness of the proposed method.Key Wordsmulti-view clustering,online algorithm,incomplete multi-view,non-negative matrix factorizationClass NumberTP391总第 403期2023 年第 5期计算机与数字工程Computer&Digital EngineeringVol.51No.51005第 51 卷习3,目前
9、,多视图学习在机器学习、数据挖掘、人工智能等不同领域得到了广泛的研究46。在这些视图中,每一个视图可以满足于特定的数据分析任务需求,不同视图之间通常包含互补的信息。类似于我们所倡导的多视图看问题的思维,机器学习如何综合利用多视图数据建立性能更为有效的学习模型,从而服务于人类的生活和工业生产,具有重要的理论意义和广泛的应用前景。在多视图的聚类中,存在一些实际问题,往往假设这个数据是完整的,然而在实际应用中,可用的多视图数据是不完备的,即意味着缺少某些视图的功能,这对多视图聚类带来了很大的困难。如何处理不完全多视图数据并从中挖掘到该类数据的共享信息,利用多视图数据的一致原则以及互补原则完成多视图聚
10、类任务,已经引起机器学习领域研究人员的广泛关注。如果对于这类不完备多视图数据直接进行聚类分析,则会丢失很多的信息,因此,首先要对不完备多视图数据进行分析处理,再对数据进行聚类。显然,现有的多视图聚类方法无法将不完备视图的多视图数据聚类,因为无法学习通用相似图或者所有视图的低维表示。此外,多个视图之间由于缺少配对视图可用的补充信息,因此视图非常有限。这些因素使得不完备多视图数据的研究成为一个挑战。对这类不完备多数图数据集上进行聚类称为不完备多视图聚类712。因此,本文的研究对象是不完备的多视图数据,关注如何能够更好地处理的不完备的多视图数据,聚焦不完备多视图技术的相关技术。同样,在上述中解决的不
11、完备多视图数据都是离线的,没有考虑到大规模的一些数据问题,其不能直接存放在内存中,并且很难离线处理。对于这个问题的处理,到目前为止,针对此问题已经提出了两种解决方法1314。对于处理这种大规模的不完备多视图数据,本文提出了一种基于非负矩阵分解1520的在线反向图正则化算法(Nonnegative matrix factorization algorithm based on online inverse graph regularization:IMC_OIRG)方法。本文提出的IMC_OIRG算法,主要具有以下优点:1)当数据太大而不能放入内存中时,依旧可以处理不完备多视图数据,即可以最小化
12、不完备多视图数据对聚类结果的影响。2)对于这种数据过大的数据,依旧可以将不同特征空间的各种视图进行组合,根据其一致性和互补性,能够使得可以获得更好的聚类结果。3)将非负矩阵分解与反向图正则化进行结合,保证多视图局部结构的一致性,使得不完备多视图数据能够进一步对齐,使得能够得到更好的公共潜在特征表示。2相关工作2.1问题描述对于不完备多视图聚类,简要描述问题的表述,假定给出一个有N个样本nv个视图的数据集X(k)RDkN+k=12nv,在本文中定义一个指示矩阵BRnvN。Bij=1 if jt instance in te it view0oterwise(1)其中,B的每一行代表一个视图的存在
13、。若多视图数据是完备的,每个视图包含所有的实例,则B为一个全1矩阵,即j=1NBij=Nk=12nv。若多视图数据是不完备的,数据矩阵X(k)将有许多行缺失,即指示矩阵表示为j=1NBijNk=12nv。本文的目标为将不完备多视图数据的N个实例聚类成K个聚类。2.2相关工作OPIMC14为解决不完备多视图聚类问题提出了一个框架,借助于正则化矩阵分解和加权矩阵分解,将数据矩阵X(k)RdkN分解为两个矩阵G(k)RDkK和F(k)RNK,同时令F(k)2F=N,为了考虑到不同视图之间的一致性信息,假设不同的矩阵G(k)nvk=1,共享相同的矩阵F。同时还考虑到实例的缺失信息,借助加权矩阵分解来处
14、理每个视图的不完备性。对于大量的不完备多视图数据,假设每个视图都是通过块获得的,并且块的大小为s,最终目标函数表示为=k=1nvt=1Ns()X(k)tG(k)FTtP(k)t2F+G(k)2Fs.t.Fij01j=1KFij=1i=12N(2)X(k)t是第k个视图的第t个数据块,Ft是第t个数据块的聚类指示矩阵,P(k)t是第t个数据块的对角权重矩阵。权重矩阵P()k被定义为邓万宇等:不完备多视图的在线反向图正则化聚类10062023 年第 5 期计算机与数字工程P(k)jj=1 if te kt view contains te it sample0oterwise(3)3算法模型在本节
15、中,提出了 IMC_OIRG算法,处理大规模的不完备多视图数据,利用动态权重学习推断缺失的视图,同时,利用反向图正则化进一步对齐视图,学习局部特征,来实现有效的公共表示学习。3.1算法提出与模型构建给定nv个视图,N个样本的不完备多视图数据X(k)RDvN+k=12nv,使用非负矩阵分解的模型进行分解,将X(k)RDvN+分解为两个矩阵G(k)RDvK+和F(k)RNK+,分别表示为第k个视图的基矩阵和潜在特征矩阵。其中,K表示为聚类的目标数,目标函数可以写成如式(4)所示。minG(k)F(k)=k=1nvX(k)G(k)F(k)T2Fs.t.G(k)0 F()k0k=12nv(4)在此基础
16、上,由于不完备多视图数据的特点,目标函数无法直接进行优化,简单的填充实例不能很好地解决这个问题。因此,本文利用加权非负矩阵分解的思想,引入一个对角权重矩阵P(k)RNN,其中,p(k)ii表示为第k个视图的第i个实例,同时,对于在视图中出现的实例权重赋予1,对于视图中缺失的实例赋予较低的权重。因此,目标函数式(5)表示为minG(k)F(k)=k=1nv()X(k)G(k)F(k)TP(k)2Fs.t.G(k)0 F()k0k=12nv(5)本节的目标为找到每个视图的潜在特征矩阵和一个共同的共识,这个共识矩阵表示了所有的视图的综合信息。因此,目标函数式(6)可以被重新写为minG(k)F(k)
17、F*=k=1nv()X(k)G(k)F(k)TP(k)2F+k=1nv1(k)P(k)()F(k)F*2Fs.t.G(k)0 F()k0F*0k=12nv(6)其中,1(k)表示为重建误差与学习到的第k个视图的共识一致性不一致之间的权衡参数。在上述式(6)中,不仅对于不同的视图分配了不同的权重,而且表示出了一致的共识矩阵,对于不完备视图的性质,为了加强潜在特征矩阵的稀疏性,仍添加一项l1范数。同时对潜在特征矩阵添加范数限制后,对于噪声和异常值是鲁棒的。k=1nv2(k)F(k)1(7)其中,1表示l1范数,2(k)表示为第k个视图重建的稀疏性和准确性之间的折衷参数。对于不完备多视图数据,由于所
18、有视图的可用实例数都小于总样本数,获取数据的局部流行结构是不可能的,因此,使用反向图进行学习,如式(8)所示。minWknvj=1Ni=1NG(k)F:iG(k)F:j22W2ijs.t.iWi:1=10Wij1Wii=0rank()LW=Nc(8)其 中,其 中,1是 一 个 全 1 的 向 量。其 次,令Pi:1=1,是为了防止任何实例与其邻居不相连的平凡解。rank(LW)表示为LW的秩。通过反向图正则化,保证了多视图间的一致性流形结构,进一步对齐所有恢复的不完整视图。3.2目标函数最终,对于不完备多视图数据,根据上述学习,形成了一个学习模型,得出解决不完备多视图数据的算法的目标函数,如
19、下。minG(k)F(k)F*W=k=1nv()X(k)G(k)F(k)TP(k)2F+k=1nv1(k)P(k)()F(k)F*2F+k=1nv2(k)F(k)1+k=1nvij=1N3(k)G(k)F:iG(k)F:j22W2ijs.t.G()k0 F()k0F*0k=12nviWi:1=10Wij1Wii=0rank()LW=Nc(9)在实际的应用过程中,数据矩阵由于过大,因而无法直接放入内存中。对于此问题,本章采用以低计算和存储复杂性的在线方式来解决此问题。将输入的数据在时间t时分成块,s表示为数据块的大小,也就是实例的大小。因此,输入的数据矩阵为X(k)tRsDk,最终的目标函数表示
20、为式(10)。=k=1nvt=1Ns()X(k)tG(k)F(k)tTP(k)t2F+1007第 51 卷k=1nvt=1Ns1(k)P(k)t()F(k)tF*t2F+k=1nvt=1Ns2(k)F(k)t1+k=1nvt=1Ns3(k)Tr(FtLW2FtT)+4()kTr(TTLWT)s.t.G()k0 F()k0F*0k=12nviWi:1=10Wij1Wii=0rank()LW=Nc TTT=I(10)其中,X(k)t是第k个视图的第t个数据块,F(k)t是第个数据块的潜在特征矩阵,P(k)t是第t个数据块的对角权重矩阵。对于目标函数式(10)中引入的权重矩阵,和之前用平均特征值进行
21、直接填充的方法不同,不完备多视图数据,本节研究的多视图数据太大而不能放入内存,平均特征值不能直接进行计算,对此,引入一个动态权重矩阵,即当读入一个新的数据块时,采用动态(最新)平均值来填充,不是采用全局的平均特征值来填充缺失的实例。x(k)t=i=1tBikx(k)ii=1tBik(11)式(11)可以针对每一个传入的缺失实例进行计算,x(k)i表示X(k)的第i列,因此,p(k)tt在视图k可利用的实例中可以被动态设置为p()ktt=1 if instance t appears in view ki=1tBiktoterwise(12)对p(k)tt的设置可以看出,若对x(k)t的估计是在
22、更高百分比的确实情况下进行,则p()ktt较低。3.3优化对于目标函数式(10)的求解问题,可以发现,对 于 每 一 个t,需 要 对G(k)F(k)t F*t W和 T,然而,目标函数不是联合凸的,因此采用交替迭代的方法来更新求解。1)更新G()k,固定其他变量,关于G(k)的最小化目标函数为(t)()G()k=i=1t()X()kiG()kF()kiTP()ki2Fs.t.G()k0(13)对G()k取 一 阶 导 数,其 中,令P()ki=P()kiTP()ki=P()kiP()kiT,(t)对于G()k的梯度为(t)()G()k()G()k=2i=1tX()kiP()kiF()ki+2
23、i=1t(G()kF()kiTP()kiF()ki)(14)因此,(t)()G()k相对于G()k的Hessian矩阵为G()k=2F()kiTP()kiF()ki(15)使用二阶的投影矩阵下降法,在时间t更新G()k的方程为G(k)z+1AG()kz(t)()G()k1G(k)z(16)其中,z表示迭代的次数,z表示步长,(t)()G()k表示目标函数对G()k的一阶导数。对于选取合适的步长z,本章考虑使用简单而有效的Armijo的投影规则,令z=z,z是第一个非负整数。2)更新F(k)t,固定其他变量,关于F(k)t的最小目标函数为(t)()F(k)t=()X(k)tG(k)F(k)tTP
24、(k)t2F+1(k)P(k)t()F(k)tF*t2F+2(k)F(k)t1+3(k)Tr(FtLW2FtT)s.t.F(k)t0(17)对F(k)t取一阶导数,()(t)()F(k)t()F(k)t=2P()ki()F(k)tG(k)TX(k)tG(k)+21(k)P()kt()F(k)tF*t+2(k)1+23(k)FtLW2(18)令f(k)ti为F(k)t第i列,p(k)titi为P()kt的第i个对角元素。(t)()f(k)ti对于f(k)ti的Hessian矩阵为f(k)ti=2p(k)titiG(k)TG(k)+21(k)p(k)titi+23(k)LW2(19)使用二阶的投影
25、矩阵下降法,f(k)ti的更新公式为f(k)tiAf(k)ti1f(k)ti(t)()f(k)ti(20)其中,(t)()f(k)ti是对f(k)ti的一阶导数,表示步长,使用与上述步骤1)的搜索找到满足Armijo规则的步长。3)更新W,固定其他变量,关于W的最小化目标函数为邓万宇等:不完备多视图的在线反向图正则化聚类10082023 年第 5 期计算机与数字工程(t)()W=3(k)Tr(FtLW2FtT)+4()kTr(TTLWT)iWi:1=10Wij1Wii=0(21)对式(21)进一步进行简化:(t)()W=i=1Nj=1jiNWij+4()kTi:Tj:2223(k)F(t)i:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完备 视图 在线 反向 正则 化聚类
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。