欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于伪标签回归和流形正则化的无监督特征选择算法.pdf

    • 资源ID:639896       资源大小:4.78MB        全文页数:10页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于伪标签回归和流形正则化的无监督特征选择算法.pdf

    1、NATTJRASCIENCEMar.,20232023年3 月JOURNAL OF NANJINGUNIVERSITYVol.59,No.2第5 9 卷第2 期南京大学学报(自然科学DOI:10.13232/ki.jnju.2023.02.009基于伪标签回归和流形正则化的无监督特征选择算法宋雨,肖玉柱*,宋学力*(长安大学理学院,西安,7 10 0 6 4)摘要:无监督特征选择是无标签高维数据预处理过程中一种有效的数据降维技术,然而大多数无监督特征选择算法忽略了数据样本本身的类簇结构特性,选择具有低判别性信息的特征。基于此,提出一种基于伪标签回归和流形正则化的无监督特征选择算法,具体地,联合

    2、伪标签回归和最大化类间散度来保证算法在迭代过程中学习伪标签,同时,自适应学习数据样本之间的局部几何结构,获得更加精准的标签信息和结构信息,进而选择具有高判别性且能保持数据流形结构的特征,在四个公开数据集上的对比实验表明,提出算法的特征选择结果优于现有的一些无监督特征选择算法。关键词:无监督特征选择算法,判别信息,伪标签回归,最大化类间散度,流形正则化中图分类号:TP391文献标志码:AAn unsupervised feature selection algorithm based onpseudo-label regression and manifold regularizationSon

    3、g Yu,Xiao Yuzhu,Song Xueli(School of Science,Changan University,Xian,710064,China)Abstract:Unsupervised feature selection is an effective dimensionality reduction technique in the processing of unlabeledhigh-dimensional data.However,most unsupervised feature selection algorithms ignore the peculiari

    4、ty of cluster structure ofdata samples and select the features with low discriminant information.This paper proposes an unsupervised feature selectionalgorithm based on pseudo-label regression and manifold regularization.Specifically,it combines pseudo-label regression andmaximizing the divergence b

    5、etween classes to ensure that the algorithm learns pseudo-labels in the iterative process.At thesame time,it learns the local geometric structure between data samples adaptively to obtain more accurate label and structureinformation,and furtherly selects features with high discrimination and keep th

    6、e manifold structure of data.Experimentalresults on four public datasets show that the proposed algorithm outperforms some existing unsupervised feature selectionones.Key words:unsupervised feature selection algorithm,discriminant information,pseudo-label regression,inter-class divergencemaximizatio

    7、n,manifold regularization科技的发展带来了可利用的海量数据,然而,针对不同的需求,这些数据只有部分特征或属性能起到关键的作用.从数据的高维特征空间中快速选择对分类识别最有效的特征,实现对数据特征维数的约简,是有效利用这些数据至关重要的环节 1.数据特征维数约简不仅可以降低存储空间,避免模型过拟合,同时,还可以提高模型的效率,降低后续学习任务的难度.基金项目:长安大学中央高校基金科研业务费(310 8 12 16 35 0 4,30 0 10 2 12 2 113)收稿日期:2 0 2 3-0 1-0 9*通讯联系人,E-mail:,264第5 9 卷南京大学学报(自然科

    8、学)一般地,维数约简或降维有两种方法,一是特征提取,又称特征变换,二是特征选择.它们的目的都是减少数据集样本的特征维数,不同的是,特征提取是通过特征变换将原始数据特征从高维空间变换到低维空间来减少特征维数,而特征选择是通过某种评价标准从原始特征集合中选择一个在该标准下最优的特征子集 2 .特征选择因其保留了原始的特征空间,可解释性更强,已被广泛应用于数据挖掘和机器学习领域.根据数据标签的获取情况,特征选择分有监督、半监督和无监督三种类型 3.在实际应用中,因为大部分数据没有标签并且标签难以获取,所以对无监督特征选择方法的研究具有重要的现实意义,无监督特征选择方法通过学习无标记的样本挖掘原始数据

    9、的内在规律 4,然而,大多数无监督特征选择算法都忽略了数据样本本身的类簇结构特性,选择具有低判别信息的特征.为了解决这一不足,聚类算法的思想被引人无监督特征选择算法.聚类是一种典型的无监督学习技术,它将未知类别的数据样本按照一定的规则划分成若干个类簇来揭示样本之间内在的性质 5 .在学习过程中,聚类既可以作为单独的一个过程,通过寻找数据样本内在的分布结构揭示其内在性质及规律,也可以作为分类等其他学习任务的前驱过程,为进一步的数据分析奠定基础 6 .需要注意,无监督特征选择是从原始特征空间中选择对分类有益的特征来提升学习算法的性能 7 ,因此,将聚类算法引人无监督特征选择算法来发掘样本之间的类簇

    10、特性,用得到的伪标签指导无监督特征选择,其本质是把无监督的问题转化为有监督学习.多种伪标签的产生方式被用于无监督特征选择算法。比如,基于非负谱分析的无监督特征选择(Unsupervised Feature Selection Using Nonne-gative Spectral Analysis,NDFS)算法采用谱聚类的方法产生伪标签,利用学习到的标签信息指导特征选择 8 .基于L2.1范数正则化的无监督学习的判别特征选择(L2.1-norm Regularized Discrimi-native Feature Selection for Unsupervised Learn-ing,U

    11、DFS)算法在考虑流形结构的基础上通过最小化局部总散度的同时最大化类间散度的方式学习一个线性分类器来将数据点归类,并结合L2.1范数约束建立特征选择模型 9.针对多簇类数据的无监督特征选择(Unsupervised Feature Se-lection for Multi-Cluster Data,MCFS)算法考虑不同特征之间可能存在的相关性,通过聚类分析中的谱嵌人方法尽量更好地保留数据的多簇结构,同时通过L1范数正则化稀疏系数实现特征选择 10 .联合嵌入学习和稀疏回归的特征选择(Fea-ture Selection via Joint Embedding Learning andSpar

    12、se Regression,JELSR)算法通过局部线性逼近方法,利用权值构造图,结合嵌入学习和稀疏回归进行特征选择11.上述基于数据本身的类簇结构通过聚类寻找伪标签,是将无监督问题转换为有监督问题的无监督特征选择算法的关键。流形学习基于一个样本点与它相邻样本点之间的关系,通过学习它们之间的相似度来描述数据的结构信息 4.基于流形正则化自表示的无监督特征选择(Unsupervised Feature Selection byManifold Regularized Self-Representation,MRSR)算法在目标函数中加人学习结构的流形正则化项,选择最具代表性且能保持局部结构的特征

    13、子集 3.基于对偶自表示和流形正则化的鲁棒无监督特征选择(Robust Unsupervised Feature Selec-tion via Dual Self-Representation and ManifoldRegularization,DSRMR)算法,一方面使用特征自表示项学习特征表示系数矩阵来度量不同特征维度的重要性,另一方面,使用样本自表示项自动学习样本相似图来保持数据的局部几何结构 12 .基于自适应结构学习的无监督特征选择算法(Unsupervised Feature Selection with AdaptiveStructure Learning,FSASL)同时进行

    14、结构学习和特征选择,在保持样本结构的同时选择重要的特征 13.Zhang et al14在优化过程中引人构造的相似矩阵,结合最大化类间散度思想,提出自适应图学习和约束的无监督特征选择(UnsupervisedFeature Selection via Adaptive Graph Learningand Constraint,EGCFS)算法,选择不相关但有区别的特征.因为流形正则化可以保留数据固有的几何结构,所以引人流形正则化项的无监督特征选择算法的性能更好。针对现有的大部分无监督特征选择算法忽略数据本身的结构特性、容易选择低判别性特征的265宋第2 期雨等:基于伪标签回归和流形正则化的无监

    15、督特征选择算法问题,借助流形正则化的优点,本文将最大化类间散度学习引人基于伪标签回归的无监督特征选择算法模型,提出一种基于伪标签回归和流形正则化的无监督特征选择算法(AnUnsupervised Feature Selection Algorithm based on Pseudo-labelRegression and Manifold Regularization,PRMR),进一步改进特征选择的效果。一方面,基于最大化类间散度的学习在迭代过程中优化伪标签,指导有利于分类的特征选择;另一方面,将相似矩阵嵌人子空间学习来探索更好的局部几何结构,选择更能保持数据结构的特征子集。1相关理论1.1

    16、符号说明给定样本数据集X=1,2,JERax,d和n分别表示该数据集的特征维数和样本数,其中,ER表示第i个样本.I ll-22wi-2w:l.表示W的La范i=1Vj=1i-1数,W,=2之Cw=表示W的=1Frobenius范数,其中,w,表示W=w,ERdx的第行,w表示向量的L范数,c表示数据样本的类别数,Tr(A)表示对矩阵A求迹.1.2理论框架由于数据集缺乏训练标签,现有的无监督特征选择算法大都通过谱聚类、矩阵分解或字典学习等方法产生样本的伪标签,进而将无监督问题转换为有监督问题 15 。通过学习得到的聚类标签反映与类相关的数据分布,对无监督特征选择算法的性能至关重要一般地,无监督

    17、特征选择算法的模型可以表示为:J=G(X,01)+T(X,02)(1)其中,G(X,01)是产生伪标签的函数,T(X,0 2)是指导特征选择的函数,0 和2 是参数.在此基础上,特征选择问题T(X,02)一般可以表示为一个损失最小化问题,即:min L(X,W)+R(W)(2)其中,L(X,W)表示损失项,R(W)表示正则化项,入是一个正则化参数.假定YERxc是类簇指示矩阵,即Y=1,y2,y,e(0,1*,其中,yiE(0,1*是,的类簇指示向量.通过回归函数学习特征子空间与伪标签空间的线性映射关系 1,则L(X,W)可以表示为:12minxTW-F,s.t.F=Y(YTY)2(3)其中,

    18、FERXc是规范化的指示矩阵,并且FTF=(YTY)TY(YTY)=I,其中,IER是单位矩阵(8 行稀疏正则化通常被施加在特征选择矩阵W上来减少余特征和噪声特征,所以特征选择问题可表示为如下的优化问题:minXTW-F十入W1,s.t.FTF=Ie(4)W因为伪标签指导的无监督特征选择算法的性能主要取决于G(X,Q1),所以为了进一步保证算法的性能,需要找到可靠的伪标签 15 .受线性判别分析 17 的启发,在特征子空间中不同类别的数据样本点应尽可能远离来寻找更具有判别信息的特征,为此,本文引人类间散度最大化思想。假设数据集样本的类别标签YERx已知,类间散度最大化意味着在特征子空间中类与类

    19、之间的距离要尽可能大 14,其具体表达式为:maxTr(WTXFFTXTW),s.t.FTF=I.(5)W,G考虑到在高维空间中数据的局部几何结构往往包含重要信息,所以保持数据的局部几何结构也尤为重要 6 .Zhang et al14将相似矩阵的学习嵌入优化过程,构造自适应流形正则化框架来保持数据样本原始的局部几何结构,提高了无监督特征选择算法的性能.基于流形正则化的特征选择方法在挖掘并保持数据结构上表现良好,因此,本文在回归函数的基础上引人流形正则化的框架,对相似矩阵施加概率最近邻约束,使其自适应地学习拉普拉斯矩阵,即:min Tr(WTXLXTW)+llP P,Y(6)7s.t.Pu=1,

    20、p0其中,PER表示样本的相似矩阵,其元素p表示样本点,之间的相似度;度矩阵D可由相似266第5 9 卷南京大学学报(自然科学)矩阵P表示,它的第i个对角元素为Zp=1;拉普拉斯矩阵L=D一P=I一P;是一个正则化参数。2基于伪标签回归和流形正则化的无监督特征选择算法针对大多数无监督特征选择算法忽略了数据本身的类簇结构特性,导致选择的特征只具有低判别信息的问题,提出一种基于伪标签回归和流形正则化的无监督特征选择算法.本节给出了该算法的目标函数以及相应的求解方法,并对目标函数的收敛性进行了理论分析2.1模型建立首先将最大化类间散度的学习集成到基于伪标签回归的无监督特征选择模型中,然后在特征子空间

    21、中施加流形正则化约束,特征选择矩阵在行稀疏正则化的条件下进一步保证该模型可以选择出更具判别性且能保持数据结构的特征子集,最终得到目标函数,即:minXTW-FW,F,P,Ya(Tr(WTXLXTW)+Pl)-A,Tr(WTXFFXW)+allWla.(7)s.t.FTF=I.,F0,Zp=1,pj0其中,入,入和入2 是正则化参数,F0表示F中的元素都是非负的.需要注意,模型中存在的干扰信息会使F中的元素严重偏离理想的簇类指标,因此不能直接将其作为指示矩阵 8 .为了解决这个问题,给F施加一个非负约束,当F满足非负和正交约束时,每行中只有一个元素大于零,其他都是零,可以使学习到的F更准确,进而

    22、提供准确的判别信息,2.2模型求解式(7)中的目标函数一共有W,F,P和四个变量,所以采用交替迭代法对其进行求解。为了便于计算,首先将稀疏正则化项IWIl,,转换为矩阵形式Tr(WTGW),定义对角权重矩阵GERaxd,它的对角元素是gn=1(i=1,,d).那么式(7)可以重新写作:21/:minXTW-F+a(Tr(WTXLXTW)+lPW,F,P,ATr(WTXFFTXTW)+,Tr(WTGW)s.t.FTF=1,F0.p=1,p,0(8)求解过程具体如下:(1)固定F,P和,求解W.当F,P和固定时,关于W的函数为min Tr(xTW-F)(XTW-F)WTr(WTXLXTW)-(9)

    23、AITr(WTXFFTXTW)+,Tr(WTGW然后通过解决以下加权最小二乘问题来更新W,那么式(9)可以改写为:minTr(WTXXTW)-2Tr(FTxTW)+WTr(WTXLXTW)-(10)aTr(WTXFFTXTW)+,Tr(WTGW)通过对式(10)中的W求偏导并设置为0,给定当前估计值为W,则可以得到W的解:Wi+1=XXT+AXLXT-AIXF(F)XT+2G1XF(11)(2)固定W,P和,求解F.当W,P和固定时,关于F的目标函数可以改写为:min Tr(xTW-F)(xTW-F)F(12)AiTr(WTXFFTXTW)S.t.FTF=I,F0为了消除正交约束,添加一个惩罚

    24、项FTF-I.,并在实验中设置=10,得到如下优化问题:min Tr(XTW-F)(xTW-F)F(13)A,Tr(WTXFFTXTW)+FTF-I.lls.t.F0引人拉格朗日乘子 来消除不等式约束,那么关于F的拉格朗日函数为:L(F,)=Tr(xW-F)(xW-F)-A,Tr(WTXFFTXTW)+(14)FTF-I-Tr(TF)对式(14)中的F求导并令导数值为0,有:5.按式(2 7)更新Pt+1Pt+1I4.按式(2 8)更新L+1=D+13.更新Gt+12.按式(18)更新F;1.按式(11更新Wt重复以下步骤:初始化:ti2(26)di21RR将式(2 5)代2F2XTW-WWI

    25、XF+267宋第2 期雨等:基于伪标签回归和流形正则化的无监督特征选择算法aL(F,)2F-2XTW-2入,XTWWTXF+aF(15)4F(FTF-I)-=0故可得:Q=2F-2XTW-2iXTWWTXF+(16)4F(FTF-1)应用Karush-Kuhn-Tucker条件,F,=O,有:4aF(FTF-1),F,=0(17)给定当前估计值F,故可由下式更新F,即:XTW+iXTW(W)XF+2FFi+1F订F+2F(F)F)订(18)在更新F之后,需要对F进行规范化以满足正交的约束条件即FTFI(3)固定F,W和,求解P.当F,W 和固定的时候,根据拉普拉斯矩阵的性质:h;一h,I,p;

    26、=2Tr(HTLH)(19)其中,HERm并且h是矩阵H的列向量.变量P的解为:p*=argminWTai-WTa,ll,pu+yps)Pj=1(20)2P:=1,p0ns.t.j=1定义dj=Ta,一WTa,注意到上述问题独立于不同的j,所以把式(2 0)转换为向量形式,即:21minP+d(21)p/1=1,P:02Y2那么,式(14)的拉格朗日函数可以表示为:L(P.n,P.)=-n(p:1-1)T p:d;22Y(22)其中,n0和0是拉格朗日乘子.根据Karush-Kuhn-Tucker条件和互补松弛条件,最优解P,可以表示为:(23)Pi2(4)固定F,P和W,求解.生回企1相,小

    27、用由于在无监督特征选择算法中,保持数据的局部几何结构比保持全局结构的效果更好,所以只考虑k个近邻点来构造相似矩阵 18 .需要说明的是,在实验中保持数据局部结构时均选取五个近邻点.的最优解可以表示为所有的平均值。不失一般性,假设di.idi,2.din,p.满足pi0pi.+1,则有:di.k+D2(24)d.+1+n0Pi.k+102r根据式(2 4)和约束条件p1=1,有:1工2d(25)22ky将的值设置为所有的均值,给定当前估计值为W,则:W)a;-(W)d=即:kd(27)n2将式(2 7)代人式(2 3),则:(28)kdtd1t+1算法的详细描述如下。算法PRMR算法输入:原始数

    28、据XERdn,数据的类别数c,参数入,1,入2,选择的特征数m,选择的近邻数k的值越大,算法的效果越好 3信息(Normalized Mutual Information,NMI),两者化互评价指标刘精确度(A(ACC)和归3.2评价标准对聚类结果采用两种最常用的32(31)30)直到收敛268第5 9 卷南京大学学报(自然科学)6.计算特征权重,(i=1,2,d),按降序排列.输出:前个特征作为特征选择的结果2.3收敛性分析上述算法通过送代更新求解W,F,G,P和来求解目标函数(式(8)).为了证明算法的收敛性,下面给出引理1 19.引理1(19对于任意非零向量uUER,有式(29)恒成立:

    29、(29)将目标函数(式(8)第t次的目标值记为J(W,F,G,P,),即:J(W,F,G,P,)=XTW-FlW)XLXTW)+Trr(W)XF(F)xTWt)+入,TrWt)GWt那么,对于第t十1次迭代,有:那么,对于第t十1次送代,有:J(WI+1,Ft+1,G+1,PI+1,t+J(W,F,G,P,根据引理1,有:入2Clwill-2i=1i=1Gtt+12,12.1结合式(31),可得:XTWI+1-FI+1r(Wt+1)XLi+1XTWI+1)+1入TFt+(33)XF2,1XTWt-FtXLXTWXFXTWF2,1由此可知,PRMR算法在每次迭代中都降低了问题(式(7)的目标值,

    30、收敛性的数值验证将在下一节具体给出:3实验将PRMR算法与现有的六个算法在四个数据集上进行了对比实验,将各算法的特征选择结果应用于k-means聚类 2 0 ,然后对各算法的聚类结果进行比较.使用原始数据集执行k-means聚类的结果作为基线,由于k-means聚类算法的初始类簇中心是随机的,所以将其执行5 0 次,记录平均值其由参数6 为使用数据集的直实类别数3.1数据集描述共使用四个数据集:dermato-logy,c o n t r o l,JA FFE和ATT40.表1详细介绍了这些数据集以及实验中所选择的特征维数。表1实实验使用的四个公开数据集Table1Four public da

    31、tasets used in experimentsNumberofNumberofDatasetsFeaturesClassessamplesselected featuresdermatology366346(8,10,24)control600606(16,20,48)JAFFE21325610(20,40,180)ATT40400102440(20,40,180)2(y.c.)ACC=旦(34)n其中,n是数据集的样本总数;y,和c分别是样本点,对应的真实类别标签和预测类别标签;(yi,c.)是一个示性函数,如果y:=c,则等于1,如果不相等,则等于0.I(P,Q)NMI(P,Q)=(

    32、35)/H(P)H(Q)其中,H(P)和H(Q)分别代表聚类产生的伪标签P和数据集的真实标签Q之间的信息熵,269宋第2 期雨等:基于伪标签回归和流形正则化的无监督特征选择算法I(P,Q)表示P和Q之间的互信息.NMI反映两个变量之间的相近程度。3.3实实验结果分析图1和图2 分别展示了PRMR算法和其他六种算法在表1数据集上的最佳精确度和归一化互信息,横坐标表示所选特征数,正则化参数入,入和入2 分别采用网格搜索法设置在(10-,10-1,1,10,10).从图1和图2 可以清晰地看到,与基线相比,大部分算法都具有更好的性能,说明特征选择是有必要的,因为它有效地去除了特征空间中大部(a)de

    33、rmatology(b)control100%100%90%90%80%80%70%一一尽70%60%k-means60%50%*一MRSR50%40%O一AMRSR81012141618202224162024283236404448-B-RNE特征数特征数JELSR(c)JAFFE(d)ATT40MCFS90%70%-EGCFSours80%60%70%50%60%40%特征数特征数图1不同特征数时各算法的最佳聚类精确度Fig.1The best clustering accuracy of each algorithm with different feature numbers(a)d

    34、ermatology(b)control100%90%90%80%80%70%k-means60%60%*一MRSR-AMRSR50%50%81012141618202224162024283236404448中RNE特征数特征数JELSR(c)JAFFE(d)ATT40MCFS90%80%-EGCFSours80%0%70%60%60%特征数特征数图2不同特征数时各算法的最佳归一化互信息Fig.2The best normalized mutual information of each algorithm with different feature numbers270第5 9 卷南京大

    35、学学报(自然科学)分的不相关特征和穴余特征同时,EGCFS,MRSR,A M RSR以及PRMR算法在大多数情况都优于其他算法,这是因为考虑了数据的局部几何结构.随着所选特征维数的增加,算法的性能也有逐渐提高的趋势,但不总是升高的,因为对于不同的数据集最佳特征数也是不一样的.表2 和表3分别给出了各算法在实验数据集上的精确度、归一化互信息以及相应的方差,表中黑体字表示最优结果,下划线表示次优结果.由表可见,PRMR算法的两种评价指标都表现良好,聚类精确度大致提高1%3%,归一化互信息大致提高1%7%,说明提出的算法从原始数据中选出的特征子集比其他算法更有利于分类。表2 各算法在四个数据集上的最

    36、佳精确度Table2The best accuracy of each algorithm on four datasetsMethodsdermatologycontrolJAFFEATT40Ours0.9645 0.05400.94670.06910.89670.02230.60750.0230AMRSR0.93990.07440.95170.05500.88260.01990.60000.0314MRSR0.90440.02670.85330.05900.84980.02680.58250.0239RNE0.75310.03460.78330.04570.71140.01520.4913

    37、0.0246MCFS0.87430.01490.70650.04420.71550.02120.53300.0285JELSR0.72220.01870.67000.05120.70000.01760.49370.0154EGCFS0.95630.03200.86670.04140.87790.01960.60750.0243k-means0.69260.01220.62360.04460.69020.01820.52110.0145表3各算法在四个数据集上的最佳归一化互信息Table3The best normalized mutual information of each algorit

    38、hm on four datasetsMethodsdermatologycontrolJAFFEATT40Ours0.93790.02210.89380.03320.89080.01460.78670.0136AMRSR0.92240.01630.81820.05000.87130.01530.78870.0222MRSR0.93220.02990.79510.02540.79510.02210.76450.0177RNE0.84880.04880.74880.02660.77980.04300.72000.0123MCFS0.73440.01990.77740.02150.76430.04

    39、110.75040.0125JELSR0.78150.05800.78150.01760.77930.03630.72650.0147EGCFS0.93220.03140.77580.01060.85490.03890.78850.0160k-means0.82980.02120.70020.01140.74160.01640.74570.0175图3展示了ATT40数据集上的两个效果示例,进一步证明了本文算法的有效性,随机选取ATT40数据集中的两个样本执行PRMR算法,在它们的特征集中分别选择2 0,40,18 0 个特征,第一幅是原图,然后依次为选择2 0,40,180个特征对应的人脸图

    40、,并将算法选择的特征图3PRMR算法在ATT40数据集上的两个效果示例图Fig.3Two effect examples of PRMR algorithm onATT40 dataset设置为白色.由图可见,本文算法倾向捕捉人脸上有判别性的部位,如眉毛、眼睛、鼻子、嘴等,进一步证明本文算法选择了更具判别性且利于分类的特征子集,3.4参数敏感性分析斤图4为control数据集上正则化参数入,入1和入2 在(10-,10-1,1,10,10变化对聚类精确度和归一化互信息的影响,其中一个正则化参数在所选范围内变化时,其余两个正则化参数均设置为1.由图可见,随着所选特征维数以及参数的变化,在大部分情

    41、形中,control数据集上的聚类精确度和归一化互信息在相对稳定的范围内变化,而波动较大的情况,如入2 对聚类精宋271第2 期雨等:基于伪标签回归和流形正则化的无监督特征选择算法100%100%100%80%80%80%60%60%60%40%40%40%20%一20%20%000161616202020242424282828323232特征数36特征数36100100特征数36401040104010014411044480.010.1入480.010.14410.1480.01100%100%100%80%80%80%60%60%60%IWNINNTWN40%40%40%一20%20%

    42、20%161616202020242424282828323232特征数36特征数36100特征数36100401004010104010441441441480.010.1入480.010.1480.010.1图4三个正则化参数对PRMR算法的影响Fig.4Influence of three regularization parameters on PRMR algorithm确度的影响,PRMR算法仍然可以在特定的参数组合下得到良好的特征选择结果.3.54收敛性的数值验证设置送代停止的条件为J(t)一J(t十1)e,其中,J为式(30)中的目标函数值,值设置为10-3,t表示送代次数.以

    43、ATT40数据集为例,图5展示了式(30)中目标函数值在ATT40数据集上送代次数的收敛性,结果验证了PRMR算法的收敛性4结论针对现有的大部分特征选择算法忽略了样本本身的结构特性、容易选择低判别性特征的问题,受线性判别分析算法的启发,本文提出了基于伪标签回归和流形正则化的无监督特征选择算法。通过对数据伪标签的学习,将无监督特征选择问题转换为有监督特征选择问题,在最小化伪标签回归项的同时最大化类间散度,确保学习到的类别的准确性,使模型能够选择更具判别性的特征.本研究还对该模型施加了一个流形正则化项,以确保维持数据样本的局部几何结构信息.最终,实验验证了该算法的有效性与优越性.之x1096543

    44、2005101520253035404550Numberof iteration图5PRMR算法在ATT40数据集上的收敛性Fig.3Convergence of PRMR algorithm on ATT40dataset后的研究将主要集中在提高算法处理高维数据的速度以及算法的鲁棒性.参考文献1 蒋胜利.高维数据的特征选择与特征提取研究博士学位论文.西安:西安电子科技大学,2 0 11.(JiangS L.Research on feature selection and feature extrac-tion of high-dimensional data.Ph.D.Dissertati

    45、on.Xian:Xidian University,2011.)杨可盛272南京大学学报(自然科学)第59 卷2林书亮.联合L2.1范数正则约束的特征选择方法.科技与企业,2 0 13(2 4):38 3-38 4.3 Liang S Q,Xu Q,Zhu P F,et al.Unsupervisedfeature selection by manifold regularized self-represen-tation/Proceedings of 2017 IEEE InternationalConference on Image Processing.Beijing,China:IEE

    46、E,2017:23982402.4方威.自适应图正则非负矩阵分解聚类算法的研究.硕士学位论文.扬州:扬州大学,2 0 2 1.(FangW.Research on clustering algorithm of adaptive graphregularized non-negative matrix factorization.MasterDissertation.Yangzhou:Yangzhou University,2021.)5章永来,周耀鉴.聚类算法综述.计算机应用,2 0 19,39(7):1869-1882.(Zhang Y L,Zhou Y J.Review ofcluste

    47、ring algorithms.Journal of Computer Applica-tions,2019,39(7):18691882.)6杜世强.基于维数约简的无监督聚类算法研究.博士学位论文.兰州:兰州大学,2 0 17.(DuSQ.Unsupervised clustering algorithm based on dimensionreduction.Ph.D.Dissertation.Lanzhou:LanzhouUniversity,2017.)7汪志远.无监督特征选择方法研究.硕士学位论文。太原:太原理工大学,2 0 2 0.(WangZY.Researchonunsuper

    48、vised feature selection.Master Dissertation.Taiyuan:Taiyuan University of Technology,2020.)8 Li Z C,Yang Y,Liu J,et al.Unsupervised featureselection1 usingrnonnegativespectralanalysis/Proceedings of the 26h AAAI Conference on ArtificialIntelligence.Toronto,Canada:AAAI,2012,26(1):1026-1032.9 Yang Y,S

    49、hen H T,Ma Z G,et al.L2.,norm regu-larized discriminative feature selection for unsuper-vised learning/Proceedings of the 22nd InternationalJoint Conference on Artificial Intelligence.Barcelona,Spain:AAAI,2011:1589-1594.10 Cai D,Zhang C Y,He X F.Unsupervised featureselection for multi-cluster data/P

    50、roceedings of the16h ACM SIGKDD International Conference onKnowledge Discovery and Data Mining.Washington,DC,USA:ACM,2010:333-342.11 Hou C P,Nie F P,Yi D Y,et al.Feature selectionvia joint embedding learning and sparse regression/Proceedings of the 22nd International Joint Conferenceon Artificial In


    注意事项

    本文(基于伪标签回归和流形正则化的无监督特征选择算法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png