基于伪标签回归和流形正则化的无监督特征选择算法.pdf
《基于伪标签回归和流形正则化的无监督特征选择算法.pdf》由会员分享,可在线阅读,更多相关《基于伪标签回归和流形正则化的无监督特征选择算法.pdf(10页珍藏版)》请在咨信网上搜索。
1、NATTJRASCIENCEMar.,20232023年3 月JOURNAL OF NANJINGUNIVERSITYVol.59,No.2第5 9 卷第2 期南京大学学报(自然科学DOI:10.13232/ki.jnju.2023.02.009基于伪标签回归和流形正则化的无监督特征选择算法宋雨,肖玉柱*,宋学力*(长安大学理学院,西安,7 10 0 6 4)摘要:无监督特征选择是无标签高维数据预处理过程中一种有效的数据降维技术,然而大多数无监督特征选择算法忽略了数据样本本身的类簇结构特性,选择具有低判别性信息的特征。基于此,提出一种基于伪标签回归和流形正则化的无监督特征选择算法,具体地,联合
2、伪标签回归和最大化类间散度来保证算法在迭代过程中学习伪标签,同时,自适应学习数据样本之间的局部几何结构,获得更加精准的标签信息和结构信息,进而选择具有高判别性且能保持数据流形结构的特征,在四个公开数据集上的对比实验表明,提出算法的特征选择结果优于现有的一些无监督特征选择算法。关键词:无监督特征选择算法,判别信息,伪标签回归,最大化类间散度,流形正则化中图分类号:TP391文献标志码:AAn unsupervised feature selection algorithm based onpseudo-label regression and manifold regularizationSon
3、g Yu,Xiao Yuzhu,Song Xueli(School of Science,Changan University,Xian,710064,China)Abstract:Unsupervised feature selection is an effective dimensionality reduction technique in the processing of unlabeledhigh-dimensional data.However,most unsupervised feature selection algorithms ignore the peculiari
4、ty of cluster structure ofdata samples and select the features with low discriminant information.This paper proposes an unsupervised feature selectionalgorithm based on pseudo-label regression and manifold regularization.Specifically,it combines pseudo-label regression andmaximizing the divergence b
5、etween classes to ensure that the algorithm learns pseudo-labels in the iterative process.At thesame time,it learns the local geometric structure between data samples adaptively to obtain more accurate label and structureinformation,and furtherly selects features with high discrimination and keep th
6、e manifold structure of data.Experimentalresults on four public datasets show that the proposed algorithm outperforms some existing unsupervised feature selectionones.Key words:unsupervised feature selection algorithm,discriminant information,pseudo-label regression,inter-class divergencemaximizatio
7、n,manifold regularization科技的发展带来了可利用的海量数据,然而,针对不同的需求,这些数据只有部分特征或属性能起到关键的作用.从数据的高维特征空间中快速选择对分类识别最有效的特征,实现对数据特征维数的约简,是有效利用这些数据至关重要的环节 1.数据特征维数约简不仅可以降低存储空间,避免模型过拟合,同时,还可以提高模型的效率,降低后续学习任务的难度.基金项目:长安大学中央高校基金科研业务费(310 8 12 16 35 0 4,30 0 10 2 12 2 113)收稿日期:2 0 2 3-0 1-0 9*通讯联系人,E-mail:,264第5 9 卷南京大学学报(自然科
8、学)一般地,维数约简或降维有两种方法,一是特征提取,又称特征变换,二是特征选择.它们的目的都是减少数据集样本的特征维数,不同的是,特征提取是通过特征变换将原始数据特征从高维空间变换到低维空间来减少特征维数,而特征选择是通过某种评价标准从原始特征集合中选择一个在该标准下最优的特征子集 2 .特征选择因其保留了原始的特征空间,可解释性更强,已被广泛应用于数据挖掘和机器学习领域.根据数据标签的获取情况,特征选择分有监督、半监督和无监督三种类型 3.在实际应用中,因为大部分数据没有标签并且标签难以获取,所以对无监督特征选择方法的研究具有重要的现实意义,无监督特征选择方法通过学习无标记的样本挖掘原始数据
9、的内在规律 4,然而,大多数无监督特征选择算法都忽略了数据样本本身的类簇结构特性,选择具有低判别信息的特征.为了解决这一不足,聚类算法的思想被引人无监督特征选择算法.聚类是一种典型的无监督学习技术,它将未知类别的数据样本按照一定的规则划分成若干个类簇来揭示样本之间内在的性质 5 .在学习过程中,聚类既可以作为单独的一个过程,通过寻找数据样本内在的分布结构揭示其内在性质及规律,也可以作为分类等其他学习任务的前驱过程,为进一步的数据分析奠定基础 6 .需要注意,无监督特征选择是从原始特征空间中选择对分类有益的特征来提升学习算法的性能 7 ,因此,将聚类算法引人无监督特征选择算法来发掘样本之间的类簇
10、特性,用得到的伪标签指导无监督特征选择,其本质是把无监督的问题转化为有监督学习.多种伪标签的产生方式被用于无监督特征选择算法。比如,基于非负谱分析的无监督特征选择(Unsupervised Feature Selection Using Nonne-gative Spectral Analysis,NDFS)算法采用谱聚类的方法产生伪标签,利用学习到的标签信息指导特征选择 8 .基于L2.1范数正则化的无监督学习的判别特征选择(L2.1-norm Regularized Discrimi-native Feature Selection for Unsupervised Learn-ing,U
11、DFS)算法在考虑流形结构的基础上通过最小化局部总散度的同时最大化类间散度的方式学习一个线性分类器来将数据点归类,并结合L2.1范数约束建立特征选择模型 9.针对多簇类数据的无监督特征选择(Unsupervised Feature Se-lection for Multi-Cluster Data,MCFS)算法考虑不同特征之间可能存在的相关性,通过聚类分析中的谱嵌人方法尽量更好地保留数据的多簇结构,同时通过L1范数正则化稀疏系数实现特征选择 10 .联合嵌入学习和稀疏回归的特征选择(Fea-ture Selection via Joint Embedding Learning andSpar
12、se Regression,JELSR)算法通过局部线性逼近方法,利用权值构造图,结合嵌入学习和稀疏回归进行特征选择11.上述基于数据本身的类簇结构通过聚类寻找伪标签,是将无监督问题转换为有监督问题的无监督特征选择算法的关键。流形学习基于一个样本点与它相邻样本点之间的关系,通过学习它们之间的相似度来描述数据的结构信息 4.基于流形正则化自表示的无监督特征选择(Unsupervised Feature Selection byManifold Regularized Self-Representation,MRSR)算法在目标函数中加人学习结构的流形正则化项,选择最具代表性且能保持局部结构的特征
13、子集 3.基于对偶自表示和流形正则化的鲁棒无监督特征选择(Robust Unsupervised Feature Selec-tion via Dual Self-Representation and ManifoldRegularization,DSRMR)算法,一方面使用特征自表示项学习特征表示系数矩阵来度量不同特征维度的重要性,另一方面,使用样本自表示项自动学习样本相似图来保持数据的局部几何结构 12 .基于自适应结构学习的无监督特征选择算法(Unsupervised Feature Selection with AdaptiveStructure Learning,FSASL)同时进行
14、结构学习和特征选择,在保持样本结构的同时选择重要的特征 13.Zhang et al14在优化过程中引人构造的相似矩阵,结合最大化类间散度思想,提出自适应图学习和约束的无监督特征选择(UnsupervisedFeature Selection via Adaptive Graph Learningand Constraint,EGCFS)算法,选择不相关但有区别的特征.因为流形正则化可以保留数据固有的几何结构,所以引人流形正则化项的无监督特征选择算法的性能更好。针对现有的大部分无监督特征选择算法忽略数据本身的结构特性、容易选择低判别性特征的265宋第2 期雨等:基于伪标签回归和流形正则化的无监
15、督特征选择算法问题,借助流形正则化的优点,本文将最大化类间散度学习引人基于伪标签回归的无监督特征选择算法模型,提出一种基于伪标签回归和流形正则化的无监督特征选择算法(AnUnsupervised Feature Selection Algorithm based on Pseudo-labelRegression and Manifold Regularization,PRMR),进一步改进特征选择的效果。一方面,基于最大化类间散度的学习在迭代过程中优化伪标签,指导有利于分类的特征选择;另一方面,将相似矩阵嵌人子空间学习来探索更好的局部几何结构,选择更能保持数据结构的特征子集。1相关理论1.1
16、符号说明给定样本数据集X=1,2,JERax,d和n分别表示该数据集的特征维数和样本数,其中,ER表示第i个样本.I ll-22wi-2w:l.表示W的La范i=1Vj=1i-1数,W,=2之Cw=表示W的=1Frobenius范数,其中,w,表示W=w,ERdx的第行,w表示向量的L范数,c表示数据样本的类别数,Tr(A)表示对矩阵A求迹.1.2理论框架由于数据集缺乏训练标签,现有的无监督特征选择算法大都通过谱聚类、矩阵分解或字典学习等方法产生样本的伪标签,进而将无监督问题转换为有监督问题 15 。通过学习得到的聚类标签反映与类相关的数据分布,对无监督特征选择算法的性能至关重要一般地,无监督
17、特征选择算法的模型可以表示为:J=G(X,01)+T(X,02)(1)其中,G(X,01)是产生伪标签的函数,T(X,0 2)是指导特征选择的函数,0 和2 是参数.在此基础上,特征选择问题T(X,02)一般可以表示为一个损失最小化问题,即:min L(X,W)+R(W)(2)其中,L(X,W)表示损失项,R(W)表示正则化项,入是一个正则化参数.假定YERxc是类簇指示矩阵,即Y=1,y2,y,e(0,1*,其中,yiE(0,1*是,的类簇指示向量.通过回归函数学习特征子空间与伪标签空间的线性映射关系 1,则L(X,W)可以表示为:12minxTW-F,s.t.F=Y(YTY)2(3)其中,
18、FERXc是规范化的指示矩阵,并且FTF=(YTY)TY(YTY)=I,其中,IER是单位矩阵(8 行稀疏正则化通常被施加在特征选择矩阵W上来减少余特征和噪声特征,所以特征选择问题可表示为如下的优化问题:minXTW-F十入W1,s.t.FTF=Ie(4)W因为伪标签指导的无监督特征选择算法的性能主要取决于G(X,Q1),所以为了进一步保证算法的性能,需要找到可靠的伪标签 15 .受线性判别分析 17 的启发,在特征子空间中不同类别的数据样本点应尽可能远离来寻找更具有判别信息的特征,为此,本文引人类间散度最大化思想。假设数据集样本的类别标签YERx已知,类间散度最大化意味着在特征子空间中类与类
19、之间的距离要尽可能大 14,其具体表达式为:maxTr(WTXFFTXTW),s.t.FTF=I.(5)W,G考虑到在高维空间中数据的局部几何结构往往包含重要信息,所以保持数据的局部几何结构也尤为重要 6 .Zhang et al14将相似矩阵的学习嵌入优化过程,构造自适应流形正则化框架来保持数据样本原始的局部几何结构,提高了无监督特征选择算法的性能.基于流形正则化的特征选择方法在挖掘并保持数据结构上表现良好,因此,本文在回归函数的基础上引人流形正则化的框架,对相似矩阵施加概率最近邻约束,使其自适应地学习拉普拉斯矩阵,即:min Tr(WTXLXTW)+llP P,Y(6)7s.t.Pu=1,
20、p0其中,PER表示样本的相似矩阵,其元素p表示样本点,之间的相似度;度矩阵D可由相似266第5 9 卷南京大学学报(自然科学)矩阵P表示,它的第i个对角元素为Zp=1;拉普拉斯矩阵L=D一P=I一P;是一个正则化参数。2基于伪标签回归和流形正则化的无监督特征选择算法针对大多数无监督特征选择算法忽略了数据本身的类簇结构特性,导致选择的特征只具有低判别信息的问题,提出一种基于伪标签回归和流形正则化的无监督特征选择算法.本节给出了该算法的目标函数以及相应的求解方法,并对目标函数的收敛性进行了理论分析2.1模型建立首先将最大化类间散度的学习集成到基于伪标签回归的无监督特征选择模型中,然后在特征子空间
21、中施加流形正则化约束,特征选择矩阵在行稀疏正则化的条件下进一步保证该模型可以选择出更具判别性且能保持数据结构的特征子集,最终得到目标函数,即:minXTW-FW,F,P,Ya(Tr(WTXLXTW)+Pl)-A,Tr(WTXFFXW)+allWla.(7)s.t.FTF=I.,F0,Zp=1,pj0其中,入,入和入2 是正则化参数,F0表示F中的元素都是非负的.需要注意,模型中存在的干扰信息会使F中的元素严重偏离理想的簇类指标,因此不能直接将其作为指示矩阵 8 .为了解决这个问题,给F施加一个非负约束,当F满足非负和正交约束时,每行中只有一个元素大于零,其他都是零,可以使学习到的F更准确,进而
22、提供准确的判别信息,2.2模型求解式(7)中的目标函数一共有W,F,P和四个变量,所以采用交替迭代法对其进行求解。为了便于计算,首先将稀疏正则化项IWIl,,转换为矩阵形式Tr(WTGW),定义对角权重矩阵GERaxd,它的对角元素是gn=1(i=1,,d).那么式(7)可以重新写作:21/:minXTW-F+a(Tr(WTXLXTW)+lPW,F,P,ATr(WTXFFTXTW)+,Tr(WTGW)s.t.FTF=1,F0.p=1,p,0(8)求解过程具体如下:(1)固定F,P和,求解W.当F,P和固定时,关于W的函数为min Tr(xTW-F)(XTW-F)WTr(WTXLXTW)-(9)
23、AITr(WTXFFTXTW)+,Tr(WTGW然后通过解决以下加权最小二乘问题来更新W,那么式(9)可以改写为:minTr(WTXXTW)-2Tr(FTxTW)+WTr(WTXLXTW)-(10)aTr(WTXFFTXTW)+,Tr(WTGW)通过对式(10)中的W求偏导并设置为0,给定当前估计值为W,则可以得到W的解:Wi+1=XXT+AXLXT-AIXF(F)XT+2G1XF(11)(2)固定W,P和,求解F.当W,P和固定时,关于F的目标函数可以改写为:min Tr(xTW-F)(xTW-F)F(12)AiTr(WTXFFTXTW)S.t.FTF=I,F0为了消除正交约束,添加一个惩罚
24、项FTF-I.,并在实验中设置=10,得到如下优化问题:min Tr(XTW-F)(xTW-F)F(13)A,Tr(WTXFFTXTW)+FTF-I.lls.t.F0引人拉格朗日乘子 来消除不等式约束,那么关于F的拉格朗日函数为:L(F,)=Tr(xW-F)(xW-F)-A,Tr(WTXFFTXTW)+(14)FTF-I-Tr(TF)对式(14)中的F求导并令导数值为0,有:5.按式(2 7)更新Pt+1Pt+1I4.按式(2 8)更新L+1=D+13.更新Gt+12.按式(18)更新F;1.按式(11更新Wt重复以下步骤:初始化:ti2(26)di21RR将式(2 5)代2F2XTW-WWI
25、XF+267宋第2 期雨等:基于伪标签回归和流形正则化的无监督特征选择算法aL(F,)2F-2XTW-2入,XTWWTXF+aF(15)4F(FTF-I)-=0故可得:Q=2F-2XTW-2iXTWWTXF+(16)4F(FTF-1)应用Karush-Kuhn-Tucker条件,F,=O,有:4aF(FTF-1),F,=0(17)给定当前估计值F,故可由下式更新F,即:XTW+iXTW(W)XF+2FFi+1F订F+2F(F)F)订(18)在更新F之后,需要对F进行规范化以满足正交的约束条件即FTFI(3)固定F,W和,求解P.当F,W 和固定的时候,根据拉普拉斯矩阵的性质:h;一h,I,p;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 标签 回归 流形 正则 监督 特征 选择 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。