基于标签相关性的标签特定特征多标签学习.pdf
《基于标签相关性的标签特定特征多标签学习.pdf》由会员分享,可在线阅读,更多相关《基于标签相关性的标签特定特征多标签学习.pdf(11页珍藏版)》请在咨信网上搜索。
1、针对标签特定特征多标签学习算法(multi-label learningwith label-specificfeatures,LIFT)未能在聚类以及分类阶段考虑标签相关性问题,提出一种基于标签相关性的标签特定特征多标签学习算法(multi-label learning with label-specific features via label correlations,LFLC).将标签空间加入特征空间进行聚类构建分类模型,采用考虑标签相关性的聚类集成技术为每个标签构造标签特定特征,使用相关性矩阵构建无向完全图并挖掘图中标签集合相关性,通过树集成表达标签间多种不同结构的强相关性.在试验部
2、分,采用涵盖不同领域的10 个数据集,以Hamming Loss、Ra n k i n gLoss、O n e-e r r o r、Co v e r a g e、A v e r a g e Pr e c i s i o n 和macroAUC为评估指标,进行了参数敏感性分析和统计假设检验.结果表明:结合聚类集成与标签间强相关性的LFLC算法较其他对比多标签算法整体上能取得较好的效果,关键词:多标签学习;标签特定特征;聚类集成;标签相关性;无向完全图;最小生成树中图分类号:TP391引文格式:王进,梁晨,孙开伟,等。基于标签相关性的标签特定特征多标签学习J.江苏大学学报(自然科学版),2 0 2
3、 3,44(5):554 563,576.Multi-label learning with label-specific features via label correlations文献标志码:A文章编号:16 7 1-7 7 7 5(2 0 2 3)0 5-0 554-10WANG Jin,LIANG Chen,SUN Kaiwei,CHEN Qiaosong,DENG Xin(Key Laboratory of Data Engineering and Visual Computing,Chongqing University of Posts and Telecommunicatio
4、ns,Chongqing 400065China)Abstract:To solve the problem that multi-label learning with label specific features(LIFT)could notconsider label correlation in the clustering and classification stages,a method for multi-label learning withlabel-specific features via label correlations(LFLC)was proposed.Th
5、e label space was added to the featurespace for clustering to construct the classification model,and the clustering ensemble with considering labelcorrelation was used to construct label-specific features for each label.The correlation matrix was used toconstruct undirected complete graph and mine t
6、he correlation of label sets in the graph.The strongcorrelation of multiple different structures between labels was expressed by tree ensemble.In theexperiment,10 data sets covering different fields were used,and Hamming Loss,Ranking Loss,One-error,Coverage,Average Precision and macroAUC were used a
7、s evaluation indexes to carry out parametersensitivity analysis and statistical hypothesis test.The results show that the LFLC algorithm combinedwith clustering ensemble and strong correlation between labels can obtain better performance generally.Key words:multi-label learning;label-specific featur
8、e;clustering ensemble;label correlation;undirected complete graph;minimum spanning tree收稿日期:2 0 2 1-11-2 6基金项目:国家自然科学基金资助项目(6 18 0 6 0 33)作者简介:王进(197 9一),男,重庆人,教授(),主要从事机器学习与数据挖掘研究.梁晨(1997 一),男,四川成都人,硕士研究生(2 438 2 0 8 59 ),主要从事机器学习研究。555第5期王进等:基于标签相关性的标签特定特征多标签学习传统监督学习中假设实例仅对应一个类别标签,但是现实世界中的实例往往包含多个
9、标签,比如一张图片可能同时包含人与动物,一则新闻也可能包含政治和经济2 种类别.多标签学习1(multi-labellearning)就是针对此类问题.由于实例可能拥有多个标签,复杂多变的多标签数据给多标签学习带来了更大的困难.近几年多标签学习在图像识别、文本分类、视频标注、音乐分类、基因功能分类等领域2-5 得到了广泛应用.多标签学习的任务是从已知实例与标签集中学习,来预测一个不可见实例的标签集合.现已经有大量成熟的方法来解决不同领域的多标签学习问题,主要分为2 类6 :问题转换法(problem transformation,PT)和算法适应法(a l g o r i t h m a d
10、a p t a t i o n,A A).具体而言,问题转换法将多标签学习转换成一个或多个单标签分类;算法适应法则是直接修改现有的分类算法,令其可以直接处理多标签数据.由于多标签学习中一个实例包含多个标签,那么标签之间自然而然存在相关性,因此在学习过程中探索标签间相关性是提高多标签分类性能的一大途径.除了标签相关性,标签特定特征多标签学习算法(multi-labellearningwithlabel-specific features,LIFT)首次提出为每个标签构造特征,该特征是实例与标签间最相关且最有区别的特征;在LIFT中分别对标签的正负实例使用K-means聚类,而后通过欧式距离度量实
11、例与聚类中心之间差异来构建标签特定特征,最后使用分类器将构建的标签特定特征进行分类;但是由于初始点和离群点问题,K-means的结果并不稳定,同时LIFT各个标签在聚类和分类的过程中相互独立,未能考虑标签间的相关性.基于聚类集成的标签特定特征多标签学习算法(multi-label learning with label-specificfeatures via clustering ensemble,LIFTACE)采用聚类集成技术在生成稳定聚类结果的过程中考虑标签相关性,但是该算法同样未能在K-means 聚类以及分类阶段考虑标签相关性.文中拟提出一种基于标签相关性的标签特定特征多标签学习算
12、法(multi-label learning with label-specific features via label correlations,LFLC),该算法在聚类和分类阶段中同时考虑标签间相关性.首先LFLC在聚类阶段加人标签空间进行聚类,这基于一个假设:对于预测标签而言,除了实例空间相似性,含有标签相似性的实例同样具有相似性.其次采用图算法构建最大生成树,并探索标签间强相关性建立对应的分类模型,结合树集成方法抑制树深带来的误差传递,并充分利用标签间的强相关性,1相关工作在多标签学习中,由于实例标签集中包含多个标签,标签之间往往会相互关联.探索标签间相关性有助于提高多标签学习的性能
13、.多标签学习根据利用标签相关性策略不同可以大致分为3类:一阶策略、二阶策略和高阶策略.一阶策略完全忽略标签间的相关性.二元关系法(binaryrelevance,BR)是一种简单的一阶策略,直接将多标签数据集中的每个标签拆分开来,转化为多个不相关的单标签问题,对每个标签单独构建数据集与分类器.多标签K近邻算法(K-nearest neighbors for multi-label lear-ning,ML-KNN)是一种算法适应法,该算法基于K近邻算法直接处理多标签数据集.LIFT在聚类和分类过程中标签相互独立,属于一阶策略.多标签决策树(multi-label decision tree,M
14、L-DT)采用决策树来处理多标签数据,该算法修改传统熵值计算方法适应多标签数据,同样也是一阶策略.二阶策略考虑成对标签相关性.校准标签排序算法(calibratedla-bel ranking,CLR)将多标签学习转化为标签排序问题;通过标签成对组合然后为每对标签构建数据集和分类器,预测阶段对标签进行投票.多标签支持向量机(ranking support vector machine,Rank-SVM)是一种算法适应法,通过修改支持向量机直接处理多标签数据.高阶策略考虑标签之间的高阶关系.分类器链(classifierchain,C C)将多标签分类问题转换成链式问题进行解决,它将当前标签的分
15、类结果作为新的特征添加到下一个标签的特征集合中进行分类,也即当前预测的特征集依赖于前面预测的标签结果.CC有一个较为明显的问题,就是链式预测中存在误差传递,如果前面标签预测存在错误,那么会影响后面标签预测的准确性.基于标签特定特征分类器链算法7 】(label specific features basedclassifier chain,LSF-CC)使用特征估计技术为每个标签生成最相关的特征和标签列表.标签幂集法(label powerset,LP)用集合的形式直接将多标签数据集转换为单标签数据集,然后使用多分类器进行分类,对结果标签集进行拆分,累加每个标签在结果集中出现的次数后,按次数排
16、序得到实例标签集合.该算法主要有两个问题:首先LP只能预测训练集中出现的标签子集,对于未能出现的标签子集无法预测;其次对于含有n个标签的数据集,其子集个556江苏大学学报(自然科学版)第44卷数最大可能为2 ,极大增加了算法复杂度.对于LP出现的标签集合数量过大问题,随机标签组合多标签分类集成算法8 (random k-label sets,RAkEL)训练多个LP分类器,对于每个分类器,在标签集中随机选择不大于k的标签子集作为LP分类器的标签集,然后通过集成多个分类器的结果以投票的形式对实例进行预测,这种方法既保留了标签间的相关性,同时又减小了LP标签集的大小.除了标签相关性,标签特定特征是
17、标签具有的独特特征,这些特征能够有效地表达和区分不同标签,构造合理的标签特定特征能够有效提升多标签学习的性能9-10 1.LIFT首次提出基于标签特定特征的多标签学习方法,分别对正负实例使用K-means聚类,通过度量聚类中心和样本间的距离来构建标签特定特征用于分类;由于LIFT中的聚类和分类过程中标签相互独立,该算法没有考虑标签间相关性.LLSF(le a r n in g la b e l-s p e c if ic f e a t u r e s)假设标签仅与给定数据集的原始特征集中相关特征子集关联,而这些相关特征可以直接当作标签特定特征.LIFTACE改进了聚类过程并考虑了标签相关性,
18、采用聚类集成技术使聚类结果更加稳定.MLFC(l a-bel specific features by resolving label correlations)实现标签特定特征和标签间相关性的协作学习,优化框架学习特征权重,并通过构造附加特征来考虑标签相关性;LF-LELC12结合标签嫡与聚类集成获得聚类中心,而后通过特征选择技术挖掘标签相关性.文中对LIFTACE进行改进,提出了基于标签相关性的标签特定特征多标签分类算法.首先在聚类阶段分别对正负实例的特征空间与标签空间聚类,采用考训练集DD,=(Xi,Y)D2=(X2,Y2):DN=(XN,YN)P=(x,UYi,AiEYi)Ne=(x,
19、UY,入$Yi)标签相关性构图G=(V,E)V=(li,l2,lg)E=(corr(,),ev,fev)Gmax=arg max W(G)G虑标签相关性的聚类集成技术,使聚类结果更加稳定有效并为每个标签构造标签特定特征;然后使用成对标签的相关系数构建无向完全图探索标签间相关性,采用最大生成树挖掘标签间的强相关性,在使用树集成充分利用标签间强相关性的同时抑制误差传递;最后对未知实例在同样的树结构上进行集成分类2基于聚类集成和标签相关性的标签特定特征多标签分类算法2.1符号定义设D=1X,Y为m个样本的训练集,其中XR*是由d个特征向量X,X,,X,构成的输人空间,Y=R是由q个目标向量l,l2,
20、,l。构成的输出空间.LFLC的任务是学习一个映射函数Pk:XZ,(1k q),从原始d维空间X到一个d,维标签特定特征空间Z,并通过度量特征空间与标签特定特征的距离结合标签相关性构建新的特征空间D,然后训练每个标签的分类模型fiB(D,),最后采用树集成预测实例的多标签集合R.2.2LFLC算法描述为了结合标签相关性对多标签学习进行建模,LFLC算法框架主要包括以下2 个阶段:标签特定特征:通过对结合标签空间的多标签数据采用聚类集成技术为每个标签构造标签特定特征.树集成:采用成对标签相关性构图,并通过图算法挖掘标签集合间相关性,通过筛选树集合抑制误差传递,在树上进行递归预测,最终结合多棵树的
21、结果进行集成分类.图1为LFLC的训练与预测框架.构造实例相似矩阵谱聚类C2mkC,个WC,=exp-Y(1-cos)WI!更新相似矩阵Cam点WCk_WLWI=wCk树上递旧训练构造标签特定特征LF,LF:中心m,=r.min(IPl,/N,l)9(x)=dist(x,c),dis(x,c.),dist(x,cm)j-1j-2树集合Trees(a)训练2mk:LF2mj=t557第5期王进等:基于标签相关性的标签特定特征多标签学习测试样本XX=(X,X,xa)计算标签特定特征2.2.1结合标签空间构造标签特定特征标签特定特征是标签最相关和最有区分度的特征,该特征表达出了实例与标签之间的关联性
22、,文中通过结合标签空间的聚类集成构造标签特定特征.具体而言,对于标签集合中的每个标签lEy,首先根据标签正负性将原始数据集分割成P.和Nk,分别代表标签的正、负实例集;与LIFTACE不同,假设对于预测标签,除了特征空间,标签空间相似的实例仍然具有相似性,将标签空间加人原始特征空间中:P,=ix,UY,I(x,Y)ED,lhEY,l,IN.=(x;UY,I(x;,Y)eD,Y,I.采用K-means算法分别对P,和N进行聚类,在多标签学习中存在类不平衡问题13,标签的正实例数远远小于负实例数,即IP,IIN,I,为了应对该问题,正负实例数据集中聚类中心簇的个数设置为mi=r min(IP,l,
23、IN,1)1,(2)式中:rE(0,1 是控制聚类中心个数的比例参数.由于K-means 受初始值和离群点的影响,聚类结果并不稳定,这使得聚类很难准确表达实例与标签间的联系,因此在LIFTACE中应用了聚类集成技术生成更稳定的聚类结果;对于每个标签lEy,根据聚类结果构造实例相似矩阵,其构造式为1,ck(x)=ck(x,),式中:Cs(x,)代表实例x,在聚类中的簇编号.对于X;EPk,满足1c(x,)m;对于x;ENa,满足ms+1ck(x,)2mk.2个具有相关性的标签,对应的实例相似矩阵也应该是相似的.基于这一假设,通过计算余弦相似度来构造标签相似矩阵,衡量标签之间的相似性.标签相似矩阵
24、WC的子项计算式为WC,=exp-(1-cos),式中:是一个大于0 的超参数,文中采用LIFTA-CE中的设置,令其等于10;cos 表示标签l.与之间的余弦相似度;对于标签lE,代表的是m维向量,cos的计算式为cos=ylyj/(Ilyu ll Il y,ll).预测结果树集合Trees递归预测(b)预测图1LFLC的训练与预测框架通过组合所有标签的实例相似矩阵来更新每个标签的实例相似矩阵,在更新标签实例相似矩阵过程中考虑标签间的相关性.对于标签lEy,更新实例相似矩阵方法为WI=Z(WCw/ZWC.)WI,在更新后的实例相似矩阵上,选择简单有效的SPEC算法进行聚类;聚类数量计算式与式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 标签 相关性 特定 特征 学习
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。