融合标签嵌入和知识感知的多标签文本分类方法.pdf
《融合标签嵌入和知识感知的多标签文本分类方法.pdf》由会员分享,可在线阅读,更多相关《融合标签嵌入和知识感知的多标签文本分类方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、CNAIURASCIENCEMar.,20232023年3月JOURNAL OF NANJINGUNIVERSITYVol.59,No.2第59 卷第2 期南京大学学报(自然科学DOI:10.13232/ki.jnju.2023.02.010融合标签嵌入和知识感知的多标签文本分类方法冯海1,马甲林,许林杰1,杨宇1,谢乾1.2(1.准阴工学院计算机与软件工程学院,准安,2 2 30 0 1;2.江苏卓易信息科技股份有限公司,无锡,2 142 0 0)摘要:多标签文本分类是自然语言处理领域的重要任务之一,文本的标签语义信息与文本的文档内容有紧密的联系,而传统的多标签文本分类方法存在忽略标签的语义
2、信息以及标签的语义信息不足等问题.针对以上问题,提出一种融合标签嵌入和知识感知的多标签文本分类方法LEKA(La b e l Emb e d d i n g a n d K n o w l e d g e-A w a r e).该方法依赖于文档文本以及相应的多个标签,通过标签嵌人来获取与标签相关的注意力,考虑标签的语义信息,建立标签与文档内容的联系,将标签应用到文本分类中.另外,为了增强标签的语义信息,通过知识图谱嵌人引人外部感知知识,对标签文本进行语义扩展.在AAPD和RCV1-V2公开数据集上与其他分类模型进行了对比,实验结果表明,与LCFA(La b e lC o m b in a t
3、io n a n dFusionofAttentions)模型相比,LEKA的F1分别提高了3.5%和2.1%.关键词:多标签文本分类,标签嵌入,知识图谱,注意力机制中图分类号:TP391文献标志码:AMulti-label text classification method combininglabel embedding and knowledge-awareFeng Hai,Ma Jialin,Xu Linjie,Yang Yu,Xie Qianl.2(1.Faculty of Computer and Software,Huaiyin institute of Technology,
4、Huaian,223001,China;2.Jiangsu Eazytec Company Limited,Wuxi,214200,China)Abstract:Multi-label text classification is one of the most important tasks in natural language processing.The label semanticinformation of the text is closely related to the document content of the text.However,traditional mult
5、i-label textclassification methods have some problems,such as ignore the semantic information of the labels itself and insufficientsemantic information of the labels.In response to the above problems,we propose a multi-label text classification methodLEKA(Label Embedding and Knowledge-Aware).LEKA re
6、lies on the document text and multiple labels,obtains attentionrelated to labels through label embedding,considers the semantic information of labels,the relationship between the labels andthe content of the established document,and applies labels to text classification.In addition,to enhance the se
7、manticinformation of the labels,the embedding of knowledge graph is used to introduced external aware knowledge,expanding thesemantic information of label text.Compared with other classification models on AAPD and RCV1-V2 open data sets,excessive experimental results show that compared with the LCFA
8、(Label Combination and Fusion of Attentions)model,theproposed method improves the F1 value by 3.5%and 2.1%respectively.Key words:multi-label text classification,label embedding,knowledge graph,attention mechanism随着信息化时代的到来,互联网高速发展,产生了数量巨大、种类繁多的数据,文本作为数据的基金项目:国家自然科学基金(6 16 0 2 2 0 2)收稿日期:2 0 2 2 12 0
9、 3*通讯联系人,E-mail:载体之一有重要价值.如何处理这些海量的文本数据,选择有效的文本分类技术至关重要.274第59 卷南京大学学报(自然科学)在传统的分类方法中,每个样本示例只属于一个类别标记,即单标记学习 .2 0 14年Kim提出TextCNN模型,将卷积神经网络(Convolution-alNeural Networks,CNN)应用在文本分类领域中,取得了一定的效果.此后,越来越多的深度学习方法被应用于单标签文本分类任务,单标签文本分类技术逐渐成熟.但在实际文本分类任务中,许多对象具有多个标签,所以多标签文本分类逐渐受到研究者的广泛关注,多标签文本分类(Multi-Class
10、TextClassification,MCTC)是为文本文档分配一个或多个标签的文本分类任务,专注于文本的高级语义表示和标签相关性建模,有广泛的应用,如信息检索 3、情感分析 4、主题识别 5、推荐系统 6 等目前在多标签文本分类领域,主要有三个研究内容:(1)从文档中充分捕获有效的语义信息;(2)探究标签与文档之间的相关性,从文档中获取标签的文档表示;(3)探究标签之间的联系,因为在多标签文本分类中,大多数标签之间都有层次性.大多数研究者都是在完成第一个内容的前提下,重点对后两个内容进行探索 7 .尽管多标签文本分类的研究有一定进展,但依然有诸多问题,如把标签当成没有语义信息的标记,忽略标签
11、本身的语义信息,标签的语义信息仅仅在最后的分类预测阶段起监督的作用;同时,大多数标签是几个字符长度的短文本,标签文本存在数据稀疏问题.针对上述问题,本文提出一种融合标签嵌人和知识感知(Label Embedding and Knowledge-Aware,LEKA)的多标签文本分类方法,在利用标签嵌人的同时,将文本单词和类别标签在同维度语义空间进行学习嵌入,再通过知识图谱 8 嵌人对标签文本进行语义扩展,实现对标签的知识感知,最后,通过标签嵌人注意力使标签和文档文本进行语义交互,得到基于标签的文本表示,将标签应用到文本分类过程中.本文的主要贡献:(1)通过知识图谱引人相关的实体信息,丰富标签的
12、语义信息,缓解标签语义不足的问题.(2)提出基于扩展后标签语义信息与文档交互的注意力机制,通过空洞卷积获取全局特征,从而计算更细粒度的标签注意力。(3)在两个公开数据集上与几种主流方法进行了对比实验,实验结果表明,LEKA的效果优于其他方法1相关理论1.1基于机器学习的传统分类算法基于机器学习的传统分类算法主要分问题转换方法和算法适应方法.问题转换方法的思路是将多标签学习的任务转换为传统的一个或多个单标签学习的任务,学者们已经提出了许多单标签分类任务的算法.最典型的是BinaryRelevance(BR)9),其基本思路是将多标签学习问题转化为每个标签独立的二元分类问题,但无法发现标签之间的依
13、赖性,标签空间很大时还会导致计算效率不高,使预测效果下降.LabelPowerset(LP)10)算法的基本思路是将每个可能的标签组合都组合为一组新的标记,然后将多标签学习问题转化为单标签多类分类问题,但该方法可能会使标签空间和样本空间过大,而且在问题转化之后会出现样本不平衡的问题.ClassifierChain(CC)111分类器链是对BR算法的改进,其包含了标签之间的依赖性,可以避免存在的信息损失.CC也是一种二元关联方法,不同的是它将多标签学习问题转化为二元分类问题链,链上的所有节点都有一个单独的标记,依次对链上每个单独的标记构建一个分类器,每个后构建的分类器都建立在前一个标签的预测上,
14、所以一旦前面的标签预测出现错误,该错误就会沿着链一直传递下去,造成标签预测结果错误.另外,CC也存在标签空间和样本空间过大的问题.另一种是算法自适应,其基本思想是通过改进传统的单标签分类算法来解决多标签分类问题.单标签学习算法的改进已为多标签学习方法提供了理论和值得借鉴的实践经验.RankingSupport Vector Machine(R a n k-SVM)12 是建立在统计学习理论基础上的机器学习算法,直接对RNN(R e c u r r e n t Ne u r a l Ne t w o r k)的输出层进行改进,将经典的支持向量机推广到多标签学习中.Multi-Label Deci
15、sion Tree(M L-D T)13 采用决策树技术来处理多标签数据,利用的信息增益准则递归地构建决策树.Multi-Labelk-NearestNeighbor(M L-k NN)14直接对KNN的输出层进行改进,使用K近邻算法得到邻近的类别标记,再冯第2 期275海等:融合标签嵌入和知识感知的多标签文本分类方法通过最大化后验概率得到位置示例的标记集合1.2基于神经网络的深度学习算法随着深度学习的飞速发展,多标签文本分类方法也由以机器学习为主的传统学习模型逐渐发展到基于神经网络的深度学习模型.2 0 14年Kalchbrenneretal15提出动态卷积神经网络DCNN,首次将CNN应用
16、到文本分类,取得了较好的结果,但无法发现标签之间的依赖性.CNN-RNN16利用RNNL17来处理标签之间的依赖关系问题.Yangetal18提出序列生成模型(SequenceGenerationModel,SGM),以Seq2Seq为基础,使用RNN作为编码器对指定文档文本进行编码,并使用新的RNN层作为解码器输出每个可能的标签序列.邬鑫珂等 19 提出基于标签组合和注意力的网络模型,通过对标签之间的互斥关系的建模来学习标签之间的依赖性.Wang et al20提出LEAM(La b e l-Em-beddingAttentiveModel)网络模型,在相同维度语义空间下将文档文本和标签都转
17、化为向量形式,基于这些向量表示来完成文本分类任务.肖琳等 1提出LSAN(La b e l Se m a n t i c A t t e n t i o nMulti-labelClassification)网络模型,通过标签语义注意力得到所有标签的文档表示,不仅考虑了标签的依赖性,而且得到了文档全部词的权重。1.3知识图谱嵌入2012年谷歌正式提出知识图谱的概念,起初应用在搜索引擎,而今已发展得越来越成熟,其中规模较大的有YAGO2,Free-base22,Probase23等.知识图谱一般表示为G=(E,R,T),其中E是实体集合,R是关系集合;由实体-关系-实体组成的三元组(h,r,t)
18、ET,其中h是头实体,t是尾实体,r是有向关系.知识图谱嵌人(KnowledgeGraph Embedding,KGE)也称知识表示学习,其目标是将知识图谱中的每个实体eEE表示为低维表示向量,而关系表示为在向量空间的运算,近年来,由于其简洁的模型和卓越的性能,知识图谱嵌人受到了学者的广泛关注.2 0 13年Mikolovetal24提出一种基于表示学习的TransE模型,它是最经典的翻译模型,将实体和关系都表示为同一空间的向量形式.TransE有效地将语义信息作为学习知识表示的唯一特征,利用向量空间计算语义关系,极大地缓解了知识图谱中数据稀疏和传统表示学习方法计算效率低的问题,但在解决不同关
19、系时效果不佳.2 0 14年Wang etal25提出TransH模型,是对TransE模型的改进,将头、尾实体的嵌入向量映射到关系的超平面中,并允许实体在涉及不同关系时有不同的表示,解决了TransE模型存在的不足.2 0 17 年Linetal26提出TransR模型,先将各个关系建模为一个投影矩阵M,使实体嵌人映射到对应的关系空间.随后,各种改进的知识图谱嵌人模型被相继提出,如TransD,TransM,TransG27等.本文提出一种融合标签嵌入和知识感知的多标签分类方法LEKA,针对标签语义信息的不足,通过知识图谱嵌人来进行扩展,充分利用标签的语义信息.将词表示和标签表示嵌人联合空间
20、中进行学习,通过空洞卷积学习到更丰富的与标签注意力,再将注意力加权到文本表示,从而获得更精准的文本表示,将其应用到文本分类中来提高多标签文本分类模型性能.2融合标签嵌入和知识感知的多标签文本分类方法2.1整体流程本文提出的LEKA,模型结构如图1所示,其整体框架包括四个主要模块:文本数据预处理、知识感知、标签嵌人和分类预测.在文本数据预处理模块,文档文本和标签文本首先进行数据清洗,采用jieba分词对文本数据进行中文分词,分词后进行停用词过滤、纠错、同文本数据预处理标签嵌入文档文本数据清洗文本向量标签知识图谱LSTMC标签向量MLP标签文本标签表示矩阵P知识感知分类预测图1LEKA的模型框架F
21、ig.1ModelframeworkofLEKA276南京大学学报(自然科学)第59 卷义词替换,再通过GloVe获得文本中每个单词的词嵌人(WordEmbedding)表示,生成文档文本和标签文本的词向量表示,将文档文本词向量输入到LSTM层.知识感知模块通过引入外部知识图谱发现标签文本的相关知识,丰富标签的特征表示,核心步骤是通过实体链接技术选取与标签相关联的实体,将标签实体以及标签相关联的实体映射到对应空间,获得知识图谱嵌人.之后,标签词向量嵌入和知识图谱嵌人进行拼接,丰富原本标签文本中的语义,再输入下一LSTM层得到最终的标签表示矩阵.标签嵌人模块将标签文本向量表示和文档文本向量表示映
22、射到同一空间学习,聚合运算后进行最大池化操作,通过空洞卷积提取细粒度特征,利用Softmax函数进行归一化生成注意力向量层,获得与任务目标有关的注意力权重,利用注意力权重获得每个标签对应的文本特征矩阵,最后,根据初始文档文本词嵌人和相应的文本特征矩阵对文本进行分类预测2.2问题定义定义P=(1,P2,pm)为M个文档构成的数据集,p,表示P中的第i个文档,p;wi,w,wm),其中m为文档p:的长度,wj表示该文档的第个单词,p,对应的分类标签由T=t1,t2,t)表示,其中1为标签的个数.多标签文本分类的最终目的是训练出一个分类器,其任务是为未标注的文档分配最准确的一个或多个标签.2.3词嵌
23、入词嵌人对于文本数据预处理和知识感知都是不可缺少的环节,其目标是将原始文本单词转化为向量形式,形成结构化数据.本文使用词嵌入模型GloVe获得文档文本中每个单词的词嵌人表示,再输人LSTM层得到文档的每个单词的隐表示,如图2 所示,2.4林标签嵌入与知识感知标签嵌人(LabelEmbedding)使用GloVe对标签进行嵌人编码来获得标签的向量形式.嵌人矩阵为WdivlERdxvl,将文档文本对应的标签全部转换为向量形式:ey=Wdivly:(1)其中,d是嵌入矩阵的维度,与词嵌入向量维度相同,IVI是标签的总数,y;是每个标签的独热编码。最后得到标签的向量表示为e,=(ey,HH,H,LST
24、MEE,E2GloVeWW2自文本输入图2词嵌入模块Fig.2Word embeddingmodule知识感知的核心是引人外部知识图谱,获取标签实体的外部知识,得到标签实体的学习嵌入,丰富标签实体的特征表示.首先,将标签实体通过实体链接技术与外部知识图谱中存在的实体相关联来消除歧义,将知识图谱中对应的实体映射到对应空间,通过这些关系链接选取实体一跳范围内的其他实体来构建知识子图 2 6 .将知识子图也映射到空间里,知识子图中的全部实体以及它们之间的关系连接组成e的上下文信息:contert(e)=(el(e,r,e.)EGr or(ei,r,e)EGk)(2)其中,r表示实体e之间的关系,G表
25、示知识图谱,通过上下文信息可以扩充实体的信息:上下文实体的嵌人按式(3)来转换:1ei(3)context(e)e,Econtext(e)其中,e表示通过知识图谱嵌人得到的上下文实体嵌人,式(3)得出的上下文嵌人指的是全部上下文实体嵌人的平均值,因此,扩充标签文本语义信息的关键在于实现知识图谱嵌人,本文使用TransE模型得到知识图谱的相关实体嵌入:用(h,r,t)ET表示知识图谱中的三元组,其中的关系r可以看作两个实体之间的平移向量:lh+l(4)其中,l为头实体向量,l为尾实体向量,为关系向量,TransE模型把关系向量l,看作头实体向量lh和尾实体向量l,的平移.为了获得正确的三元组,T
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 标签 嵌入 知识 感知 文本 分类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。