融合注意力和裁剪机制的通用文本分类模型.pdf
《融合注意力和裁剪机制的通用文本分类模型.pdf》由会员分享,可在线阅读,更多相关《融合注意力和裁剪机制的通用文本分类模型.pdf(10页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2396-2405ISSN 10019081CODEN JYIIDUhttp:/融合注意力和裁剪机制的通用文本分类模型崔雨萌,王靖亚*,刘晓文,闫尚义,陶知众(中国人民公安大学 信息网络安全学院,北京 100038)(通信作者电子邮箱)摘要:针对当前分类模型通常仅对一种长度文本有效,而在实际场景中长短文本大量混合存在的问题,提出了一种基于混合神经网络的通用型长短文本分类模型(GLSTCM-HNN)。首先,利用 BERT(Bidirectional Encoder Represe
2、ntations from Transformers)对文本进行动态编码;然后,使用卷积操作提取局部语义信息,并构建双通道注意力机制(DCATT)对关键文本区域增强;同时,使用循环神经网络(RNN)捕获全局语义信息,并建立长文本裁剪机制(LTCM)来筛选重要文本;最后,将提取到的局部和全局特征进行融合降维,并输入到Softmax函数里以得到类别输出。在4个公开数据集上的对比实验中,与基线模型(BERT-TextCNN)和性能最优的对比模型(BERT)相比,GLSTCM-HNN的F1分数至多分别提升了3.87和5.86个百分点;在混合文本上的两组通用性实验中,GLSTCM-HNN的F1分数较已有
3、研究提出的通用型模型基于Attention的改进CNN-BiLSTM/BiGRU混联文本分类模型(CBLGA)分别提升了6.63和37.22个百分点。实验结果表明,所提模型能够有效提高文本分类任务的准确性,并具有在与训练数据长度不同的文本上以及在长短混合文本上分类的通用性。关键词:深度学习;文本分类;注意力机制;裁剪机制;通用型模型中图分类号:TP391.1 文献标志码:AGeneral text classification model combining attention and cropping mechanismCUI Yumeng,WANG Jingya*,LIU Xiaowen,
4、YAN Shangyi,TAO Zhizhong(School of Information and Cyber Security,People s Public Security University of China,Beijing 100038,China)Abstract:Focused on the issue that current classification models are generally effective on texts of one length,and a large number of long and short texts occur in actu
5、al scenes in a mixed way,a General Long and Short Text Classification Model based on Hybrid Neural Network(GLSTCM-HNN)was proposed.Firstly,BERT(Bidirectional Encoder Representations from Transformers)was applied to encode texts dynamically.Then,convolution operations were used to extract local seman
6、tic information,and a Dual Channel ATTention mechanism(DCATT)was built to enhance key text regions.Meanwhile,Recurrent Neural Network(RNN)was utilized to capture global semantic information,and a Long Text Cropping Mechanism(LTCM)was established to filter critical texts.Finally,the extracted local a
7、nd global features were fused and input into Softmax function to obtain the output category.In comparison experiments on four public datasets,compared with the baseline model(BERT-TextCNN)and the best performing comparison model BERT,GLSTCM-HNN has the F1 scores increased by up to 3.87 and 5.86 perc
8、entage points respectively.In two generality experiments on mixed texts,compared with the generality model CNN-BiLSTM/BiGRU hybrid text classification model based on Attention(CBLGA)proposed by existing research,GLSTCM-HNN has the F1 scores increased by 6.63 and 37.22 percentage points respectively.
9、Experimental results show that the proposed model can improve the accuracy of text classification task effectively,and has generality of classification on texts with different lengths from training data and on long and short mixed texts.Key words:deep learning;text classification;attention mechanism
10、;cropping mechanism;general model0 引言 在自然语言处理领域,文本分类是一项受到广泛关注的重要任务1,已在垃圾邮件过滤2、推荐系统3、情感分析4-5、网络舆情监测6-8、新闻分类9等领域取得了大量的应用。文本分类算法主要可分为4种:基于规则的算法、传统机器学习算法、深度学习算法以及混合分类算法。基于规则的算法主要是依赖关键词分类,方法简单,但人工开销大、维护成本高并且扩展性差,逐步被机器学习算法所取代。传统机器学习算法一直占据着文本分类任务中的主要地位,包括朴素贝叶斯算法(Nave Bayes,NB)10、K 近邻法(K-Nearest Neighbor,KN
11、N)11和支持向量机(Support Vector 文章编号:1001-9081(2023)08-2396-10DOI:10.11772/j.issn.1001-9081.2022071071收稿日期:20220723;修回日期:20220924;录用日期:20220928。基金项目:国家社会科学基金资助项目(20AZD114)。作者简介:崔雨萌(1998),男,吉林长春人,硕士研究生,CCF会员,主要研究方向:命名实体识别、文本分类;王靖亚(1966),女,陕西西安人,教授,硕士,CCF会员,主要研究方向:自然语言处理、对抗样本;刘晓文(1997),男,山东东平人,硕士研究生,主要研究方向:
12、数字图像处理、神经网络;闫尚义(1998),男,河北保定人,硕士研究生,主要研究方向:自然语言处理、文本分类;陶知众(1997),男,山东临沂人,硕士研究生,主要研究方向:深度学习、图像风格转换。第 8 期崔雨萌等:融合注意力和裁剪机制的通用文本分类模型Machine,SVM)12等算法。Liu等13采用基于Spark的朴素贝叶斯分类并行化算法,在加速比和扩展性等方面更好地满足了大规模中文文本分类任务。Khamar14使用基于距离函数的KNN算法对短文本分类,相较于NB和SVM等算法分类效果更好。但传统机器学习算法对深层次语义特征提取效果不好、泛化能力差,且需要依赖大量的数据分析和特征工程工作
13、,难以大规模推广应用。目前,文本分类的主流方法采用深度机器学习技术,如基于卷积神经网络(Convolutional Neural Network,CNN)15和循环神经网络(Recurrent Neural Network,RNN)16等。CNN 首先应用于计算机视觉领域,2004年Kim15将CNN用于文本分类领域。之后,很多研究都基于卷积思想对文本分类模型进行改进,包括深层卷积神经网络(Very Deep Convolutional Neural Network,VDCNN)17、textSE-ResNeXt 集成模型18、孪生 卷 积 神 经 网 络(Monomeric-Siamese
14、Convolutional Neural Network,MSCNN)19、动态卷积神经网络20等。虽然CNN结构简单,能快速提取文本的局部关键特征,计算代价较小;但受限于窗口大小,无法提取文本中的全局语义信息。RNN的序列结构更适用于处理长距离的上下文依赖关系,它的改进结构主要包括长短期记忆(Long Short-Term Memory,LSTM)网络21、门控循环单元(Gated Recurrent Unit,GRU)22、双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络23和 双 向 门 控 循 环 单 元(Bidirectio
15、nal Gated Recurrent Unit,BiGRU)。Xu 等24提出一种 BiLSTM 捕捉文本语义信息,高效实现评论的情感分析,但BiLSTM模型结构复杂,参数过多且训练时间较长,因此王伟等25提出了结合BiGRU和注意力机制的情感分类模型,在IMDB影评数据集上准确率达到了90.54%。虽然RNN可以解决CNN无法有效提取文本上下文依赖的问题,但存在梯度消失和爆炸的问题。另外,当文本后面的词比前面的词更有影响时,RNN可能会产生偏差,CNN通过引入最大池化层确定判别短语,克服这种偏差,但池化操作会导致信息的丢失26。因此,为了解决二者的局限性,很多研究将两种神经网络进行结合、相
16、互补充。Lai 等27提出了循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN),使用 RNN取代TextCNN中的卷积层以获取文本的语义语法信息,然后使用最大池化筛选重要特征;但RCNN模型的最大池化会丢失大量信息,忽略其他有贡献的特征。文献 28 中使用CNN提取特征,然后利用LSTM进一步筛选更新,分类准确率达到99.60%。Luo29为提高网络舆情分析的性能,使用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)构建文本向量表示,然后使用GRU-CNN加强文本之间的关联性,实现高精度的文本分类。相较于
17、单向的循环神经网络,双向循环神经网络可以更好地捕捉双向的语义依赖。文献 1 中提出了一种统一体系结构 AC-BiLSTM(BiLSTM with Attention mechanism and Convolutional layer),使用卷积层提取短语表示,BiLSTM提取文本的上下文信息,最后用注意力机制对提取的信息赋予不同的权重。Lu等30提出一种基于多元神经网络融合的分类模型,结合CNN、BiGRU和注意力机制提取不同层次、不同特征的文本特征,准确率达到了86.80%。另外,在自然语言处理任务中,根据长度将文本分为长文本和短文本。现阶段的大部分分类模型都仅针对长文本或短文本的一种进行设
18、计,往往只能适用于一种长度文本,且在一种长度文本上训练得到的模型,难以迁移到另一种长度文本的分类任务上。但在实际场景中,文本长度不统一,比如用户留言、产品评价、自媒体发言等都包含着大量混合存在的长短文本,导致了分类模型在实际应用中缺乏通用性和兼容性。文献 31 中构建了一种集成学习模型,采用数据重采样技术预处理数据,并通过集成选择策略从基分类器中选取TopK个核心分类器,以在长短文本混合场景下实现稳定分类。但集成学习模型的时间和空间开销较大,模型性能的提升受到硬件水平的限制,且文献 31 并未研究单个分类模型应对混合文本分类任务时的通用性。然而,使用单一类别的分类模型很难满足长短混合文本分类任
19、务的需求,因此亟须一个能同时满足长短文本分类任务的通用性模型。为解决当前模型存在的问题,提高文本分类的准确率和通用性,本文提出一种基于混合神经网络的通用型长短文本分 类 模 型(General Long and Short Text Classification Model Based on Hybrid Neural Network,GLSTCM-HNN)。本文主要工作如下:1)提出了一种基于混合神经网络的通用型长短文本分类模型。该模型采用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型对文本动态编码,融
20、合卷积和循环神经网络同时提取文本局部和全局语义特征。结合两种网络的不同特点,减少模型受文本长度变化的影响,提高对不同长度文本的理解和分类能力,保证模型的通用性。2)设 计 了 一 种 双 通 道 注 意 力 机 制(Dual Channel ATTention mechanism,DCATT)。该机制可以从卷积和循环两个通道上对文本中的关键区域有效识别,并相应地对关键区域进行增强,提高模型对文本潜在特征的挖掘能力。3)为了去除长文本中的无效干扰信息,并保证模型在长短文本分类上的通用性,设计了一种基于关键区域截取的长文本裁剪机制(Long Text Cropping Mechanism,LTCM
21、)。该机制在双通道注意力向量的引导下能够实现长文本中有效信息的截取,去除冗余干扰信息,提高准确率的同时确保模型的通用性。1 相关工作 1.1词向量表示对文本构造合适的词向量表示,是基于深度学习的文本分类模型的基础。传统的one-hot编码方式简单,但是产生的向量维度高且稀疏,没有考虑词语的上下文语义和顺序,无法表示词之间的关系。Mikolov 等32提出的基于分布表示的Word2Vec是词嵌入应用的典型,主要包括CBOW(Continuous Bag of Words)和Skip-gram两种方法,但它只考虑到窗口内部词 的 局 部 联 系。Pennington 等33提 出 的 GloVe(
22、Global Vectors)分布式模型采用共现矩阵来综合考虑文本的局部和整体信息,但GloVe和Word2Vec无法解决一词多义和词的多层特征问题。因此,ELMo(Embeddings from Language Models)动态词向量被提出,采用双向语言模型来预训练出词向量,从而表示同一单词在不同上下文中的不同含义34。ELMo采用BiLSTM建模,但与注意力模型相比训练速度较慢,且特征选择和融合较弱。2018年BERT预训练语言模型35被提出,通过海量语料的训练可以通过微调为各种任务提供高级模型。在中文文本分类中,BERT可以针对特定任务动态优化词向量,出色地提取词语之间的上下文关系,
23、因此在各种文本分类问题中被广为采纳36-39。经过大规模语料的预训练后,BERT模型具有出色的特征提取能力,并且在不同任务中可以对词向量进行动2397第 43 卷计算机应用态优化,因此使用它作为本模型的嵌入层,将每个文字输入编码为768维的词向量。1.2TextCNNTextCNN15主要由卷积层、池化层和全连接层构成,它的核心思想是使用不同尺寸的卷积核获取文本相邻的N-gram特征表示。在卷积层使用多种尺寸的卷积核来提取文本的局部特征,并将得到的特征向量输入到池化层,通过下采样来筛选重要特征信息,降低向量维度,减少计算参数。然后,拼接经过池化处理后的特征向量,再经过全连接层和Softmax函
24、数进行分类。TextCNN对文本近距离浅层特征的抽取能力较强,且网络结构简单,可以快速提取文本中的局部特征;但也受自身卷积窗口尺寸的约束,无法捕获文本全局语义信息,并且TextCNN的池化操作会导致大量语义特征和词语位置信息的丢失,影响分类任务的准确率。1.3BiLSTMLSTM是RNN的一种变体,不同于CNN对局部信息的关注,LSTM序列结构的设计特点,使它适用于时序数据建模。通过遗忘门和记忆门来丢弃无用的信息,重点保存有意义的信息,进而有效捕捉到长距离的文本依赖关系。但单向LSTM无法对逆向信息进行编码,容易造成文本尾部信息的影响力较大。而在文本分类任务中,前后词语之间联系紧密,合而见义,
25、单向LSTM缺乏捕获双向语义的能力,它的性能也受到了限制。BiLSTM模型可以综合考虑过去和未来时刻的输入信息,全面提取文本特征,对词语之间的长距离依赖关系和文本全局语义具有良好的捕获能力,尤其在长文本分类任务中表现出色。但BiLSTM本身结构较为复杂,参数较为庞大。使用单一的BiLSTM完成文本分类任务,往往需要深层的网络结构,容易造成梯度消失和梯度爆炸的问题,并且大量的参数训练需要消耗很长的时间。1.4注意力机制注意力机制(Attention Mechanism)最早被应用于计算机视觉领域,其思想启发于人类从大量信息中迅速提取关键信息的视觉模式40。Bahdanau等41于2014年将注意
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 注意力 裁剪 机制 通用 文本 分类 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。