基于BERT语义分析和CNN的短文本分类研究.pdf
《基于BERT语义分析和CNN的短文本分类研究.pdf》由会员分享,可在线阅读,更多相关《基于BERT语义分析和CNN的短文本分类研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、第33卷第4期2023年12 月洛阳理工学院学报(自然科学版)Journal of Luoyang Institute of Science and Technology(Natural Science Edition)Vol.33No.4Dec.2023基于BERT语义分析和 CNN的短文本分类研究景永霞12,苟和平12,刘强1(1.琼台师范学院信息科学技术学院,海南海口57 110 0;2.琼台师范学院教育大数据与人工智能研究所,海南海口57 110 0)摘要:针对短文本数据量较小情况下CNN模型无法获得较好文本分类特征造成文本分类精度不高的问题,提出一种结合BERT语义分析和CNN的短文
2、本分类模型,通过对BERT预训练模型进行微调获得文本向量表示,文本向量能够体现文本特征的全局语义关系,并将文本向量表示数据输入CNN模型进行分类模型训练,获得最终的文本分类特征实现分类。此方法能够实现短文本分类精度的有效提升。关键词:短文本;词向量;文本分类;语义分析D0I:10.3969/j.issn.1674-5043.2023.04.013中图分类号:TP391文本分类是自然语言处理的主要任务之一,应用在很多场景,如人机对话、情感分析、垃圾邮件过滤和搜索引擎等领域,特别是近年来智能化应用的不断发展,文本分类受到许多学者的广泛关注。短文本作为一种特殊的文本类别,主要存在口语化、文本短小和语
3、法不规范等特点,这为文本特征的有效学习带来很大困难。传统的机器学习方法,如支持向量机(SVM)I和k最近邻算法(kNN)2 等算法都是常用的文本分类模型,但这些传统的机器分类模型没有获得文本上下文的语义关系,特别是针对短文本数据,产生高维稀疏数据表示等问题,造成分类计算开销大。目前,深度学习技术已经成为主流的文本分析模型,如研究人员采用CNN3、R NN、R NN与CNN融合等模型4,将深度学习应用到短文本分类中,采用基于深度学习的良好特征选择算法,提高文本分类的精度。但是对于短文本来说,单纯地通过增加网络深度来获取文本表示特征,难以提高分类效果。研究人员采用基于词向量的短文本分类方法5,融合
4、基于词向量和主题模型,提高文本特征向量的语义表征能力。基于Transformer的BERT预训练模型能够很好地获取文本上下文语义信息,特别是获得长距离的语义信息,如采用BERT和特征投影网络的特征提取方法6 。采用基于深度学习的文本分类算法是目前流行的文本分类算法,但需要大规模的语料进行训练。本文提出一种基于BERT预训练模型文本分类方法,通过领域数据集的微调,获得文本向量表示,然后将文本向量送人到CNN网络中进行文本分类,使得CNN获取更好的分类特征,提高分类效果。1文本表示模型在文本分类过程中,将文本输人分类模型前需要实现文本向量化表示,才能实现后续文本分类模型的相关计算操作,核心是获得的
5、向量能够充分实现文本语义表达。1.1基基于统计的表示模型传统的文本向量化方法有独热(One-hot)模型、词袋(Bagof Word)模型、TFIDF模型等,存在问题主要表现为:文本表示稀疏,形成稀疏矩阵,造成计算开销大;文本语义分析不足,难以解决一词多义在文本分类中的干扰现象;上下文语义关系理解不够。特别是对于短文本,随着文本数量的增加,文本表示更稀疏,且由于文本数量巨大,而每一条文本收稿日期:2 0 2 3-0 4-18作者简介:景永霞(19 8 4-),女,甘肃天祝人,硕士,教授,主要从事数据分析与自然语言处理方面的研究.Email:a_nice_.基金项目:海南省自然科学基金项目(6
6、2 0 QN282;621MS054);海南省高等学校教育教学改革研究重点项目(HNJG2021ZD-48).文献标识码:A文章编号:16 7 4-50 43(2 0 2 3)0 4-0 0 7 8-0 6第4期的词量少,文本之间的语义关系挖掘困难,文本分类效果不佳。1.2基于神经网络的表示模型通过神经网络模型获取文本特征,能够有效地解决文本特征语义问题,特别是预训练模型的使用,能够更好地获得文本语义表示,有效解决文本分类过程中的一词多义带来的分类问题。目前广泛使用的基于神经网络文本表示模型是根据上下文与目标词之间的关系进行建模,常用的模型有Word2Vec和BERT。Word2Vec是一种浅
7、层神经网络,根据给定语料库,通过网络训练将文本数据中的每个分词(token)转化为k维空间上的向量,Word2Vec采用CBOW和Skip-gram两种训练模型。CBOW模型是根据目标单词(token)的上下文,输出目标单词的预测。Skip-gram模型根据已知目标单词(token),预测其上下文。BERT是谷歌公司2 0 18 年提出的一种基于深度学习的语言表示模型,与Word2Vec类似,是一种预训练语言模型,通过给定语料库训练获得文本向量表示,很好地捕获文本上下文之间的语义关系。BERT模型是基于是Transformer多层双向编码器7 ,结构如图1所示。景永霞,等:基于BERT语义分析
8、和CNN的短文本分类研究T7个个TrmTrm797个Trm个TrmTrmTrmTrmTrmE,E(i=1,2,3,N)是文本向量表示,是经过字符向量、字符类型向量、位置向量相加获得向量表示。Trm表示Transformer处理,多个双向Transformer进行文本处理,主要获得文本上下文信息。T(i=1,2,3,N)表示经过多层双向Transformer进行编码后输出的文本字符向量。BERT模型采用两种无监督任务进行预训练7 :掩码语言模型(MaskLanguage Model,M L),随机屏蔽每个句子一定百分比的输入标记,然后再根据上下文(剩余的标记)预测那些被屏蔽的标记;下句预测(Ne
9、xt SentencePrediction,NSP),许多重要的下游任务都是基于对两个句子之间关系的理解,如问答系统和自然语言推理,为了训练一个能够理解句子关系的模型,训练数据选择两个句子,其中选择一定比例的数据表示一个句子是另一个句子的下一句,剩余的是随机选择的两个句子,判断第二个句子是不是第一个句子的下文。2基于 BERT 和 CNN 的短文本分类获取短文本中良好的文本特征、实现文本向量化表示是实现分类的关键,CNN的应用能够很好地获取文本特征,但需要大量语料库进行训练模型,以获取良好的特征。BERT模型能够获得文本词之间的深层语义关系,解决一词多义问题。本文提出了一种融合BERT和CNN
10、的短文本分类模型,通过BERT模型通过微调获取短文本词向量表示,再将文本词向量送入CNN模型去实现文本分类。基本流程如图2所示。E,图1BERT模型架构E80洛阳理工学院学报(自然科学版)开始数据预处理第33卷训练集测试集BERT模型分类模型CNN模型O结束图2 基于 BERT和 CNN的短文本分类流程CNN模型的基本结构如图3所示,分别采用2 56 个大小为3加5的卷积核对文本表示向量进行两次卷积,同时采用2 56 个大小为2 的卷积核对文本表示向量进行卷积操作,最后对两个卷积结果进行连接操作。256concatenate15classes256256d-768图3CNN模型基本结构采用BE
11、RT和CNN的短文本分类方法,把BERT关注文本上下文语义信息和CNN模型关注局部信息二者结合起来,实现文本特征的加强语义表示。对于包含K个类别的短文本数据集D=C,i=1,2,K ,实现分类过程如下:(1)首先采用数据集D对BERT模型的微调,使其能够更好地适应应用数据集。(2)根据微调后的BERT模型实现短文本数据的向量化表示。对于包含m个分词(tokens)的任意文(3)第4期本d=D,其表示为对于分词w,其表示向量为则文本d通过BERT模型的输出d表示为bllb12L6mlbm2式中:d 的维度为mn,即数据集D中的每一条文本数据的维度为mn;m表示文本的长度(tokens的数量),长
12、度超过m的文本将会被截断,少于m的进行补齐;n表示向量的长度,就是BERT模型最后一层隐层的hidden_ size。(3)获得文本数据集的向量表示,即一条文本就表示为二维向量,将其作为CNN模型的输人,CNN分别采用不同卷积核进行卷积操作,获得不同层面的文本特征,最后对特征进行连接操作。(4)通过全连接层(FC)和Softmax处理,获得最后的分类结果。经过全连接层处理获取的输出W为7 6 8 15维的权重矩阵,b为偏置项。则有yi=Softmax(y.)Z.yi=115(5)根据输出y的值,获得文本d的分类标签。3实验与分析3.1实验环境及数据实验采用Anaconda集成环境、Python
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 语义 分析 CNN 短文 分类 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。