基于BERT-BiLSTM-Attention的文本情感分析.pdf
《基于BERT-BiLSTM-Attention的文本情感分析.pdf》由会员分享,可在线阅读,更多相关《基于BERT-BiLSTM-Attention的文本情感分析.pdf(9页珍藏版)》请在咨信网上搜索。
1、云南民族大学学报(自然科学版),():收稿日期:基金项目:国家社科基金();教育部人文社科基金()作者简介:诸林云(),女,硕士研究生 主要研究方向为自然语言处理与文本情感分析通信作者:范菁(),女,教授,硕士生导师 主要研究方向为深度学习、计算机网络与智能控制基于 的文本情感分析诸林云,曲金帅,范菁,代婷婷(云南民族大学 云南省高校信息与通信安全灾备重点实验室,云南 昆明 )摘要:为了实现对用户对酒店使用感受的情绪倾向的分析,并且针对现有的词向量模型忽略了词的上下文的关系的问题,提出了一种基于 模型的酒店评论情感倾向分析方法 利用 模型获取用户对酒店评论的文本特征表示,将获得的特征表示输入
2、网络以提取酒店评论的情感特征 在 模型的输出层之前添加一个注意层以突出重点信息,最后由分类器对所提取的特征进行分类 构建的模型与 、对比的结果显示,该模型在测试集上的准确率分别提高了 、,实验结果表明基于 的中文文本情感分析方法在情感分类上有更高的准确率关键词:酒店评论;文本特征;情感分析;中图分类号:文献标志码:文章编号:()如今,互联网在全球范围内流行起来,随着社交媒体的迅速扩大,它正成为信息载体的一个成本低廉的平台,年的中国互联网用户年度报告显示,我国搜索引擎用户规模达 亿,占全体网民的 随着网络交易的普及,在线评论文本呈爆炸式增长,消费者在酒店入住方面,与商品广告和图纸描述相比,消费者
3、更愿意学习其他消费者评论信息的细节 对于商家来说,他们可以通过这些评论实时获得真实的客户反馈,了解产品存在的问题,并制定合理的销售策略 因此,评论文本中所包含的情感信息对网上购物用户和企业具有巨大的应用价值 通过情感分析,我们可以解释情感并将它们分为不同的类别,帮助商家了解客户的情绪并采取相应的销售策略情感分析旨在从互联网上发布的主观信息中进行分析和提取特征 商品评论的情感倾向分析本质上属于文本分类的范畴 目前的主流方法是基于深度学习的分析方法,在使用神经网络模型进行情感分类时会使用语言表示模型考虑不同的词汇关系 近年来,()已经被提出用于文本数据的分析,主要作为预训练语言模型 现有的深度模型
4、通常只解决了一些问题,而忽略了其他问题 例如,等 利用 个预先训练好的单词嵌入和长短期记忆神经网络(,)来提取情绪和语义进行情绪识别,但他们的模型没有考虑句子不同部分重要性的差异 等 改进了预先训练好的单词嵌入,但没有考虑到过去和未来的上下文的依赖关系和具有不同重要性的单词 为了对这些模型进行改进,本研究提出了一种新的深度学习模型,用于对酒店评论的情感分析 本文提出的模型提取句内关系,捕捉过去和未来的上下文的依赖关系,通过分配不同的权重来突出文本的重要部分,选择最重要的特征,增强对重要词汇的关注度在实现该模型训练的流程中,本文首先对酒店的评价数据进行预处理,将预处理完成的酒店的评价数据输入到该
5、模型中的 层模块中,获得可以融入文本语境中的动态词向量,再通过双向长短期记忆神经网络(,)捕捉文本过去和未来的上下文信息的重要部分,并且在 输出中使用注意机制,使模型能够或多或少地关注不同的单词和句子,从而提高情感分类的准确度 经本次实验验证,所提出的模型在情绪分析的准确率、召回率以及 值评价指标上都优于其他种方法 相关工作基于文本的情感的自动识别依赖于不同的计算技术,由于研究方法丰富,本文总结了以下 种情感分析方法)基于情感词典的方法基于情感字典分析的方法主要是构建一个基于人类先验知识的情感字典,并将产品评论的分词与情感字典进行比较,实现课程评论的情感分析 商家获取客户评价信息,查看客户反馈
6、,找出句子中各类别情感词的客户观点 但中文情感词典的构建存在两个主要问题:首先,中文单词在语义和句法上存在歧义;其次,可用于构建汉语词典的资源要么不足,要么不适合 尽管如此,研究人员已经设计出克服这些问题的方法,以构建汉语情感词典 王志涛等 对现有的情感词典进行了扩展,搜集了 万条的微博数据构建了情感词典流行的情感检测词典有 和 词情感词典 是 的扩展形式,由带有情感标签注释的情感词组成 词典由 个单词组成,每个单词分配给一种特定的情绪和 种情绪 这些词典是分类词典,用情感状态标记每个单词以进行情感分类 等 将特定领域的词典应用于情感分析中的特征提取过程 作者得出结论,从他们提出的词典中派生的
7、特征优于其他基线特征基于字典的方法通常以其直接使用和开箱即用的功能而被大家熟知 但是,手动标记容易出错、成本高并且不灵活 因此,这个过程在推广到其他情绪时会遇到困难 )基于机器学习的方法机器学习可以根据具有显式标签的训练样本语料库推断识别情绪的决策规则 这可以克服上述基于词典的方法在可扩展性和域定制方面的限制 机器学习任务,如对学习到的特征向量进行分类和聚类 ,基于机器学习的方法是将从产品评论文本中提取的特征值转移到相关模型中进行情绪分析 ,但一些文本特征注释需要手动注释 情感分类所需的不同类型的算法可能包括朴素贝叶斯、支持向量机()、决策树等,每种算法各有利弊 等 应用了支持向量机,从调查中
8、收集了超过 条客户反馈 作者实现了各种特征集组合,准确率高达 等 将 、模型和朴素贝叶斯结合,对欧洲和美国的七个热门目的地进行情绪和评论,这些目的地是从 收集的 作者使用 模型实现了高达 的准确度 李锐等 利用 算法对词语赋予一定的权重,以突出句子中的重点信息 等 在使用 特征提取方法实现了种机器学习算法,有 、朴素贝叶斯和最大熵,训练和测试数据集各包含 条评论 作者观察到 中的 值越高,例如 、和 ,准确性就会下降相较于基于情感词典的方法,基于机器学习的方法更简单且结果更为精确,但是机器学习的方法需要大量的人工标注的数据,且人为主观的因素也会对结果造成一定的影响,在这个大数据的时代,基于机器
9、学习的情感分析方法达不到高效准确的效果)基于深度学习的方法在庞大的深度网络类型中,循环神经网络(,)在文本处理相关研究中更为常见 虽然 适用于许多文本情感分析中,但当输入数据中存在长期依赖关系时,它们会出现梯度消失和梯度爆炸 而 可以很好的解决长期依赖的关系,能够更好的提取过去和未来的上下文的依赖关系尽管深度神经网络在情绪分析领域取得了显著的成果,但其性能的仍然不能令人满意 他们的一个普遍的缺点是,他们考虑句子中所有的所有单词,不能关注文本的突出部分为了填补这一空白,注意机制最近已被采用在许多自然语言处理的任务,特别是情感分析,因为它提供了一个有效的解释文本的力量 事实上,注意机制是受到了人类
10、视觉注意机制的启发,这种机制试图关注文本中更重要的部分,而不是编码完整的句子 在这方面,等 通过增加权重来修改 ,并对文本分类的目的发挥了注意作用 等 还提出了一个基于注意力的长短期记忆神经网络,它可以专注于句子的各个部分 等 提出了一种用于多领域情绪分类的领域注意模型 等 提出了一种具有注意机制的双向 来选择重要的特征 等 提出了一种新的情感分析神经词嵌入方法 他们解决了以前的方法的主要缺点,由于它们能够建第 期诸林云,曲金帅,范菁,等:基于 的文本情感分析模长期依赖关系 他们的新方法通过获得更高的性能表现得更好 胡朝举等 构建了一个根据深层注意力的 的特定主题情感分析模型,通过使用共享权重
11、的 算法就可以直接对主题向量和文本词向量分别进行深度注意力训练,并会自动地融合出主题特征向量和文本特征 注意机制是一种非常流行的方法,因为它们的训练时间短,并且使用并行计算,并对许多数据集都取得了良好的结果在情感分析方面,最近研究较多的是词嵌入模型和神经网络的结合进行情感分类 单词嵌入是为了捕捉单词的相似性及其词汇关系 冯兴杰等 在词向量的表示上选用了 模型,利用卷积神经网络(,)不断地学习句子的特征,并且添加了注意力机制,从而对文本进行情感分类 胡荣磊等人 在词向量的表示上同样使用了 模型,通过长短期记忆神经网络并且添加注意力机制突出文本重要信息来进行文本情感分析 年,谷歌公司提出了 模型,
12、由于 有着更强的文本表征能力,目前 已经成为多数自然语言处理任务的预训练语言模型 等 提供了一种构建辅助句子的方案,将情绪分析任务转化为句子对分析的任务,相当于在使用 模型以前通过特殊的算法对数据进行预处理 作者们利用实践结果证明了该方案的有效性 在机器学习方法中,有部分研究者把情感词典和机器学习结合起来,而另外部分研究者也在深度学习中做出了类似的尝试 张杨森等 提供了一种采用双重注意模型的情感分析方法 一种包括了情感词、学位副词、负面词语、表情字符,以及互联网词汇等的情感符号库 将 中的注意机制和情感符号库有效的结合提高了情绪分类的性能 在本研究中,笔者将所提出的方法与 种情感分析的模型进行
13、了对比,主要区别在于笔者的模型同时考虑了以下重要特征:本文使用了文本表征能力更强的 预训练语言模型,使用双向 考虑文本中过去和未来的上下文依赖关系,并对文本的不同部分给予不同的关注,从而提高情感分类的准确度 实验流程与模型构建Softmaxhhh1h0LSTMLSTMLSTMLSTMLSTMa0a1.anan-1BERTWn-1WnW1W0n-1n图 结合 和 的情感分析模型图 情感分类模型的构建笔者构建的文本情感分类模型如图 所示,该模型共有 层,分别是输入层、层、层、注意力机制层和输出层 首先,本文对收集到的数据进行预处理,将预处理完成的数据输入到 层中,利用 模型获取酒店评论文本的特征表
14、示,然后将获得的特征表示输入 层,提取酒店评论的情感特征 由于 不能关注文本上下文信息的重要部分,因此在 模型的输出层之前添加一个注意层,通过分配不同的权重来关注上下文的重要部分,最后由分类器对提取的特征进行分类 输入层首先对收集到的数据进行预处理以及规范化 缺失值及重复值的去除:获取的文本中会存在一定的缺失值,缺失值的存在会导致程序运行出现问题,并且文本中的重复值也会影响模型的训练以及测试的结果 停止词删除:停止词是指在没有协调有意义的信息的语言中使用的单词 表情符号的去除:在汉语中,这些表情符号并没有传达任何信息 词语标准化:在本文的语料库中,许多词语没有以其标准形式使用 有些词语被扭曲了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT BiLSTM Attention 文本 情感 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。