![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf
《基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf》由会员分享,可在线阅读,更多相关《基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf(15页珍藏版)》请在咨信网上搜索。
1、Hans Journal of Data Mining 数据挖掘数据挖掘,2023,13(4),312-326 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/hjdm https:/doi.org/10.12677/hjdm.2023.134031 文章引用文章引用:项瑞良,李征宇,孙平.基于 RoBerta-BiGRU-Attention 的景区评论情感分析研究J.数据挖掘,2023,13(4):312-326.DOI:10.12677/hjdm.2023.134031 基于基于RoBerta-BiG
2、RU-Attention的景区评论情感的景区评论情感分析研究分析研究 以沈阳市为例以沈阳市为例 项瑞良项瑞良,李征宇,孙李征宇,孙 平平 沈阳建筑大学,计算机科学与工程学院,辽宁 沈阳 收稿日期:2023年8月30日;录用日期:2023年9月30日;发布日期:2023年10月9日 摘摘 要要 游客在评论中所表达的意见和感受,能够直观地反映他们对旅游目的地的评价,同时语气鲜明、情感强游客在评论中所表达的意见和感受,能够直观地反映他们对旅游目的地的评价,同时语气鲜明、情感强烈。由此带来的巨大而动态的信息空间需要消费者和产品烈。由此带来的巨大而动态的信息空间需要消费者和产品/服务提供者共同理解和导航
3、。针对目前景区在服务提供者共同理解和导航。针对目前景区在线评论文本情感分类准确性不高的问题,提出一种基于线评论文本情感分类准确性不高的问题,提出一种基于RoBerta词向量和双向门控循环单元词向量和双向门控循环单元(BiGRU)的改的改进模型,使用能够表征文本丰富语义特征的进模型,使用能够表征文本丰富语义特征的Roberta模型进行词向量表示,结合能够长期保留文本上下模型进行词向量表示,结合能够长期保留文本上下文关联信息的文关联信息的BiGRU神经网络提高模型的分类效果,并在此基础上引入注意力神经网络提高模型的分类效果,并在此基础上引入注意力(Attention)机制,突出文机制,突出文本中更
4、能表达分类结果的情本中更能表达分类结果的情感词权重,提高情感分类的准确率。将上述模型分别在沈阳市感词权重,提高情感分类的准确率。将上述模型分别在沈阳市3个景区评论个景区评论数据上进行情感极性分类和预测,实验结果表明,该模型在各数据集上都获得了良好的性能。同时结合数据上进行情感极性分类和预测,实验结果表明,该模型在各数据集上都获得了良好的性能。同时结合LDA主题模型分析,得到游客评论的期望和诉求,为沈阳市旅游业发展提供技术支撑以及未来发展意见。主题模型分析,得到游客评论的期望和诉求,为沈阳市旅游业发展提供技术支撑以及未来发展意见。关键词关键词 RoBerta词向量,词向量,BiGRU,注意力机制
5、,情感分析,注意力机制,情感分析,潜在狄利克雷分布潜在狄利克雷分布 Research on Sentiment Analysis of Scenic Area Comments Based on RoBerta-BiGRU-Attention Taking Shenyang as an Example Ruiliang Xiang,Zhengyu Li,Ping Sun School of Computer Science and Engineering,Shenyang Jianzhu University,Shenyang Liaoning Received:Aug.30th,2023;a
6、ccepted:Sep.30th,2023;published:Oct.9th,2023 项瑞良 等 DOI:10.12677/hjdm.2023.134031 313 数据挖掘 Abstract The opinions and feelings expressed by tourists in the comments can intuitively reflect their eval-uation of the tourist destination,and at the same time,the tone is clear and the emotion is strong.The
7、 resulting huge and dynamic information space needs to be understood and navigated jointly by consumers and product/service providers.Aiming at the problem of low accuracy of emotion classification in online comment texts of scenic spots,an improved model based on RoBerta word vectors and bidirectio
8、nal gated recurrent units(BiGRU)is proposed.The Roberta model,which can represent the rich semantic features of texts,is used to represent word vectors.The BiGRU neural network,which can retain text context information for a long time,improves the classifica-tion effect of the model.On this basis,an
9、 attention mechanism is introduced to highlight the weight of emotional words in the text that can better express the classification results,and improve the accuracy of emotion classification.The above models were used to classify and predict emotional polarity on the comment data of three scenic sp
10、ots in Shenyang City.The experimental results show that the model has achieved good performance on each data set.At the same time,combined with the LDA topic model analysis,the expectations and appeals of tourists comments are obtained,and technical support and future development opinions are provid
11、ed for the development of Shen-yangs tourism industry.Keywords RoBerta Word Vector,BiGRU,Attention Mechanism,Sentiment Analysis,Latent Dirichlet Allocation Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0)
12、.http:/creativecommons.org/licenses/by/4.0/1.引言引言 随着 Web2.0 时代的到来,互联网技术在旅游行业的广泛应用,使得越来越多的游客能够在旅游平台上发布自己的个人体验和旅游评价。大量真实的、独立的、有价值的网络评论数据由此产生,同时也带来了一个新的方向:利用这些游客评论文本进行情感分析研究,获取游客在旅游目的地的感受与体验,为旅游业服务提供者提供宝贵的意见至关重要。然而,庞大的数据源也给人工分析带来了很大的困难。自然语言处理技术(Natural Language Processing,NLP)的发展使大规模数据分析变的高效,从而为景区在线评论情
13、感分析研究提供技术支持。目前情感分析领域,主流的方法之一是基于深度学习,在神经网络进行情感倾向分析时,通常会采用语言表示模型以考虑不同词汇之间的关系。为此,预训练的词嵌入模型(如 Word2Vec、GloVe 或 Bert等)被广泛应用。这些词嵌入模型将词汇映射到高维向量空间,使得在向量空间中具有相似含义的词具有较近的距离。这种方法有助于捕捉词汇之间的语义关联,提取句子的特征,并协助神经网络更好地理解文本的情感倾向。现有的深度学习模型解决了某些问题,但忽略了其他问题。例如,Chatterjee 等人1利用两个预先训练好的单词嵌入和长短期记忆神经网络(Long Short Term Memory
14、 Network,LSTM)来提取情绪和语义进行情绪识别,但他们的模型没有考虑句子不同部分重要性的差异。Rezaeinia 等人2改进Open AccessOpen Access项瑞良 等 DOI:10.12677/hjdm.2023.134031 314 数据挖掘 了预先训练好的单词嵌入,但没有考虑到过去和未来的上下文的依赖关系和具有不同重要性的单词。为改善这些模型存在的不足,本研究提出了一种新的深度学习模型,用于景区评论的情感分析,该模型考虑句内关系、捕捉过去和未来上下文的依赖关系,并通过分配权重来突出文本的重要部分,选择最重要的特征,增强对重要词汇的关注。然后,结合 LDA 主题模型(L
15、atent Dirichlet Allocation),对沈阳市各景区的实际案例进行了研究。首先,使用自定义 Python 程序爬取游客在各旅游平台上发布的关于沈阳市景区的评论;接着,提出了主要研究框架;通过数据预处理,得到标准化文本数据;同时,运用情感分析获取游客情感倾向的相关性,进一步建立 LDA 主题模型,识别游客各特征维度的情感,研究成果可为沈阳市未来旅游业的可持续发展和创新开辟新的道路。2.相关工作相关工作 2.1.情感分析研究情感分析研究 鉴于在线旅游网站上评论的激增以及由此产生的消费者影响,许多学者都在努力探索在线旅游评论与消费者行为之间的关系,以及评论在多大程度上影响消费者的决
16、策和选择3 4。目前倾向于评估旅游在线评论的内容质量的研究仍然稀缺。其中,衡量在线评论语言所传达的情感,特别是判断游客情绪的极性,仍处于起步阶段。目前,情感分析方法主要分为基于统计的情感分析方法和基于深度学习的情感分析方法两大类。其中,基于深度学习的情感分析模型是通过神经网络学习的,允许网络模型根据上下文信息预测下一个单词的内容,而不依赖于人工标记的语料库,解决了传统基于统计的情感分析方法中的一个关键问题,即人工构建情感词典所需的时间和人力成本。同时,也有效地解决传统情感分析方法忽略语境语义的问题。在众多深度网络类型中,循环神经网络(Recurrent Neural Network,RNN)在
17、文本处理相关研究中更为常见5。虽然 RNN 适用于许多文本情感分析中,但当输入数据中存在长期依赖关系时,它们会出现梯度消失和梯度爆炸。而双向长短时记忆网络(BiLSTM)可以很好的解决长期依赖的关系,能够更好的提取过去和未来的上下文的依赖关系1。Cho 等人6提出了门控循环单元(Gated Recurrent Unit,GRU),GRU相较于 LSTM 模型结构更加简单,参数更少,并且能长期保存隐藏层序列信息。尽管深度神经网络在情感分析领域有所进展,但它们仍然存在一些不足之处,不能准确关注文本的重要部分7。为了解决这个问题,注意力机制被应用于许多自然语言处理任务,特别是情感分析。注意力机制的灵
18、感源自人类的视觉注意机制,试图将注意力集中在文本中更重要的部分,而非句子的所有单词。近年来,在情感分析领域,词嵌入模型和神经网络结合的方法备受关注。其中,Word2Vec 是常用的词嵌入模型,用于捕捉单词之间的相似性和词汇关系。通过卷积神经网络或长短期记忆神经网络等结构,可以有效地学习文本特征,加上注意力机制则可以提高情感分类的效果。Zhou 等人8则提出了一种带有注意力机制的双向 LSTM,以选择重要的特征;同时,Dragoni 等人9也提出了一种新的情感分析神经词嵌入方法,能够解决以前方法的主要缺点,并因此能够更好地建模长期依赖关系,获得更高的性能表现。冯兴杰等人10在词向量的表示上选用了
19、 Word2vec 模型,利用卷积神经网络(Convolutional Neural Networks,CNN)不断地学习句子的特征,并且添加了注意力机制,从而对文本进行情感分类。Martn 等人11利用酒店相关评论进行对比实验,使用 CNN 和 LSTM 进行情感分析文本。谷歌公司于 2018 年提出 Bert(Bidirectional Encoder Re-presentations from Transformer)模型12,它采用双向编码器表示和 Transformer 结构,具有更强的文本表征能力。Bert 是一种深度、双向、无监督的语言表示模型,可在最新的预训练语言表示工作的基础
20、上使用,可以避免卷积神经网络无法提取评论全局特征和 LSTM 无法并行计算的问题。因此,Bert 已成为自然语言处理任务的预训练语言模型首选。与此同时,RoBerta(Robustly optimized BERT approach)作为 Bert的变体13,它是在 Bert 的基础上通过更大规模的语料库和更长的训练时间进行训练得到的,RoBerta 使项瑞良 等 DOI:10.12677/hjdm.2023.134031 315 数据挖掘 用了更多的数据和更深层次的 Transformer 模型,对语言的理解能力更为优秀。RoBerta 采用了动态masking 的方式来预训练模型,从而能够
21、更好地学习上下文信息,并且通过改进训练任务,RoBerta 可以更好地处理长文本序列,增强了其文本表示能力,提高了性能表现。由于 RoBerta 在处理长文本序列和上下文理解方面更加出色,可以更好地捕捉文本中的情感信息,因此,本文选用 RoBerta 预训练语言模型作为文本表征,同时使用结构简单,参数较少的双向 GRU 网络考虑文本中过去和未来的上下文依赖关系,并对文本的不同部分给予不同的关注,从而提高情感分类的准确度。2.2.主题挖掘研究主题挖掘研究 主题挖掘方法是识别文本主题和挖掘用户在线意见的有效工具14。目前,主题挖掘有两种类型:依赖文本相似度的传统主题聚类模型15和概率主题模型,如
22、LDA 主题模型16 17,即潜在狄利克雷分布,由 Blei 等人在 2003 年提出18,该模型对词汇、主题和文档的三层结构进行贝叶斯概率分布,故也称为三层贝叶斯概率模型。研究表明,LDA 模型能够提取网上关于电子商务的负面评论19,识别社交媒体数据中的主题分布20。此外,LDA 模型还可以用来检测真实的旅游热点和游客在历史旅游体验中的关键信息需求,进而高效地发现短文本的主题特征21。因此,本研究采用 LDA 主题模型来识别旅游评论的主题。3.论论实验流程与模实验流程与模型构建型构建 3.1.数据采集与预处理数据采集与预处理 本文调用 Python 和 XPath 技术采集携程、去哪儿、马蜂
23、窝、同城旅行、美团、途牛、穷游、驴妈妈等旅游网站,按照景区资源类型不同爬取沈阳市 3 个 4A 级及以上的景区的游客评论信息作为本文的研究对象,分别为沈阳故宫、沈阳世博园和沈阳方特欢乐世界。通过观察爬取得到的数据发现,评论数据中有一些重复的评论、刷单评论、凑字评论、瞎乱打字的评论、系统默认的评论等对分析情感无参考意义,这些评论的存在都会对后续的文本分析工作造成不利的影响,因此采用人工与程序共同清除。同时,本文采用各平台自带的好评与差评标准,人工筛选其中评论是否归类成功,用于后续研究。接着对评论文本数据使用停用词表,去除数据中的重复词、停用词、无用词汇等,得到标准化文本数据。最后,利用 Pyth
24、on 的第三方库 jiaba 分词工具对数据进行分词处理,结果如表 1 所示:Table 1.Statistics of comment data for each scenic area 表表 1.各景区评论数据统计 序号 区县 景区简称 评论条数/条 1 浑南区 沈阳世博园 14,229 2 沈河区 沈阳故宫 14,973 3 沈北新区 沈阳方特欢乐世界 10,924 3.2.建立情感分析模型建立情感分析模型 本研究构建了一种新的情感分析模型,即基于 RoBerta 预训练模型得到的词向量和 BiGRU-Attention的景区评论情感倾向分析模型如图 1 所示,该模型主要由 4 部分组成
25、,分别为 RoBerta 词嵌入层、BiGRU层,注意力层和 Softmax 分类层。模型的输入是数据预处理好的标准化在线游客评论文本,经过 RoBerta预训练模型得到词向量,然后将其送入到下游任务 BiGRU 层提取上下文之间的信息,接着结合注意力机制得到赋予有权重的评论文本信息,最后将该层的输出使用 Softmax 函数进行情感分类。项瑞良 等 DOI:10.12677/hjdm.2023.134031 316 数据挖掘 Figure 1.Emotional analysis model based on Roberta-BiGRU-Attention 图图 1.基于 RoBerta-B
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 RoBerta BiGRU Attention 景区 评论 情感 分析研究 沈阳市
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
链接地址:https://www.zixin.com.cn/doc/2080065.html