分销赏收藏举报申诉 / 15

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf

基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf

上传人：自信****多点

文档编号：2080065

上传时间：2024-05-15

格式：PDF

页数：15

大小：2.18MB

《基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf》由会员分享，可在线阅读，更多相关《基于RoBerta-BiGRU-Attention的景区评论情感分析研究——以沈阳市为例.pdf（15页珍藏版）》请在咨信网上搜索。

1、Hans Journal of Data Mining 数据挖掘数据挖掘,2023,13(4),312-326 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/hjdm https:/doi.org/10.12677/hjdm.2023.134031 文章引用文章引用:项瑞良,李征宇,孙平.基于 RoBerta-BiGRU-Attention 的景区评论情感分析研究J.数据挖掘,2023,13(4):312-326.DOI:10.12677/hjdm.2023.134031 基于基于RoBerta-BiG

2、RU-Attention的景区评论情感的景区评论情感分析研究分析研究以沈阳市为例以沈阳市为例项瑞良项瑞良，李征宇，孙李征宇，孙平平沈阳建筑大学，计算机科学与工程学院，辽宁沈阳收稿日期：2023年8月30日；录用日期：2023年9月30日；发布日期：2023年10月9日摘摘要要游客在评论中所表达的意见和感受，能够直观地反映他们对旅游目的地的评价，同时语气鲜明、情感强游客在评论中所表达的意见和感受，能够直观地反映他们对旅游目的地的评价，同时语气鲜明、情感强烈。由此带来的巨大而动态的信息空间需要消费者和产品烈。由此带来的巨大而动态的信息空间需要消费者和产品/服务提供者共同理解和导航

3、。针对目前景区在服务提供者共同理解和导航。针对目前景区在线评论文本情感分类准确性不高的问题，提出一种基于线评论文本情感分类准确性不高的问题，提出一种基于RoBerta词向量和双向门控循环单元词向量和双向门控循环单元(BiGRU)的改的改进模型，使用能够表征文本丰富语义特征的进模型，使用能够表征文本丰富语义特征的Roberta模型进行词向量表示，结合能够长期保留文本上下模型进行词向量表示，结合能够长期保留文本上下文关联信息的文关联信息的BiGRU神经网络提高模型的分类效果，并在此基础上引入注意力神经网络提高模型的分类效果，并在此基础上引入注意力(Attention)机制，突出文机制，突出文本中更

4、能表达分类结果的情本中更能表达分类结果的情感词权重，提高情感分类的准确率。将上述模型分别在沈阳市感词权重，提高情感分类的准确率。将上述模型分别在沈阳市3个景区评论个景区评论数据上进行情感极性分类和预测，实验结果表明，该模型在各数据集上都获得了良好的性能。同时结合数据上进行情感极性分类和预测，实验结果表明，该模型在各数据集上都获得了良好的性能。同时结合LDA主题模型分析，得到游客评论的期望和诉求，为沈阳市旅游业发展提供技术支撑以及未来发展意见。主题模型分析，得到游客评论的期望和诉求，为沈阳市旅游业发展提供技术支撑以及未来发展意见。关键词关键词 RoBerta词向量，词向量，BiGRU，注意力机制

5、，情感分析，注意力机制，情感分析，潜在狄利克雷分布潜在狄利克雷分布 Research on Sentiment Analysis of Scenic Area Comments Based on RoBerta-BiGRU-Attention Taking Shenyang as an Example Ruiliang Xiang,Zhengyu Li,Ping Sun School of Computer Science and Engineering,Shenyang Jianzhu University,Shenyang Liaoning Received:Aug.30th,2023;a

6、ccepted:Sep.30th,2023;published:Oct.9th,2023 项瑞良等 DOI:10.12677/hjdm.2023.134031 313 数据挖掘 Abstract The opinions and feelings expressed by tourists in the comments can intuitively reflect their eval-uation of the tourist destination,and at the same time,the tone is clear and the emotion is strong.The

7、 resulting huge and dynamic information space needs to be understood and navigated jointly by consumers and product/service providers.Aiming at the problem of low accuracy of emotion classification in online comment texts of scenic spots,an improved model based on RoBerta word vectors and bidirectio

8、nal gated recurrent units(BiGRU)is proposed.The Roberta model,which can represent the rich semantic features of texts,is used to represent word vectors.The BiGRU neural network,which can retain text context information for a long time,improves the classifica-tion effect of the model.On this basis,an

9、 attention mechanism is introduced to highlight the weight of emotional words in the text that can better express the classification results,and improve the accuracy of emotion classification.The above models were used to classify and predict emotional polarity on the comment data of three scenic sp

10、ots in Shenyang City.The experimental results show that the model has achieved good performance on each data set.At the same time,combined with the LDA topic model analysis,the expectations and appeals of tourists comments are obtained,and technical support and future development opinions are provid

11、ed for the development of Shen-yangs tourism industry.Keywords RoBerta Word Vector,BiGRU,Attention Mechanism,Sentiment Analysis,Latent Dirichlet Allocation Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0)

12、.http:/creativecommons.org/licenses/by/4.0/1.引言引言随着 Web2.0 时代的到来，互联网技术在旅游行业的广泛应用，使得越来越多的游客能够在旅游平台上发布自己的个人体验和旅游评价。大量真实的、独立的、有价值的网络评论数据由此产生，同时也带来了一个新的方向：利用这些游客评论文本进行情感分析研究，获取游客在旅游目的地的感受与体验，为旅游业服务提供者提供宝贵的意见至关重要。然而，庞大的数据源也给人工分析带来了很大的困难。自然语言处理技术(Natural Language Processing,NLP)的发展使大规模数据分析变的高效，从而为景区在线评论情

13、感分析研究提供技术支持。目前情感分析领域，主流的方法之一是基于深度学习，在神经网络进行情感倾向分析时，通常会采用语言表示模型以考虑不同词汇之间的关系。为此，预训练的词嵌入模型(如 Word2Vec、GloVe 或 Bert等)被广泛应用。这些词嵌入模型将词汇映射到高维向量空间，使得在向量空间中具有相似含义的词具有较近的距离。这种方法有助于捕捉词汇之间的语义关联，提取句子的特征，并协助神经网络更好地理解文本的情感倾向。现有的深度学习模型解决了某些问题，但忽略了其他问题。例如，Chatterjee 等人1利用两个预先训练好的单词嵌入和长短期记忆神经网络(Long Short Term Memory

14、 Network,LSTM)来提取情绪和语义进行情绪识别，但他们的模型没有考虑句子不同部分重要性的差异。Rezaeinia 等人2改进Open AccessOpen Access项瑞良等 DOI:10.12677/hjdm.2023.134031 314 数据挖掘了预先训练好的单词嵌入，但没有考虑到过去和未来的上下文的依赖关系和具有不同重要性的单词。为改善这些模型存在的不足，本研究提出了一种新的深度学习模型，用于景区评论的情感分析，该模型考虑句内关系、捕捉过去和未来上下文的依赖关系，并通过分配权重来突出文本的重要部分，选择最重要的特征，增强对重要词汇的关注。然后，结合 LDA 主题模型(L

15、atent Dirichlet Allocation)，对沈阳市各景区的实际案例进行了研究。首先，使用自定义 Python 程序爬取游客在各旅游平台上发布的关于沈阳市景区的评论；接着，提出了主要研究框架；通过数据预处理，得到标准化文本数据；同时，运用情感分析获取游客情感倾向的相关性，进一步建立 LDA 主题模型，识别游客各特征维度的情感，研究成果可为沈阳市未来旅游业的可持续发展和创新开辟新的道路。2.相关工作相关工作 2.1.情感分析研究情感分析研究鉴于在线旅游网站上评论的激增以及由此产生的消费者影响，许多学者都在努力探索在线旅游评论与消费者行为之间的关系，以及评论在多大程度上影响消费者的决

16、策和选择3 4。目前倾向于评估旅游在线评论的内容质量的研究仍然稀缺。其中，衡量在线评论语言所传达的情感，特别是判断游客情绪的极性，仍处于起步阶段。目前，情感分析方法主要分为基于统计的情感分析方法和基于深度学习的情感分析方法两大类。其中，基于深度学习的情感分析模型是通过神经网络学习的，允许网络模型根据上下文信息预测下一个单词的内容，而不依赖于人工标记的语料库，解决了传统基于统计的情感分析方法中的一个关键问题，即人工构建情感词典所需的时间和人力成本。同时，也有效地解决传统情感分析方法忽略语境语义的问题。在众多深度网络类型中，循环神经网络(Recurrent Neural Network,RNN)在

17、文本处理相关研究中更为常见5。虽然 RNN 适用于许多文本情感分析中，但当输入数据中存在长期依赖关系时，它们会出现梯度消失和梯度爆炸。而双向长短时记忆网络(BiLSTM)可以很好的解决长期依赖的关系，能够更好的提取过去和未来的上下文的依赖关系1。Cho 等人6提出了门控循环单元(Gated Recurrent Unit,GRU)，GRU相较于 LSTM 模型结构更加简单，参数更少，并且能长期保存隐藏层序列信息。尽管深度神经网络在情感分析领域有所进展，但它们仍然存在一些不足之处，不能准确关注文本的重要部分7。为了解决这个问题，注意力机制被应用于许多自然语言处理任务，特别是情感分析。注意力机制的灵

18、感源自人类的视觉注意机制，试图将注意力集中在文本中更重要的部分，而非句子的所有单词。近年来，在情感分析领域，词嵌入模型和神经网络结合的方法备受关注。其中，Word2Vec 是常用的词嵌入模型，用于捕捉单词之间的相似性和词汇关系。通过卷积神经网络或长短期记忆神经网络等结构，可以有效地学习文本特征，加上注意力机制则可以提高情感分类的效果。Zhou 等人8则提出了一种带有注意力机制的双向 LSTM，以选择重要的特征；同时，Dragoni 等人9也提出了一种新的情感分析神经词嵌入方法，能够解决以前方法的主要缺点，并因此能够更好地建模长期依赖关系，获得更高的性能表现。冯兴杰等人10在词向量的表示上选用了

19、 Word2vec 模型，利用卷积神经网络(Convolutional Neural Networks,CNN)不断地学习句子的特征，并且添加了注意力机制，从而对文本进行情感分类。Martn 等人11利用酒店相关评论进行对比实验，使用 CNN 和 LSTM 进行情感分析文本。谷歌公司于 2018 年提出 Bert(Bidirectional Encoder Re-presentations from Transformer)模型12，它采用双向编码器表示和 Transformer 结构，具有更强的文本表征能力。Bert 是一种深度、双向、无监督的语言表示模型，可在最新的预训练语言表示工作的基础

20、上使用，可以避免卷积神经网络无法提取评论全局特征和 LSTM 无法并行计算的问题。因此，Bert 已成为自然语言处理任务的预训练语言模型首选。与此同时，RoBerta(Robustly optimized BERT approach)作为 Bert的变体13，它是在 Bert 的基础上通过更大规模的语料库和更长的训练时间进行训练得到的，RoBerta 使项瑞良等 DOI:10.12677/hjdm.2023.134031 315 数据挖掘用了更多的数据和更深层次的 Transformer 模型，对语言的理解能力更为优秀。RoBerta 采用了动态masking 的方式来预训练模型，从而能够

21、更好地学习上下文信息，并且通过改进训练任务，RoBerta 可以更好地处理长文本序列，增强了其文本表示能力，提高了性能表现。由于 RoBerta 在处理长文本序列和上下文理解方面更加出色，可以更好地捕捉文本中的情感信息，因此，本文选用 RoBerta 预训练语言模型作为文本表征，同时使用结构简单，参数较少的双向 GRU 网络考虑文本中过去和未来的上下文依赖关系，并对文本的不同部分给予不同的关注，从而提高情感分类的准确度。2.2.主题挖掘研究主题挖掘研究主题挖掘方法是识别文本主题和挖掘用户在线意见的有效工具14。目前，主题挖掘有两种类型:依赖文本相似度的传统主题聚类模型15和概率主题模型，如

22、LDA 主题模型16 17，即潜在狄利克雷分布，由 Blei 等人在 2003 年提出18，该模型对词汇、主题和文档的三层结构进行贝叶斯概率分布，故也称为三层贝叶斯概率模型。研究表明，LDA 模型能够提取网上关于电子商务的负面评论19，识别社交媒体数据中的主题分布20。此外，LDA 模型还可以用来检测真实的旅游热点和游客在历史旅游体验中的关键信息需求，进而高效地发现短文本的主题特征21。因此，本研究采用 LDA 主题模型来识别旅游评论的主题。3.论论实验流程与模实验流程与模型构建型构建 3.1.数据采集与预处理数据采集与预处理本文调用 Python 和 XPath 技术采集携程、去哪儿、马蜂

23、窝、同城旅行、美团、途牛、穷游、驴妈妈等旅游网站，按照景区资源类型不同爬取沈阳市 3 个 4A 级及以上的景区的游客评论信息作为本文的研究对象，分别为沈阳故宫、沈阳世博园和沈阳方特欢乐世界。通过观察爬取得到的数据发现，评论数据中有一些重复的评论、刷单评论、凑字评论、瞎乱打字的评论、系统默认的评论等对分析情感无参考意义，这些评论的存在都会对后续的文本分析工作造成不利的影响，因此采用人工与程序共同清除。同时，本文采用各平台自带的好评与差评标准，人工筛选其中评论是否归类成功，用于后续研究。接着对评论文本数据使用停用词表，去除数据中的重复词、停用词、无用词汇等，得到标准化文本数据。最后，利用 Pyth

24、on 的第三方库 jiaba 分词工具对数据进行分词处理，结果如表 1 所示：Table 1.Statistics of comment data for each scenic area 表表 1.各景区评论数据统计序号区县景区简称评论条数/条 1 浑南区沈阳世博园 14,229 2 沈河区沈阳故宫 14,973 3 沈北新区沈阳方特欢乐世界 10,924 3.2.建立情感分析模型建立情感分析模型本研究构建了一种新的情感分析模型，即基于 RoBerta 预训练模型得到的词向量和 BiGRU-Attention的景区评论情感倾向分析模型如图 1 所示，该模型主要由 4 部分组成

25、，分别为 RoBerta 词嵌入层、BiGRU层，注意力层和 Softmax 分类层。模型的输入是数据预处理好的标准化在线游客评论文本，经过 RoBerta预训练模型得到词向量，然后将其送入到下游任务 BiGRU 层提取上下文之间的信息，接着结合注意力机制得到赋予有权重的评论文本信息，最后将该层的输出使用 Softmax 函数进行情感分类。项瑞良等 DOI:10.12677/hjdm.2023.134031 316 数据挖掘 Figure 1.Emotional analysis model based on Roberta-BiGRU-Attention 图图 1.基于 RoBerta-B

26、iGRU-Attention 情感分析模型 3.2.1.RoBerta 词嵌入层词嵌入层 RoBerta 是由 Facebook 人工智能研究团队开发的预训练语言模型，它基于 Bert 模型的体系结构，但包括一些改进和修改，使其在一系列自然语言处理任务中表现的更好。RoBerta 的体系结构使用双向编码器结构对文本进行编码，它也是一种双向语言模型。这意味着 RoBerta 可以同时考虑给定单词左右的上下文，以便更好地理解其含义和在句子中的使用，能够获得更全面的上下文信息，因此本文选用 RoBerta实现词向量的表示，RoBerta 模型逻辑结构如图 2 所示。Figure 2.Logic st

27、ructure diagram of RoBerta model 图图 2.RoBerta 模型逻辑结构图 3.2.2.BiGRU 层层门控循环单元 GRU(Gated Recurrent Unit)是长短期记忆网络 LSTM(Long Short Term Memory)的变体，其内部结构比后者少一个遗忘门，该门的作用是控制前一时刻的记忆是否需要被遗忘，而 GRU 通过重置门和更新门的组合来实现类似的功能，因此该模型在保证网络学习效果的同时使结构更加简单，加快了训练速度。但单向 GRU 在获取文本的未来上下文信息时表现不佳，因此本文采用双向的 GRU，分别对同一个输入训练序列进行向前和向后

28、训练提取更深层次的文本特征，使得序列中每一个节点都能完整地依赖所有上下文信息。双向 GRU 的基本结构如图 3 所示。项瑞良等 DOI:10.12677/hjdm.2023.134031 317 数据挖掘 Figure 3.BiGRU model 图图 3.BiGRU 模型 BiGRU 的输入为上一层 RoBerta 模型输出的词向量，其输出由上一时刻前向隐层状态1lh?、反向隐层状态1lh?和当前时刻的输入lx三部分决定。GRU 网络结构的计算过程公式如下：()1lzlzlzzW xU hb=+(1)()1lrlrlrrW xU hb=+(2)()()1tanhlhlhllhW xUrhh

29、b=+?(3)()11lllllhzhhz=+?(4)式中：lz和lr代表更新门和重置门；lh?代表候选隐藏层状态；1lh和lh分别代表1l 和 l 时刻的隐藏层态；W 和 U 为权重；b 为偏置；代表 Sigmoid 函数。BiGRU 网络结构的计算过程公式如下：()1,lllhGRU x h=?(5)()1,lllhGRU x h=?(6)()llllllhhhF W hW hb=+?(7)式中：lh?和lh?分别为 l 时刻的前向和后向隐藏层的状态；F 为激活函数lhW?和lhW?分别为 l 时刻前向和后向隐藏层状态的权重；lb是 l 时刻隐藏层状态的偏置。3.2.3.注意力机制层注意力

30、机制层为了捕获更准确的文本信息，引入注意力机制学习词汇间的依赖关系，通过将 BiGRU 层的输出分配不同的特征权重，在关键词汇信息中给予更多的关注，进一步提高情感分类的准确度。在情感分析中，由于文本中词汇的重要程度不同，特征权重也不同，引入注意力机制可以更好地学习词汇间依赖关系，增强对重要词汇的关注度。因此，通过分配不同的权重来关注上下文的重要部分，以进一步提高分类的准确度。注意力机制根据信息的重要性为输入信息分配权重参数，称为注意力值。注意力值是通过首先确定输入信息的注意力分布来计算的，这会产生一个注意力得分(Attention Score)函数，然后使用 Softmax函数对该函数进行归

31、一化数值变换，得到的值根据权重系数进行加权求和。换句话说，注意力机制计算每条输入信息的重要性，并使用该信息对最终输出进行加权，具体计算公式如下：项瑞良等 DOI:10.12677/hjdm.2023.134031 318 数据挖掘 ()tanhTtmtuvWhUh=+(8)()()expexpttttuau=(9)tmtVa h=(10)式中：mh、th为时刻 m、t 的 BiGRU 的输出，mh为输入信息向量，th为查找关键信息的查询向量，W、U、v 是参数向量，通过 Softmax 函数进行归一化处理。将原始计算分值转化成所有权重之和为 1 的概率分布，更加突出重要元素的权重，最后将所有

32、输入信息的概率汇总，采用加权平均的方式求和，得到注意力值 V。3.2.4.Softmax 分类层分类层最后，我们使用密集层对得到的特征向量 h 进行降维，这一步骤有助于简化评论文本的表达，同时保留其最重要的特征。接下来，我们合并密集层的输出，并将它们通过一个全连接层，这一层有助于捕捉评论文本不同特征之间的关系，并生成更具信息性的评论文本表示。最后，我们使用 Softmax 函数来获得评论文本情感标签的概率，计算公式为：()ffySoftmax WVb=+(11)3.3.建立建立 LDA 主题模型主题模型 LDA 主题模型，作为一种文档主题生成模型，该模型通过与语料库相关的 Dirichlet

33、先验来生成文本各段落中主题的多重分布。假设一组文档，令 D 表示文档个数，K 表示主题个数；其中每个文档 D 都是一个含有 N 个单词的序列，其中,d nw是文档 D 的第 n 个单词，,d nz是文档 D 的第 n 个主题。()dDir表示服从超参数为的 Dirichlet 概率分布，()kDir表示服从超参数为的 Dirichlet 概率分布。LDA模型的联合概率分布函数如式(12)所示：()()()()(),1111,DNDKdd ndd ni kd nidndipzpp zp zzp =(12)由于无法直接获得 LDA 主题的数量，本研究参考了相关文献中基于主题相似度和困惑度评价指标

34、确定最优 LDA 主题数量的方法。假定主题取值范围为1,20，计算困惑度(Perplexity)数值，计算公式如式(13)、(14)所示，该数值一般随着潜在主题数量的增加呈现递减的规律，该数值越小，该主题模型的生成能力越强。()()()11logexpMddMddp wPerplexity DN=(13)()()(),dkp wp k p w z g=(14)其中 M 为语料库的大小，dN为文档 D 的文本大小，k 为主题，w 为文档，g 为训练集训练的文本主题分布。模型生成能力越强，()dp w越小。本文使用 Python 的数据可视化包 Matplotlib 绘制训练出来的困惑度与主题数的

35、折线图，通过观察折线图拐点确定最优主题的数值。然后将该主题数作为 LDA 主题模型的超参数进行主题分析，我们可以得到主题特征词的概率分布，从而分析每个主题下的特征词的语义特征，最后通过人工提炼汇总每个主题下特征词的描述内容。项瑞良等 DOI:10.12677/hjdm.2023.134031 319 数据挖掘 3.4.实验参数设置实验参数设置本文使用 Python 编程语言进行建模，其中 RoBerta-BiGRU-Attention 模型部分使用深度学习框架Pytorch 进行模型搭建，LDA 主题模型使用 Python 的第三方库 scikit-learn 进行建模，具体超参数如表 2

36、：Table 2.Experimental parameters 表表 2.实验参数参数名称参数值 epochs 100 batch_size 64 学习率 1e5 dropout 0.9 GRU 隐藏层维度 768 损失函数 Cross-Entropy 优化器 BertAdam LDA 最大主题数 20 LDA 最大迭代次数 100 Learning_method batch 3.5.实验评估标准实验评估标准本文使用测试集对模型进行评估，具体使用 3 个评估指标：加权精准率(Weighted Precision,WP)、加权召回率(Weighted Recall,WR)和加权F1值(W

37、eighted F1,WF1)。假设iTP表示模型预测评论为i极性的同时真实评论为 i 极性的数量，iFP表示模型预测评论为 i 极性的同时真实评论不为 i 极性的数量，iFN表示真实评论为 i 极性但模型预测评论不为 i 极性的数量，if代表 i 极性的权重，其中 i 为正向情感极性为1，反之为 0。具体计算如公式如下：00110011011WPfTPf TPTPFPTPFPff=+(15)00110011011WRfTPf TPTPFNTPFNff=+(16)2 WP WRWF1WPWR=+(17)4.实验结果与分析实验结果与分析 4.1.数据处理数据处理本文使用 Python 随机抽取

38、每个景区各 8000 条在数据预处理部分得到的标准化评论文本数据作为研究对象，其中 5000 条数据按照 8:1:1 的比例划分为训练集、验证集、测试集，作为 RoBerta-BiGRU-Attention模型的训练数据，余下的 3000 条数据进行情感倾向预测。项瑞良等 DOI:10.12677/hjdm.2023.134031 320 数据挖掘 4.2.情感分析模型结果情感分析模型结果本文在训练集上训练模型，同时使用测试集进行评估。为验证本文采用模型的情感分类效果，接下来将进行与其他基线模型的对比实验。1)RoBerta 模型：使用 RoBerta 获取词向量，直接通过全连接层(也称为

39、分类层)进行情感倾向预测。2)RoBerta-BiGRU 模型：使用 RoBerta 获取词向量，通过 BiGRU 对文本特征进行提取，然后通过分类层进行情感倾向预测。为保证模型实验的客观公正性，在对比实验时使用的数据集都是各景区的在线评论，且实验的参数保持一致，三种模型的情感倾向实验结果表 3、表 4 和表 5 所示：Table 3.Experimental results of Shenyang World Expo Park Scenic Area comment data 表表 3.沈阳世博园景区评论数据实验结果模型类型 WP(%)WR(%)WF1(%)RoBerta 89.90 8

40、9.87 89.89 RoBerta-BiGRU 91.37 91.00 91.13 RoBerta-BiGRU-Attention 92.03 92.13 92.06 Table 4.Experimental results of Mukden Palace Scenic Area comment data 表表 4.沈阳故宫景区评论数据实验结果模型类型 WP(%)WR(%)WF1(%)RoBerta 90.61 90.64 90.63 RoBerta-BiGRU 92.97 92.79 92.30 RoBerta-BiGRU-Attention 94.94 94.92 94.93 Tab

41、le 5.Experimental results of Shenyang Fantawild Happy World Scenic Area comment data 表表 5.沈阳方特欢乐世界景区评论数据实验结果模型类型 WP(%)WR(%)WF1(%)RoBerta 88.42 88.50 88.46 RoBerta-BiGRU 90.61 90.64 90.63 RoBerta-BiGRU-Attention 91.57 91.37 91.44 本次研究在训练集上训练本文所构建的模型，并使用测试集来进行评估。同时本文实验了其他两种情感分析模型进行对比，以此来证明本文模型的鲁棒性。3

42、个实验结果所示，本文提出的 RoBerta-BiGRU-Attention模型在 3 个不同数据集上，所有评估指标上表现最好，其次是 RoBerta-BiGRU 模型，最后是 RoBerta 模型。这表明加入了双向 GRU 和注意力机制对情感倾向分析任务有益。基于预训练模型 RoBerta 在进行多次调参后，选取模型算法的最佳结果，实现的情感分析模型在各个景区表现良好，其加权平均精准率、加权平均召回率以及加权平均 F1 值在各数据集中分类效果均好，且能达到 94%的分数，分析原因一是 RoBerta 产生的词向量是动态的，考虑了文本的上下文语义信息。原因二是注意力机制可以有效捕捉上下文甚至整体

43、的关键信息句子，并融合到当前的词向量中，其可以给文本不同的部分分配不同的权重，进而提高情感倾向分析的准确性。项瑞良等 DOI:10.12677/hjdm.2023.134031 321 数据挖掘综上所述，本文将采取提出的 RoBerta-BiGRU-Attention 模型继续对余下的 3000 条未标注的景区评论进行情感预测。同时对最后的预测结果进行人工检测，保证情感倾向分析达到最小失误。4.3.LDA 主题挖掘结果主题挖掘结果接着将情感倾向分析标注好的数据，利用 Python 的 Pandas 库分析正、负情感极性分布，送入到 LDA主题模型中，输出结果为各景区评论主题。本文参考相关

44、文献的经验22，将主题数 K 的取值范围设为1,20，计算不同主题数下的困惑度数值，然后使用利用 Python 的数据可视化包 Matplotlib 绘制出与主题数相关的困惑折线图。这里以沈阳故宫为例，展示困惑度分析结果如图 4 所示：Figure 4.Perplexity line chart 图图 4.困惑度折线图当 K=5 时，困惑度数值最小(图中红色标记处)，因此选择主题数为 5 作为 LDA 主题模型的超参数，其他景区用困惑度确定主题数的求法相同。然后使用 Python 的 scikit-learn 库的 LatentDirichletAllocation 函数，对各景区标注好情感

45、倾向的评论数据分别构建 LDA 主题模型。经过 LDA 主题分析后，在每个主题下生成 12 个最有可能出现的词语，随后对主题分析的结果进行评价，得到各景区评论数据的主题特征词分布结果，如表 6、表 7 和表 8 所示：1)沈阳世博园景区主题 1 是关于沈阳世博园景区门票和游园体验方便程度的评论，涉及到的词汇有入园、换票、买票、取票、扫码等。游客认为购票入园比较方便，排队时间较短，也提到了门票优惠信息。主题 2 主要是针对沈阳世博园景区内部设施和景点的评价，包括一些负面评价，比如地方不好、不能进去、收费高等。同时，也有一些中性的词语，如建议、感觉等。主题 3 是关于沈阳世博园景区适合亲子游玩的

46、评价，包括可以孩子开心、环境适合、喜欢景色、设施齐全等词汇。游客认为沈阳世博园非常适合家庭游玩，有很多景点和游乐项目，适合各个年龄段的人群。主题 4 主要评价沈阳世博园景区维护和季节变化的评论，包括一些词汇如现在、季节、已经、菊花、百合等。游客认为沈阳世博园景区虽然有一些缺点，但整体维护还是比较好的，不同的季节景色也各具特色。主题 5 主要评价了沈阳世博园景区作为旅游胜地的评价，包括沈阳作为城市的特点，以及沈阳世博项瑞良等 DOI:10.12677/hjdm.2023.134031 322 数据挖掘园景区自身的特色，如值得一去、很大、环境优美等词汇。游客认为沈阳世博园是一个很好的旅游目的地

47、，适合休闲游玩和观光旅游。Table 6.Topic-characteristic words of comments on scenic area in Shenyang World Expo Park 表表 6.沈阳世博园景区评论主题特征词主题特征词主题 1 方便、直接、入园、换票、排队、小时、买票、便宜、景色、取票、二维码、优惠主题 2 溜达、地方、不好、建议、小时、太大、东西、收费、项目、观光车、工作人员、感觉、一圈、主题 3 孩子、开心、环境、适合、一起、景色、游玩、空气、家人、老人、天气、下次主题 4 设施、感觉、现在、季节、百合、不错、已经、以前、好多、维护、郁金香、可

48、能、没开主题 5 值得、很大、园区、休闲、游览、环境、旅游、景色、交通、环境优美、好去处、电瓶车综上所述，这 5 个主题分别反映了游客对沈阳世博园景区不同的维度，分别是主题一关于门票和游园方便程度的评价；主题二主要评价了景区内设施、景点和用户体验；主题三是关于适合亲子游玩的评价；主题四主要评价了季节和景区维护情况；主题五主要评价沈阳世博园作为旅游胜地的特点和特色。统计积极与消极主题评论的数量，进而剖析游客的情感倾向占比情况，其可视化结果如图 5 所示：Figure 5.Statistics on the number of positive and negative comments at

49、 Shenyang World Expo Park 图图 5.沈阳世博园正负评论数量统计由主题占比情况，我们可以得出结论，主题一、主题三、主题五的正、负情感的评论数量相差极大，说明景区的票价、交通便利情况、性价比体验等方面给游客带来的感受总体来说是很不错的，得到了多数游客的肯定。然而，在主题二中，游客的负面评论数量远超过正面评论数量，这表明一部分游客对于景区相关设施的价格和提供的价值感到不满意。他们认为景区内部的景色没有达到他们心中的期望，票价过高，给游客带来了不佳的体验。该景区服务提供者需要通过不断优化景区的各个方面，可以提升游客的整体体验和满意度。2)沈阳故宫景区主题 1 中游客将沈阳

50、故宫与北京故宫做横向对比，游客的整体评价主要关注故宫值得游览的地方、文化感受、适合孩子等方面。主题 2 说明游客关注故宫景区的服务设施质量，评论中提到了讲解员态度和细心，同时也提到了一些景点开放问题和维修情况等建议。项瑞良等 DOI:10.12677/hjdm.2023.134031 323 数据挖掘主题 3 侧重关注沈阳故宫的空间大小、建筑外观、环境清洁、以及与游览体验相关的事项如售卖雪糕等。主题 4 主要关注故宫的历史和文化底蕴方面，有故宫的宫殿、皇帝、满族等方面。主题 5 主要关注游客对沈阳故宫的方便性、值得性、服务质量等方面，同时提出了门票价格、排队等建议。Table 7.Topi

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 RoBerta BiGRU Attention 景区评论情感分析研究沈阳市

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。