基于共现网络的用户评论聚类分析与语义识别研究.pdf
《基于共现网络的用户评论聚类分析与语义识别研究.pdf》由会员分享,可在线阅读,更多相关《基于共现网络的用户评论聚类分析与语义识别研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、312023 年第 9 期探索与创新基于共现网络的用户评论聚类分析与语义识别研究李森涛(郑州大学信息管理学院 河南郑州 450001)摘 要:挖掘网络知识问答社区用户评论的语义关系,有利于识别用户信息需求特征,为用户提供更具有价值的评论,提升问答社区的信息服务质量。文章以“百度贴吧图书馆吧”中的评论文本数据进行实证研究,通过LDA主题模型进行评论主题聚类分析,利用Word2vec模型将主题关键词转换为词向量,并以此构建评论语义共现网络,最后进行评论排序对比。通过这种方法不仅能够正确聚类不同评论主题,还能够筛选出易被用户所忽视的高质量评论。研究发现,用户评论共分为6类,用户主要关注于学科前景发展
2、,而对于基础设施服务和泛在化服务关注度较低。关键词:网络知识问答社区;主题聚类;共现网络;语义识别;用户评论中图分类号:G252.0 文献标识码:AA Study on User Comment Clustering Analysis and Semantic Recognition Based on Co-occurrence NetworkAbstract Mining the semantic relationships of user comments in a network knowledge Q&A community can help identify user informa
3、tion needs and provide more valuable comments,thereby improving the information service quality of the Q&A community.This paper conducts empirical research using comment text data from the Library Bar under Baidu Post Bar.By using LDA topic models for comment clustering analysis,the study transforms
4、 the topic keywords into word vectors using the Word2vec model,constructs a comment semantic co-occurrence network,and finally compares comment ranking results.This method can not only correctly cluster different comment topics but also screen out high-quality comments that are easily overlooked by
5、users.The study found that community library user comments can be divided into six categories,and users are mainly concerned about the development of disciplinary prospects,with less attention paid to infrastructure services and ubiquitous services.Key words online Q&A community;topic clustering;co-
6、occurrence network;semantic recognition;user comment1 引言随着互联网技术的日益进步,网络知识问答社区逐渐成为用户进行知识获取、互换、传播的重要平台。网络知识问答社区除了具备传统意义上的知识问答功能以外,还具备社交功能,用户可根据个人需要或喜好选择自己信任的博主并给予关注。在网络时代,网络知识问答社区逐渐成为创造知识资源的新兴载体。由于网络用户知识背景差异较大,因而所产生的评论内容质量参差不齐。冗余繁杂的评论信息使得平台和用户难以快速高效筛选出优质评论,造成时间浪费。因此,如何高效挖掘用户生成内容的深层语义关系,并筛选出高质量内容,是问答平台
7、首要考虑的问题。针对用户粘性高、主题开放性强的网络社区平台,已有学者证实平台使用算法介入有利于识别评论信息特征,推荐结果有助于满足用户信息需求。刘伟利等人基于知乎问答数据进行语义网络研究,提出了一种规避“投票机制”答案推荐算法1;张艳丰等人基于共现网络的用户评论聚类分析与语义识别研究32基于电商平台评论的有用性进行研究,利用评论情感语义的特征抽取,对在线评论进行排序和分类2;Biyani等人研究了在线癌症社区中用户消息隐含语义关系,并利用文本挖掘和情感分析技术研究,发现影响力较高的用户会提供更多的情感支持3;杨九龙等人通过潜在狄利克雷分布(LatentDirichletAllocation,L
8、DA)主题模型和情感倾向分析挖掘用户在大众点评、携程网上对31家省级公共图书馆的评论内容的语义关系,提出公共图书馆服务优化路径4;聂卉等人基于中关村在线的用户评论,通过融合用户兴趣及评论质量进行评论推荐5;Esparza等人基于Twitter用户评论生成用户模型和产品模型,最后依据二者内容相似度进行推荐6。当前关于用户评论推荐的研究主要采用机器学习、情感分析、扎根理论等来识别用户评论的语义关系,推进了评论的筛选与推荐,节约了一定的时间成本。但是常规的文本聚类模型并未深层次挖掘语义信息,语义排序与推荐算法并没有完全避免“信息注水”情况,导致一些高质量评论因为发布者的社区背景而被忽略,例如发帖数、
9、活跃时长等。此外基于用户评论的内容关联和特征项之间隐含着共现关系,但少有基于共现网络来对评论间语义进行研究。考虑到多数网络知识问答社区并未对某个话题或者某个提问下的所有评论进行主题聚类,使得用户无法按照主题兴趣批量浏览符合自身要求的评论。本文首先通过LDA主题模型对评论信息进行主题聚类,挖掘出各评论间的主题语义关系;其次将共现网络分析引入到本研究中,结合Word2vec模型、Louvain算法(社区发现算法)构建共现网络,识别内在语义关系,帮助用户选择高质量评论,解决用户的知识需求;最后运用PageRank算法进行评论排序计算,快速筛选出得分较高的优质评论,避免因“信息注水”情况导致优质评论的
10、忽视。2 研究框架与关键技术本文运用LDA主题模型、Word2vec模型、共现网络分析等多种方法,基于评论间存在的潜在语义关系构建语义网络,通过多种算法对用户评论进行语义识别并排序。整体框架如图1所示。首先以用户评论内容为数据源,通过数据清理、中文分词等处理后进行主题聚类,得到主题词矩阵,并将各评论语料的主题概率向量进行计算得到相似度矩阵,运用Louvain算法进行主题识别验证。其次,验证通过后,利用训练好的Word2vec词向量模型计算各主题的主题向量,并构建主题共现网络,并基于此网络从关键性和关联性2个方面选出某个主题,以该主题为例进行评论语义识别。原始数据获取Jieba分词形成主题词表困
11、惑度计算一致性计算可视化判断词向量生成构建字典去除特殊符号去除停用词Word2vec词向量主题抽取LDA主题词矩阵主题向量主题识别验证共现矩阵社区语义网络Louvain算法YN主题分布向量相似度计算余弦相似度主题共现网络共现矩阵社区语义网络共性主题识别关键性关联性TF-IDF加权计算评论语义识别PageRank算法分词结果主题词选取图 1 基于语义网络的网络知识问答社区用户评论识别研究框架2.1 主题聚类与向量化2.1.1 LDA主题模型LDA主题模型是由BleiDM等人在2003年提出的,是一个关于文档、主题、词语的3层贝叶斯概率生成模型,其核心思想是把文档看成隐含主题的一个概率分布,主题看
12、成词语的一个概率分布。文档到主题服从多项式分布,主题到词服从多项式分布,而该多项分布的参数服从Dirichlet分布7。为了确定具体主题划分数量,LDA常用困惑度(PerplexityScore)指标来辅助衡量主题模型的识别能力,困惑度越低,相应的模型性能越好,困惑度的计算公式如下。(1)(2)公式(1)中,代表一篇文档;表示每个单词出现的概率;代表一个文档中每个主题出332023 年第 9 期现的概率;代表词典中每一个单词在某个主题下出现的概率。2.1.2 Word2vec模型Word2vec词向量模型由学者TomasMikolov提出,主要思想是将文本单词向量化表示。主要过程是通过训练文本
13、集转化为K维度向量,利用向量之间的空间距离来表示文本在语义上的相似度。Word2vec包含CBOW和Skip-gram两个模型,现有研究表明二者在训练效果上无明显差异8。本文选用Skip-gram模型将主题词映射为向量,结合LDA主题识别的结果实现文本数据的语义信息提取与向量化。考虑到Word2vec模型未体现词汇对主题的贡献度,导致非关键词汇影响特征语义表达。因此利用值对主题词向量进行加权处理9,具体公式如下。(3)其中,为第 个主题的向量表示,为该主题下概率排名前s的词语数,表示各主题关键词所对应的值,表示该词语对应的词向量。2.1.3 Louvain算法本文引入Louvain算法进行答案
14、主题聚类并显示于评论语义网络中,对各主题评论之间以及不同主题评论之间的关联性进行可视化显示,并验证LDA主题识别的准确性。Louvain算法是一种以模块度为计算依据的社区发现算法10,模块度反映不同社区之间内部连接强度以及连接差异,是复杂社区划分标准1。Louvain算法优点在于无需事先确定社群个数,社群聚类结果的准确性和响应速度都优于其他算法。模块度计算公式为:(4)其中,表示模块度,表示节点 与节点 之间连边的权重,表示整个网络的度,表示网络中边权重之和,表示与节点 相连边权重的和,表示节点 所在的社区,当时,当时,。2.2 共现网络构建共现网络是以各主题或各评论为节点,主题或评论之间的语
15、义相似度为边。节点颜色越深、形状越大表示其越核心,连边越粗表示其关系越强。以前文生成的主题向量为基础,利用余弦相似度计算不同主题之间的语义关联程度,并基于主题节点间相似度均值保留连边,构建主题网络,具体计算公式如下:(5)其中,表示主题,表示主题的向量形式,表示主题之间的相似度,取值介于0和1之间。该网络的节点是LDA抽取的主题,而每一个主题则由带有概率分布的词簇来表示。2.2.1 共性主题识别本文借鉴关键共性技术识别指标,在共现主题网络构建的基础上,根据关键性和关联性两个指标进行共性主题识别11。关键性从不同主题间边的权重来表示某个主题的关键程度,关联性从评论主题联系广度的角度来反映某主题与
16、其他主题之间的关联程度。公式如下所示。(6)(7)其中表示主题 的主题关键性,表示主题 与主题 之间连边的权重得分,表示主题关联性,表示主题 的加权度,表示总主题数。2.2.2 PageRank算法PageRank算法(以下简称PR)最早由谷歌提出,是将传统引文分析思想运用到搜索引擎中对网页重要性排名的算法,该算法以网页超文本链接的数量来衡量网页的质量12。本文以评论PR值的高低对其进行排序。该算法在计算PR值之前有两个重要假设:数量假设,在无向的语义网络中X节点度数越高,X节点就越重要;质量假设,与X节点连接的Y节点度数越高,X节点就越重要。计算公式如下。(8)(9)基于共现网络的用户评论聚
17、类分析与语义识别研究34(10)为评论相似度组成的转移矩阵,表示两个节点之间转移概率,为阻尼系数()。3 实验及结果分析3.1 数据收集与预处理图书馆是面向读者开展信息服务的重要载体,以满足读者的信息需求为首要目的。从海量的评论数据中开展信息识别、信息组织,挖掘出高质量、强关联的优质评论,能够有效满足读者多元化、即时性的信息需求,图书馆根据评论识别结果,有针对性地对馆藏资源、日常管理、信息公开等进行更新,能够提升信息服务质量。百度贴吧作为全球最大的中文社区,具备高成熟度、高知名度,贴吧环境具有开放性,信息传播方式具有多样性,用户获取信息门槛低。与其他网络知识问答社区相比,“百度贴吧图书馆吧”下
18、的用户兴趣领域相近,发帖与用户评论专业性强,与图书馆信息服务无关内容占比较低,能够为用户评论聚类分析与语义识别研究提供客观有效的数据来源。因此本文选取“百度贴吧图书馆吧”作为数据来源。首先,本研究使用Python自编代码进行数据采集,爬取时间为2022年11月25日,以百度贴吧的“图书馆吧”为主,收录所有帖子的发帖时间、发帖人、发帖内容等信息,共爬取到主题帖数3284个,用户评论信息6187条,剔除贴吧广告贴以及无意义数据后最终得到4995条有效数据。其次,结合哈尔滨工业大学停用词表、百度停用词表以及自定义停用语料构建停用词表,自定义语料词库形成用户分词词典。最后,在此基础上借用Jieba分词
19、库,对处理过的文本进行过滤停用词、去除标点特殊符号等步骤,提高主题识别的准确性。3.2 LDA 主题聚类评论主题提取使用Python中的sklearn库运行LDA主题模型挖掘经过数据清理后的评论主题,在其运行过程中需确定主题数目并不断调整参数对机器学习模型进行训练。本文将超参数、分别设为0.1,0.01,迭代50次,每个主题显示前10个关键词。综合采用困惑度、一致性与可视化方式进行主题数量的选择,结果如图2所示。通过比较不同主题数目困惑度和一致性曲线拐点与可视化结果显示重叠度情况,最终将主题数目K确定为6,具体分为学科前景发展、基础设施服务、阅读推广与交流、图书馆业务办理、泛在化服务和空间服务
20、6个方面。主题数量确定之后得到相关主题关键词矩阵,如表1所示。表 1 主题关键词矩阵主题编号评论主题名称关键词Topic0学科前景发展专业大学学生图书馆学工作文献书籍研究资源论文Topic1基础设施服务图书系统防盗磁条数据微信设备专业服务产品Topic2阅读推广与交流读者文化服务管理发展朋友中心信息教育社会Topic3图书馆业务办理工作借书期刊考试环境借书证分类档案身份证业务Topic4泛在化服务时间考研管理员工作人员电脑座位情况闭馆建议交流Topic5空间服务地方自习室学校软件读书小伙伴作者文章同学图片(a)困惑度曲线(b)一致性曲线图 2 评论主题识别结果(c)主题可视化3.3 语义网络构
21、建3.3.1 评论语义网络构建与主题聚类验证通过LDA主题模型识别后,得到每条评论的隶属352023 年第 9 期主题以及文本向量,对每条评论进行编号并通过公式(5)计算各条评论之间相似度,并将相似度值标准化处理,得到各评论之间相似矩阵,同时运用Louvain算法对评论进行主题社区聚类,以此绘制评论语义网络。评论语义矩阵如表2所示,表中首行与首列为评论编号。为便于观察,依据编号进行等距抽取100条评论并且从中选取标准化文本相似度高于0.6的边,评论语义网络如图3所示。图中节点上数字表示评论编号,节点大小由节点的度决定,节点的形状代表节点所属的社区,不同的形状代表不同的主题。观察图可知Louva
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 网络 用户 评论 聚类分析 语义 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。