基于电商评论情感分析的用户聚类方法研究.pdf
《基于电商评论情感分析的用户聚类方法研究.pdf》由会员分享,可在线阅读,更多相关《基于电商评论情感分析的用户聚类方法研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 25 日第 7 卷 第 16 期现代信息科技Modern Information TechnologyAug.2023 Vol.7 No.1624242023.082023.08收稿日期:2023-03-26基金项目:2022 年江苏省大学生创新创业训练计划项目(202210299133Y)基于电商评论情感分析的用户聚类方法研究王盈,张文龙,唐卓然(江苏大学 管理学院,江苏 镇江 212013)摘 要:针对电子商务中的商品评论信息过载问题,运用情感关联分析理论,通过挖掘商品评论信息中的商品特征及相应的情感反馈,建立商品特征细粒度上的情感分值向量,在此基础上利用 SOM 神
2、经网络模型对评价用户进行聚类,建立电商用户情感画像,并针对不同电商用户群体特征制定个性化营销策略,从而帮助平台商家从繁杂的商品评论中快速获取有效信息。实验中在线评论取自图书类商品,数据均来源于 Amason。实验结果表明,该方法具有良好的应用效果。关键词:电子商务;在线评论;情感分析;自组织映射地图;用户聚类中图分类号:TP391.1;C931 文献标识码:A 文章编号:2096-4706(2023)16-0024-05Research on User Clustering Method Based on Sentiment Analysis of E-Commerce ReviewsWANG
3、 Ying,ZHANG Wenlong,TANG Zhuoran(School of Management,Jiangsu University,Zhenjiang 212013,China)Abstract:Aiming at the problem of commodity review information overload in E-Commerce,the theory of sentiment correlation analysis is used to establish the sentiment score vector of fine-grained commodity
4、 features by mining commodity features and corresponding sentiment feedback in commodity review information.On this basis,the SOM neural network model is used to cluster evaluation users and establish the emotional portrait of E-Commerce users.And it develops personalized marketing strategies accord
5、ing to the characteristics of different E-Commerce user groups,so as to help the platform merchants quickly obtain effective information from the complex commodity reviews.In the experiment,online reviews are taken from book products,and all of the data are obtained from Amason.Experimental results
6、show that this method has a good application effect.Keywords:E-Commerce;online review;sentiment analysis;Self-Organizing Map;user clustering0 引 言近年来,随着电子商务市场不断饱和、用户个性化需求不断提高,同质竞争弊端日益凸显。如能够从电商平台上海量易获取的富有用户丰富情感信息的评论文本数据中快速挖掘有用信息,将为平台商家开展精准营销提供极大便利。目前,以精准营销为目标的用户画像构建,多通过深度挖掘网络用户个人信息实现,对用户基本标签信息、社交网络分析等
7、方面研究已很多,而以用户聚类为目的的情感挖掘研究尚不深入。对此,本文提出一种基于电商评论情感分析的用户聚类方法,并结合亚马逊图书类商品评论文本数据进行实证分析。1 文献综述电商评论文本挖掘已经成为电商领域一大研究DOI:10.19850/ki.2096-4706.2023.16.006热点。电商在线评论文本里用户发布的评价信息,能够帮助其他用户了解产品品质信息,有效降低用户的感知风险,辅助用户做出购买决策。刘玉林通过抓取用户评论并采用 NLP 自然语言切分,依靠情感字典进行电商在线文本情感判断,创建新式电商商家评价方式,实现了动态监测顾客情感变化趋势1。毛郁欣针对 B2C 电商网站特点,总结用
8、户评论有用性特征,并提出基于支持向量机的评论有用性排序算法,证实了主客观内容全面和高相关性的长评论被认为更加有用2。Zhang Chenyu 抓取疫情前后用户餐饮评论文本数据,对其进行 LDA 主题及 SnowNLP 情感对比分析,实现了对其餐饮消费偏好的获取3。用户情感聚类分析是一种综合运用情感分析和聚类分析的群体聚类方法。随着深度学习的发展和文本数据可获取性不断提升,情感聚类分析逐渐从理论研究领域拓展到实践应用。郭慧提出了一种基于多重属性聚类加权输出的循环神经网络模型,根据评价中的属性词,挖掘用户兴趣点与商铺特点进行情感分析,提升了个性化推荐效果4。洪庆(2018)现代信息科技8月下16期
9、.indd 24现代信息科技8月下16期.indd 242023/8/15 17:38:022023/8/15 17:38:0225252023.082023.08第 16 期改进传统 K-means 聚类算法,对视频用户基于弹幕文本情感值分类,以了解其在情感上的异同5。王晰巍通过卷积神经网络模型,对微博用户情感进行三级分类,利用 Canopy 和 K-means 算法对其聚类,以对舆情事件下各用户群体进行分析预测并提出对应管控策略6。综上所述,虽然国内外均已有基于电商评论文本的情感聚类分析研究,但多基于整体层面建模,丢失了主体特征细粒度上的情感信息,方法上也多局限于低维数据的传统聚类算法。因
10、此,本文采用相似度算法对评论关键词进行特征映射,并量化其对应情感反馈,构建商品特征细粒度上用户情感分值向量;同时,利用 SOM 模型绘制聚簇分布图,实现用户的神经网络聚类,并结合 PCA 构造群体关注特征以辅助建立电商用户情感画像,形成个性化营销策略。2 方法设计本研究提出的基于评论文本情感关联分析的电商用户聚类方法主体分为五大模块,按照执行顺序依次是数据预处理模块、评论情感向量提取模块、用户情感向量构建模块、用户聚类分析模块和用户画像形成模块,如图 1 所示。数据获取与处理网络爬虫筛选、去重、断句等SOM 算法顾客群体聚类聚类结果的可视化呈现与分析关注特征词属性值评论情感关联特征向量提取语义
11、分析关注特征属性值用户情感分值向量提取SnowNLP库情感分数Word2vec 模型相似度竞争均值TF-IDF 算法图 1 技术路线示意2.1 评论情感关联特征向量提取2.1.1 基于语义的特征词提取和子句重构首先,对评论文本进行断句、分词以及词性标注等预处理,得到评论 r 的初始子句集 S0。针对电商评论中关注特征的词性特质,保留名词、名动词和区别词作为候选关注特征词 w,形成评论子句 si的关注特征词候选集 Wi。若 si中无候选特征词,将其视作前一子句 si-1的情感补充文本,拼接到其末尾形成新的子句 si-1。最终形成评论 r 经重构后的子句集 S。示例:1)评论例句:r=“价格不低,
12、而且太小了,像是随身读物。不过纸张还行,保护眼睛的。”2)断句后得到初始子句集:S0=“价格不低”,“而且太小了”,“像是随身读物”,“不过纸张还行”,“保护眼睛的”3)根据词性筛选得到特征词候选集:W1=“价格”;W2=;W3=“随身”,“读物”;W4=“纸张”;W5=“保护”,“眼睛”;4)将空集 W2对应的子句 s2拼接到前一子句 s1的末尾,最终得到重构后的子句集 R1=“价格不低,而且太小了”,“像是随身读物”,“不过纸张还行”,“保护眼睛的”2.1.2 基于子句的情感值计算已有研究表明,针对电商评论等短文本,在子句级进行情感分析,可以弥补传统整句级情感分析模型难以辨别单条评论内含多
13、因素的不足7,同时避免了短语级情感提取任务复杂度大、准确率不高的问题8。基于 SnowNLP 类库计算各子句情感分值 e,形成候选特征词情感向量 fj=(wj,ej)。最终得到评论情感关联特征向量 vr=(w1,e1),(w2,e2),(wn,en)。示例:1)计算候选特征词情感向量:s1=“价格不低,而且太小了”,经计算其情感分值为 0.295 035 63,则 f1=(“价格”,0.295 035 63)s5=“保护眼睛的”,经计算其情感分值为0.650 106 17,则 f1=(“保护”,0.650 106 17),f2=(“眼睛”,0.650 106 17)2)构造评论情感关联特征向量
14、:vr=(“价格”,0.295 035 63),(“随身”,0.542 669 38),(“读物”,0.542 669 38),(“纸张”,0.491 651 29),(“保护”,0.650 106 17),(“眼睛”,0.650 106 17)2.2 用户情感分值向量构建2.2.1 基于 TF-IDF 的用户关注特征词提取从评论文本集 R 中筛选出 TF-IDF 值为前 100的候选特征词,再对其进行人工筛选与主题发现,最终归纳出 10 个特征词作为用户情感分值向量的特征,记作 F=F1,F2,F10。王盈,等:基于电商评论情感分析的用户聚类方法研究现代信息科技8月下16期.indd 25现
15、代信息科技8月下16期.indd 252023/8/15 17:38:022023/8/15 17:38:022626第 16 期现代信息科技2023.082023.08示例:F=“质量”,“内容”,“作者”,“纸张”,“印刷”,“出版社”,“包装”,“封面”,“价格”,“正版”2.2.2 基于词语相似度的特征竞争和值的定义程序包对于 vr中的候选特征词 w,基于 gensim 中的word2vec 模块计算 F 与 wi的词语相似度,相似度最高的 Fj获胜,取 wi对应情感值 ei作为用户向量 vu在特征 Fj上的一个基础值,对其求算术平均值 ai。最终形成该用户情感分值向量 vu=(a1,
16、a2,a10)。示例:以特征词为第一维度,候选特征词为第二维度,二者的词语相似度为值,定义相似度竞争矩阵。经计算得到 vr1中候选特征词与特征词的相似度竞争矩阵如表 1 所示。表 1 候选特征词与特征词相似度竞争矩阵质量内容作者纸张包装封面价格正版价格0.749 80.940 40.864 50.647 70.896 90.858 01.000 00.914 7随身0.659 10.773 20.820 40.701 50.853 00.822 10.900 90.834 2读物0.623 50.800 50.898 30.622 70.813 80.878 00.949 50.861 6纸张
17、0.933 80.728 10.422 21.000 00.719 50.647 70.494 40.515 9保护0.520 60.733 40.897 20.478 50.729 20.840 80.928 40.840 4眼睛0.569 00.801 10.888 80.520 30.807 70.882 40.967 20.918 6以获胜特征词代替被竞争的候选特征词,则:vr=(“价格”,0.295 035 63),(“正版”,0.542 669 38),(“正版”,0.542 669 38),(“纸张”,0.491 651 29),(“正版”,0.650 106 17),(“正版”
18、,0.650 106 17)F10即“正版”特征下的基础值求均值后为0.596 387 77,最终得到用户情感分值向量:vu=(0,0,0,0.491 651 29,0,0,0,0,0.295 035 63,0.596 387 77)2.3 基于 SOM 的用户聚类算法自组织映射(Self-Organizing Feature Maps,SOM)9是一种特殊的神经网络模型,能将高维数据的空间拓扑结构保序地映射到低维空间(通常为二维),以实现高维数据的低维可视化10,十分适合用于处理分析本研究中的用户情感分值向量数据。因此,本文采用 VC-SOM 算法11生成 SOM 聚簇分布特征图,获取数据分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 评论 情感 分析 用户 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。