基于层次耦合聚类的用户社区划分方法:以主题公园社交平台为例.pdf
《基于层次耦合聚类的用户社区划分方法:以主题公园社交平台为例.pdf》由会员分享,可在线阅读,更多相关《基于层次耦合聚类的用户社区划分方法:以主题公园社交平台为例.pdf(6页珍藏版)》请在咨信网上搜索。
1、第37 卷第4期2023 年8 月Journal of Jiangsu University of Science and Technology(Natural Science Edition)D0I:10.20061/j.issn.1673-4807.2023.04.014江苏科技大学学报(自然科学版)Vol.37No.4Aug.2023基于层次耦合聚类的用户社区划分方法:以主题公园社交平台为例刁雅静,吴嘉辉,卢健,王志英,朱庆康(江苏科技大学经济管理学院,镇江2 12 10 0)摘要:当前用户社区划分的研究较少关注对象与属性间的从属性关联,导致特征选择性能不高、精确度较低、鲁棒性较差以及运
2、算量大的问题.文中在充分考虑用户和偏好主题词之间的关联影响关系的基础上,提出一种基于层次耦合聚类的用户社区划分方法,并通过4种分类算法的比较来确定最优阈值和实现偏好领域的最优划分.实验结果表明该方法具有较好的社交媒体用户偏好识别和社区划分性能,以分类评价指标AUC数值作为选取聚类阈值的标准,选取聚类阈值,极大的减少人为因素的影响.文中所提出的方法切实有效,有助于提升用户偏好识别和社区划分的相关性能.关键词:偏好识别;社区划分;耦合聚类;主题公园中图分类号:TP301.6Reserch on user community division method based on hierarchical
3、coupling clustering:Taking the social platform of theme park as an exampleDIAO Yajing,WU Jiahui,LU Jian,WANG Zhiying,ZHU Qingkang(School of Economics and Management,Jiangsu University of Science and Technology,Zhenjiang 212100,China)Abstract:The research on user community division pays less attentio
4、n to the subordinate attribute association be-tween objects and attributes,which leads to the problems of low performance,low accuracy,poor robustness andlarge amount of computation in feature selection.We propose a user community division method based on hierar-chical coupling clustering on the bas
5、is of fully considering the relationship between users and preferred subjectwords,determine the optimal threshold through the comparison of four classification algorithms and achieve theoptimal division of preference fields.Experimental results show that this method has good performance in socialmed
6、ia user preference recognition and community division.Taking the value of classification evaluation indexAUC as the standard for selecting clustering threshold,the clustering threshold is selected to greatly reduce theimpact of human factors.The method proposed in this study is practical and effecti
7、ve,and helps to improve theperformance of user preference recognition and community division.Key words:preference recognition,community division,coupling clustering,theme park随着社交媒体的快速发展,越来越多的用户喜欢通过微博和微信等平台发表自已的观点.然而无限制的网络信息交互导致了用户无目的搜索,以及平台商家无法实现服务的精准推荐等问题.以主题公园社交平台为例,主题公园商家无法准确获知游客用户的偏好需求,同时游客用户也无
8、法精确了解文献标志码:A文章编号:16 7 3-48 0 7(2 0 2 3)0 4-0 8 6-0 6主题公园商家提供的服务.究其原因是对用户偏好识别不准确,对用户人群划分的判断方法存在缺陷.为了更加准确识别用户偏好和社区划分,学者们开始研究相关算法的改进.文献2-4将自然语言处理技术与数据科学技术相结合,设定相关领域的情感词表,通过对比预处理后的文本与情感词收稿日期:2 0 2 2-0 4-0 6基金项目:江苏省社会科学基金资助项目(2 2 GLB037);江苏高校哲学社会科学研究重大项目(2 0 2 0 SJZDA065)作者简介:刁雅静(197 9一),女,博士,副教授,研究方向为数据
9、挖掘、电子商务.E-mail:d y j 197 98 2 9 16 3.c o m引文格式:刁雅静,吴嘉辉,卢健,等.基于层次耦合聚类的用户社区划分方法:以主题公园社交平台为例J.江苏科技大学学报(自然科学版),2 0 2 3,37(4):8 6-91.D01:10.20061/j.issn.1673-4807.2023.04.014.第4期语实现对用户情感喜好的分析研究,进而识别用户偏好和进行社区划分.文献5-6 考虑时间的因素前提下使用动态聚类算法,实时跟踪用户偏好需求的变化,挖掘和识别用户需求偏好.还有学者使用数据库存储的大规模用户信息数据和行为数据来合理有效的提取用户的短期需求和长期
10、兴趣,进而实现识别用户偏好7 ,以及基于Folksonomy的分布式分类系统中的用户偏好识别问题研究8-9.多数研究聚焦领域知识和行业经验,在原先基础上改进模型或者根据需要构建新的适用性模型,探寻更优的发现用户社区的方法,进而实现用户社区划分10-12 .上述研究中聚类方法多是对象的社区划分聚类,较少涉及对象属性的领域划分聚类,进行对象社区划分与属性领域划分的层次性耦合聚类的相关研究较少;在用户偏好识别特征选取算法中,目前的研究主要运用基于聚类以及基于遗传算法等特征选择方法来实现属性维度的约减,这样可能会导致特征选择性能不高、精确度较低、鲁棒性较差以及运算量大的现象发生,直接导致选取的属性特征
11、质量较差,最终影响实验结论的准确性和实验理论的实用性13-15.基于此,文中基于主题公园社交媒体平台的用户客观行为数据,挖掘用户及其偏好属性之间的耦合关联关系,构建基于耦合聚类的用户社区划分模型;同时通过运用随机森林算法实现特征选择,依托模型寻找到最优的阈值,实现偏好领域最优划分,进而解决用户偏好识别和用户社区划分的问题.1石研究设计1.1楼数据特征及相似性计算策略社交媒体用户依据自身的需求偏好或者根据Table 1 User community division based on preference topic算法1:基于偏好主题的用户社区划分输入:用户和偏好主题词矩阵M输出:耦合聚类后更
12、加精确划分的用户社区CommunitylStep1:由Mu中偏好主题词构建起的用户向量,计算余弦相似性得到用户向量之间的相关系数矩阵M,step2:依据相关系数矩阵M,实现第一次用户聚类,即第一次用户社区划分Community1step3:在Communityi基础上,在各个用户社区内部,依据用户构建偏好主题词向量,计算余弦相似性得到偏好主题词之间的相关系数矩阵Mstep4:依据相关系数矩阵M,实现第一次偏好主题词领域划分Demand,step5:在偏好主题词领域划分Demand,基础上,在各个偏好主题词领域内部,再次依据偏好主题词构建用户向量,计算余弦相似性得到第二次构建起的用户向量之间的相
13、关系数矩阵M,step6:依据相关系数矩阵M,实现第二次用户聚类,即第二次用户社区划分.此时达到迭代聚类结束的条件,结束耦合聚类,此时的就是对应着Community刁雅静,等:基于层次耦合聚类的用户社区划分方法:以主题公园社交平台为例1.2.1基于偏好主题的用户社区划分从由用户的主动交互生成内容构建起的“用户一偏好主题词”矩阵中,提取出用偏好主题词构成的用户向量,采取余弦相似性算法策略计算用户之间的相关性,在充分考虑用户和偏好主题词之间的关联影响关系的基础上,运用层次性耦合聚类的方法较为精确划分用户社区,直到满足耦合停止的条件,即停止耦合迭代聚类,此时耦合聚类的结果即是实验的最终结果.基于偏好
14、主题的用户社区划分算法如表1.表1基于偏好主题的用户社区划分87其对其他社交媒体用户生成内容产生的认同和反驳行为,进行交流互动,主动生成用户行为数据.用户通过社交媒体平台积极主动表达自己的需求,进而产生真实可靠历史和实时行为数据,通过分词、去停词等数据预处理操作实现行为数据中偏好主题词的提取.以行为参与者用户为行、偏好主题词为列构成“用户一偏好主题词”二维矩阵.该矩阵有两个主要的数据特征:不同的偏好范围可形成层次性的游客用户社区.即不同的用户对于同种偏好范围有着相同的喜好和关注,那么依据相同的偏好主题词就可以将这些用户划分在同一个用户社区内,实现用户社区划分.不同社区的用户之间可能有多个相同的
15、偏好主题词,因此用户之间所涉及到的偏好范围具有层次性和交叉性.由于文中的数据不符合连续正态分布(排除使用皮尔逊相关性计算),同时文中数据构建的向量为稀疏词语空间向量,因为余弦相似度在处理词语空间向量和稀疏向量之间有着非常好的效果,所以此处相似性策略选择余弦相似度.1.2用户偏好识别算法881.2.2基于用户的偏好主题相关性分析从由用户的主动交互生成内容构建起的“用户一偏好主题词”矩阵中,提取出由用户构成的偏好主题词向量,采取余弦相似性算法策略计算偏好主题词之间的相似性,在充分考虑用户和偏好主题算法2:基于用户的偏好主题相关性分析输人:用户和偏好主题词矩阵M输出:耦合聚类后更加准确识别的用户偏好
16、需求Demand#stepl:由Muw中用户向量构建起的偏好主题词向量,计算余弦相似性得到偏好主题词之间的相关系数矩阵M,step2:依据相关系数矩阵M,实现第一次偏好主题词领域划分Demand,step3:在偏好主题词领域划分Demand,基础上,在各个偏好主题词领域内部,依据偏好主题词构建用户向量,计算余弦相似性得到用户之间的相关系数矩阵M,step4:依据相关系数矩阵M,实现第一次用户社区划分Communitylstep5:在用户社区划分Communityi的基础上,在各个用户社区内部,再次依据用户构建偏好主题词向量,计算余弦相似性得到第二次构建起的偏好主题词领域向量之间的相关系数矩阵M
17、3step6:依据实现第二次偏好主题词领域划分.此时达到迭代聚类结束的条件,结束耦合聚类,此时的就是对应着De-mand#1.3用户偏好算法实验分析通过典型的社交媒体用户生成内容平台“百度贴吧”“百度指数”的数据,对典型的主题公园企业“成都欢乐谷”的用户偏好进行耦合聚类识别,在耦合聚类实验中,分别以用户社区划分和偏好主规定相似性数据预处理计算策略开始流程江苏科技大学学报(自然科学版)词之间的关联影响关系的基础上,运用层次性耦合聚类的方法较为准确的识别用户偏好,直到满足耦合停止的条件,即停止耦合迭代聚类,此时耦合聚类结果即是实验的最终结果.基于用户偏好主题相关性分析算法如表2.表2 基于用户的偏
18、好主题相关性分析Table 2 User based preference topic correlation analysis题词领域划分为两个起点,通过游客用户与偏好主题词之间的耦合聚类,实现用户社区的逐层精细划分和游客用户偏好的逐层准确识别.基于层次耦合聚类的用户偏好识别模型验证流程如图1.基于偏好主题的多样性评价用户社区划分2023年结束流程规定抽样策略明确数据特征图1基于层次耦合聚类的用户偏好识别流程Fig.1 Experimental process of user preference recognition model based on coupling clustering通
19、过Python语言与Scrapy框架相结合的方法爬取10 45条典型社交媒体百度贴吧”中的“成都欢乐谷贴吧”的数据.使用Python3.5中的Jieba模块实现分词处理,在实验中,不断修正Jieba模块中的Dict文件,提高了分词的准确性,取得较好的分词结果,进而生成准确的“游客用户一偏好主题词”矩阵.在二维矩阵基础上,将其中意思相同特征属性(即意思相同的偏好主题词)组合合并,实现属性维度的初步约减.最后通过相关网络爬虫和数据预处理技术获得57 1条游客用户数据和38 1条偏好主题词数据,构建57 138 1二维矩阵.2实验结果(1)基于偏好主题的游客用户社区划分基于用户的偏好主题相关性分析游
20、客在社交平台“成都欢乐谷贴吧”中贡献的实时和历史行为数据反映了游客用户需求.通过耦合聚类的方法(根据偏好主题词对游客用户聚类根据游客用户对偏好主题词聚类一再根据偏好主题词对游客用户聚类),选取特定类别进行研究,从而挖掘游客用户间的潜在联系以及对应的兴趣偏好,实现用户社区更精确的划分:计算游客用户向量相关系数矩阵.根据38 1个词语构成的游客用户向量,计算游客用户向量之间的余弦相关系数,得到相关系数矩阵.根据相关系数将用户聚类.将游客用户聚成6 类,选取其中的特定游客用户社区为代表性研究对象.计算偏好主题词语向量相关系数矩阵.提取其中46 个游客用户,将其与原先38 1个偏好主题词构成46 38
21、 1矩阵,通过新颖性评价第4期计算46 个游客用户组成的38 1个偏好主题词的稀疏向量之间的余弦相关度,得到词语相关系数矩阵.根据词语相关系数实现偏好主题领域划分.再一次进行聚类,将38 1个偏好主题词聚成5类,选取其中的特定偏好主题词领域作为代表性研究对象.最终依据上面结果再次划分特定游客用户社区.提取其中的56 个偏好主题词,将其与之前的46 个游客用户,组成46 56 矩阵.通过56 个偏好主题词构成的46 个用户向量,计算游客用户之间的余弦相关系数,构成相关系数矩阵,进行第三次聚类.此时,将游客用户聚成两类,当调整阈值的时候,彼此之间关联边依旧没有改变,说明此时游客用户之间的关联性较高
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 层次 耦合 用户 社区 划分 方法 主题公园 社交 平台
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。