多聚类混合的加权协同过滤算法研究_谢虹铭.pdf
《多聚类混合的加权协同过滤算法研究_谢虹铭.pdf》由会员分享,可在线阅读,更多相关《多聚类混合的加权协同过滤算法研究_谢虹铭.pdf(3页珍藏版)》请在咨信网上搜索。
1、2023.7电脑编程技巧与维护1概述在高速发展的互联网大数据时代,信息超载问题(Information Overload)日益显现,过量的信息使得用户获取有效信息的难度增大。信息的消费者在信息超载的时代,面临庞大的数据量时,难以定位到有效的信息。信息的生产者在面临庞大的数据量时,往往难以快速地挖掘到用户的兴趣偏好和行为习惯,进而无法精准地分析出用户的需求,无法使自己的产品脱颖而出,这极大地降低了服务的质量与销售量。针对上述问题,推荐算法应运而生,推荐算法之一的协同过滤算法则是目前推荐算法中研究受众较多、较成熟的算法。但随着近些年来用户和物品资源的急剧增加,不可避免地导致传统的协同过滤算法推荐质
2、量降低且系统开销增大。针对随之而来的问题,各位学者在协同过滤算法基础上进行改进。Leban等1提出结合K-Means聚类的协同过滤算法,用于对传统的协同过滤算法数据集进行先聚类后计算,对推荐质量和推荐性能得以改善;赵伟等2提出了一种新的改进的K-Means聚类协同过滤算法,在原有算法的基础上较好地优化了用户聚类问题;施天虎等3提出一种基于改进K-Means和优化评分的用户协同过滤算法;李艳娟等4提出了基于蜂群K-Means聚类模型的协同过滤推荐算法,根据用户属性信息,使用改进蜂群K-Means算法对用户聚类,在聚类簇中构建用户项目评分矩阵计算相似度,有效地提升了推荐质量和推荐效率。综合上述学者
3、研究思路,结合Canopy聚类算法和K-Means聚类算法的特性,提出Canopy+K-Means混合聚类模型。(1)使用Slope One算法弥补评分矩阵中的缺失值,解决评分矩阵的稀疏性问题;其次,Canopy算法进行粗聚,类获得簇心作为K-Means算法的初始K值和聚类中心,在此基础上使用K-Means算法进行细聚类;再次,考虑用户兴趣偏好随时间发生变化,运用时间加权相似度计算方法进行相似矩阵计算;最后,采用MovieLens-1M数据集测试,实验数据显示改进后的算法推荐质量得以提升。2理论知识2.1协同过滤算法协同过滤算法是一种基于用户历史行为和偏好,预测用户可能感兴趣的商品或服务的推荐
4、算法。协同过滤算法主要基于两个思想是用户的喜好更偏向于他们曾经喜欢或购买的物品,以及偏好相似的用户倾向于喜欢相似的物品。2.2K-Means 算法K-Means算法是一种以欧式距离(Euclidean Dis-tance)作为衡量数据对象间相似度指标的无监督的学习算法。如公式(1)所示:(1)其中,X、Y为两个向量样本;n为特征数。K-Means算法通过预先指定初始聚类个数与簇心,不断更新簇心的位置,划分新簇并降低各簇间的误差平方和,如公式(2)所示:(2)其中,C为簇心。如果x属于Ci这个簇,则计算两者的欧式距离,将所有样本点到其中心点距离算出来并加总,就是K-Means的目标函数。实现同一
5、个簇中的样本差异小,就是最小化SSE。当SSE不再变化或目标多聚类混合的加权协同过滤算法研究谢虹铭,朱参世,朱军,侯礼灏(西京学院计算机学院,西安710000)摘要:协同过滤算法可根据用户的偏好,预测其感兴趣的项目,这项技术是目前商业领域中应用较为广泛且成功的。过去,使用协同过滤算法会因其数据的稀疏性及使用 K-Means 算法聚类时需要预先确定聚类个数等问题影响协同过滤算法的准确性。针对上述问题,提出了一种多聚类融合的协同过滤推荐算法。首先,构建用户-项目评分矩阵;其次,根据用户兴趣、偏好矩阵查找待估值项所对应的近邻用户,随后使用 Slope One 算法在对每一个簇内的稀疏矩阵进行填充,从
6、而缓解数据稀疏性问题;再次,使用 Canopy 聚类算法进行粗聚类,将计算出的每个中心点作为 K-Means 算法的初始聚类点并进行K-Means 细聚类;最后,优化后的协同过滤算法最终被用来预测每个簇中填充后的评分矩阵,并采用带时间加权的相似度公式。最终实验数据显示,优化后能够有效提升算法的效率与推荐质量。关键词:协同过滤;Canopy 聚类;K-Means 聚类;Slope One 算法26DOI:10.16184/prg.2023.07.0282023.7电脑编程技巧与维护函数收敛时,聚类结束,得到最终结果。2.3Canopy 算法Canopy算法与传统聚类算法不同,它并不需要事先指定簇
7、的个数,因此可以使用Canopy算法对数据集先进行“粗”聚类获得k值。Canopy算法作为一种快速聚类的算法,虽然无法得出精准的簇结果,但是能计算出最优的簇数5。Canopy算法具体过程如下:(1)将数据集向量化,选择两个距离参数为T1和T2,使T1的值大于T2,如图1所示,实线圆的半径值是T1,虚线圆的半径值是T2,两个距离参数的值可通过交叉校验确定。(2)在向量中任取一点O,快速计算O与所有Canopy间的距离(如果初始状态不存在Canopy,则把点O作为一个Canopy),若点O同一个Canopy的距离小于T1,则将点O加入到这个Canopy。(3)若点O与某个Canopy的距离小于T2
8、,则需要把点O从向量中删除,此时认为点O与这个Canopy已经足够接近,它将不再作为其他Canopy的中心。(4)重复步骤(2)、(3),直到向量集合为空为止。Canopy算法示意图如图1所示:2.4SlopeOne 算法Slope One是一种基于评分的协同过滤算法6,具有简单、易懂、易于维护和执行、及时更新性等特点,可以有效地改善矩阵的稀疏性。且算法易于实现、计算速度快、可扩展性好。Slope One算法流程如下:输入:训练数据集转换为用户物品评分矩阵。(1)设定推荐商品数量的阈值为k。(2)计算物品之间的评分差的均值dev(ab),此为物品间的评分偏差,如公式(3)所示:(3)其中,ru
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多聚类 混合 加权 协同 过滤 算法 研究 谢虹铭
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。