1、基金项目:2020 年江西省教育厅科技项目(GJJ202008)收稿日期:20211102修回日期:20211129第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02039504基于长短期记忆的稀疏数据过滤推荐算法佘学兵1,熊蕾1,黄丽1,刘承启2*(1 江西科技学院信息工程学院,江西 南昌 330098;2 南昌大学网络中心,江西 南昌 330031)摘要:采用目前算法对稀疏数据进行过滤推荐时,没有综合考虑用户的整体评分特征和不同项目的单独评分对数据补全的影响,导致 MAE 值和 MSE 值大、F1 值小。提出基于长短期记忆的稀疏数据过滤推荐算法,
2、首先通过相关因子对相似性进行计算,利用云模型将稀疏数据缺失项进行补全,然后采用补全后的数据构建长短期记忆网络,通过长短期记忆网络得到简单优化函数并对其求解,最后建立稀疏数据过滤推荐算法模型,完成基于长短期记忆的稀疏数据过滤推荐。实验结果表明,所提方法的 MAE 值和 MSE 值更小、F1 值更大。关键词:长短期记忆;稀疏数据;过滤推荐算法;云模型;相关因子中图分类号:TP391.3文献标识码:BSparse Data Filtering ecommendation AlgorithmBased on Long and ShortTerm MemorySHE Xuebing1,XIONG Lei
3、1,HUANG Li1,LIU Chengqi2*(1 Jiangxi University of Technology,School of Information Engineering,Nanchang Jiangxi 330098,China;2 Network Centre,Nanchang University,Nanchang Jiangxi 330031,China)ABSTACT:Currently,some algorithms ignore comprehensively considering the influence of usersoverall ratingcha
4、racteristics and the individual scores of different items on data completion during the sparse data filtering recom-mendation,resulting in large MAE and MSE values,and small F1 values In this paper,an algorithm of sparse datafiltering recommendation based on shortterm and longterm memory was propose
5、d Firstly,the similarity was calcu-lated by correlation factors,and then the missing items in sparse data were complemented by the cloud model Afterthat,the completed data was used to build a shortterm and longterm memory network On this basis,a simple opti-mization function was obtained and solved
6、Finally,a model of sparse data filtering recommendation algorithm wasconstructed Thus,the sparse data filtering recommendation based on shortterm and longterm memory was comple-ted Experimental results show that the proposed method can get smaller MAE values and MSE values,and larger F1valuesKEYWODS
7、:Long and short term memory;Sparse data;Filtering recommendation algorithm;Cloud model;elated factors1引言过滤推荐算法是为了帮助受众群体精准地获得所需信息,但在实际应用过程中,常存在由于用户对于某个项目的浏览信息过少导致推荐效率下降、匹配度降低的问题1,所以如何通过稀疏数据进行过滤推荐是目前亟需解决的问题之一2。朱元3 等人首先建立异构信息网络后构造用户属性权重矩阵,然后在此基础上采用模糊贴近度算法对元路径属性权重进行估计,并找到其最近的邻居,最后通过 TopN 分析法进行过滤推荐。田保军4
8、等人通过 CFMTS 将获取到的全局和局部信息值加入过滤推荐算法中,将 CFMTS 与 PMF 相结合建立推荐模型,采用梯度下降法计算用户和项目特征向量从而完成过滤推荐。贾俊杰5 等人将数据按照信任度进行划分得到用户间显式信任值,结合用户评分可信度、隐式593和显式信任值获取专家信任因子完成稀疏数据的过滤推荐。以上方法没有综合考虑用户的整体评分特征和不同项目的单独评分对于数据补全产生的影响,存在 MAE 值和 MSE值大、F1 值小的问题。为了解决上述方法中存在的问题,提出基于长短期记忆的稀疏数据过滤推荐算法。2云模型数据填充2.1云模型用期望 Ex、熵 En 和超熵 He 对云数据特征进行整
9、体表征,称其为云的特征向量6,用 C(Ex,En,He)表示,设样本方差用 S2表示,样本均值用 X 表示,得到 Ex、En 和 He 的计算公式如下He=21NNi=1|xi Ex|Ex=XEn=S213He2(1)2.2相似性度量在云模型中,通过逆向云算法对云的特征向量进行获取,将其作为相似性度量中用户的评分特征向量7,用 Cm=(Exm,Enm,Hem)和 Cn=(Exn,Enn,Hen)表示云的特征向量,得到云相似度8 sim(m,n)=CmCn/CmCn。为了综合考虑用户的整体评分特征和不同项目的单独评分,避免结果有效性不佳的问题,基于长短期记忆的稀疏数据过滤推荐算法采用相关因子对相
10、似性进行计算,设两个不同用户 i 和 j 对于同一项目进行评分的总数用 xi,j表示,权衡系数用 表示,不同用户对同一项目进行评分的数目越多,对应的 越大,得到相关因子(xi,j)=11/2xi,j,由相关因子公式可以看出,随着 xi,j的增大,(xi,j)的值也随之增大,得到的最终填充项数据也越准确。若(xi,j)大于由用户根据数据集决定的指定值,则对用户相似度进行计算。2.3云模型数据填充算法云模型通过用户评分寻找相似用户并补全缺失项目评分,具体计算步骤如下:1)采用逆向云算法结合用户评分项对目标用户特征向量进行计算。2)寻找需要补全的评分数据缺失项,计算目标用户与其他用户之间的(xi,j
11、),若满足条件,则对用户相似性进行计算。3)结合计算得到的相似性数据建立用户相似列表,获取该用户最近的 K 个邻居。4)根据获取到的 K 个邻居评分情况,通过加权平均算法和(xi,j)进行考虑,对用户的缺失的评分项进行计算。将用户评分项和余弦距离相结合获取用户相似度和相关因子9,通过用户 i 最近的 K 个邻居对其没有评分的项目I1进行评分补全,补全方法依据相似性原则和加权平均算法,设用户 i 的邻居 u 对于项目 I1的评分用 ru,1表示,i 的 K个邻居用 Ngb(i)表示,i 的总评分均值用 Si表示,u 的总评分均值用 Su表示,i 与 u 的相似度用 sim(i,u)表示,i 与
12、u 的相关因子用(xi,u)表示,得到补全用户评分项 Si1的计算公式如下所示10 Si1=Si+uNgb(i)(ru,i Su)sim(i,u)(xi,u)uNgb(i)|sim(i,u)|(xi,u)|(2)通过式(2),将稀疏数据中缺失部分进行补全。3基于长短期记忆的稀疏数据过滤推荐算法长短期记忆网络(LSTM)目前已被成功地应用于各个领域之中。设在 t 时刻的输入数据用 x(t)表示,x(t)的权值用Wxc表示,LSTM 在 t1 时刻单元和权值输出分别用 h(t1)和Whc表示,偏置参数用 bc表示11,得到 t 时刻记忆单元候选值?ct计算方式如下?ct=tanh(Wxcxt+Wh
13、ch(t1)+bc)(3)设 t 时刻输入门的状态值用 i(t)表示,x(t)、h(t1)和 t1 时刻记忆单元候选值 c(t1)对 i(t)产生影响,对应的权值用 Wxi、Whi和 Wci表示,得到 i(t)计算方式如下i(t)=(Wxixt+Whih(t1)+Wcic(t1)+bi)(4)设 t 时刻遗忘门状态值用 f(t)表示,对应的权值用 Wxf、Whf和 Wcf表示,遗忘门的作用是避免历史信息对记忆单元产生影响12,f(t)计算方式如下f(t)=(Wxfxt+Whfh(t1)+Wcfc(t1)+bf)(5)设 t 时刻记忆单元的状态值用 c(t)表示,是点积计算,得到 c(t)的计算
14、方式如下c(t)=f(t)c(t1)+i(t)?c(t)(6)设用来调控 t 时刻记忆单元状态的输出状态值用 o(t)表示,对应的权值用 Wxo、Who和 Wco表示,是 sigmoid 函数,得到 o(t)的计算方式如下o(t)=(Wxox(t1)+Whoh(t1)+Wcoc(t1)+bo)(7)设 LSTM 单元在 t 时刻的隐藏输出状态值用 h(t)表示,输入数据的隐藏前向状态用?h(t)表示,输入数据的隐藏后向状态用?h(t)表示,是整合计算,得到 h(t)的计算方式如下所示h(t)=o(t)tanh(c(t)=?h(t)?h(t)(8)LSTM 的结构分为以下几层:1)输入层通过对应
15、项目的描述文档获取所需数据,添加到输入层中。2)Embedding 层Embedding 层负责将项目描述文档转换为数字矩阵并输入至 LSTM 层中。设该项目文档为长度为 l 的单词序列,词向量的维度用 p 表示,通过连接词向量将文档表现为矩阵形式,将词向量进一步优化13,在某时刻的输入用 wi表示,通693过 Glove 将矩阵=pl表示为 D=wi1丨丨wi丨丨wi+1丨丨的形式。3)LSTM 层LSTM 层的作用是获取上下文的特征,将序列 D 输入至LSTM 层中,设 ci表示上下文特征的分量,W 表示 LSTM 层的网络权重,ci受到 W 和 wi的共同影响,网络偏置用 b 表示,得到
16、 ci和上下文的特征 C 的计算方式如下ci=tanh(W*w1+b)C=c0,c1,ci,(9)4)线性层利用线性层优异的非线性映射能力对 LSTM 输出的非线性特征组合处理,即在向量空间中采用简易权重对非线性组合特征进行学习14。设线性层权重用 Wl表示,偏置用 bl表示,得到线性层的输出 lo=tanh(Wl*C+bl)。5)Dropout 层Dropout 层在对网络进行训练时通过预先设定的概率值达到控制神经元输出的作用,促使每次网络训练使用的数据特征只为全部数据特征中的一部分,在线性层后接入Dropout 层可以避免过度拟合的问题15。设概率值为 1p 的二值向量用 mask 表示,
17、以线性层的输出 lo作为 Dropout 层的输入,得到 Dropout 层输出 y 如下所示y=tanh(Wmask*lo),训练阶段(1 p)lo,其他(10)6)输出层以项目隐形特征向量 S 作为输出层结果,设输出层权重用 Wo表示,输出层偏置用 bo表示,得到输出层结果 S=tanh(Wo*lo+bo)。以项目行文档为输入,设全部权重用 W表示,行文档子项用 xj表示,得到文档隐向量 Sj=LSTM(W,Xj)设用户和项目的隐式特征向量满足高斯先验分布 p(|),用户、项目及评分特征矩阵对应的高斯误差分别用2、2U和 2V表示,方差用 表示,高斯分布概率密度函数用N(x|;2)表示,文
18、档信息用 X 表示,高斯噪声变量用 j表示,指示函数用 I 表示,得到参数 j和 j如下所示j=LSTM(W,Xj)+jj=N(0,2VI)(11)设 LSTM 网络权重 W 也满足高斯先验分布,对应的高斯误差用 2W表示,权重系数用 wk表示,kN+,高斯误差用 2w表示,得到权重 W 的高斯分布和项目的隐式特征向量的条件分布如下所示:p(W|2W)=kN(wk|0,2w)p(V|W,X,2V)=MjN vj|LSTM(W,X),2VI()(12)通过 MAP 对用户和项目的隐式特征向量进行求解,LSTM 网络权值和偏置如下maxU,V,Wp(U,V,W|,X,2,2U,2V,2W)=max
19、U,V,Wp(|U,V,2)p(U|2U)p(V|W,X,2V)p(W|2W)(13)对式(13)进行处理并求解最小值,设对角矩阵用 Ii表示,对角项用 Iij表示,j 1,M 且 jN,平衡参数用 v表示,用户 i 对应的向量用 i表示,i=(ij)Mj=1,由此得到简单优化函数(U,V,W)=Ni=1Mj=1Iij2(rij uTivj)2+u2Ni=1ui2+v2Mi=1vi LSTM(W,Xj)2+w2|wk|k=1wk2(14)定义 W、V(或 U)为常数,简单优化函数 即可看作二次函数,通过 可求解 V(或 U)的最优解 ui和 viui(VIiVT+UIK)1Vivi(UIjUT
20、+VIK)1(Uj+vLSTM(W,Xj)(15)但由于 W 受到网络结构的影响,无法通过 U 和 V 的方式求解,因此引入 L2 正规化方差函数求解,得到 W 的方差(W)并用 BP 算法求解,计算方式如下(W)=V2Mj=1vj LSTM(W,Xj)2+w2|wk|k=1wk2+constan t(16)因为 W、V、U 交替更新,所以在收敛前进行重复优化,直至得到最优 W、V、U,得到稀疏数据过滤推荐算法模型 rijrij E rij|uTivj,2=uTivj=uTi(LSTM(W,Xj)+J)(17)通过模型 rij,完成基于长短期记忆的稀疏数据过滤推荐。4实验与结果为了验证基于长短
21、期记忆的稀疏数据过滤推荐算法的有效性,需要对该算法进行测试。4.1MAE将平均绝对误差(MAE)作为测试指标对所提方法、文献 3 方法和文献 4 方法进行检验,MAE 值越小,则对应的过滤推荐算法推荐效果越好。MAE 测试结果如图 1 所示。根据图 1 分析可知,在邻居数量不同的情况下,所提方法的推荐效果明显优于文献 3方法和文献 4方法,因为所提方法结合用户的整体评分特征和对不同项目的单独评分进行了综合考虑,引入相关因子对相似性进行计算,避免结果有效性不佳的问题,使所提方法对稀疏数据的过滤推荐效果更好。4.2MSE采用均方根误差(MSE)对所提方法、文献 3方法和文献 4 方法进行检验,MS
22、E 值越小,则对应的过滤推荐算793图 1MAE 测试结果法的推荐精确度越高。得到 MSE 测试结果如图 2 所示图 2MSE 测试结果由图 2 可以看出,采用所提方法、文献 3方法和文献 4 方法对稀疏数据进行过滤推荐时,所提方法的 MSE 均小于文献 3 方法和文献 4 方法,在稀疏度为 40%时,所提方法、文献 3 方法和文献 4方法的 MSE 值都比较高,但所提方法仍然远低于文献 3方法和文献 4方法,说明所提方法的过滤推荐精确度越高。4.3F1 值将 ecall 和 Precision 的调和值 F1 作为指标对所提方法、文献 3 方法和文献 4 方法进行检验,设总用户集中用户 i
23、的推荐项目集合用(i)表示,用户 i 在测试集中真实参与的项目集合用 T(i)表示,ecall、Precision 和 F1 值计算方式如下e call=iU|(i)T(i)|()iUT(i)(18)Pr ecision=iU|(i)T(i)|()iU(i)(19)F1=Pr ecision e call 2Pr ecision+e call(20)采用训练比率为变量对所提方法、文献 3方法和文献 4 方法进行测试,测试结果如图 3 所示。图 3F1 测试结果根据图 3 可以看出,采用所提方法、文献 3 方法和文献 4 方法对稀疏数据进行过滤推荐时,随着训练比率的升高,所提方法、文献 3方法和
24、文献 4方法的 F1 值均有降低,但所提方法的 F1 值始终高于文献 3 方法和文献 4方法,F1 值可用来均衡表示 ecall 和 Precision 的变化情况,F1 值越大,过滤推荐越准确,即对应方法在实际中的应用更为有效。5结束语随着互联网信息技术的飞速发展,多样化的信息充斥在人们的周围,信息逐渐由匮乏走向冗余,用户在享受海量信息带来的便利同时也受到信息过载的困扰。目前稀疏数据过滤推荐算法存在 MAE 值和 MSE 值大、F1 值小问题,因此提出基于长短期记忆的稀疏数据过滤推荐算法,通过云模型计算相似度将稀疏数据进行补全,对补全后数据构造长短期记忆网络,生成稀疏数据过滤推荐算法模型,从
25、而完成对稀疏数据的过滤推荐。实验表明所提方法 MAE 值和 MSE 值更小、F1 值更大,为未来对长短期记忆有效应用并进行稀疏数据的准确过滤推荐奠定基础。参考文献:1任永功,张云鹏,张志鹏 基于粗糙集规则提取的协同过滤推荐算法J 通信学报,2020,41(1):7683 2张志鹏,张尧,任永功 基于时间相关度和覆盖权重的协同过滤推荐算法J 模式识别与人工智能,2019,32(4):289297 3朱元,张九根,卢佳乐,等 基于异构信息网络的模糊贴近度推荐算法J 计算机工程与设计,2020,41(2):367372 4田保军,杨浒昀,房建东 融合信任和基于概率矩阵分解的推荐算法J 计算机应用,2
26、019,39(10):28342840 5贾俊杰,张玉超,刘鹏涛,等 融合偏置的动态专家信任推荐算法J 电子与信息学报,2021,43(8):23702377 6何永贵,刘江 基于组合赋权-云模型的电力物联网安全风险评估J 电网技术,2020,44(11):43024309(下转第 523 页)893参考文献:1朱晓荣,罗小琴,朱洪波 正交频分多址系统中一种面向多业务应用的自适应资源分配算法J 电子与信息学报,2015,37(6):1298303 2Qing Qing Wu,Wen Chen,Mei Xia Tao,et al esourceAllocation for Joint Trans
27、mitter and eceiver Energy EfficiencyMaximization in Downlink OFDMA Systems J IEEE Transactionson Communications,2015,63(2):416303Mirza Gloam Kibria,Lin Shan esource Allocation Optimization forUsers with Different Levels of Service in Multicarrier SystemsJIEEE Signal Processing Letters,2015,22(11):18
28、6973 4袁建国,南蜀崇,张芳,等 基于人工蜂群算法的多用户 OFDM自适应资源分配方案J 吉林大学学报(工学版),2019,49(2):624305Ming Sun,Kwang Y Lee,YaoQun Xu,et al Hysteretic Noisy Cha-otic Neural Networks for esource Allocation in OFDMA SystemJIEEETransactions onNeuralNetworks andLearningSystems,2018,29(2):27385 6张春发,赵晓晖 基于公平度门限的多用户 OFDM 系统自适应资源分配算
29、法 J 通信学报,2011,32(12):6571 7汪照,李有明,陈斌,等 基于鱼群算法的 OFDMA 自适应资源分配J 物理学报,2013,62(12):50915 8Zukang Shen,Jeffrey G Andrews,Brian L EVANS Adaptive re-source allocation in multiuser OFDM systems with proportional rateconstraintsJ IEEE Transactions on Wireless Communications,2005,4(6):272637 9Ian C Wong,Zukan
30、g Shen,Brian L Evans,et al A low complexityalgorithm for proportional resource allocation in OFDMA systemsC Proceedings of the IEEE Workshop on Signal Processing Sys-tems,F,2004 10Nitin Sharma,Alagan Anpalagan Bee colony optimization aided a-daptive resource allocation in OFDMA systems with proporti
31、onalrate constraintsJ Wireless Networks,2014,20(7):169971311Nitin Sharma,A S Madhukumar Genetic Algorithm Aided Propor-tional Fair esource Allocation in Multicast OFDM SystemsJIEEE Transactions on Broadcasting,2015,61(1):1629 12Ming Sun,Kang Le Zhai,Wei Cao,et al Hybrid OFDMAesource Allocation Schem
32、e for Ensuring equired Level of Pro-portional FairnessJ Mathematical Problems in Engineering,2020,5201545 作者简介孙明(1979),男(汉族),山东省烟台市人,博士,教授,硕士研究生导师,主要研究领域为深度学习、智能优化、无线资源分配。翟康乐(1996),男(汉族),山西省运城市人,硕士研究生,主要研究领域为深度学习、智能优化、无线资源分配。曹伟(1977),男(汉族),山东省潍坊市人,博士,教授,主要研究领域为迭代控制与智能控制。张辉(1982),男(汉族),黑龙江省齐齐哈尔市人,在读博
33、士生,副教授,硕士研究生导师,主要研究领域为智能电机与智能系统,无线通信及应用。(上接第 398 页)7谢春丽,蔺疆旭,刘小洋,等 改进的卷积神经网络源代码相似性度量方法 J 应用数学和力学,2019,40(11):12351245 8贺金凤,李义军,徐松杰,等 基于云模型相似度的基本概率指派生成方法 J 统计与决策,2020,36(10):5154 9吴慧华,苏寒松,刘高华,等 基于余弦距离损失函数的人脸表情识别算法J 激光与光电子学进展,2019,56(24):196202 10孙连山,欧阳晓通,徐艳艳,等 面向间接依赖的数据起源过滤方法J 计算机科学,2019,46(3):164169
34、11王宇琛,王宝亮,侯永宏 融合协同过滤与上下文信息的Bandits 推荐算法J 计算机科学与探索,2019,13(3):361373 12杨辰,刘婷婷,刘雷,牛奔,等 融合语义和社交特征的电子文献资源推荐方法研究 J 情报学报,2019,38(6):632640 13向小东,邱梓咸 基于 slopeone 算法改进评分矩阵填充的协同过滤算法研究J 计算机应用研究,2019,36(4):10641067 14丛义昊,于艳华 基于数据流和点对点网络的分布式推荐算法J 计算机工程与应用,2019,55(1):6469,148 15王光,姜丽,董帅含,等 融合本体语义与用户属性的协同过滤算法J 计算机工程,2019,45(10):215220 作者简介佘学兵(1982),男(汉族),江西南昌人,硕士,副教授,主要研究方向:深度学习、推荐系统、计算机技术。熊蕾(1981),女(汉族),江西南昌人,硕士,副教授,主要研究方向:深度学习、推荐系统、软件工程。黄丽(1979),女(汉族),江西南昌人,硕士,副教授,主要研究方向:数据挖掘、软件测试、计算机技术。刘承启(1977),男(汉族),江西南昌人,博士,工程师,主要研究方向:计算机网络、大数据价值挖掘(通讯作者)。325