基于知识引导的自适应序列强化学习模型_李迎港.pdf
《基于知识引导的自适应序列强化学习模型_李迎港.pdf》由会员分享,可在线阅读,更多相关《基于知识引导的自适应序列强化学习模型_李迎港.pdf(12页珍藏版)》请在咨信网上搜索。
1、 基于知识引导的自适应序列强化学习模型李迎港 童向荣摘 要 序列推荐可形式化为马尔科夫决策过程,进而转化为深度强化学习问题,其关键是从用户序列中挖掘关键信息,如偏好漂移、序列之间的依赖关系等,但当前大多数基于深度强化学习的推荐系统都是以固定序列长度作为模型输入受知识图谱的启发,文中设计基于知识引导的自适应序列强化学习模型首先,利用知识图谱的实体关系,从完整的用户反馈序列中截取部分序列作为漂移序列,其中漂移序列中的项目集合表示用户的当前偏好,序列长度表示用户的偏好变化速度然后,通过门控循环单元提取漂移序列中用户的偏好变化和项目之间的依赖关系,同时利用自注意力机制对关键的项目信息进行选择性关注最后
2、,设计复合奖励函数,包括折扣序列奖励和知识图谱奖励,用于缓解奖励稀疏的问题在 个真实世界数据集上的实验表明,文中模型的推荐准确率较优关键词 自适应序列,深度强化学习,知识图谱,自注意力机制,循环神经网络引用格式 李迎港,童向荣基于知识引导的自适应序列强化学习模型模式识别与人工智能,():中图法分类号 ,():收稿日期:;录用日期:,;,本文责任编委 吴 飞 国家自然科学基金项目(,)、山东省重大科技创新工程项目()资助 (,),()烟台大学 计算机与控制工程学院 烟台 ,第 卷 第 期模式识别与人工智能 年 月 随着互联网的高速发展,以及抖音、新浪微博等多元化互联网产品的兴起,互联网信息更新的
3、速度越来越快,用户可选择的信息也越来越丰富,用户的偏好也可能在短时间内急剧变化这就给推荐系统带来新的挑战:序列推荐系统必须及时捕获用户的当前偏好和序列模式如果仅利用协同过滤和矩阵分解等传统方法为用户推荐项目,那么将无法应对用户项反馈数据的自适应性问题以及长期推荐性能问题近来,深度强化学习(,)的兴起为顺序推荐系统带来新的解决方案:构建一个与用户交互的智能体,挖掘潜在有趣的项目基于 的推荐系统通过最大化累计奖励值优化长期性能,受到研究者的广泛关注,但目前仍存在一些问题亟待解决)基于 的顺序推荐系统大多采用固定的序列长度作为状态表示当用户偏好发生急剧变化时,无法对过往偏好的交互数据进行有效分割此外
4、,用户需要购买某个产品,可能仅仅由序列中个别关键的交互数据决定,但是当前的推荐系统无法识别这些关键的交互信息)奖励值的稀疏性在用户项反馈数据出现数据稀疏和冷启动问题时,一般采用随机策略探索用户的动态偏好,使推荐系统得到用户的正反馈较少传统方法仅使用正反馈作为奖励值,由于推荐智能体无法获得足够且有效的奖励值,不仅导致模型的训练时间增加,甚至可能导致推荐智能体无法收敛到一个合适的策略近年来,知识图谱(,)已在许多领域中表现出强大的适用性和可行性,也已广泛应用到序列推荐任务中 中两个不相关的商品在特征表示上存在本质的不同,通过商品的特征表示就能找到商品之间的关联性,从而向用户推荐关联性强的商品基于
5、的推荐系统可以分为两类:)基于 生成实体和商品特征,进而提高推荐系统的准确性;)基于显式路径推理的可解释推荐系统,利用 结构化信息生成推荐路径 等将 中实体和关系的结构化信息通过 得到实体的特征向量,扩充项目的结构化信息,与协同过滤结合,解决推荐结果多样性问题 等采用 生成 的实体和关系特征,设计内嵌键值对的循环神经网络模型,捕捉用户的序列偏好和用户属性偏好此外,一些研究人员将用户项二部图和 结合,生成协同知识图谱用于推荐系统 等定义用户物品知识图的概念,并采用 生成图中关系和节点的特征,提高推 荐 性 能 等提 出 (),采用图卷积和注意力机制的形式挖掘用户和项目之间的高阶连通性宁泽飞等借助
6、两种知识图谱强化用户的标签信息和项目的语义信息,同时利用图卷积神经网络捕捉知识图谱中的低、高阶连通性李想等利用知识图谱中实体之间的关系学习用户和项目的向量表示,缓解数据稀疏和冷启动的问题,提高推荐准确率上述基于 的推荐系统仅将推荐系统作为一个静态模型,不考虑项目带来的长短期收益序列推荐系统与用户交互得到的交互轨迹本身就是序列,因此序列推荐系统的问题可以由马尔科夫决策过程(,)描述,并利用深度强化学习优化解决基于 的推荐系统主要改进用户状态表示、设计奖励函数及添加额外的神经网络辅助深度强化学习网络训练 等设计图卷积神经网络的变体,由结构化的特征表示()中用户状态和动作,加强不同用户之间的潜在联系
7、 等在基于深度确定性策略梯度的推荐系统基础上,设计四种状态表示方法,提高推荐系统对商品序列的感知能力 等结合自监督学习和强化学习,提高监督端和强化学习端在缺乏负奖励环境下的推荐性能等采用多智能体强化学习方法,在不同推荐模块协助下训练全局最优的推荐模型 等借助 中的结构化信息,设计路径搜索的状态表示和奖励函数,使推荐系统具有显式的可解释性 等利用社交网络强调用户之间的信任关系,构建具有社交网络的用户状态表示,解决数据稀疏和冷启动问题王潇等从实时、静态、动态三方面建模深度强化学习状态表示模型,并用于排序直播推荐亓法欣等采用强化学习的方法提高用户对推荐系统的信任,设计关于信任的奖励函数,提高推荐系统
8、的推荐准确度上述工作虽然利用 信息和强化学习优化推荐效果,但是通过固定的用户反馈序列长度作为模型输入,因此限制推荐的准确率本文提出基于知识引导的自适应序列强化学习模型(,),将序列推荐任务转化,通过 信息引导状态表示和设置奖励函数当引导状态表示都使用 的特征信息时,容易产生对 信息过度依赖当 信息出现偏差第 期 李迎港等:基于知识引导的自适应序列强化学习模型时,推荐智能体不仅误判用户的偏好漂移而且生成错误的状态表示,扰乱推荐智能体的决策 因此 将引导和表示分离,仅在引导阶段利用 信息,再使用传统特征向量进行状态表示,避免 信息偏差对状态表示的影响另外,在奖励函数的设置上,传统方法通常以单步推荐
9、为指标,而单步推荐的奖励值无法提供后续推荐的反馈信息 因此 以多步推荐和 信息为指标,设置折扣参数,权衡当前推荐序列的奖励值,以此使推荐智能体快速得到用户的正反馈具体过程如下首先,利用 将完整用户项交互序列转化为自适应的漂移序列,再通过门控循环单元(,)从漂移序列中提取漂移状态,用于探索用户的偏好漂移同时,利用自注意力机制()为完整用户项交互序列中的项目调整相应权重,输出注意力状态,辅助模型区分数据中有益于推荐的信息漂移状态和注意力状态的结合能增强状态表示最后,借助 特征信息设计复合奖励函数该奖励函数分为折扣序列奖励和 奖励折扣序列奖励在当前推荐商品的基础上分析后续推荐效果,并将后续推荐效果作
10、为奖励值 奖励将推荐项目与目标项目的相似度作为奖励值二者分别通过深度和广度的探索方式为推荐智能体提供有效奖励,增加奖励的密度,加快训练收敛的速度基础知识定义 用户集和项目集 为用户集,任意用户;为项目集,用户在第 步选中的项目定义 用户交互序列 ,定义为用户项交互序列 ,定义为 的子序列,定义 特征向量 将用户集和项目集映射到低维的向量空间,表示项目 的特征向量,()表示序列 的特征向量矩阵此外,利用 将项目集和用户集映射到低维的知识向量空间,生成的结构化信息,表示项目 的 特征向量,()表示序列 的 特征向量矩阵在序列推荐任务中,对于每个用户,考虑用户项交互序列 和 信息,在项目集 中找出
11、最喜欢的项目,借此提高用户对于推荐系统的满意值序列推荐任务可转化为,并采用 解决 可以由(,)五元组表述,其中:定义为状态集合,用于描述用户和项目历史交互信息和 信息;表示智能体(推荐系统)动作集合,包含离散候选项目,表示智能体能够向用户推荐的项目;定义为奖励函数,(,)表示智能体在状态 时,执行动作 获得的立即奖励;表示状态转移概率函数,其中下一个时间步状态(,)表示智能体在状态 时,执行动作 到达下个时间步状态的概率;,表示折扣因子,权衡当前和未来奖励的重要程度基于知识引导的自适应序列强化学习模型模型概述 按照 构建任务模型在每一幕中,推荐智能体将在离散时间步长 ,中与目标用户顺序交互在每
12、个时间步 下,智能体会观测到一个状态 不仅包含用户项反馈序列信息,还添加 信息作为辅助信息用户根据相应策略()向目标用户执行一个动作,表示推荐智能体从项目集中选取一个项目推荐给用户;策略()表示为一个函数,即()()(),()其中,表示推荐项目 的特征向量,表示双线性乘积的可训练参数将推荐项目推荐给目标用户项目后,推荐智能体会接收用户是否点击或购买的反馈,间接转化为即时奖励,并观测下一个状态 通过历史反馈数据以及 信息,推荐智能体的目标是学习一个最优策略()该策略能获得最大的折扣累计奖励:()(,)()采用,在构建基于强化学习的模型时,关键的两点是设计状态表示和奖励函数状态表示用于建模目标用户
13、的所有历史交互特征,但是现有方法大多都关注如何从历史交互特征中构建综合偏好表示,而不是利用外部信息探索用户是否发生偏好漂移此外,奖励函数的本质是向推荐智能体传模式识别与人工智能()第 卷递训练目标,奖励函数设计的好坏直接影响到算法能否收敛,甚至会影响算法性能因此 通过 信息建模用户偏好漂移表示,并基于 信息设计复合奖励函数,减少历史交互数据中的噪声,进而提高推荐的准确率 基本框架如图 所示图 的基本框架 状态表示模块在真实序列推荐任务中,往往具有如下特点:)每个用户偏好漂移速度是不相同的,因此选定固定序列长度学习用户偏好表示是不实际的)用户购买某个商品,并不完全依赖整个序列,而是归因于序列中某
14、个或几个商品 和用户项交互序列如图所示()表示某用户观看电影的序列,随着时间的推移,该用户的偏好由 导演的喜剧片(第一阶段)转变为 主演的科幻片(第二阶段)在本例中,如果状态表示时采取的固定序列长度大于,基于 的推荐系统将无法脱离第一阶段,只能在第一阶段上继续探索()表示某用户购买商品的序列,该用户在购买电子产品期间也购买书籍和衣物等商品,基于 的推荐系统可能会受到这些信息的误导,导致推荐效果不佳状态表示时采用交互序列越大,状态中的噪音就会越多,导致推荐智能体无法关注有益于决策的关键项目()某用户观看电影序列()()某用户购买商品序列()图 知识图谱和用户项交互序列 因此,聚合漂移状态表示和注
15、意力状态表示,具体流程如图 所示首先利用 信息针对完整的用户项交互序列截取部分序列作为漂移序列,再将漂移序列和完整的用户项交互序列分别通过 和自注意力网络生成漂移状态和注意力状态表示,最后聚合两者,生成最终状态表示漂移序列能自适应调整序列的长度,解决用户之间偏好漂移速度不同的问题自注意力网络能捕捉序列中关键的项目信息,赋予关键的项目信息更高的权重图 中完整的状态表示模块 漂移状态表示对于漂移状态表示,首先借助 信息从完整的历史交互序列 中截取部分序列 作为自适应漂移序列采取标准的余弦相似度方法,设计两种截取方式确定 的位置第一种截取方式单独选取最近固定长度的序列项目,无法发现完整的用户偏好漂移
16、,因此借助 信息中的项目特征向量作为相似度度量,选取 中的不同子序列的项目特征向量均值 与最近交互序列 的项目特征向量均值 ,对比两者差异,选取值相似度最大的子序列作为漂移序列,具体公式如下:第 期 李迎港等:基于知识引导的自适应序列强化学习模型 ,),其中,、采用平均池化的方式,表示选取 中最后 个历史项目作为漂移序列的相似度度量第二种截取方式与第一种方式唯一不同之处在于 中的不同子序列选取第一个历史项目 与 进行对比,这样能够避免子序列中部分过时数据影响漂移的选择,减少序列之间的相关性,具体公式如下:,)基于上述原因,为了权衡两种方式在模型中的优劣之处,采用加权的方式,利用 ,控制两者的权
17、衡,即 ,()为了提取漂移序列中的序列性偏好,如图 所示,采用循环神经网络中的 进行编码:(,;),()其中,表示项目的内嵌向量,表示的可训练参数这里没有使用 信息中的内嵌向量,为了减少对 信息的过度依赖,从而构建用户的序列偏好注意力状态表示注意力机制已成功应用在计算机视觉、自然语言处理等多个领域在推荐任务中,注意力机制能有效地对历史反馈序列中重要的项目赋予更大的权重,使不同用户历史反馈序列中的相同项目拥有不同的权重注意力机制中存在一种特殊方法 自注意力机制自注意力机制对不同项目选择性关注的同时,能适用长序列捕捉历史反馈序列之间的依赖关系因此,如图所示,将自注意力机制应用到完整的历史反馈序列,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 引导 自适应 序列 强化 学习 模型 李迎港
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。