分销赏收藏举报申诉 / 12

立即下载 VIP下载

当前位置：首页 > 学术论文 > 医学/化学论文 > 基于知识引导的自适应序列强化学习模型_李迎港.pdf

基于知识引导的自适应序列强化学习模型_李迎港.pdf

上传人：自信****多点

文档编号：367977

上传时间：2023-09-06

格式：PDF

页数：12

大小：1.35MB

《基于知识引导的自适应序列强化学习模型_李迎港.pdf》由会员分享，可在线阅读，更多相关《基于知识引导的自适应序列强化学习模型_李迎港.pdf（12页珍藏版）》请在咨信网上搜索。

1、基于知识引导的自适应序列强化学习模型李迎港童向荣摘要序列推荐可形式化为马尔科夫决策过程，进而转化为深度强化学习问题，其关键是从用户序列中挖掘关键信息，如偏好漂移、序列之间的依赖关系等，但当前大多数基于深度强化学习的推荐系统都是以固定序列长度作为模型输入受知识图谱的启发，文中设计基于知识引导的自适应序列强化学习模型首先，利用知识图谱的实体关系，从完整的用户反馈序列中截取部分序列作为漂移序列，其中漂移序列中的项目集合表示用户的当前偏好，序列长度表示用户的偏好变化速度然后，通过门控循环单元提取漂移序列中用户的偏好变化和项目之间的依赖关系，同时利用自注意力机制对关键的项目信息进行选择性关注最后

2、，设计复合奖励函数，包括折扣序列奖励和知识图谱奖励，用于缓解奖励稀疏的问题在个真实世界数据集上的实验表明，文中模型的推荐准确率较优关键词自适应序列，深度强化学习，知识图谱，自注意力机制，循环神经网络引用格式李迎港，童向荣基于知识引导的自适应序列强化学习模型模式识别与人工智能，（）：中图法分类号，（）：收稿日期：；录用日期：，；，本文责任编委吴飞国家自然科学基金项目（，）、山东省重大科技创新工程项目（）资助（，），（）烟台大学计算机与控制工程学院烟台，第卷第期模式识别与人工智能年月随着互联网的高速发展，以及抖音、新浪微博等多元化互联网产品的兴起，互联网信息更新的

3、速度越来越快，用户可选择的信息也越来越丰富，用户的偏好也可能在短时间内急剧变化这就给推荐系统带来新的挑战：序列推荐系统必须及时捕获用户的当前偏好和序列模式如果仅利用协同过滤和矩阵分解等传统方法为用户推荐项目，那么将无法应对用户项反馈数据的自适应性问题以及长期推荐性能问题近来，深度强化学习（，）的兴起为顺序推荐系统带来新的解决方案：构建一个与用户交互的智能体，挖掘潜在有趣的项目基于的推荐系统通过最大化累计奖励值优化长期性能，受到研究者的广泛关注，但目前仍存在一些问题亟待解决）基于的顺序推荐系统大多采用固定的序列长度作为状态表示当用户偏好发生急剧变化时，无法对过往偏好的交互数据进行有效分割此外

4、，用户需要购买某个产品，可能仅仅由序列中个别关键的交互数据决定，但是当前的推荐系统无法识别这些关键的交互信息）奖励值的稀疏性在用户项反馈数据出现数据稀疏和冷启动问题时，一般采用随机策略探索用户的动态偏好，使推荐系统得到用户的正反馈较少传统方法仅使用正反馈作为奖励值，由于推荐智能体无法获得足够且有效的奖励值，不仅导致模型的训练时间增加，甚至可能导致推荐智能体无法收敛到一个合适的策略近年来，知识图谱（，）已在许多领域中表现出强大的适用性和可行性，也已广泛应用到序列推荐任务中中两个不相关的商品在特征表示上存在本质的不同，通过商品的特征表示就能找到商品之间的关联性，从而向用户推荐关联性强的商品基于

5、的推荐系统可以分为两类：）基于生成实体和商品特征，进而提高推荐系统的准确性；）基于显式路径推理的可解释推荐系统，利用结构化信息生成推荐路径等将中实体和关系的结构化信息通过得到实体的特征向量，扩充项目的结构化信息，与协同过滤结合，解决推荐结果多样性问题等采用生成的实体和关系特征，设计内嵌键值对的循环神经网络模型，捕捉用户的序列偏好和用户属性偏好此外，一些研究人员将用户项二部图和结合，生成协同知识图谱用于推荐系统等定义用户物品知识图的概念，并采用生成图中关系和节点的特征，提高推荐性能等提出（），采用图卷积和注意力机制的形式挖掘用户和项目之间的高阶连通性宁泽飞等借助

6、两种知识图谱强化用户的标签信息和项目的语义信息，同时利用图卷积神经网络捕捉知识图谱中的低、高阶连通性李想等利用知识图谱中实体之间的关系学习用户和项目的向量表示，缓解数据稀疏和冷启动的问题，提高推荐准确率上述基于的推荐系统仅将推荐系统作为一个静态模型，不考虑项目带来的长短期收益序列推荐系统与用户交互得到的交互轨迹本身就是序列，因此序列推荐系统的问题可以由马尔科夫决策过程（，）描述，并利用深度强化学习优化解决基于的推荐系统主要改进用户状态表示、设计奖励函数及添加额外的神经网络辅助深度强化学习网络训练等设计图卷积神经网络的变体，由结构化的特征表示（）中用户状态和动作，加强不同用户之间的潜在联系

7、等在基于深度确定性策略梯度的推荐系统基础上，设计四种状态表示方法，提高推荐系统对商品序列的感知能力等结合自监督学习和强化学习，提高监督端和强化学习端在缺乏负奖励环境下的推荐性能等采用多智能体强化学习方法，在不同推荐模块协助下训练全局最优的推荐模型等借助中的结构化信息，设计路径搜索的状态表示和奖励函数，使推荐系统具有显式的可解释性等利用社交网络强调用户之间的信任关系，构建具有社交网络的用户状态表示，解决数据稀疏和冷启动问题王潇等从实时、静态、动态三方面建模深度强化学习状态表示模型，并用于排序直播推荐亓法欣等采用强化学习的方法提高用户对推荐系统的信任，设计关于信任的奖励函数，提高推荐系统

8、的推荐准确度上述工作虽然利用信息和强化学习优化推荐效果，但是通过固定的用户反馈序列长度作为模型输入，因此限制推荐的准确率本文提出基于知识引导的自适应序列强化学习模型（，），将序列推荐任务转化，通过信息引导状态表示和设置奖励函数当引导状态表示都使用的特征信息时，容易产生对信息过度依赖当信息出现偏差第期李迎港等：基于知识引导的自适应序列强化学习模型时，推荐智能体不仅误判用户的偏好漂移而且生成错误的状态表示，扰乱推荐智能体的决策因此将引导和表示分离，仅在引导阶段利用信息，再使用传统特征向量进行状态表示，避免信息偏差对状态表示的影响另外，在奖励函数的设置上，传统方法通常以单步推荐

9、为指标，而单步推荐的奖励值无法提供后续推荐的反馈信息因此以多步推荐和信息为指标，设置折扣参数，权衡当前推荐序列的奖励值，以此使推荐智能体快速得到用户的正反馈具体过程如下首先，利用将完整用户项交互序列转化为自适应的漂移序列，再通过门控循环单元（，）从漂移序列中提取漂移状态，用于探索用户的偏好漂移同时，利用自注意力机制（）为完整用户项交互序列中的项目调整相应权重，输出注意力状态，辅助模型区分数据中有益于推荐的信息漂移状态和注意力状态的结合能增强状态表示最后，借助特征信息设计复合奖励函数该奖励函数分为折扣序列奖励和奖励折扣序列奖励在当前推荐商品的基础上分析后续推荐效果，并将后续推荐效果作

10、为奖励值奖励将推荐项目与目标项目的相似度作为奖励值二者分别通过深度和广度的探索方式为推荐智能体提供有效奖励，增加奖励的密度，加快训练收敛的速度基础知识定义用户集和项目集为用户集，任意用户；为项目集，用户在第步选中的项目定义用户交互序列，定义为用户项交互序列，定义为的子序列，定义特征向量将用户集和项目集映射到低维的向量空间，表示项目的特征向量，（）表示序列的特征向量矩阵此外，利用将项目集和用户集映射到低维的知识向量空间，生成的结构化信息，表示项目的特征向量，（）表示序列的特征向量矩阵在序列推荐任务中，对于每个用户，考虑用户项交互序列和信息，在项目集中找出

11、最喜欢的项目，借此提高用户对于推荐系统的满意值序列推荐任务可转化为，并采用解决可以由（，）五元组表述，其中：定义为状态集合，用于描述用户和项目历史交互信息和信息；表示智能体（推荐系统）动作集合，包含离散候选项目，表示智能体能够向用户推荐的项目；定义为奖励函数，（，）表示智能体在状态时，执行动作获得的立即奖励；表示状态转移概率函数，其中下一个时间步状态（，）表示智能体在状态时，执行动作到达下个时间步状态的概率；，表示折扣因子，权衡当前和未来奖励的重要程度基于知识引导的自适应序列强化学习模型模型概述按照构建任务模型在每一幕中，推荐智能体将在离散时间步长，中与目标用户顺序交互在每

12、个时间步下，智能体会观测到一个状态不仅包含用户项反馈序列信息，还添加信息作为辅助信息用户根据相应策略（）向目标用户执行一个动作，表示推荐智能体从项目集中选取一个项目推荐给用户；策略（）表示为一个函数，即（）（）（），（）其中，表示推荐项目的特征向量，表示双线性乘积的可训练参数将推荐项目推荐给目标用户项目后，推荐智能体会接收用户是否点击或购买的反馈，间接转化为即时奖励，并观测下一个状态通过历史反馈数据以及信息，推荐智能体的目标是学习一个最优策略（）该策略能获得最大的折扣累计奖励：（）（，）（）采用，在构建基于强化学习的模型时，关键的两点是设计状态表示和奖励函数状态表示用于建模目标用户

13、的所有历史交互特征，但是现有方法大多都关注如何从历史交互特征中构建综合偏好表示，而不是利用外部信息探索用户是否发生偏好漂移此外，奖励函数的本质是向推荐智能体传模式识别与人工智能（）第卷递训练目标，奖励函数设计的好坏直接影响到算法能否收敛，甚至会影响算法性能因此通过信息建模用户偏好漂移表示，并基于信息设计复合奖励函数，减少历史交互数据中的噪声，进而提高推荐的准确率基本框架如图所示图的基本框架状态表示模块在真实序列推荐任务中，往往具有如下特点：）每个用户偏好漂移速度是不相同的，因此选定固定序列长度学习用户偏好表示是不实际的）用户购买某个商品，并不完全依赖整个序列，而是归因于序列中某

14、个或几个商品和用户项交互序列如图所示（）表示某用户观看电影的序列，随着时间的推移，该用户的偏好由导演的喜剧片（第一阶段）转变为主演的科幻片（第二阶段）在本例中，如果状态表示时采取的固定序列长度大于，基于的推荐系统将无法脱离第一阶段，只能在第一阶段上继续探索（）表示某用户购买商品的序列，该用户在购买电子产品期间也购买书籍和衣物等商品，基于的推荐系统可能会受到这些信息的误导，导致推荐效果不佳状态表示时采用交互序列越大，状态中的噪音就会越多，导致推荐智能体无法关注有益于决策的关键项目（）某用户观看电影序列（）（）某用户购买商品序列（）图知识图谱和用户项交互序列因此，聚合漂移状态表示和注

15、意力状态表示，具体流程如图所示首先利用信息针对完整的用户项交互序列截取部分序列作为漂移序列，再将漂移序列和完整的用户项交互序列分别通过和自注意力网络生成漂移状态和注意力状态表示，最后聚合两者，生成最终状态表示漂移序列能自适应调整序列的长度，解决用户之间偏好漂移速度不同的问题自注意力网络能捕捉序列中关键的项目信息，赋予关键的项目信息更高的权重图中完整的状态表示模块漂移状态表示对于漂移状态表示，首先借助信息从完整的历史交互序列中截取部分序列作为自适应漂移序列采取标准的余弦相似度方法，设计两种截取方式确定的位置第一种截取方式单独选取最近固定长度的序列项目，无法发现完整的用户偏好漂移

16、，因此借助信息中的项目特征向量作为相似度度量，选取中的不同子序列的项目特征向量均值与最近交互序列的项目特征向量均值，对比两者差异，选取值相似度最大的子序列作为漂移序列，具体公式如下：第期李迎港等：基于知识引导的自适应序列强化学习模型，），其中，、采用平均池化的方式，表示选取中最后个历史项目作为漂移序列的相似度度量第二种截取方式与第一种方式唯一不同之处在于中的不同子序列选取第一个历史项目与进行对比，这样能够避免子序列中部分过时数据影响漂移的选择，减少序列之间的相关性，具体公式如下：，）基于上述原因，为了权衡两种方式在模型中的优劣之处，采用加权的方式，利用，控制两者的权

17、衡，即，（）为了提取漂移序列中的序列性偏好，如图所示，采用循环神经网络中的进行编码：（，；），（）其中，表示项目的内嵌向量，表示的可训练参数这里没有使用信息中的内嵌向量，为了减少对信息的过度依赖，从而构建用户的序列偏好注意力状态表示注意力机制已成功应用在计算机视觉、自然语言处理等多个领域在推荐任务中，注意力机制能有效地对历史反馈序列中重要的项目赋予更大的权重，使不同用户历史反馈序列中的相同项目拥有不同的权重注意力机制中存在一种特殊方法自注意力机制自注意力机制对不同项目选择性关注的同时，能适用长序列捕捉历史反馈序列之间的依赖关系因此，如图所示，将自注意力机制应用到完整的历史反馈序列，

18、结合信息，捕捉有益于个性化推荐的项目信息具体地，计算自注意力机制对不同项目信息的选择性关注：（），（），其中，分别表示和中可训练参数，（）表示激活函数通过和非线性转换得到的和作为输入，输出注意力矩阵：，其中表示特征向量的维度注意力矩阵和序列特征向量矩阵相乘得到注意力加权矩阵：最后，采用均值的方式聚合，得到最终的注意力状态表示：（）最终状态表示由信息截取得到漂移序列，经过生成漂移状态表示，同时利用完整的历史反馈序列通过自注意力机制生成注意力状态表示最终状态表示由漂移状态表示和注意力状态表示拼接而成：，其中，表示拼接算子，中以自适应子序列的方式个性化地为每位用户寻找各自的偏

19、好漂移程度，并通过捕捉序列之间的相关性，中加入自注意力机制，克服循环神经网络中单向相关性，并赋予不同历史项目信息不同权重和都结合信息以构建状态表示，侧重于利用信息探索偏好变化，而利用信息开发寻找历史反馈中重要的项目信息复合奖励函数奖励（，）用于估计智能体的推荐质量，如果仅仅以是否命中目标项目作为奖励，可能在数据稀疏和冷启动时会受到奖励稀疏的影响为了缓解此问题，将信息作为评价推荐性能的指标具体来说，将奖励定义为（，）（，），（）其中，表示用户真实交互的子序列，表示推荐智能体推荐的子序列，表示的序列特征向量矩阵，表示的序列特征向量矩阵类似多步时序差分算法，将步推荐作为该状态

20、下的总体性能折扣序列奖励在序列推荐任务中，奖励函数不仅仅以单步推荐为指标，还需要多步序列的匹配程度作为衡量指标在这里借用评价指标，能够准确评估预测序列的准确率但是在机器翻译中，序列中模式识别与人工智能（）第卷的信息都是等价的，并未考虑强化学习中折扣因子对于现在和未来的权衡基于此改进，即（，）（），其中，（，），（，），（，）表示的子序列；（，）表示在中出现的次数；，表示以真实交互序列为根据，为先后次序分配权重，在中越靠前，分配的权重越大；表示子序列的长度上限该方法不仅能增加奖励的密度，而且添加参数，考虑到推荐项目的重要程度和先后次序奖励在奖励

21、中，借助信息关注推荐智能体推荐的项目与真实推荐项目的相似度当推荐的项目并不匹配真实推荐项目时，也能采用此方式估计推荐的质量具体定义如下给定和这个序列特征向量矩阵，通过平均加和的方式聚为综合特征和，为了度量两者的相似度，依旧采用余弦相似度的方法，则（，）（，）作为奖励，能够缓解奖励稀疏的问题训练方法和算法步骤为了充分训练，在相同状态下多次进行步采样，采用蒙特卡洛强化学习算法建模推荐智能体的目标是训练一个最优策略，采用截断策略梯度方法训练模型参数，在每个时间步下多次采样步子序列，使推荐智能体得到充分训练，即（）（）（），（）其中表示第次采样推荐的项目步骤如下所示算法初

22、始化中参数，超参数，利用获得信息，根据式（）生成漂移状态表示，根据式（）生成注意力状态表示生成当前状态表示，根据式（）采样一条步子序列通过式（）生成奖励通过式（）更新中的网络参数，在算法中，每一幕的时间步下会生成当前的状态表示，推荐智能体通过逐步交互生成段序列，根据每个序列生成当前序列的奖励，同时更新中的网络参数实验及结果分析实验数据集及评估指标为了验证的推荐性能、状态表示和复合奖励函数的有效性，采用个亚马逊电子商务数据集（、数据集）和一个音乐数据集作为验证对象数据集具体的统计信息如表所示表实验数据集的统计信息名称用户项目用户反馈关系实体为了保证训练的可行性

23、，删除历史反馈序列小于的用户和出现次数少于的项目此外需要通过信息引导，因此在、数据集上通过将项目和用户与实体连接，生成特征在、数据集上按照中第期李迎港等：基于知识引导的自适应序列强化学习模型信息生成特征在序列推荐任务中，需要根据时间戳对用户的历史记录进行排序，生成历史反馈序列，将历史反馈序列最后一项作为测试项目，其余数据和信息作为输入信息从项目集上随机抽取个目标用户未购买或未点击的负反馈项目，这些负反馈项目和测试项目组成候选项目集，推荐智能体需要对候选项目集中的项目进行排序本文采用命中率（，）和归一化折损累计增益（，）作为评价指标，对比序列推荐性能表示测试项目是否在

24、推荐智能体推荐的前个项目之中着重考虑测试项目在前个项目的具体位置，测试项目越靠前，值越大，推荐准确率越高对比模型和参数设置为了评价的推荐性能，分别采用如下种模型进行对比实验）基于的模型，）序列推荐模型（），（）混合模型（）借助信息挖掘项目和用户的高阶连通信息，以端到端的方式实现关系建模同时采用基于路径推理和特征学习的方式建模推荐模型建模用户的自适应表示和购物篮中项目之间的顺序特征基于循环神经网络，利用历史反馈序列构建用户的序列偏好为用户构建马尔科夫转移矩阵，结合个性化和序列信息基于和信息建模用户序列偏好和用户属性偏好在每个数据集上，将训练集、验证集、测试集的

25、比例设为，采用个随机种子进行分割，并将测试平均值作为实验结果所有模型计算梯度的批数量设置为，统一采用（）优化器进行优化对比模型采用验证集进行参数优化中神经网络节点数设置为，用户和项目的特征向量设置为，设置为，设置为，和中设置为性能对比本节将与基线模型进行对比，在个数据集上的对比结果如图所示（）（）（）（）图各模型在个数据集上的性能对比由图可观察到，无论在哪个数据集上，一直保持着最优的性能和都是基于序模式识别与人工智能（）第卷列和信息的混合模型，但是没有利用信息探索考虑用户偏好漂移，也没有利用自注意力机制着重开发有助于决策的重要信息总体来说，相比，在数据集上

26、，的和分别提高和；在数据集上，和分别提高和；在数据集上，和分别提高和；在数据集上，和分别提高和除了在数据集上性能低于，基于的模型和都优于序列推荐模型，这也间接验证引入中实体之间的关系能够提高推荐的准确率在基于序列推荐模型中，性能均优于其它模型，由于借助单元捕捉到用户反馈序列中序列之间的依赖关系和综合偏好，从而得到更优的推荐性能消融实验在中借助信息将状态表示分为两部分，包括用于探索的漂移状态和基于开发的注意力状态此外为了缓解奖励稀疏，设计复合函数，增加与用户交互过程中的奖励密度在状态表示和奖励函数的设计中进行扩展为了验证扩展的有效性，本文开展多个消融实验

27、，设计如下多个的变体仅移除漂移序列，将完整用户反馈序列输入单元内仅移除自注意力机制，将信息通过平均求和的方式获得状态信息把推荐序列命中真实序列的个数作为奖励函数每个变体的组成部分如表所示表变体的结构信息模型漂移状态注意力状态奖励函数及三个变体在四个数据集上的和值如表所示由表可看出，在个数据集上取得最优表现移除漂移状态的和移除注意力状态的取得较差结果在状态表示中没有变动的和均取得不错结果，表明合理利用信息构建状态表示能够提高推荐性能中移除自注意力机制，在各数据集上都表现最差，其主要原因是注意力单元的缺失降低序列信息中关键信息的选择性关注，也缺乏对长期

28、序列项目之间的依赖性表达，自注意机制能够更好地捕获反馈序列中重要的项目信息，从而得到更好的推荐性能取消复合奖励函数的设计，性能却仅低于，虽然复合奖励函数并没有使模型推荐效果得到巨大提升，但是在收敛速度上快于总之，中基于信息的扩展均有利于提高推荐性能，由此验证模型中注意力机制和漂移序列的构建均发挥重要作用表及其变体在个数据集上的性能差异模型在奖励函数中设计复合奖励函数，包含折扣序列奖励和奖励两部分下面验证折扣序列奖励和奖励能否加快的收敛速度及能否提高模型的推荐性能为此，设计两个额外的变体：，仅在奖励函数中移除折扣序列奖励；，仅在奖励函数中移除奖励、和在数据集上不同训练批次下的性能

29、对比如图所示由图可见，以为评价指标，的收敛速度和性能低于和，这是因为奖励为和提供更多的奖励密度，使推荐智能体不会盲目地随机探索，从而加快收敛速度和推荐效果以为评价指标，前期推荐效果优于，但在训练后期，已经不再依靠盲目探索，并且带有折扣的序列奖励会着重关注推荐的排名序列，使的值超过移除第期李迎港等：基于知识引导的自适应序列强化学习模型（）（）图及其变体在数据集上的性能对比折扣序列奖励的超参数分析漂移序列度量长度超参数表示选取历史反馈序列最近交互的个项目作为漂移序列的相似度度量，本节对比，以及移除漂移序列对性能的影响，实验结果如表所示在表中，时移除漂移序

30、列，不以任何项目序列作为相似度指标，可看出相比，当，时，性能都具有较大提升，并且时表现最优，仅在数据集上低于时这是因为太小的值可能使漂移序列中噪声的影响变大，然而值越大会使噪声的影响越小，偏好漂移的特征也会变得平缓表对性能的影响漂移序列的权衡参数节中采用加权的方式权衡两种子序列选取的策略，为了确定的选取对于推荐效果的影响，选取，在数据集上进行实验，结果如图所示（）（）图对性能的影响由图可观察到，当时，的和值均最优，这是因为节模式识别与人工智能（）第卷中第一种截取方式虽然能够扩大长度，但是过于大的长度使得漂移序列并不能准确表示用户的偏好变化，反而从完整的

31、用户项反馈序列中带来更多的噪声，影响智能体推荐的效果将移除漂移序列的与在个数据集上进行实验，对比漂移序列和完整序列与下一个推荐成功项目的相似度，结果如图所示图漂移序列和完整序列与下一个推荐成功的项目相似度对比由图可知，在数据集上，相比中完整序列，漂移序列的相似度提高，在数据集上，漂移序列的相似度提高，在数据集上，漂移序列的相似度提高，在数据集上，漂移序列的相似度提高实验结果表明漂移序列能够提高序列与下一个推荐成功项目的相似度，进一步验证相比完整序列，漂移序列能更好地捕捉用户的当前偏好，提高推荐的准确率结束语本文提出基于知识引导的自适应序列强化学习模型（）借助信息，

32、从完整的用户项反馈序列中截取自适应的序列长度作为漂移序列，该序列反映用户的偏好变化及变化速度基于此，对推荐智能体做出如下扩展：首先利用捕获漂移序列中当前偏好及项目之间的依赖关系，同时利用自注意力机制为完整用户项反馈序列中的关键项目分配更高的权重此外，为了加快模型的收敛速度，增加训练时奖励的覆盖范围，设计复合奖励函数，缓解奖励值稀疏的问题最后在个数据集上进行实验评估，结果表明性能较优，推荐准确率相对稳定今后可关注如何利用神经网络学习不同用户的偏好变化趋势，并将漂移序列应用到其它推荐领域，使漂移序列拥有更强的适用性参考文献韩爽，王衡基于时间访问轨迹的文件的智能推荐软件学报，（）：（，

33、（）：）刘旭东，陈德人，王惠敏一种改进的协同过滤推荐算法武汉理工大学学报（信息与管理工程版），（）：（，（），（）：）邓爱林，朱扬勇，施伯乐基于项目评分预测的协同过滤推荐算法软件学报，（）：（，（）：），（），（）：童向荣，姜先旭，王莹洁，等信任网络形成及其在智能推荐中的应用研究进展小型微型计算机系统，（）：（，（）：）刘全，翟建伟，章宗长，等深度强化学习综述计算机学报，（）：（，（）：），：，：，：，（）：，：，：，第期李迎港等：基于知识引导的自适应序列强化学习模型，：，：，：，：，：，：，：，：，：，：，：秦川，祝恒书，庄福振，等基于知识图谱的推荐系统研究综述中国科学（信息科学）

34、，（）：（，（），（）：），：，：，：，：，：，：，：，：，：，：，：，：宁泽飞，孙静宇，王欣娟基于知识图谱和标签感知的推荐算法计算机科学，（）：（，（）：）李想，杨兴耀，于炯，等基于知识图谱卷积网络的双端推荐算法计算机科学与探索，（）：（，（）：），：，：，：，：，：，：，：，（）：王潇，刘红岩，车尚锟一种基于深度强化学习的直播推荐方法信息系统学报，（）：（，（）：）亓法欣，童向荣，于雷基于强化学习的智能体信任增强计算机研究与发展，（）：（，（）：），：，：，：，：，：，：，（）：，：模式识别与人工智能（）第卷，：，：，：，：，：，：，：，：作者简介李迎港，硕士研究生，主要研究

35、方向为深度强化学习、推荐系统：（，）童向荣（通信作者），博士，教授，主要研究方向为计算机科学、智能信息处理、社交网络：（），）“视频行为检测与识别”专题征文通知视频行为检测与识别是视频理解领域近年来的研究热点，该技术对视频图像中多种复杂环境下的人体行为进行智能分析，是新数字经济时代的重要支撑技术之一，具有重大的科研、社会以及经济价值，具备广泛的应用场景。与图像检测与识别技术已经相当成熟不同，视频行为检测与识别技术正处于发展阶段，还面临着诸多挑战，在跨模态、跨视角、复杂行为情况下的行为精细理解还有较大的研究空间。为了促进我国视频行为检测与识别技术研究的深入开展，及时反映我国学者在相关领域的最新研究进展，模式识别与人工智能拟集中出版视频行为检测与识别技术领域具有创新性、突破性的文章，诚挚欢迎学术界广大科研人员踊跃投稿。一、专题投稿范围（包括但不限于）多模态视频行为识别方法视频时空行为检测方法小样本条件下的视频行为识别方法视频行为检测与识别模型的可解释性半监督全监督的视频行为识别方法视频行为检测与识别中的对抗攻击与防御视频时序行为检测方法（下转页）第期李迎港等：基于知识引导的自适应序列强化学习模型

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于知识引导自适应序列强化学习模型李迎港

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。