分销赏收藏举报申诉 / 15

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 显式知识推理和深度强化学习结合的动态决策.pdf

显式知识推理和深度强化学习结合的动态决策.pdf

上传人：自信****多点

文档编号：729034

上传时间：2024-02-26

格式：PDF

页数：15

大小：6.73MB

《显式知识推理和深度强化学习结合的动态决策.pdf》由会员分享，可在线阅读，更多相关《显式知识推理和深度强化学习结合的动态决策.pdf（15页珍藏版）》请在咨信网上搜索。

1、显式知识推理和深度强化学习结合的动态决策*张昊迪1,陈振浩1,陈俊扬1,周熠2,连德富3,伍楷舜1,林方真41(深圳大学计算机与软件学院,广东深圳518052)2(上海脑科学与类脑研究中心,上海200031)3(中国科学技术大学计算机科学与技术学院,安徽合肥230026)4(香港科技大学计算机科学与工程系,香港999077)通信作者:伍楷舜,E-mail:;林方真,E-mail:flincse.ust.hk摘要:近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效

2、与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性.关键词:知识表示与推理;可解释性;深度强化学习;动态序列决策中图法分类号:T

3、P18中文引用格式:张昊迪,陈振浩,陈俊扬,周熠,连德富,伍楷舜,林方真.显式知识推理和深度强化学习结合的动态决策.软件学报,2023,34(8):38213835.http:/ Decision Making Based on Explicit Knowledge Reasoning and Deep ReinforcementLearningZHANGHao-Di1,CHENZhen-Hao1,CHENJun-Yang1,ZHOUYi2,LIANDe-Fu3,WUKai-Shun1,LINFang-Zhen41(CollegeofComputerScienceandSoftwareEngi

4、neering,ShenzhenUniversity,Shenzhen518052,China)2(ShanghaiCenterforBrainScienceandBrain-inspiredTechnology,Shanghai200031,China)3(SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230026,China)4(DepartmentofComputerScienceandEngineering,HongKongUniversityofScienceandT

5、echnology,HongKong999077,China)Abstract:In recent years,deep reinforcement learning has been widely used in sequential decisions with positive effects,and it hasoutstandingadvantagesinapplicationscenarioswithhigh-dimensionalinputandlargestatespaces.However,deepreinforcementlearningfaces some limitat

6、ions such as a lack of interpretability,inefficient initial training,and a cold start.To address these issues,this studyproposes a dynamic decision framework combing explicit knowledge reasoning with deep reinforcement learning.The framework*基金项目:国家自然科学基金(61806132,U2001207,61872248);广东省自然科学基金(2017A0

7、30312008);深圳市自然科学基金(ZDSYS20190902092853047,R2020A045);珠江人才计划(2019ZT08X603);广东省普通高校创新团队项目(2019KCXTD005)本文由“智能系统的分析和验证”专题特约编辑明仲教授、张立军教授和秦胜潮教授推荐.收稿时间:2021-09-05;修改时间:2021-10-14;采用时间:2022-01-10;jos 在线出版时间:2022-01-28CNKI 网络首发时间:2023-01-19软件学报ISSN1000-9825,CODENRUXUEWE-mail:Journal of Software,2023,34(8):

8、38213835doi:10.13328/ki.jos.006593http:/中国科学院软件研究所版权所有.Tel:+86-10-62562563successfullyembedstheprioriknowledgeinintelligentagenttrainingviaexplicitknowledgerepresentationandgetstheagentintervenedby the knowledge reasoning results during the reinforcement learning,so as to improve the training effici

9、ency and the modelsinterpretability.The explicit knowledge in this study is categorized into two kinds,namely,heuristic acceleration knowledge and evasivesafety knowledge.The heuristic acceleration knowledge intervenes in the decision of the agent in the initial training to speed up thetraining,whil

10、etheevasivesafetyknowledgekeepstheagentfrommakingcatastrophicdecisionstokeepthetrainingprocessstable.Theexperimentalresultsshowthattheproposedframeworksignificantlyimprovesthetrainingefficiencyandthemodelsinterpretabilityunderdifferentapplicationscenariosandreinforcementlearningalgorithms.Key words:

11、knowledgerepresentationandreasoning;interpretability;deepreinforcementlearning(DRL);sequentialdecisionmaking深度强化学习(deepreinforcementlearning,DRL)1,2将深度神经网络和强化学习结合,近年来已被成功应用在诸多序列决策领域,尤其在如 AlphaGo、OpenAIFIve、Atari 等大规模状态空间的决策问题中优势明显.自 2013年深度 Q 网络(deepQ-network,DQN)被提出后,大量的深度强化学习算法与模型被相继提出,其中基于价值的强化学习

12、算法(例如 DQN1,2、DoubleDQN3和 DuelingDQN4)和基于策略的强化学习算法(例如 A3C5、PPO6和 SAC7等)都在决策领域表现出良好效果.然而,完全由数据驱动的深度强化学习方法也存在一些问题.首先,作为黑盒模型的深度强化学习方法缺乏可解释性,其方法的基本假设是领域任务相关的智能或知识可以被深度神经网络隐式地、分布式地表示.然而人类进行表示与推理的知识通常以显式方式呈现,如一阶逻辑、非单调推理、动作语言等.可解释性的缺失导致深度强化学习难以利用人类显式知识解决模型本身存在的问题,例如训练初期的冷启动与低效问题.深度神经网络往往需要大量的训练才能达到良好效果,而在智能

13、体与环境中的交互过程中,所获奖励驱动下的更新往往存在低效的问题.由于深度神经网络相关方法的黑盒特性,强化学习过程中在状态空间中的探索缺乏理论依据.尤其是训练初期,模型对于状态-动作奖励函数估计不准时,所做出的动作决策具有较大的随机性.因此,在训练稳定之前,智能体的这种随机探索很有可能作出不良动作,甚至灾难性的决策.此问题在机器学习领域被称为“冷启动”.对于在真实场景或仿真成本高昂的环境下训练的智能体,冷启动严重影响了深度强化学习方法的实用性.产生该问题的原因在于智能体缺乏对环境或任务的基本认知,而深度神经网络又不支持显式的知识表示,无法便捷地将这些基本认知嵌入网络模型中.为了解决这一问题,一些

14、模型与方法被相继提出.例如,有部分学者认为,人类学习一项新的技能或操作时最直接有效的途径就是模仿他人从而学习其中的知识.基于此观察而被提出的模仿学习8和演示学习9通过学习人类专业的演示动作,使智能体习得给定领域中的决策方法.然而在许多情况下,通过模仿学习和演示学习来学得知识的方式受限于以下 3 方面因素:(1)模型对于包含人类知识的训练数据质量要求极高;(2)训练数据获取成本极大,需要人类大量重复性的操作;(3)是在特定情况下人类无法作出演示.人们提出一些新的方法试图缓解以上问题,例如以动作序列代替单个动作作为训练数据,通过人类评价某一状态在所作出的决策10;人类根据自己的偏好对智能体所作出的

15、大量决策轨迹选出较优秀的一批轨迹11,12;智能体逐个实现人类制定的高层级目标13等.虽然以上方法一定程度上降低了训练数据的质量门槛和获取成本,但模型训练过程中仍需要大量的人工干预.本文针对深度强化学习中的缺乏可解释性与训练效率低的问题,提出了一种基于显式知识推理和深度强化学习的决策框架,以提高智能体的训练效率.本文中的显式知识可以是启发式的加速规则,对智能体在训练初期加以启发式的正向引导,以避免过多的无效探索;也可以是规避式的安全规则,避免智能体在训练过程中做出灾难性的动作.本文的基本假设是显式表达的知识对于模型设计者是直观的、易懂的,且符合人类逻辑.因此,通过将显式知识整合到深度强化学习模

16、型中,不仅使得智能体能够更快更好的进行学习,提高训练效率与效果,而且增加了深度强化学习模型的可解释性.本文的主要贡献包括如下 3 方面.(1)针对深度强化学习中的缺乏可解释性的问题,提出了一个知识推理与深度强化学习结合的决策框架,其中的显式知识推理增加了决策系统的可解释性.(2)在显式知识与深度神经网络的结合上,综合考虑知识生效机制的一般性需求,提出两种模式的显式知识,即启发式的加速知识与规避式的安全知识.前者有效地提高了训练初期模型表现,后者为模型训练提供安全性保障,有效地提高了模型的训练效率.3822软件学报2023 年第 34 卷第 8 期(3)在多种场景下,对多种深度强化学习算法进行了

17、实证研究.结果显示,该动态决策框架中显式知识的结合方式及效果具有一般性,不依赖于特定场景与特定算法.本文第 1 节介绍关于人类知识与深度强化学习相结合的相关工作以及本工作的研究动机与意义.第 2 节简要介绍本文工作的基础知识.第 3 节详细介绍了基于显式知识推理和深度强化学习的动态决策框架(KB-DRL),包括框架的特点、训练过程和技术细节.第 4 节讲述了所提的决策框架的实验环境、实验设计和分析结果.第 5 节则对本框架的研究分析得出最后总结,以及介绍未来的研究方向.1 相关工作自 2013 年 DQN1被提出后,深度强化学习受到了广泛关注.2015 年目标网络分离的 DQN2版本被提出.其

18、后很多变体模型相继出现,包括 DoubleDQN3、DuelingDQN4、C51DQN14、BootstrappedDQN15和 RainbowDQN16等.除了以上这些基于价值的深度强化学习算法,基于策略的相关算法,包括 DPG17、DDPG18、A3C5、TRPO19、PPO6和 SAC7等,也在不同领域与任务中表现出良好效果.然而这些深度强化学习算法在实际应用中都存在数据依赖和训练低效等问题,而且缺乏可解释性.怎样更好结合并利用抽象的、可解释的领域知识,成为近年来人工智能领域的研究热点.(st,at),(st+1,at+1),.部分学者关注于让模型在任务中模仿人类行为.当人类需要学习一

19、项新的技能或操作时,一种最直观高效的方式就是模仿其他人的演示,即从演示者对该任务或操作的理解与执行中进行直接模仿,是一种利用他人知识进行引导性学习的方式.例如,序列决策任务中端到端学习的模仿学习算法(imitationlearning)8可以让智能体直接模仿人类演示专家的行为从而获提高学习效率,即仅通过人类演示专家在应场景下的正确动作序列传递给智能体.模仿学习可以主要分为行为克隆算法(behavioralcloning)20和逆强化学习算法(inversereinforcementlearning)21两大类.行为克隆智能体通过监督学习直接模仿学习人类的策略;而逆强化学习智能体则可以根据人类的

20、演示估算出其中的奖励函数,再通过标准的强化学习算法进行学习.但模仿学习相关方法面临一个主要问题,即模仿学习算法对人类演示专家的演示数据质量要求极高.因为部分质量不达标的数据对智能体而言将可能是误导性的演示,而这种误导性的演示对学习过程的影响又难以矫正,因此高质量数据的制作成本非常大.此外,并非所有的场景都能由人类专家提供高质量的演示,如无人机一些复杂场景、陌生环境中的高难度飞行任务.一些工作提出的实时评价反馈的人类知识强化学习算法,能够在一定程度上缓解该问题.智能体根据环境做出决策,人类观察智能体在该环境下所作出的决策进行实时评价,给出反馈值,以表达对该决策的满意程度,智能体再根据反馈值优化模

21、型.其中对智能体的决策进行实时最优判断的相关的工作包括 PolicyShaping9,22,其简单直接地对智能体的决策进行评价对错,以表明是否做出最优决策.与 PolicyShaping 类似的 RewardShaping23则可以将人类的反馈直接作为奖励函数并直接代替原有的奖励函数,如,TAMER24将人类对某一状态下的动作分为 3 种评价,即负面、中立和正面评价,对应的人类奖励函数值为1,0 和 1.又如,DeepTAMER25加入了深度神经网络以估计人类对某状态对应动作的反馈值函数,相关的 TAMER 优秀衍生算法还有 TAMER+RL26和 DQN-TAMER27等.另一种整合人类知识

22、的方法是人为干预,即人类专家观察智能体的整个训练过程,当智能体决策出危险动作时,人类专家用一个安全动作去代替这个危险动作,以避免灾难性的后果发生,相关的工作有 HIRL28等.此类方法与 PolicyShaping 和 RewardShaping 的不同之处在于 HIRL 只有负反馈没有中立和正面反馈.当在智能体做出灾难性动作时,人类会做出安全动作以保护智能体,并传递给智能体一个新的奖励值.模型 HIRL 的另一个特性是人类决策可以直接被作用在实际决策动作上.但 HIRL 同样面临着高昂的人力成本问题,即使智能体做出灾难性动作的概率较低,但人类专家依然需要全程监测智能体的整个学习过程.另一个相

23、关的难题是,在许多深度强化学习的任务中,人类很难给出高质量的演示和精确的反馈值.而且由于任务智能体的动作形态和人类有可能有巨大差异,人类也无法给出高质量的演示数据.一种可行的解决方式是根据智能体的多组决策序列,人类专家根据各组决策序列的表现和自己的偏好选出较优的决策序列11,12.层次化深度学习是另一类整合人类知识的方法.例如,在一些过于复杂的问题中,尤其是带有大量延时奖励的张昊迪等:显式知识推理和深度强化学习结合的动态决策3823任务中,部分强化学习方法可能无法学得一个较为合理的策略.而在分层指导框架13中,人类专家可以提前将复杂任务划分为多个子目标.高层决策模块可以根据当前状态,选出一个子

24、目标;底层决策模块则根据当前状态与可执行的原子动作来实现当前子目标.当前子目标完成后,高层决策模块再选出新的子目标,直至整体任务被完成.这种分层学习方法在一些涉及复杂规划、延时奖励的任务中可以提高学习效率,例如一个机器人要学会从高层楼下电梯,则需要分为先移动到电梯旁、按下电梯按钮、进入电梯和离开电梯这几个步骤,人类通过为智能体提前制定好所需的子目标,可以快速提高智能体的学习效率.此类方法基于知识表示与推理领域相关知识描述语言为基础,如动作语言 BC29、BC+30等,以及被广泛应用的非单调推理工具回答集编程 ASP31、NeurASP32.然而此类方法的局限性也显而易见,即子任务划分需要人类专

25、家手动完成;而在很多场景中,任务划分带来高昂的人力成本.今年来也有很多工作在结合深度神经网络与符号化方法上进行尝试,包括神经产生系统(neuralproductionsystem)33,不确定性动作语言34,35等.2 基础知识本文所提方法主要基于深度强化学习与非单调推理,以下介绍相关概念和基本知识.2.1 深度强化学习statatrtst+1at+1强化学习的基本思想是智能体在与环境的交互过程中迭代地学习最优决策.强化学习智能体与环境的交互示意图如图 1.智能体接收从环境中获得的环境状态,再根据该环境状态决策出动作,动作作用于环境后获得奖励值;在下一时刻环境发生变化,智能体感知新的环境状态,

26、再做出相应决策动作.智能体的目标是要在交互过程中学得一个最优策略,以使期望的长期累计奖励最大化.AgentEnvironmentst,rtat图1强化学习智能体交互过程S,A,r,P,一个智能体的强化学习过程可视为一个马尔可夫决策过程(MDP),由五元组表示:状态空间 S,表示环境状态的集合.动作空间 A,表示智能体能够选择的所有动作的集合.r:S A R r(st,at)statrt奖励函数,表示智能体根据状态决策出动作后,所获得的即时奖励值,记为.P S A SP(st,at,st+1)statst+1状态转移概率分布,表示智能体在状态下,执行决策动作后,下一时刻环境转移到状态的概率.:(

27、0 1)折扣因子,未来奖励的折扣系数.st(s0,s1,.,st1)其具有马尔可夫性质,在当前状态下,下一时刻的状态与之前状态无关,即有:P(st,at,st+1|s0,a0,s1,a1,.,st,at)=P(st,at,st+1|st,at)(1)在大规模的状态空间中,传统的强化学习无法计算出价值函数和策略函数,而结合深度学习,则可以利用神经网络来拟合强化学习中的价值函数和策略函数,即输入是环境的状态数据,输出是价值函数值或策略函数值,如基于价值的 DQN1,2及其变体与基于策略的 A3C5等.2.2 动作语言在本文结合知识推理的框架中,我们将以稳定模型语义下的逻辑程序作为工具、以动作语言

28、BC29为基础,定义动作语言 BC-dynamic 来表示知识.稳定模型语义也称回答集语义31,36,是表达动态领域的一种描述性逻辑方3824软件学报2023 年第 34 卷第 8 期法.稳定模型语义下的逻辑程序非常直观,易于解释、维护以及更新.FA定义 1.给定时变事实(fluent)集合,一个逻辑程序 P 由如下形式的逻辑规则构成:A0 L1,.,Lm,not Lm+1,.,not Ln(2)A0 FAAi FALiAiAiAi其中,为时变事实;对于事实,代表或者,称为对应的文字.在公式(1)中的一元联结词 not 为缺省否定,表示若没有显式证据支撑该事实为真,则该事实为假.一个给定的逻辑

29、程序的稳定模型由以下不动点来定义.PLm+1,.,Ln=P定义 2.对于逻辑程序 P 以及时变事实集合,P 在下的归约程序(reductionprogram)记作.对于 P 中的每一条形如公式(1)的逻辑规则,若,则包含以下规则:A0 L1,.,Lm(3)Pnot LiLinot Li归约程序的生成可视为在原逻辑程序上进行遵循闭世界假设的操作,即对于所有包含缺省否定的规则,如果在中被判定为真,则将该规则整体删去;否则将规则中的部分从原规则中删去.P定义 3.对于一个逻辑程序 P 以及时变事实集,如果是归约程序的最小模型(相对于集合包含关系),即:=argmin|=p(4)则是一个 P 的稳定模

30、型.RSRD动作语言 BC 是一种用于指定状态转换系统的语言,其语义由相应逻辑程序的稳定模型所定义.语法上,一个用 BC 编写的动作理论 R 由两个子集组成,即静态规则集以及动态规则集.其中,静态规则形式如下:consequence caused premise incons justification(5)而动态规则形式如下:consequence after premise ifcons justification(6)R=RSRD其中,consequence,premise 以及 justification 分别为规则的结论、前提与缺省条件,形式为时变事实对应文字的合取.静态规则描述了同

31、一时刻不同事实间的因果关系;而动态规则用以描述动作在给定的 justification 下对下一时刻状态的直接影响.一个 BC 动作理论的语义是由一个稳定模型下的逻辑程序定义的.对于一个以 BC 语言编写的动作理论,其对应的逻辑程序 P(R)由下面规则组成.RS对于每个在中形式如下的静态规则:At0causedmi+1Atiifcons nj=m+1Atj(7)P(R)都包含以下逻辑程序规则:At0 At1,.,Atm,not Atm+1,.,not Atn(8)RS对于每个在中形式如下的动态规则:At+10aftermi+1Atiifcons ni=m+1At+1i(9)P(R)都包含以下逻

32、辑程序规则:At+10 At1,.,Atm,not At+1m+1,.,not At+1n(10)对于每个时变事实 At,P(R)都包含以下选择规则:At not At(11)At not At(12)对于每个时变事实 At,P(R)都包含以下存在性和唯一性规则:not At,not At(13)At,At(14)以上的逻辑程序 P(R)的稳定模型即为动作理论 R 的模型.与人类演示数据等其他形式的知识相比,这些动作推理中的规则高度抽象并易于描述.3 显式知识推理和深度强化学习结合的动态决策针对现有强化学习方法的不可解释性与训练效率低的问题,本文提出了一种基于显式知识推理和深度强化学张昊迪等:

33、显式知识推理和深度强化学习结合的动态决策3825习的动态决策框架.与相关工作中所提到的大部分算法不同的是,本框架不需要人类专家在训练过程中频繁交互演示,不需要对智能体决策进行评价和干预,也不需要任何预先人工定义的子任务划分.如上文所述,本框架中的显式知识可以分为两类.(1)启发式的加速知识:作为加速器以加快模型的训练,在规则生效时,若智能体做出非正确的决策,加速器则用该状态下对应的正确决策代替原决策,让智能体在训练初期做出更多有效探索.(2)规避式的安全知识:作为保护器保护智能体的安全,安全规则会在智能体内始终生效,当智能体面临危险场景且可能做出灾难性决策时,保护器会排除掉所有的灾难性决策,保

34、证智能体在训练以及应用过程中的安全性.在本文中,我们对以上两种知识进行统一的知识表示.3.1 显式知识表示我们定义 BC 动作语言的变体,记作 BC-dynamic,对以上两种知识进行统一表示.定义 4.语法上,给定动作集 ACT,时变事实集 F,由 BC-dynamic 动作语言定义的知识集 R 是形式如下的规则的集合:action(params,t+1)ificonditioni(t)default jcontextj(t)(15)action ACTconditioni Fcontextj FX ACTXt+1其中,.语义上,对于给定动作集,X 是 R 的模型当且仅当是对应逻辑程序 P(

35、R)的稳定模型.其中 P(R)包含如下规则.对于每一形如公式(15)的规则与当前时刻 t,P(R)都包含以下逻辑程序规则:actiont+1 conditiont1,.,conditiontm,not contextt1,.,not contexttn(16)f F对于每个时变事实与当前时刻 t,P(R)都包含以下选择规则:ft not ft(17)ft not ft(18)f F对于每个时变事实与当前时刻 t,P(R)都包含以下存在性与唯一性规则:not ft,not ft(19)ft,ft(20)action ACTt对于每个动作与当前时刻,P(R)都包含以下选择规则:actiont no

36、t actiont(21)actiont not actiont(22)action ACT对于每个动作与当前时刻 t,P(R)都包含以下存在性与唯一性规则:not actiont,not actiont(23)actiont,actiont(24)在以上逻辑程序刻画中,时变事实的时间戳用于区分事实在不同时刻的真值.在一个仅用逻辑程序刻画的完整动态决策系统中,形如以上的逻辑规则需要被实例化在时间序列空间(0,1,T)上.而在本文中,动作语言与逻辑程序仅被用于在神经网络一步迭代中进行推理,因此涉及的时间戳只包含当前时刻 t 与下一时刻 t+1.故以上时间戳可简单用常量带入,如 t=0.例如,在

37、breakout 游戏中,我们采用以下简单的启发式规则:move(left,t+1)if at(ball,left,t)default at(ball,leftest,t)(25)即当默认条件(小球不在屏幕最左边界)成立时,当小球在挡板左侧,则下一时刻建议动作为向屏幕左侧方向移动挡板.3.2 动态决策框架 KR-DRL本研究中所提出的基于显式知识和深度强化学习的动态决策框架如图 2 所示,我们在智能体内维持一个显式知识规则库(即上文所述 BC-dynamic 知识集),用于表示先验知识.当智能体与环境进行交互并根据当前状态作出决策动作时,如果满足规则生效的条件,该决策将传递给规则库中进行判断.

38、若不符合规则逻辑,则用规则库中对应的规则决策以一定的条件代替原决策.框架包括以下主要模块.3826软件学报2023 年第 34 卷第 8 期DRL modelRules EnvironmentAgentS Ast,rtatat if ptat/*base图2显式知识推理和深度强化学习结合的动态决策statst+1rt+1st+1深度强化学习模块:与标准深度强化学习相同,智能体感知来自环境的状态后进行决策,在环境执行决策动作,该决策动作作用于环境中,环境状态变化为并产生即时奖励;智能体追踪下一时刻的环境状态并根据奖励进行参数学习.知识规则库:在特定的环境中,知识规则库将维护一系列的规则,规则将在

39、一定的环境下生效,用于取代智能体由模型所决策的动作.P(t)=p0t0 1 0 p0 1;=1 p0=1知识干预机制模型:决策框架中所维护的知识干预机制以的形式刻画.对于启发式加速规则集,系统维护一个单调递减的函数 P(t),其中,而对于规避式的安全规则,系统维护一个大小恒定为 1 的 P(t),即,.由于知识表示与推理模块相对独立,与深度神经网络通过推理结果生效机制进行协同,因此该框架具有广泛的适用性.显式知识推理可以作用于基于价值的深度强化学习算法,如 DQN、DoubleDQN 和 DuelingDQN 等,还可以作用于基于策略的深度强化学习算法,如 A2C、PPO 和 Discrete

40、-SAC 等,该框架的算法流程如算法 1 所示.算法 1.显式知识推理和深度强化学习结合的动态决策的算法流程.p0输入:知识集 R,规则初始生效概率,衰减系数,步长,以及所用深度强化学习设置.1.游戏从第 1 局开始,直至局数上限 M 或模型收敛:s0(s0)2.初始化环境状态,并预处理为3.循环:从第 1 帧开始直至第 T 帧或至该局游戏结束4.如果 DRL 算法为基于价值的深度强化学习,则at5.以概率随机选取一个动作1at maxaQ(st),a;)6.以概率选取动作7.如果 DRL 算法为基于策略的深度强化学习算法,则at(at|st)8.选取P(t)=p0t9.以概率进行知识推理与干

41、预:10.计算逻辑程序 P(R)的稳定模型集合 Xat Xat11.如果当前,则在 X 中随机选取动作替换atrt12.执行动作,获得即时奖励st+113.更新状态st,at,rt14.根据更新模型参数15.循环结束需要说明的是,知识规则集产生的推理结果并不要求是最优策略.4 实验分析 4.1 实验数据为了验证基于显式知识和深度强化学习的动态决策框架的有效性,我们在 Breakout、Pong、CartPole 和张昊迪等:显式知识推理和深度强化学习结合的动态决策3827GridWorld 游戏中根据环境的特性实现了我们的框架,这些游戏分为两组,用于分别演示启发式加速规则和规避式安全规则,在以

42、下的实验中,每种规则在其对应的实验环境中独立工作,以证明该决策框架的有效性.需要特别说明的是,由于实验中我们采用的知识规则不要求最优,而只是两条以内形式统一的启发式规则.因此我们没有按照 BC 的逻辑程序翻译方式将其翻译为回答集逻辑程序并求解,而是直接编译为过程式模块,在深度神经网络训练时调用.4.1.1Breakout在该游戏中,如图 3,玩家控制位于游戏画面下方的砖块,通过左右移动接由上方反弹下来的球,球与球拍碰撞后,球会向上反弹,游戏中一共有 6 层不同颜色的砖块,每层共有 18 块砖块,不用颜色的砖块对应的分数不同,由下往上数,第 1 层和第 2 层的砖块每块 1 分,第 3 层和第

43、4 层的砖块每块 4 分,第 5 层和第 6 层的砖块每块7 分,当游戏中所有砖块被打完后,会重新刷新 6 层砖块但不会结束游戏,继续击打可以继续得分,因此理论上该游戏得分没有上限,当球拍接不到球时游戏才会结束.(a)Breakout(b)Pong(c)CartPole(d)GridWorld图3实验环境我们在该游戏中使用启发式加速规则:如果球在球拍的左边,则球拍向左移动,如果球在球拍的右边,则球拍向右移动.move(left,t+1)if at(ball,left,t)default at(ball,leftest,t)(26)move(right,t+1)if at(ball,right,

44、t)default at(ball,rightest,t)(27)4.1.2Pong在该游戏中,玩家控制右方球拍,左方为敌方球拍,双方进行乒乓球游戏,乒乓球碰到球拍后会进行反弹,当敌方未能接住我方的球时,我方获得 1 分,当我方未能接住敌方的球时,敌方获得 1 分,当其中一方达到 21 分时游戏结束,总得分为我放得分减去敌方得分,既当我方 21 分,敌方 0 分是,游戏得分 21,当敌方 21 分,我方 0 分时,游戏得分21.由于该游戏和 Breakout 游戏的任务场景非常相似,都是根据迎面而来的球与我方球拍的相对位置进行移动,因此可以通过简单地修改 Breakout 中的规则就能在 Po

45、ng 中使用,由于规则是高度抽象且符合逻辑的,因此相似的任务场景能共享相同的规则集:move(up,t+1)if at(ball,above,t)default at(ball,top,t)(28)move(down,t+1)if at(ball,below,t)default at(ball,bottom,t)(29)4.1.3CartPole在该游戏中,有一个可水平移动的小车与一只竖杆,竖杆一端连接着车体且可旋转.玩家需要控制小车以维持受重力影响的竖杆的初值状态.当竖杆与垂直方向的倾斜角度大于 15 度时、车的水平位移超过中心位置 2.4 个单位长度或达到游戏的最高奖励值 500 分时,游

46、戏结束.在游戏结束前每坚持 1 个时间单位,则获得 1 分的奖励.在该游戏中,根据杆的角度以及角速度进行启发式决策:如果杆偏向左边且角速度为正,则手推车应该向左移动,如果杆偏向右边且角速度为负,则手推车应该向右移动.move(left,t+1)if leaning(left,t)angular_velocity(pos)default at(leftest,t)(30)move(right,t+1)if leaning(right,t)angular_velocity(neg)default at(rightest,t)(31)3828软件学报2023 年第 34 卷第 8 期4.1.4Gri

47、dWorld在该游戏中有 4 种不同的格子,其中黄色格子为玩家控制的角色,红色格子是陷阱,黑色格子是墙体,绿色格子是目的地,白色格子是道路.该游戏的目的是被玩家控制的黄色格子要达到目的地绿色格子,每走一步扣 1 分,如果 500 步内还没有走到目的地,则游戏结束,如果踩到红色陷阱则扣 600 分,游戏结束,如果走到了目的地绿色格子,则获得 600 分,游戏结束.在该游戏中,我们的规则是保证智能体在探索过程中不会落入任何陷阱以发生灾难性的后果,即排除掉灾难性决策后,在多个安全决策中随机选取其中一个.walk(dir,t+1)if neighbor(trapi,t)at(trapi,dir,t)d

48、efault(32)我们在 Breakout,Pong 和 CartPole 中使用了启发式加速规则,在 GridWorld 中使用了规避式安全规则,并在每个游戏中采用了多个基准算法以验证方法的有效性与一般性,实验数据集如表 1.表1实验数据集分组项目基准算法数量知识规则数量AccelerationKBBreakout32Pong32CartPole52SafetyKBGridWorld51 4.2 评价指标及基准模型在实验中,我们以重复实验的局内累计奖励的平均值与方差作为评价指标.Breakout:在该游戏中,一局游戏的所有砖块打完后,刷新砖块且游戏继续,分数累计;直至球拍接不到球时游戏结束

49、.因此如果没有时间限制,得分并无上限.我们设定评价指标为游戏进行到指定局数后所得分数.Pong:在该游戏中,当一方得分达到 21 分时游戏结束,即该游戏的最高分为我方获得 21 分,对手 0 分,总分21 分.评价指标为实验组和对照组在指定局数中的平均得分.CartPole:在该游戏中,竖杆每坚持 1 个时间单位获得 1 分,当竖杆与垂直方向的倾斜角度大于 15 度时、车的水平位移超过中心位置 2.4 个单位或达到游戏的最高奖励值 500 分时,游戏结束.评价指标为实验组和对照组在训练到指定步数中的平均得分.GridWorld:在该游戏中,其得分具有上限和下限,对于实验组和对照组会收敛在同一分

50、数的算法,评价指标为实验组和对照组的得分稳定时所需要的游戏局数;对于实验组和对照组最后稳定在不同分数的算法,评价指标为实验组和对照组在训练到一定步数结束后所达到的对比效果.我们将显式知识推理应用在两类基准模型上进行实验测试,即基于价值的深度强化学习算法,包括 DQN,DoubleDQN,DuelingDQN,与基于策略的深度强化学习算法 A2C,DiscreteSAC,PPO 等.4.3 实验方法我们使用 Breakout、Pong、CartPole 和 GridWorld 作为实验测试环境.对于 Breakout 和 Pong 游戏,我们在基于价值的 DQN、DoubleDQN 和 Duel

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 知识推理深度强化学习结合动态决策

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。