显式知识推理和深度强化学习结合的动态决策.pdf
《显式知识推理和深度强化学习结合的动态决策.pdf》由会员分享,可在线阅读,更多相关《显式知识推理和深度强化学习结合的动态决策.pdf(15页珍藏版)》请在咨信网上搜索。
1、显式知识推理和深度强化学习结合的动态决策*张昊迪1,陈振浩1,陈俊扬1,周熠2,连德富3,伍楷舜1,林方真41(深圳大学计算机与软件学院,广东深圳518052)2(上海脑科学与类脑研究中心,上海200031)3(中国科学技术大学计算机科学与技术学院,安徽合肥230026)4(香港科技大学计算机科学与工程系,香港999077)通信作者:伍楷舜,E-mail:;林方真,E-mail:flincse.ust.hk摘要:近年来,深度强化学习在序列决策领域被广泛应用并且效果良好,尤其在具有高维输入、大规模状态空间的应用场景中优势明显.然而,深度强化学习相关方法也存在一些局限,如缺乏可解释性、初期训练低效
2、与冷启动等问题.针对这些问题,提出了一种基于显式知识推理和深度强化学习的动态决策框架,将显式的知识推理与深度强化学习结合.该框架通过显式知识表示将人类先验知识嵌入智能体训练中,让智能体在强化学习中获得知识推理结果的干预,以提高智能体的训练效率,并增加模型的可解释性.将显式知识分为两种,即启发式加速知识与规避式安全知识.前者在训练初期干预智能体决策,加快训练速度;而后者将避免智能体作出灾难性决策,使其训练过程更为稳定.实验表明,该决策框架在不同强化学习算法上、不同应用场景中明显提高了模型训练效率,并增加了模型的可解释性.关键词:知识表示与推理;可解释性;深度强化学习;动态序列决策中图法分类号:T
3、P18中文引用格式:张昊迪,陈振浩,陈俊扬,周熠,连德富,伍楷舜,林方真.显式知识推理和深度强化学习结合的动态决策.软件学报,2023,34(8):38213835.http:/ Decision Making Based on Explicit Knowledge Reasoning and Deep ReinforcementLearningZHANGHao-Di1,CHENZhen-Hao1,CHENJun-Yang1,ZHOUYi2,LIANDe-Fu3,WUKai-Shun1,LINFang-Zhen41(CollegeofComputerScienceandSoftwareEngi
4、neering,ShenzhenUniversity,Shenzhen518052,China)2(ShanghaiCenterforBrainScienceandBrain-inspiredTechnology,Shanghai200031,China)3(SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230026,China)4(DepartmentofComputerScienceandEngineering,HongKongUniversityofScienceandT
5、echnology,HongKong999077,China)Abstract:In recent years,deep reinforcement learning has been widely used in sequential decisions with positive effects,and it hasoutstandingadvantagesinapplicationscenarioswithhigh-dimensionalinputandlargestatespaces.However,deepreinforcementlearningfaces some limitat
6、ions such as a lack of interpretability,inefficient initial training,and a cold start.To address these issues,this studyproposes a dynamic decision framework combing explicit knowledge reasoning with deep reinforcement learning.The framework*基金项目:国家自然科学基金(61806132,U2001207,61872248);广东省自然科学基金(2017A0
7、30312008);深圳市自然科学基金(ZDSYS20190902092853047,R2020A045);珠江人才计划(2019ZT08X603);广东省普通高校创新团队项目(2019KCXTD005)本文由“智能系统的分析和验证”专题特约编辑明仲教授、张立军教授和秦胜潮教授推荐.收稿时间:2021-09-05;修改时间:2021-10-14;采用时间:2022-01-10;jos 在线出版时间:2022-01-28CNKI 网络首发时间:2023-01-19软件学报ISSN1000-9825,CODENRUXUEWE-mail:Journal of Software,2023,34(8):
8、38213835doi:10.13328/ki.jos.006593http:/中国科学院软件研究所版权所有.Tel:+86-10-62562563successfullyembedstheprioriknowledgeinintelligentagenttrainingviaexplicitknowledgerepresentationandgetstheagentintervenedby the knowledge reasoning results during the reinforcement learning,so as to improve the training effici
9、ency and the modelsinterpretability.The explicit knowledge in this study is categorized into two kinds,namely,heuristic acceleration knowledge and evasivesafety knowledge.The heuristic acceleration knowledge intervenes in the decision of the agent in the initial training to speed up thetraining,whil
10、etheevasivesafetyknowledgekeepstheagentfrommakingcatastrophicdecisionstokeepthetrainingprocessstable.Theexperimentalresultsshowthattheproposedframeworksignificantlyimprovesthetrainingefficiencyandthemodelsinterpretabilityunderdifferentapplicationscenariosandreinforcementlearningalgorithms.Key words:
11、knowledgerepresentationandreasoning;interpretability;deepreinforcementlearning(DRL);sequentialdecisionmaking深度强化学习(deepreinforcementlearning,DRL)1,2将深度神经网络和强化学习结合,近年来已被成功应用在诸多序列决策领域,尤其在如 AlphaGo、OpenAIFIve、Atari 等大规模状态空间的决策问题中优势明显.自 2013年深度 Q 网络(deepQ-network,DQN)被提出后,大量的深度强化学习算法与模型被相继提出,其中基于价值的强化学习
12、算法(例如 DQN1,2、DoubleDQN3和 DuelingDQN4)和基于策略的强化学习算法(例如 A3C5、PPO6和 SAC7等)都在决策领域表现出良好效果.然而,完全由数据驱动的深度强化学习方法也存在一些问题.首先,作为黑盒模型的深度强化学习方法缺乏可解释性,其方法的基本假设是领域任务相关的智能或知识可以被深度神经网络隐式地、分布式地表示.然而人类进行表示与推理的知识通常以显式方式呈现,如一阶逻辑、非单调推理、动作语言等.可解释性的缺失导致深度强化学习难以利用人类显式知识解决模型本身存在的问题,例如训练初期的冷启动与低效问题.深度神经网络往往需要大量的训练才能达到良好效果,而在智能
13、体与环境中的交互过程中,所获奖励驱动下的更新往往存在低效的问题.由于深度神经网络相关方法的黑盒特性,强化学习过程中在状态空间中的探索缺乏理论依据.尤其是训练初期,模型对于状态-动作奖励函数估计不准时,所做出的动作决策具有较大的随机性.因此,在训练稳定之前,智能体的这种随机探索很有可能作出不良动作,甚至灾难性的决策.此问题在机器学习领域被称为“冷启动”.对于在真实场景或仿真成本高昂的环境下训练的智能体,冷启动严重影响了深度强化学习方法的实用性.产生该问题的原因在于智能体缺乏对环境或任务的基本认知,而深度神经网络又不支持显式的知识表示,无法便捷地将这些基本认知嵌入网络模型中.为了解决这一问题,一些
14、模型与方法被相继提出.例如,有部分学者认为,人类学习一项新的技能或操作时最直接有效的途径就是模仿他人从而学习其中的知识.基于此观察而被提出的模仿学习8和演示学习9通过学习人类专业的演示动作,使智能体习得给定领域中的决策方法.然而在许多情况下,通过模仿学习和演示学习来学得知识的方式受限于以下 3 方面因素:(1)模型对于包含人类知识的训练数据质量要求极高;(2)训练数据获取成本极大,需要人类大量重复性的操作;(3)是在特定情况下人类无法作出演示.人们提出一些新的方法试图缓解以上问题,例如以动作序列代替单个动作作为训练数据,通过人类评价某一状态在所作出的决策10;人类根据自己的偏好对智能体所作出的
15、大量决策轨迹选出较优秀的一批轨迹11,12;智能体逐个实现人类制定的高层级目标13等.虽然以上方法一定程度上降低了训练数据的质量门槛和获取成本,但模型训练过程中仍需要大量的人工干预.本文针对深度强化学习中的缺乏可解释性与训练效率低的问题,提出了一种基于显式知识推理和深度强化学习的决策框架,以提高智能体的训练效率.本文中的显式知识可以是启发式的加速规则,对智能体在训练初期加以启发式的正向引导,以避免过多的无效探索;也可以是规避式的安全规则,避免智能体在训练过程中做出灾难性的动作.本文的基本假设是显式表达的知识对于模型设计者是直观的、易懂的,且符合人类逻辑.因此,通过将显式知识整合到深度强化学习模
16、型中,不仅使得智能体能够更快更好的进行学习,提高训练效率与效果,而且增加了深度强化学习模型的可解释性.本文的主要贡献包括如下 3 方面.(1)针对深度强化学习中的缺乏可解释性的问题,提出了一个知识推理与深度强化学习结合的决策框架,其中的显式知识推理增加了决策系统的可解释性.(2)在显式知识与深度神经网络的结合上,综合考虑知识生效机制的一般性需求,提出两种模式的显式知识,即启发式的加速知识与规避式的安全知识.前者有效地提高了训练初期模型表现,后者为模型训练提供安全性保障,有效地提高了模型的训练效率.3822软件学报2023 年第 34 卷第 8 期(3)在多种场景下,对多种深度强化学习算法进行了
17、实证研究.结果显示,该动态决策框架中显式知识的结合方式及效果具有一般性,不依赖于特定场景与特定算法.本文第 1 节介绍关于人类知识与深度强化学习相结合的相关工作以及本工作的研究动机与意义.第 2 节简要介绍本文工作的基础知识.第 3 节详细介绍了基于显式知识推理和深度强化学习的动态决策框架(KB-DRL),包括框架的特点、训练过程和技术细节.第 4 节讲述了所提的决策框架的实验环境、实验设计和分析结果.第 5 节则对本框架的研究分析得出最后总结,以及介绍未来的研究方向.1 相关工作自 2013 年 DQN1被提出后,深度强化学习受到了广泛关注.2015 年目标网络分离的 DQN2版本被提出.其
18、后很多变体模型相继出现,包括 DoubleDQN3、DuelingDQN4、C51DQN14、BootstrappedDQN15和 RainbowDQN16等.除了以上这些基于价值的深度强化学习算法,基于策略的相关算法,包括 DPG17、DDPG18、A3C5、TRPO19、PPO6和 SAC7等,也在不同领域与任务中表现出良好效果.然而这些深度强化学习算法在实际应用中都存在数据依赖和训练低效等问题,而且缺乏可解释性.怎样更好结合并利用抽象的、可解释的领域知识,成为近年来人工智能领域的研究热点.(st,at),(st+1,at+1),.部分学者关注于让模型在任务中模仿人类行为.当人类需要学习一
19、项新的技能或操作时,一种最直观高效的方式就是模仿其他人的演示,即从演示者对该任务或操作的理解与执行中进行直接模仿,是一种利用他人知识进行引导性学习的方式.例如,序列决策任务中端到端学习的模仿学习算法(imitationlearning)8可以让智能体直接模仿人类演示专家的行为从而获提高学习效率,即仅通过人类演示专家在应场景下的正确动作序列传递给智能体.模仿学习可以主要分为行为克隆算法(behavioralcloning)20和逆强化学习算法(inversereinforcementlearning)21两大类.行为克隆智能体通过监督学习直接模仿学习人类的策略;而逆强化学习智能体则可以根据人类的
20、演示估算出其中的奖励函数,再通过标准的强化学习算法进行学习.但模仿学习相关方法面临一个主要问题,即模仿学习算法对人类演示专家的演示数据质量要求极高.因为部分质量不达标的数据对智能体而言将可能是误导性的演示,而这种误导性的演示对学习过程的影响又难以矫正,因此高质量数据的制作成本非常大.此外,并非所有的场景都能由人类专家提供高质量的演示,如无人机一些复杂场景、陌生环境中的高难度飞行任务.一些工作提出的实时评价反馈的人类知识强化学习算法,能够在一定程度上缓解该问题.智能体根据环境做出决策,人类观察智能体在该环境下所作出的决策进行实时评价,给出反馈值,以表达对该决策的满意程度,智能体再根据反馈值优化模
21、型.其中对智能体的决策进行实时最优判断的相关的工作包括 PolicyShaping9,22,其简单直接地对智能体的决策进行评价对错,以表明是否做出最优决策.与 PolicyShaping 类似的 RewardShaping23则可以将人类的反馈直接作为奖励函数并直接代替原有的奖励函数,如,TAMER24将人类对某一状态下的动作分为 3 种评价,即负面、中立和正面评价,对应的人类奖励函数值为1,0 和 1.又如,DeepTAMER25加入了深度神经网络以估计人类对某状态对应动作的反馈值函数,相关的 TAMER 优秀衍生算法还有 TAMER+RL26和 DQN-TAMER27等.另一种整合人类知识
22、的方法是人为干预,即人类专家观察智能体的整个训练过程,当智能体决策出危险动作时,人类专家用一个安全动作去代替这个危险动作,以避免灾难性的后果发生,相关的工作有 HIRL28等.此类方法与 PolicyShaping 和 RewardShaping 的不同之处在于 HIRL 只有负反馈没有中立和正面反馈.当在智能体做出灾难性动作时,人类会做出安全动作以保护智能体,并传递给智能体一个新的奖励值.模型 HIRL 的另一个特性是人类决策可以直接被作用在实际决策动作上.但 HIRL 同样面临着高昂的人力成本问题,即使智能体做出灾难性动作的概率较低,但人类专家依然需要全程监测智能体的整个学习过程.另一个相
23、关的难题是,在许多深度强化学习的任务中,人类很难给出高质量的演示和精确的反馈值.而且由于任务智能体的动作形态和人类有可能有巨大差异,人类也无法给出高质量的演示数据.一种可行的解决方式是根据智能体的多组决策序列,人类专家根据各组决策序列的表现和自己的偏好选出较优的决策序列11,12.层次化深度学习是另一类整合人类知识的方法.例如,在一些过于复杂的问题中,尤其是带有大量延时奖励的张昊迪等:显式知识推理和深度强化学习结合的动态决策3823任务中,部分强化学习方法可能无法学得一个较为合理的策略.而在分层指导框架13中,人类专家可以提前将复杂任务划分为多个子目标.高层决策模块可以根据当前状态,选出一个子
24、目标;底层决策模块则根据当前状态与可执行的原子动作来实现当前子目标.当前子目标完成后,高层决策模块再选出新的子目标,直至整体任务被完成.这种分层学习方法在一些涉及复杂规划、延时奖励的任务中可以提高学习效率,例如一个机器人要学会从高层楼下电梯,则需要分为先移动到电梯旁、按下电梯按钮、进入电梯和离开电梯这几个步骤,人类通过为智能体提前制定好所需的子目标,可以快速提高智能体的学习效率.此类方法基于知识表示与推理领域相关知识描述语言为基础,如动作语言 BC29、BC+30等,以及被广泛应用的非单调推理工具回答集编程 ASP31、NeurASP32.然而此类方法的局限性也显而易见,即子任务划分需要人类专
25、家手动完成;而在很多场景中,任务划分带来高昂的人力成本.今年来也有很多工作在结合深度神经网络与符号化方法上进行尝试,包括神经产生系统(neuralproductionsystem)33,不确定性动作语言34,35等.2 基础知识本文所提方法主要基于深度强化学习与非单调推理,以下介绍相关概念和基本知识.2.1 深度强化学习statatrtst+1at+1强化学习的基本思想是智能体在与环境的交互过程中迭代地学习最优决策.强化学习智能体与环境的交互示意图如图 1.智能体接收从环境中获得的环境状态,再根据该环境状态决策出动作,动作作用于环境后获得奖励值;在下一时刻环境发生变化,智能体感知新的环境状态,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 推理 深度 强化 学习 结合 动态 决策
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。