基于SAC算法的移动机器人智能路径规划.pdf
《基于SAC算法的移动机器人智能路径规划.pdf》由会员分享,可在线阅读,更多相关《基于SAC算法的移动机器人智能路径规划.pdf(11页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023基于基于SAC算法的移动机器人智能路径规划算法的移动机器人智能路径规划杨来义1,毕敬1*,苑海涛2(1.北京工业大学 信息学部 软件学院,北京 100124;2.北京航空航天大学 自动化科学与电气工程学院,北京 100191)摘要摘要:为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,
2、路径规划表现差的问题。为使机器人快速躲避障碍物且到达目标,设计合理的奖励函数,使用动态的状态归一化和优先级经验技术。为评估该算法性能,构建基于Pygame的仿真环境。将所提算法与近端策略优化(proximal policy optimization,PPO)算法进行比较。实验结果表明:所提算法的累计奖励能够得到显著提高,并且具有更强的鲁棒性。关键词关键词:深度强化学习;路径规划;SAC(soft actor-critic)算法;连续奖励函数;移动机器人中图分类号:TP311.5 文献标志码:A 文章编号:1004-731X(2023)08-1726-11DOI:10.16182/j.issn1
3、004731x.joss.22-0412引用格式引用格式:杨来义,毕敬,苑海涛.基于SAC算法的移动机器人智能路径规划J.系统仿真学报,2023,35(8):1726-1736.Reference format:Yang Laiyi,Bi Jing,Yuan Haitao.Intelligent Path Planning for Mobile Robots Based on SAC AlgorithmJ.Journal of System Simulation,2023,35(8):1726-1736.Intelligent Path Planning for Mobile Robots B
4、ased on SAC AlgorithmYang Laiyi1,Bi Jing1*,Yuan Haitao2(1.School of Software Engineering in Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.School of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China)Abstract:Aiming at the
5、 high dimension,slow convergence and complex modelling of traditional path planning algorithms for mobile robots,a new intelligent path planning algorithm is proposed,which is based on deep reinforcement learning soft actor-critic(SAC)algorithm to save the poor performance of robot in complicated en
6、vironments with static and dynamic obstacles.An improved reward function is designed to enable mobile robots to quickly avoid obstacles and reach targets by using state dynamic normalization and priority experience pool techniques.To evaluate the performance,a pygame-based simulation environment is
7、constructed.Compared with proximal policy optimization(PPO)algorithm,experimental results show that the cumulative reward of the proposed method is much higher than that of PPO,and the more robust than PPO.Keywords:deep reinforcement learning;path planning;soft actor-critic algorithm;continuous rewa
8、rd functions;mobile robots收稿日期:2022-04-26 修回日期:2022-10-08基金项目:国家自然科学基金(62073005,62173013)第一作者:杨来义(1997-),男,硕士生,研究方向为深度学习、强化学习等。E-mail:通讯作者:毕敬(1979-),女,教授,博士,研究方向为计算智能、深度学习等。E-mail:第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法的移动机器人智能路径规划http:/www.china-0引言引言随着物联网、大数据和人工智能技术的发展,移动机器人被广泛应用于自动化
9、生产、采矿、家居服务、农业等领域。移动机器人的路径规划是指机器人躲避静态和动态障碍物的同时在环境中规划出一条从初始位置到目标位置的安全路径1-2。目前,移动机器人正朝着自学习、自适应的智能化目标发展。随着移动机器人被广泛使用,设计智能、精准、高效的路径规划算法,是迫切解决的任务之一3。研究者提出了许多算法以解决移动机器人的路径规划问题,其中,经典算法主要包括3种,分别为传统算法、图形学算法和仿生学智能算法4。具体如下:(1)传统算法主要包括模拟退火算法5、人工势场法6等。这一类算法虽然容易实现,但是其建模过程复杂,并且无法有效地使用先验知识和全局信息,在求解过程中容易陷入局部最优点从而无法得到
10、全局最优解。模拟退火算法虽然运行效率高、所需初始条件少,但其收敛速度缓慢,而且其参数的设置需要研究者具有较深的经验。人工势场法具有描述简单的特点,由于其极低的计算量,其求解速度特别快,但它的解通常为局部最优解。(2)图形学算法主要包括A*算法7等。相较于传统算法,这类算法建模简单,但因其较低的搜索效率难以得到广泛使用。A*算法适用于静态环境,难以应用于动态环境。(3)仿生学智能算法主要包括遗传算法8、蚁群算法9、粒子群优化算法10等。相较于图像学算法,这类算法拥有更高的搜索效率和学习能力。但需要研究者认真考虑具体参数之间的关系,才能使其得到最优解。此外,这类算法存在容易陷入局部最优点、收敛速度
11、慢等问题。上述路径规划算法的研究虽然取得了巨大的成功,但缺乏学习和感知环境的能力,无法处理复杂高维的环境信息,不适用动态变化的复杂环境,因此,这些算法在缺乏先验知识和动态环境下难以进行良好的路径规划。然而,强化学习算法不需要建立环境模型,不需要数据源,移动机器人通过与环境不断地进行交互,进行试错学习,直至其具备良好的路径规划能力。基于强化学习的路径规划算法11-12包括 Q 学习(Q-learning)13、SARSA(state action reward state action)14、深度 Q学习(DQN)15等。基于Q-learning、SARSA的路径规划算法解决了建模难、先验性知识
12、不足的问题,但无法处理高维度问题。DQN算法虽然解决了高维度的问题,但它仅局限于动作空间是离散的问题,无法解决动作空间是连续的问题。因此,有必要提出一种不依赖于先验知识,并且具有强鲁棒性和可用于连续型动作空间问题的算法。本文提出一种基于SAC(soft actor-critic)算法的移动机器人避障算法。1相关研究相关研究1.1 经典算法经典算法用于路径规划的经典算法有模拟退火算法、人工势场法、A*算法、遗传算法、粒子群优化算法等。陶重犇等16融合了遗传算法中的“优胜劣汰”思想,使用自定义的模拟退火系数和栅格系数,提出了改进的模拟退火算法,解决了模拟退火局部收敛问题。Liu等17提出了自适应的
13、双势场融合算法,解决了机器人在速度和障碍物不同的情况下的路径规划问题。实验结果表明,该算法具有良好的规划性能。蒙盾等18结合网络流模型,提出了改进的A*算法。该算法在代价值中加入路径人员密度和路径障碍物的影响,过滤了无效节点,采用邻接节点的遍历方式完成路径搜索,减少了运算时间,解决了传统A*算法路径规划中冗余点过多和无法适应上百条路径的大型场景规划问题。针对遗传算法路径规划容易陷入局部最优点的问题,徐力等19为提高算法的寻优能力,改变了算子的交叉概率和变异概率。仿真结果表明,现有算法在路径长度、收敛时间方面都弱于改进 1727第 35 卷第 8 期2023 年 8 月Vol.35 No.8Au
14、g.2023系统仿真学报Journal of System Simulationhttp:/www.china-后的算法。Qu等20提出新的遗传修改算子,使得改进后的遗传算法能有效地避免陷入局部最优点,提升了算法的收敛速度。鉴于蚁群算法存在容易取得局部最优解和低搜索效率的问题,Liu等21提出了自适应搜索步长和信息素挥发策略的改进算法。实验结果表明,该算法相较于传统的蚁群算法,收敛后的最小迭代次数降低了 43.97%和59.25%。Ajeil等22提出了一种衰老的蚁群优化算法解决静态环境下路径寻优的问题。实验结果表明,该算法与遗传算法和蚁群算法相比,规划的路径长度分别平均降低了18%和17%。
15、为了解决粒子群优化算法容易取得局部最优解的问题,罗阳阳等23设计了一种能够提高算法寻优能力的突变算子。实验结果表明,改进后的粒子群算法收敛速度提高了13.3%,其路径长度降低了6.5%。1.2 强化学习算法强化学习算法强化学习算法基于马尔可夫链决策过程,可以解决路径规划问题。传统蚁群算法、粒子群算法、遗传算法等往往忽视移动机器人与障碍物碰撞的可能性。由于这一类搜索算法需要仔细思考各参数之间的关系才能得到最优解,所以不够智能化。强化学习路径规划算法接收和处理传感器感知的环境状态信息,最终输出动作,能够实时和快速地对外界环境变化做出响应。Zou 等24将强化学习算法SARAS 和 快 速 探 索
16、随 机 树(rapidly exploring random tree,RRT)相结合,提出了基于强化学习(reinforcement learning,RL)的快速探索随机树(RL-RRT)算法。仿真结果表明,相比传统的快速探索随机树算法,该算法将其迭代次数减少504次,并且能够在复杂未知的环境中平稳到达目标。针对传统移动机器人路径规划建模难问题,Liao等25提出了基于模拟退火和SARAS的路径规划算法。仿真实验表明,该算法能够有效地规划出最优路径。Meerza等26提出了一种基于Q-Learning和PSO的路径规划算法,该算法在速度和精度上比单独使用这 2 种 算 法 在 性 能 上
17、更 优。Liu 等27为 解 决Q-Learning算法奖励函数过于稀疏的问题,将RRT算法和Q-Learning算法相结合,提高了移动机器人的搜索和避障能力。Yao等28结合Q-Learning算法和人工势场法,设计了合理有效的奖励函数,使得机器人即使缺少先验知识,也具有跳出局部最优点的能力。传统的强化学习算法适用于动作空间和状态空间维度较低的环境,难以适用于更接近实际情况的高维度环境。深度学习通过不断迭代学习、修改神经网络的权重,从而拥有十分强大的感知能力,能够处理数据量特别大的问题,但其缺乏一定的决策能力。深度强化学习结合了深度学习和强化学习的优势,在面对复杂环境和高维度任务时表现突出。
18、移动机器人可以借助深度强化学习技术实现自主学习和路径规划。与传统的A*算法相比,Zhou等29提出的基于DQN的路径规划算法搜索速度快了近100倍。针对DQN算法只能解决离散动作问题,Dong等30提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的路径规划算法,利用少量的先验知识加速了神经网络的收敛。Park等31提出基于近端策略优化(proximal policy optimization,PPO)的路径规划算法,该算法使用随机型策略解决探索的问题,而且其训练也较为稳定。但该算法在面对环境中有太多随机因素的时候表现不佳,比如在面对动
19、态障碍物的时候。为解决上述问题,本文提出了基于深度强化学习的SAC32避障算法,使机器人可以在无先验知识下,自主地以连续的数值躲避静态和动态障碍物,平稳地到达目标。本文设计了合理的奖励函数、使用状态归一化、优先级经验池技术,加快机器人到达目标的速度。2算法描述算法描述SAC算法结合了演员-评论家算法、最大熵模型和离线策略的优点。它以DDPG为基础,使用随机策略并引入最大策略熵来学习策略。与其他强化学习算法,如PPO和DDPG相比,在处理复杂任务上有3个优势:更强的探索能力。SAC 1728第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法
20、的移动机器人智能路径规划http:/www.china-可以控制最大熵目标分量与回报的比值,而这个比值与探索能力呈正相关,因此,机器人能够更容易在多个奖励函数的作用下找到更优解,从而避免了局部最优点。学到的策略能迁移到其他场景。通过最大熵的策略不只是学习到一种解决任务的方法,而是解决这类任务的方法。鲁棒性。因为该算法采用随机采样,在面对干扰时能够更容易做出调整。SAC算法为避免机器人陷入局部最优,为鼓励机器人进行探索,要求机器人同时最大化累计奖励和最大熵。机器人通过增加动作熵使其趋于探索状态,避免陷入局部最优点,并通过增加累计奖励使机器人朝着既定的目标前进。SAC算法的网络结构如图1所示。它具
21、有1个Actor网络、2个Critic网络和2个Critic目标网络。Actor网络接收输入的状态,输出动作空间概率分布的均值和方差;Critic网络用于对机器人在当前状态下采取的动作进行评估,目标网络用于对当前状态的评估;Actor网络输出的动作使得动作熵和Critic网络输出的动作价值变大,这表明采取的动作是一个较好的动作,使Critic目标网络对当前状态的价值评估值变大。(1)动作熵由图1中的流程可知,动作熵来源于Actor网络的输出,其计算公式为H(st+1)=-lg(at+1 st+1)(1)式中:at+1为环境状态st+1下Actor网络的动作输出;(at+1 st+1)为环境状态
22、st+1输出at+1的概率。由图1中的流程可知,目标网络的值估计包括了动作熵,其计算式为Qs(rst+1)=r+(V(st+1)=r+(Q(st+1at+1)+H(st+1)=r+(minj=1 2Qtj(st+1at+1)-lg(at+1st+1)(2)式中:V(st+1)为st+1的状态价值;r来自经验池;Qs(r st+1)为状态st+1下at+1动作价值的估计值;为奖励的衰减值;为熵的权重;tj为2个Critic目标网络的参数;minj=12Qtj(st+1 at+1)为取2个目标网络输出最小值,能够有效防止过高估计。(2)Critic网络由图1中的流程可知,SAC拥有2个与目标网络结
23、构一致的 Critic 网络。2 个网络的损失函数为L(i D)=E(st r st+1at)-D(Qi(st at)-Qs(st+1)2i12(3)式中:(st r st+1at)-D表示(st r st+1at)来自于经验池D;Qi(st at)是权重为i的网络对环境状态st+1下实施动作at的Q值估计。(3)Actor网络Actor网络的更新公式为maxEs-Dminj=12Qj(stat)-lg(atst)(4)式中:为Actor网络的权重;为熵的奖励系数,代表熵的重要程度。(4)Critic目标网络按照超参数更新各个Critic目标网络。具体更新公式为titi+(1-)i i1 2(
24、5)Critic1Critic2st+1atstActorat+1EntropyCriticTarget 1CriticTarget 2MinQs rCritic1Critic2Q1Q2Q12Q12ActorEntropyatMinUpdateUpdateUpdatePolicy Loss图1 SAC算法网络结构Fig.1 Network structure of SAC algorithm 1729第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-式中:ti为Cr
25、itic目标网络。算法1为SAC算法的伪代码,其中,Critic网络更新公式为:i 1|B|(Qi(st at)-Qs(r st+1)2i1 2(6)Actor网络的更新公式为 1|B|sB(minj=12Qi(st at)-lg(at st)(7)算法1:SAC算法初始化SAC算法参数、各网络参数和经验池 for 训练次数=1,2,X for 训练步数=1,2,Y 得到Actor网络的at跳转到st+1,从环境中获得r 将(st at st+1rt)保存到经验池 end for if 累计100 000个episode,更新 for 迭代次数=1,2,Z 从经验池采样一定数量的批次 B=(s
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SAC 算法 移动 机器人 智能 路径 规划
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。