分销赏收藏举报申诉 / 11

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于SAC算法的移动机器人智能路径规划.pdf

基于SAC算法的移动机器人智能路径规划.pdf

上传人：自信****多点

文档编号：636689

上传时间：2024-01-21

格式：PDF

页数：11

大小：9.02MB

《基于SAC算法的移动机器人智能路径规划.pdf》由会员分享，可在线阅读，更多相关《基于SAC算法的移动机器人智能路径规划.pdf（11页珍藏版）》请在咨信网上搜索。

1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023基于基于SAC算法的移动机器人智能路径规划算法的移动机器人智能路径规划杨来义1，毕敬1*，苑海涛2(1.北京工业大学信息学部软件学院，北京 100124；2.北京航空航天大学自动化科学与电气工程学院，北京 100191)摘要摘要：为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题，提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法，旨在解决机器人面对具有静态和动态障碍物的复杂环境时，

2、路径规划表现差的问题。为使机器人快速躲避障碍物且到达目标，设计合理的奖励函数，使用动态的状态归一化和优先级经验技术。为评估该算法性能，构建基于Pygame的仿真环境。将所提算法与近端策略优化(proximal policy optimization，PPO)算法进行比较。实验结果表明：所提算法的累计奖励能够得到显著提高，并且具有更强的鲁棒性。关键词关键词：深度强化学习；路径规划；SAC(soft actor-critic)算法；连续奖励函数；移动机器人中图分类号：TP311.5 文献标志码：A 文章编号：1004-731X(2023)08-1726-11DOI:10.16182/j.issn1

3、004731x.joss.22-0412引用格式引用格式:杨来义,毕敬,苑海涛.基于SAC算法的移动机器人智能路径规划J.系统仿真学报,2023,35(8):1726-1736.Reference format:Yang Laiyi,Bi Jing,Yuan Haitao.Intelligent Path Planning for Mobile Robots Based on SAC AlgorithmJ.Journal of System Simulation,2023,35(8):1726-1736.Intelligent Path Planning for Mobile Robots B

4、ased on SAC AlgorithmYang Laiyi1,Bi Jing1*,Yuan Haitao2(1.School of Software Engineering in Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.School of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China)Abstract:Aiming at the

5、 high dimension,slow convergence and complex modelling of traditional path planning algorithms for mobile robots,a new intelligent path planning algorithm is proposed,which is based on deep reinforcement learning soft actor-critic(SAC)algorithm to save the poor performance of robot in complicated en

6、vironments with static and dynamic obstacles.An improved reward function is designed to enable mobile robots to quickly avoid obstacles and reach targets by using state dynamic normalization and priority experience pool techniques.To evaluate the performance,a pygame-based simulation environment is

7、constructed.Compared with proximal policy optimization(PPO)algorithm,experimental results show that the cumulative reward of the proposed method is much higher than that of PPO,and the more robust than PPO.Keywords:deep reinforcement learning;path planning;soft actor-critic algorithm;continuous rewa

8、rd functions;mobile robots收稿日期：2022-04-26 修回日期：2022-10-08基金项目：国家自然科学基金(62073005，62173013)第一作者：杨来义(1997-)，男，硕士生，研究方向为深度学习、强化学习等。E-mail：通讯作者：毕敬(1979-)，女，教授，博士，研究方向为计算智能、深度学习等。E-mail：第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法的移动机器人智能路径规划http:/www.china-0引言引言随着物联网、大数据和人工智能技术的发展，移动机器人被广泛应用于自动化

9、生产、采矿、家居服务、农业等领域。移动机器人的路径规划是指机器人躲避静态和动态障碍物的同时在环境中规划出一条从初始位置到目标位置的安全路径1-2。目前，移动机器人正朝着自学习、自适应的智能化目标发展。随着移动机器人被广泛使用，设计智能、精准、高效的路径规划算法，是迫切解决的任务之一3。研究者提出了许多算法以解决移动机器人的路径规划问题，其中，经典算法主要包括3种，分别为传统算法、图形学算法和仿生学智能算法4。具体如下：(1)传统算法主要包括模拟退火算法5、人工势场法6等。这一类算法虽然容易实现，但是其建模过程复杂，并且无法有效地使用先验知识和全局信息，在求解过程中容易陷入局部最优点从而无法得到

10、全局最优解。模拟退火算法虽然运行效率高、所需初始条件少，但其收敛速度缓慢，而且其参数的设置需要研究者具有较深的经验。人工势场法具有描述简单的特点，由于其极低的计算量，其求解速度特别快，但它的解通常为局部最优解。(2)图形学算法主要包括A*算法7等。相较于传统算法，这类算法建模简单，但因其较低的搜索效率难以得到广泛使用。A*算法适用于静态环境，难以应用于动态环境。(3)仿生学智能算法主要包括遗传算法8、蚁群算法9、粒子群优化算法10等。相较于图像学算法，这类算法拥有更高的搜索效率和学习能力。但需要研究者认真考虑具体参数之间的关系，才能使其得到最优解。此外，这类算法存在容易陷入局部最优点、收敛速度

11、慢等问题。上述路径规划算法的研究虽然取得了巨大的成功，但缺乏学习和感知环境的能力，无法处理复杂高维的环境信息，不适用动态变化的复杂环境，因此，这些算法在缺乏先验知识和动态环境下难以进行良好的路径规划。然而，强化学习算法不需要建立环境模型，不需要数据源，移动机器人通过与环境不断地进行交互，进行试错学习，直至其具备良好的路径规划能力。基于强化学习的路径规划算法11-12包括 Q 学习(Q-learning)13、SARSA(state action reward state action)14、深度 Q学习(DQN)15等。基于Q-learning、SARSA的路径规划算法解决了建模难、先验性知识

12、不足的问题，但无法处理高维度问题。DQN算法虽然解决了高维度的问题，但它仅局限于动作空间是离散的问题，无法解决动作空间是连续的问题。因此，有必要提出一种不依赖于先验知识，并且具有强鲁棒性和可用于连续型动作空间问题的算法。本文提出一种基于SAC(soft actor-critic)算法的移动机器人避障算法。1相关研究相关研究1.1 经典算法经典算法用于路径规划的经典算法有模拟退火算法、人工势场法、A*算法、遗传算法、粒子群优化算法等。陶重犇等16融合了遗传算法中的“优胜劣汰”思想，使用自定义的模拟退火系数和栅格系数，提出了改进的模拟退火算法，解决了模拟退火局部收敛问题。Liu等17提出了自适应的

13、双势场融合算法，解决了机器人在速度和障碍物不同的情况下的路径规划问题。实验结果表明，该算法具有良好的规划性能。蒙盾等18结合网络流模型，提出了改进的A*算法。该算法在代价值中加入路径人员密度和路径障碍物的影响，过滤了无效节点，采用邻接节点的遍历方式完成路径搜索，减少了运算时间，解决了传统A*算法路径规划中冗余点过多和无法适应上百条路径的大型场景规划问题。针对遗传算法路径规划容易陷入局部最优点的问题，徐力等19为提高算法的寻优能力，改变了算子的交叉概率和变异概率。仿真结果表明，现有算法在路径长度、收敛时间方面都弱于改进 1727第 35 卷第 8 期2023 年 8 月Vol.35 No.8Au

14、g.2023系统仿真学报Journal of System Simulationhttp:/www.china-后的算法。Qu等20提出新的遗传修改算子，使得改进后的遗传算法能有效地避免陷入局部最优点，提升了算法的收敛速度。鉴于蚁群算法存在容易取得局部最优解和低搜索效率的问题，Liu等21提出了自适应搜索步长和信息素挥发策略的改进算法。实验结果表明，该算法相较于传统的蚁群算法，收敛后的最小迭代次数降低了 43.97%和59.25%。Ajeil等22提出了一种衰老的蚁群优化算法解决静态环境下路径寻优的问题。实验结果表明，该算法与遗传算法和蚁群算法相比，规划的路径长度分别平均降低了18%和17%。

15、为了解决粒子群优化算法容易取得局部最优解的问题，罗阳阳等23设计了一种能够提高算法寻优能力的突变算子。实验结果表明，改进后的粒子群算法收敛速度提高了13.3%，其路径长度降低了6.5%。1.2 强化学习算法强化学习算法强化学习算法基于马尔可夫链决策过程，可以解决路径规划问题。传统蚁群算法、粒子群算法、遗传算法等往往忽视移动机器人与障碍物碰撞的可能性。由于这一类搜索算法需要仔细思考各参数之间的关系才能得到最优解，所以不够智能化。强化学习路径规划算法接收和处理传感器感知的环境状态信息，最终输出动作，能够实时和快速地对外界环境变化做出响应。Zou 等24将强化学习算法SARAS 和快速探索

16、随机树(rapidly exploring random tree,RRT)相结合，提出了基于强化学习(reinforcement learning,RL)的快速探索随机树(RL-RRT)算法。仿真结果表明，相比传统的快速探索随机树算法，该算法将其迭代次数减少504次，并且能够在复杂未知的环境中平稳到达目标。针对传统移动机器人路径规划建模难问题，Liao等25提出了基于模拟退火和SARAS的路径规划算法。仿真实验表明，该算法能够有效地规划出最优路径。Meerza等26提出了一种基于Q-Learning和PSO的路径规划算法，该算法在速度和精度上比单独使用这 2 种算法在性能上

17、更优。Liu 等27为解决Q-Learning算法奖励函数过于稀疏的问题，将RRT算法和Q-Learning算法相结合，提高了移动机器人的搜索和避障能力。Yao等28结合Q-Learning算法和人工势场法，设计了合理有效的奖励函数，使得机器人即使缺少先验知识，也具有跳出局部最优点的能力。传统的强化学习算法适用于动作空间和状态空间维度较低的环境，难以适用于更接近实际情况的高维度环境。深度学习通过不断迭代学习、修改神经网络的权重，从而拥有十分强大的感知能力，能够处理数据量特别大的问题，但其缺乏一定的决策能力。深度强化学习结合了深度学习和强化学习的优势，在面对复杂环境和高维度任务时表现突出。

18、移动机器人可以借助深度强化学习技术实现自主学习和路径规划。与传统的A*算法相比，Zhou等29提出的基于DQN的路径规划算法搜索速度快了近100倍。针对DQN算法只能解决离散动作问题，Dong等30提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的路径规划算法，利用少量的先验知识加速了神经网络的收敛。Park等31提出基于近端策略优化(proximal policy optimization,PPO)的路径规划算法，该算法使用随机型策略解决探索的问题，而且其训练也较为稳定。但该算法在面对环境中有太多随机因素的时候表现不佳，比如在面对动

19、态障碍物的时候。为解决上述问题，本文提出了基于深度强化学习的SAC32避障算法，使机器人可以在无先验知识下，自主地以连续的数值躲避静态和动态障碍物，平稳地到达目标。本文设计了合理的奖励函数、使用状态归一化、优先级经验池技术，加快机器人到达目标的速度。2算法描述算法描述SAC算法结合了演员-评论家算法、最大熵模型和离线策略的优点。它以DDPG为基础，使用随机策略并引入最大策略熵来学习策略。与其他强化学习算法，如PPO和DDPG相比，在处理复杂任务上有3个优势：更强的探索能力。SAC 1728第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法

20、的移动机器人智能路径规划http:/www.china-可以控制最大熵目标分量与回报的比值，而这个比值与探索能力呈正相关，因此，机器人能够更容易在多个奖励函数的作用下找到更优解，从而避免了局部最优点。学到的策略能迁移到其他场景。通过最大熵的策略不只是学习到一种解决任务的方法，而是解决这类任务的方法。鲁棒性。因为该算法采用随机采样，在面对干扰时能够更容易做出调整。SAC算法为避免机器人陷入局部最优，为鼓励机器人进行探索，要求机器人同时最大化累计奖励和最大熵。机器人通过增加动作熵使其趋于探索状态，避免陷入局部最优点，并通过增加累计奖励使机器人朝着既定的目标前进。SAC算法的网络结构如图1所示。它具

21、有1个Actor网络、2个Critic网络和2个Critic目标网络。Actor网络接收输入的状态，输出动作空间概率分布的均值和方差；Critic网络用于对机器人在当前状态下采取的动作进行评估，目标网络用于对当前状态的评估；Actor网络输出的动作使得动作熵和Critic网络输出的动作价值变大，这表明采取的动作是一个较好的动作，使Critic目标网络对当前状态的价值评估值变大。(1)动作熵由图1中的流程可知，动作熵来源于Actor网络的输出，其计算公式为H(st+1)=-lg(at+1 st+1)(1)式中：at+1为环境状态st+1下Actor网络的动作输出；(at+1 st+1)为环境状态

22、st+1输出at+1的概率。由图1中的流程可知，目标网络的值估计包括了动作熵，其计算式为Qs(rst+1)=r+(V(st+1)=r+(Q(st+1at+1)+H(st+1)=r+(minj=1 2Qtj(st+1at+1)-lg(at+1st+1)(2)式中：V(st+1)为st+1的状态价值；r来自经验池；Qs(r st+1)为状态st+1下at+1动作价值的估计值；为奖励的衰减值；为熵的权重；tj为2个Critic目标网络的参数；minj=12Qtj(st+1 at+1)为取2个目标网络输出最小值，能够有效防止过高估计。(2)Critic网络由图1中的流程可知，SAC拥有2个与目标网络结

23、构一致的 Critic 网络。2 个网络的损失函数为L(i D)=E(st r st+1at)-D(Qi(st at)-Qs(st+1)2i12(3)式中：(st r st+1at)-D表示(st r st+1at)来自于经验池D；Qi(st at)是权重为i的网络对环境状态st+1下实施动作at的Q值估计。(3)Actor网络Actor网络的更新公式为maxEs-Dminj=12Qj(stat)-lg(atst)(4)式中：为Actor网络的权重；为熵的奖励系数，代表熵的重要程度。(4)Critic目标网络按照超参数更新各个Critic目标网络。具体更新公式为titi+(1-)i i1 2(

24、5)Critic1Critic2st+1atstActorat+1EntropyCriticTarget 1CriticTarget 2MinQs rCritic1Critic2Q1Q2Q12Q12ActorEntropyatMinUpdateUpdateUpdatePolicy Loss图1 SAC算法网络结构Fig.1 Network structure of SAC algorithm 1729第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-式中：ti为Cr

25、itic目标网络。算法1为SAC算法的伪代码，其中，Critic网络更新公式为：i 1|B|(Qi(st at)-Qs(r st+1)2i1 2(6)Actor网络的更新公式为 1|B|sB(minj=12Qi(st at)-lg(at st)(7)算法1：SAC算法初始化SAC算法参数、各网络参数和经验池 for 训练次数=1,2,X for 训练步数=1,2,Y 得到Actor网络的at跳转到st+1，从环境中获得r 将(st at st+1rt)保存到经验池 end for if 累计100 000个episode，更新 for 迭代次数=1,2,Z 从经验池采样一定数量的批次 B=(s

26、tatst+1rt)根据式(2)计算Critic目标网络的Q 根据式(6)更新Critic权重根据式(7)更新Actor权重根据式(5)更新Critic目标网络权重 end for end forend forSAC算法的大致过程可以描述如下：SAC算法将当前机器人的状态st输入到 Actor 网络中，Actor网络根据输入的状态得到高斯分布的均值和方差，按照概率分布采样输出动作at，移动机器人执行动作at，获取奖励rt，状态变为st+1，将当前产生的经验(st at st+1rt)放入经验池中。当经验达到一定的数量时，从经验池中采样出一批经验，根据式(2)计算出2个Critic目标网络平

27、均价值的最小值，根据式(6)更新2个Critic网络，根据式(7)更新 Actor 网络，根据式(5)更新 Critic 目标网络。重复以上过程直至收敛。3系统模型构建系统模型构建3.1 强化学习环境三要素强化学习环境三要素(1)状态在马尔可夫决策过程中，状态信息代表机器人所感知到的环境信息和动态变化，是深度强化学习算法生成决策和评估累计收益的依据。状态空间设计的质量直接决定深度强化学习算法的收敛速度和最终性能。本文环境状态信息包括移动机器人和动态障碍物实时的位置信息、速度大小、速度方向，静态障碍物的位置信息，以及目标的位置信息。本文将状态信息定义为机器人的位置信息、机器人到目标和各障碍物的距

28、离矢量、机器人和动态障碍物的速度矢量。这样将障碍物的绝对信息转化为机器人的相对信息，减少了神经网络的维度，并加速了网络训练、提高了网络的可迁移性。状态的具体定义为s=lagent dobstacle dtarget vagent vobstacle(8)式中：lagent为机器人的位置向量；dobstacle为障碍物相对于机器人的距离向量；dtarget为目标相对于机器人的距离矢量；vagent为机器人的移动速度；vobstacle为移动障碍物的移动速度。(2)动作空间传统的强化学习路径规划算法通常把连续的动作空间转化为离散的动作空间，把360方向分为东、西、南、北4个方向，与实际情况相差较大

29、。本文将动作空间设为连续性变量，具体包括动作、速度和方向，使机器人可以朝着360内的任意方向行走，更符合实际情况。具体定义为a=v d、v0 10、d0，其中，a 表示动作矢量；v表示速度的大小；d表示速度的方向。(3)奖励函数奖励函数设计是环境设计最重要环节33-35。强化学习算法学习过程的本质是在奖励函数引导下的神经网络训练。奖励函数的设计决定机器人能 1730第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法的移动机器人智能路径规划http:/www.china-否学习到预期策略，并直接影响深度强化学习算法的收敛速度和最终性能。本文

30、将机器人到达目标的奖励设计为主要奖励。而奖励空间是稀疏的，机器人会因缺乏反馈信号而学习困难，甚至无法到达目标。因此，本文在主要奖励的基础上增加了其他奖励项或者惩罚项，使奖励函数变得稠密的同时引导机器人在环境中更加高效地探索，从而加快算法的收敛。其中，奖赏信号为标量，正值表示奖励，负值表示惩罚。本文奖励函数具体为rtotal=r1+r2+r3+r4(9)其中，r1、r2、r3、r4的定义如下。1)为激励机器人学习正确的角度，机器人的速度方向应该与机器人与目标距离矢量方向一致。本文使用连续型奖励函数：r1=cos(lvector v)(10)式中：lvector为以机器人位置为起点，目标位置为终点

31、的向量；v为机器人速度的水平分速度和垂直分速度组成的向量。2)为鼓励机器人迅速到达目标，当机器人向目标靠近时，机器人应得到一个正向的奖励值，当机器人远离目标时，环境应给予机器人惩罚。本文将该奖励函数设计为r2=-d5000.4+1.0+dpre-0.95d24(11)式中：dpre为上一次机器人与目标的距离；d为本次机器人与目标的距离。3)在行驶过程中，当机器人发现前方有障碍物时，应积极地调整方向，以防与障碍物相撞。本文借鉴人工势场法中的势能函数，如果机器人发现前方5 m的范围内有障碍物，环境将给予负反馈-1，对机器人前行进行惩罚。如果机器人上次在危险区内，但目前在安全区内，环境将给予机器人正

32、反馈0.5，从而鼓励机器人远离危险区域。因此，本文将该奖励函数设计为r3=-1 0.5(12)4)本文终止情况分为3种：机器人到达目标、机器人与障碍物相撞、机器人到达边界。本文将该奖励值设置为r4=-5 d12-6 d22100 d32(13)式中：d1为机器人与障碍物距离小于2 m；d2为机器人与边界距离小于2 m；d3为机器人与目标距离小于2 m，表示机器人成功到达目标。3.2 仿真环境仿真环境为验证该算法的性能，本文基于Pygame库创建了避障的仿真实验环境，如图2所示。仿真地图为400 m400 m大小，其中，红色的方块代表机器人，蓝色方块代表静态障碍物，白色方块代表移动障碍物，黄色方

33、块代表目标。3.3 训练环境及参数训练环境及参数(1)训练环境本文使用RLlib训练库对算法进行训练。它是用于强化学习的开源库，其最底层的分布式计算任务由Ray引擎支撑，为各种应用提供了统一的应用程序接口和高可伸缩性。本文网络为 256256256的全连接层。激活函数为tanh，使得动作空间可以对称到-1 和 1 之间。训练环境为Ubuntu116，CPU 信息为 Intel Xeon(R)CPU E5-2650 v42.20 GHz。图2 仿真环境Fig.2 Simulation environment 1731第 35 卷第 8 期2023 年 8 月Vol.35 N

34、o.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-(2)主要参数设置SAC算法的相关参数，如表1所示。本文重点考虑未来20步内的奖励值，故折扣因子设置为0.95，学习率设置为0.000 3，训练批次大小设置为256个，每次迭代的步长设置为1 000步，温度系数设置为0.005，探索函数选取随机采样。4实验结果实验结果机器人每次迭代的最大累计奖励值如图3所示。机器人通过不断学习来提高环境给予的奖励值，从而获得最大的奖励值。因此，奖励值越大，表明机器人学习的效果越好，规划路径的能力越强。由图3可知，SAC和PPO的最大奖励值呈

35、逐渐增加的趋势。SAC算法经过大约40次迭代后，奖励值就高于800，这表明机器人已经学习到一个较好的策略。PPO算法的奖励值虽然呈逐渐上升的趋势，但它的波动比SAC算法大。更重要的是PPO最大奖励值在600左右，而SAC的却高达820。所以，SAC算法学习到的策略比PPO学习到的策略好。每一次迭代的平均奖励最能反映出算法的稳定性，机器人平均奖励如图4所示。对比可知，SAC算法的平均奖励呈平稳的上升趋势，而PPO算法却具有较强的波动性。这表明，SAC算法很好地平衡了探索过程和经验的利用过程，没有丢失具有较高奖励值的经验。同样地，与PPO算法相比，SAC 算法拥有更大的平均奖励。因此，SAC算法拥

36、有更强的鲁棒性。图5是SAC和PPO算法最小的累计奖励值，这表示算法最差的学习效果。由图5可知，在大部分时间内，SAC算法最小奖励也大于PPO算法。所以就两者最差的效果而言，SAC也强于PPO算法。综合考虑速度、角度和步数等因素，SAC算法也优于PPO。角度表示机器人运动方向与机器人到目标的方向的夹角。角度的学习也可以体现出算法的学习效果。由图6可知，SAC算法学习到的角度大约在 0.4 左右，而 PPO 在 0.8 左右。可以看出，SAC算法学习比较平稳，比PPO能更快速地学习到正确的方向。表1SAC算法相关的参数Table 1SAC algorithm-related parameters

37、参数折扣因子学习率训练批次大小每次迭代的步长经验池大小温度系数初始值梯度步数探索函数取值0.950.000 32561 0001070.00511随机采样迭代次数 100 200 300 400 500 600 700 800 9009008007006005004003002001000最大奖励值SACPPO图3 SAC和PPO的最大奖励值Fig.3 Maximum reward values for SAC and PPO迭代次数 100 200 300 400 500 600 700 800 9009008007006005004003002001000平均奖励值SACPPO图4 SAC

38、和PPO的平均奖励值Fig.4 Average reward values for SAC and PPO 1732第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法的移动机器人智能路径规划http:/www.china-结合图7和8可知，SAC和PPO算法学习速度都是逐渐变小。其中，SAC算法学习到的速度更小，大约在1.5 m/步，而PPO算法学习到的速度大约在4 m/步，这导致SAC算法需要花费更多的步数才能够到达目标。但由图6和7可知，SAC算法学习到的策略比PPO算法更稳定。为了验证SAC算法和PPO算法在路径规划中的效果，本文工

39、作进行了100次实验，结果如表2所示。SAC算法训练的机器人能成功到达目标94次，平均步数为342.63，平均路径长度为726.38 m。而PPO算法训练的机器人仅有71次能到达目标，虽然平均步数比SAC算法少了41.34步，但是平均路径长度比SAC多了346.55 m，证明了SAC算法的路径规划效果比PPO好。最大的累计奖励反映了算法学习的最好效果。由图9可知，状态归一化和优先级经验对算法的学习效果影响较大。在最开始的20次迭代里，未使用状态归一化和优先级经验的SAC_UN算法最大累计奖励出现了波动，后来才逐渐地上升。而使用了状态归一化和优先级经验后的SAC算法，使状态向量为正态分布并且经验

40、具有权值，所以取得了较好的学习效果。即从最开始就逐渐上升，直到第 200 次左右时迭代才出现了较大的波动。迭代次数0 100 200 300 400 500 600 700 800 9008007006005004003002001000-100最小奖励值SACPPO图5 SAC和PPO最小奖励值Fig.5 Minimum reward values for SAC and PPOSACPPO迭代次数0 100 200 300 400 500 600 700 800 9001.61.41.21.00.80.60.40.2角度图6 SAC和PPO角度Fig.6 Angles for SAC an

41、d PPO1086420迭代次数 100 200 300 400 500 600 700 800 900SACPPO平均移动步长/(m/步)图7 SAC和PPO速度Fig.7 Speeds for SAC and PPOSACPPO迭代次数 100 200 300 400 500 600 700 800 9005004003002001000步数图8 SAC和PPO步数Fig.8 Steps for SAC and PPO表2SAC和PPO结果对比Table 2Comparison of SAC and PPO results指标到达率/%平均步数平均路径长度/mSAC94342.63726.

42、38PPO71301.291072.93 1733第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-因此，使用状态归一化和优先级经验的SAC算法学习到的策略比未使用加速技巧的SAC_UN算法要好。5结论结论本文提出在具有静态和动态障碍物的复杂环境下，基于SAC算法开展移动机器人的路径规划问题，机器人能够在无先验知识下自主地执行连续数值的动作，躲避静态和动态障碍物，最终安全到达目标点。相较于DQN算法，本文设计的算法更加符合复杂的环境和移动机器人特点。本文构建了基于P

43、ygame的仿真环境，将障碍物分为静态和动态2大类，在此基础上，考虑了碰撞、转向等情况，结合人工势场法的势能函数，设计了合理的奖励函数以引导机器人通过自主学习成功到达目标。为加快训练速度，采用优先级经验池和动态的状态归一化技术。综上所述，使用本文设计的基于SAC算法训练出的移动机器人路径规划性能表现的更为优异。未来需要开展的研究工作如下：首先，本文工作目前设计的算法没有充分考虑移动机器人的加速度、环境的摩擦力等现实因素。其次，如果采取卷积神经网络代替全连接网络作为训练网络，尽管训练代价较大，但预计取得的效果会更好。再次，尝试多种算法融合，比如在奖励函数设置时，引入随机型智能算法的预测值，作为奖

44、励的偏置项等。参考文献参考文献：1朱大奇,颜明重.移动机器人路径规划技术综述J.控制与决策,2010,25(7):961-967.Zhu Daqi,Yan Mingzhong.Survey on Technology of Mobile Robot Path PlanningJ.Control and Decision,2010,25(7):961-967.2黄晓冬,苑海涛,毕敬,等.基于DQN的海战场舰船路径规划及仿真J.系统仿真学报,2021,33(10):2440-2448.Huang Xiaodong,Yuan Haitao,Bi Jing,et al.DQN-Based Path P

45、lanning Method and Simulation for Submarine and Warship in Naval BattlefieldJ.Journal of System Simulation,2021,33(10):2440-2448.3Gasparetto A,Boscariol P,Lanzutti A,et al.Path Planning and Trajectory Planning Algorithms:A General OverviewM/Carbone G,Gomez-Bravo F.Motion and Operation Planning of Ro

46、botic Systems:Background and Practical Approaches.Cham:Springer International Publishing,2015:3-27.4张捍东,郑睿,岑豫皖.移动机器人路径规划技术的现状与展望J.系统仿真学报,2005,17(2):439-443.Zhang Handong,Zheng Rui,Cen Yuwan.Present Situation and Future Development of Mobile Robot Path Planning TechnologyJ.Journal of System Simulatio

47、n,2005,17(2):439-443.5Tavares R S,Martins T C,Tsuzuki M S G.Simulated Annealing With Adaptive Neighborhood:A Case Study in Off-line Robot Path PlanningJ.Expert Systems With Applications,2011,38(4):2951-2965.6Liu Yuecheng,Zhao Yongjia.A Virtual-waypoint Based Artificial Potential Field Method for UAV

48、 Path PlanningC/2016 IEEE Chinese Guidance,Navigation and Control Conference(CGNCC).Piscataway,NJ,USA:IEEE,2016:949-953.7Le A V,Prabakaran V,Sivanantham V,et al.Modified A-star Algorithm for Efficient Coverage Path Planning in Tetris Inspired Self-reconfigurable Robot With Integrated Laser SensorJ.S

49、ensors,2018,18(8):2585.8邓学强.基于改进人工势场法的移动机器人路径规划J.山东理工大学学报(自然科学版),2014,28(1):38-41.Deng Xueqiang.Path Planning of Mobile Robot Based on Modified Artificial Potential Field MethodJ.Journal of Shandong University of Technology(Natural Science Edition),2014,28(1):38-41.9Rashid R,Perumal N,Elamvazuthi I,

50、et al.Mobile Robot SACSAC_UN迭代次数0 100 200 300 400 500 600 700 800 900900800700600500400300200100最大奖励值图9 SAC和SAC_UN最大奖励值Fig.9 Maximum reward values for SAC and SAC_UN 1734第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023杨来义,等:基于SAC算法的移动机器人智能路径规划http:/www.china-Path Planning Using Ant Colony OptimizationC/2016

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 SAC 算法移动机器人智能路径规划

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。