基于DPPO的移动采摘机器人避障路径规划及仿真.pdf
《基于DPPO的移动采摘机器人避障路径规划及仿真.pdf》由会员分享,可在线阅读,更多相关《基于DPPO的移动采摘机器人避障路径规划及仿真.pdf(13页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023基于基于DPPO的移动采摘机器人避障路径规划及仿真的移动采摘机器人避障路径规划及仿真林俊强1,王红军1*,邹湘军1,2,张坡1,李承恩1,周益鹏3,姚书杰1(1.华南农业大学 工程学院,广东 广州 510642;2.佛山市中科农业机器人与智慧农业创新研究院,广东 佛山 528200;3.宁波大学 海运学院,浙江 宁波 315211)摘要摘要:针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题,提出一种基于深度
2、强化学习的自主避障路径规划方法。设定状态空间和动作空间,借助人工势场法设计奖励函数的思想,提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法,提高自主避碰能力。构建了虚拟仿真系统,使用分布式近端策略优化算法(distributed proximal policy optimization,DPPO)完成了移动采摘机器人的学习训练并进行实验验证。仿真结果表明:本系统能够快速、稳定的控制虚拟移动采摘机器人自主避障,获得更优的作业路径,为采摘机器人自主导航提供理论与技术支撑。关键词关键词:深度强化学习;近端策略优化;移动采摘机器人;避障;路径规划;人工势场;碰撞锥中图分类号:TP242;TP18
3、文献标志码:A 文章编号:1004-731X(2023)08-1692-13DOI:10.16182/j.issn1004731x.joss.22-0487引用格式引用格式:林俊强,王红军,邹湘军,等.基于DPPO的移动采摘机器人避障路径规划及仿真J.系统仿真学报,2023,35(8):1692-1704.Reference format:Lin Junqiang,Wang Hongjun,Zou Xiangjun,et al.Obstacle Avoidance Path Planning and Simulation of Mobile Picking Robot Based on DPP
4、OJ.Journal of System Simulation,2023,35(8):1692-1704.Obstacle Avoidance Path Planning and Simulation of Mobile Picking Robot Based on DPPOLin Junqiang1,Wang Hongjun1*,Zou Xiangjun1,2,Zhang Po1,Li Chengen1,Zhou Yipeng3,Yao Shujie1(1.College of Engineering,South China Agricultural University,Guangzhou
5、 510642 China;2.Foshan-Zhongke Innovation Research Institute of Intelligent Agriculture and Robotics,Foshan 528200,China;3.Maritime Transport College,Ningbo University,Ningbo 315211,China)Abstract:Aiming at the autonomous decision-making difficulty of mobile picking robots in random and changeable c
6、omplicated path environment during field operations,an autonomous obstacle avoidance path planning method based on deep reinforcement learning is propose.By setting the state space and action space and using the artificial potential field method to design the reward function,an obstacle penalty coef
7、ficient setting method based on collision cone collision avoidance detection is proposed to improve the autonomous collision avoidance ability.A virtual simulation system is constructed,in which the learning and training of the mobile picking robot is carried out and verified by experiments through
8、the distributed proximal policy optimization(DPPO).Simulation results show that the system can quickly and stably control the virtual mobile picking robot to autonomously avoid obstacles and obtain a better operating path,which can provide theoretical and technical support for the autonomous navigat
9、ion of picking robot.Keywords:deep reinforcement learning;proximal policy optimization;mobile picking robot;obstacle avoidance;path planning;artificial potential field;collision cone收稿日期:2022-05-12 修回日期:2022-07-11基金项目:国家自然科学基金(32071912);广东佛山大专项(2120001008424)第一作者:林俊强(1996-),男,硕士,研究方向为深度强化学习与行为仿真。E-m
10、ail:junqiang_通讯作者:王红军(1966-),女,教授,博士,研究方向为智能设计与虚拟设计、农业机器人。E-mail:第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-0引言引言随着智慧农业的不断发展,果园移动采摘机器人成为当前的研究热点1。路径规划是移动采摘机器人自主导航的关键技术2,也是确保其安全作业的前提条件。对于路径规划的研究,国内外学者提出了诸多方法,常用的方法有A*算法3、人工势场法4、快速拓展随机树法5、粒子群算法6、遗传算法7和蚁群算法8等。张文等
11、9提出了一种方向A*算法进行温室机器人避障路径规划,对生成路径进行平滑处理,实现了安全自主导航。李腾等10通过改进A*算法,引入转弯惩罚值减少转弯次数,并且结合等待时间设计避障优先级,实现对 AGV(automated guided vehicle)的路径规划。殷建军等11提出一种启发式搜索的 ECA*(energy constraint A*)算法,建立了距离-能量损耗模型,对农业移动机器人进行路径规划,降低了能耗。魏武等12提出了一种双数Quick-RRT算法进行移动机器人路径规划,快速获取最优初始路径。上述方法主要根据环境地图建立数学模型求解出最优路径,但这种方法需要依赖精确的几何模型信
12、息并且通用性差、计算量大。随着环境复杂程度加大或是障碍物的数量增多,需要重新建立数学模型,难以实现实时动态规划。强化学习方法不需要依赖环境模型和先验知识,通过与环境的持续交互进行试错迭代,不断优化自身行为策略13,达到路径规划的目的,但传统的强化学习方法容易受到动作空间和样本空间维度的限制,无法适用于高维度、连续动作的野外环境14。深度强化学习的兴起为解决该问题提供了一种新的思路,使得在复杂环境下的自主避障路径规划问题得以解决15-16。徐晓苏等17通过改进Q-Learning算法,引入了引力势场初始化Q值,对移动机器人进行路径规划,提高了路径平滑度。王珂等18提出了一种基于最小深度信息有选择
13、的训练模式来提高机器人的探索能力,并使用异步的优势演员评论家算法对室内移动机器人进行路径规划。成怡等19通过改进DQN算法,成功优化了室内移动机器人的路径轨迹。Zheng等20通过改进DQN算法对室内移动机器人进行路径规划,解决了在导航任务中探索能力差和算法收敛速度慢的问题。上述方法主要在室内环境下对移动机器人进行路径规划,环境相对稳定,地图相对已知,障碍物相对固定,而在真实野外环境中,移动采摘机器人的作业环境和作业对象都具有复杂性和随机性。因此,需要进一步提高移动采摘机器人的路径规划效率。基于上述问题,本文以履带式移动采摘机器人为研究对象,搭建基于深度强化学习的自主避障路径规划系统。设定虚拟
14、移动采摘机器人随机运动策略,通过分析实际移动采摘机器人行为动作与环境信息,合理设置状态空间和动作空间;基于人工势场法目标点引导和障碍物排斥的思想设计奖励函数;针对人工势场法存在范围斥力影响最优路径规划的问题,提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法,有效评价移动采摘机器人行动策略,从而提高其自主避碰能力。使用ML-Agents(machine learning agents)插件通过Socket机制建立仿真环境与深度强化学习之间的数据通信,利用DPPO(distributed proximal policy optimization)算法对虚拟移动采摘机器人进行移动避障策略学习训练
15、,并通过仿真实验验证该方法有效性。1系统的整体架构系统的整体架构本系统在Unity ML-Agents强化学习环境下完成构建。整体架构如图1所示。构建移动采摘机器人模型和虚拟果园场景,通过虚拟射线传感器和正交相机实时采集机器人的状态信息和环境图片作为网络输入;基于人工势场法思想建立自主避障策略学习模型,根据虚拟移动采摘机器人实际作业过程设定必要观测变量(环境、机器人状态),结合移动采摘机器人的物理结构设定行为动作及运动范围;设计奖惩机制,包括引导奖赏函 1693第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Sim
16、ulationhttp:/www.china-数、碰撞惩罚函数及时间惩罚函数;将学习模型集成到DPPO算法中进行学习训练,使用卷积神经网络优化网络参数。在训练完成后,系统会生成一个基于TensorFlow网络模型,该模型能够快速、稳定地控制虚拟移动采摘机器人躲避障碍物,实现避障路径规划。此外,为了提高系统的灵活性和可操作性,搭建了人机交互界面,便于用户进行目的性仿真实验并获取结果路径,为真实移动采摘机器人进行路径规划提供可靠性依据。2深度强化学习深度强化学习2.1 环境建模环境建模野外环境的复杂性和随机性,使得移动采摘机器人的行为策略具有不确定性21。为了求解最优策略,本文将自主避障策略问题用
17、部分可观察马尔可夫决策过程进行环境建模。将状态st、动作at、奖励rt,以及下一状态st+1视为四元组(statrtst+1)进行收集并构成经验数据。从t时刻开始进行学习直到T时刻结束,不断优化自身策略使得所获得的累积奖励Rt最大:Rt=t=tTt-trt(1)式中:0 1为折扣因子,用来权衡未来奖赏对累积奖赏的影响。2.2 分布式近端策略优化算法分布式近端策略优化算法根据学习方式的不同,深度强化学习可分为三大类:值函数、策略梯度、Actor-Critic(AC)。基于值函数的经典算法有DQN算法,但该算法只能处理有限动作空间的问题,不适用连续动作空间的移动采摘机器人;基于策略梯度的深度确定性
18、策略梯度算法(deep deterministic policy gradient,DDPG)是将深度学习算法引入到策略梯度算法中,解决了连续动作空间的维度灾难问题,但存在训练效率低和学习率不容易确定等缺点,不适用于复杂环境,特别是在非结构化的野外环境下,其鲁棒性会大大降低;基于AC的近端策略优化算法(PPO)在处理学习率和连续控制的问题上表现更加优异,具有较好的稳定性和收敛性,目前为Open AI在强化学习上的默认算法。PPO算法22是DeepMind团队提出的一种无模型强化学习算法,其目的是解决策略梯度算法(policy gradient,PG)网络参数更新缓慢和学习步长难以确定的问题。由
19、于 PG 算法采取的是 On-policy方法进行更新策略,每次网络参数更新都需要进行重新采样,导致其参数更新缓慢且不易获得最优策略。而Off-policy方法每次网络参数更新都可以通过旧策略产生的样本进行学习,能够确保学习数据的全面性,具有更强的通用性。为此,PPO算法采用重要性采样机制将On-policy方法转图1 系统整体架构Fig.1 System overall architecture 1694第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-变为 Off-pol
20、icy 方法,实现对采样数据的重复利用,以提高网络的更新效率,并利用优势函数At评价样本轨迹中的动作值函数和当前状态的值函数:At=ttt-1rt-V(st)(2)式中:V(st)为状态st的值函数。At0表示当前行为有利于目标函数优化,应增加其动作概率;Att+1-k2ytt+10t0加速av=0静止-1a0左转a=0直行0a(14)式中:dri为当前状态下传感器发射射线到障碍物的距离;ri为传感器发射射线,i=1,2,3,4,5。随着机器人运动状态的改变,式(12)中dri发生改变,当机器人执行动作的转角大于安全偏角时,此时移动采摘机器人能够顺利躲避障碍物,如图4(b)所示,说明移动采摘机
21、器人不存在碰撞威胁,则碰撞惩罚函数不起任何作用;当机器人执行动作的转角小于或等于安全偏角时,则根据式(13)获取最小碰撞距离dmin,并依据式(14)对该行为进行惩罚并结束本回合。3.3.3 时间惩罚函数时间惩罚函数为了引导虚拟移动采摘机器人快速到达目标点,设计时间惩罚函数:Rtime=-k6Rt(15)式中:k6为时间惩罚系数;Rt为机器人完成任务所需时间。综上所述,本系统的总奖励函数为R=Rguide+Robs+Rtime(16)图4 移动采摘机器人运动碰撞检测Fig.4 Motion collision detection of mobile picking robot图3 人工势场法局
22、限Fig.3 Limitations of artificial potential field method 1697第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-3.4 算法网络训练流程算法网络训练流程DPPO算法是一种基于AC架构的强化学习算法,由策略网络和价值网络组成。策略网络负责优化智能体的行为策略近似策略函数,价值网络负责评估智能体的行为动作近似价值函数。网络训练流程如图5所示。把状态序列输入到新策略网络中,根据正态分布参数选择动作,并与环境交互得到
23、奖励和最新状态;将动作、状态、奖励存储到经验池中,最新状态反馈给新策略网络;当经验池满足存储要求时,将最新状态和奖励值输入评价网络,过反向传播更新网络参数,使评价网络接近奖励函数设定值,同时,新旧策略网络结合状态集及动作集,根据式(3)限制新策略更新幅度并计算权重后依据式(5)对新策略网络进行反向传播更新其参数,不断循环上述过程,直到达到最大训练步数,完成训练任务。4仿真验证仿真验证本实验平台配置信息:显存为4 G的NVIDIA GTX1650 显卡和主频为 2.90 GHz 的 AMD 4800H处理器;仿真环境为 Unity 2019.4.16f1c1 和 ml-agents v1.0.2
24、;神经网络计算环境为 Pyhton3.6 和TensorFlow2.0。4.1 训练方法设计训练方法设计为了减少经验池中产生的无效数据,提高算法训练速度,设置回合终止条件:机器人反向移动、与障碍物发生碰撞或者驶出区域范围。同时设置 16 个相同进程并行训练。训练参数如表 3所示。图5 DPPO算法网络训练流程Fig.5 DPPO algorithm network training process 1698第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-4.2 训练结果分析
25、训练结果分析完成训练后,通过Tensorboard获取结果数据并导入MATLAB进行绘制,如图6所示。图6(a)为累积奖励值,随着训练步数的增加,虚拟移动采摘机器人所获得的累计奖励值也逐渐增加,在30万45万步时呈急剧上升趋势,此时移动采摘机器人能够快速地选择出正确的移动策略,在45万步后缓慢趋向稳定,说明移动采摘机器人能够快速、稳定地实现自主避障路径规划;图6(b)为策略熵正则化强度,在开始训练时模型决策的随机性最大,在一定训练步数后呈缓慢下降趋势,接近48万步时达到收敛状态,说明经过学习后的虚拟移动采摘机器人具备了自主避障能力;图6(c)为学习步长,随着训练时间推移,训练算法在搜索最优策略
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 DPPO 移动 采摘 机器人 路径 规划 仿真
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。