基于策略梯度及强化学习的拖挂式移动机器人控制方法.pdf
《基于策略梯度及强化学习的拖挂式移动机器人控制方法.pdf》由会员分享,可在线阅读,更多相关《基于策略梯度及强化学习的拖挂式移动机器人控制方法.pdf(5页珍藏版)》请在咨信网上搜索。
1、第41 卷第1 0 期2023年1 0 月文章编号:1 0 0 9-7 7 6 7(2 0 2 3)1 0-0 1 0 1-0 5Vol.41,No.10Journal of Municipal Technology0ct.2023D0I:10.19922/j.1009-7767.2023.10.101基于策略梯度及强化学习的拖挂式移动机器人控制方法林俊文,程金1*,季金胜2(1.济南大学自动化与电气工程学院,山东济南2 50 0 2 4;2.南洋理工大学电子电气工程学院,新加坡6 3 9 7 9 8)摘要:针对拖挂式移动机器人的反向泊车运动控制问题,提出了一种基于策略梯度及强化学习的拖挂式移
2、动机器人控制方法。首先,在Gym软件中搭建了具有单节拖车的拖挂式移动机器人的运动学仿真模型,并设计了稳定的反向泊车运动控制律。其次,构建了基于Tensorflow框架的神经网络模型,设计了相应的损失函数,并利用策略梯度算法更新神经网络的参数,以训练机器人的反向泊车运动。仿真实验结果表明,经过训练的拖挂式移动机器人能够有效地学习反向泊车运动控制策略,并稳定地实现反向泊车运动。不同参数下的实验结果验证了基于策略梯度算法的强化学习模型的有效性。关键词:拖挂式移动机器人;强化学习;人工智能;策略梯度算法;反向泊车中图分类号:TP181Control Method for Tractor-Trailer
3、 Mobile Robot Based onPolicy Gradient and Reinforcement LearningLin Junwen,Cheng Jin*,Ji Jinsheng?(1.School of Electrical Engineering,University of Jinan,Jinan 250024,China;2.School of Electrical and Electronic Engineering,Nanyang Technological University,Singapore 639798)Abstract:A control method o
4、f tractor-trailer mobile robot(TTMR)is proposed based on policy gradient and rein-forcement learning approach for backward parking motion.Firstly,kinematic model of TTMR with one trailer is con-structed by Gym software.A stable reverse motion control law is designed.Secondly,a neural network model i
5、s con-structed based on the Tensorflow framework,and the corresponding loss function is designed.The policy gradientalgorithm is used to update the parameters of the neural network and train the robots reverse parking motion.Simu-lation experimental results show that the trained TTMR can effectively
6、 learn the backward motion control strategyand do stably.The experimental results under different parameters validate the effectiveness of the reinforcementlearning model based on the policy gradient algorithm designed in this paper.Key words:tractor-trailer mobile robot(TTMR);reinforcement learning
7、;artificial intelligence;policy gradientalgorithm;backward parking文献标志码:A随着物流及运输业的不断发展,移动机器人的应用场景日益广泛。拖挂式移动机器人(tractor-trailer收稿日期:2 0 2 3-0 6-1 4基金项目:国家自然科学基金(6 1 2 0 3 3 3 5)作者简介:林俊文,男,在读硕士研究生,主要研究方向为深度学习与人工智能。通讯作者:程金,男,副教授,博士,主要研究方向为非完整系统运动控制、深度学习与人工智能。引文格式:林俊文,程金,季金胜.基于策略梯度及强化学习的拖挂式移动机器人控制方法 J.市
8、政技术,2 0 2 3,41(1 0):1 0 1-1 0 5.(LINJW,CHENGJ,JI J S.Control method for tractor-trailer mobile robot based on policy gradient and reinforcement learningJ.Journal of municipal technol-0gy,2023,41(10):101-105.)mobile robot,TTMR)由牵引车拖动单节或多节拖车 1 组成,其作为一种重要的运输工具在物流业和运输市放技木102Journal of Municipal Technolo
9、gy业中扮演着极其重要的角色。拖挂式移动机器人不仅具备一般移动机器人的运动功能,还具有车体系统简单、承载能力强等特点 2 。目前,该领域已涌现出许多针对拖挂式移动机器人运动控制问题的研究工作 3-8 ,包括反馈线性法、滑模变结构控制、模糊控制法、神经网络控制和模型预测控制法等。鉴于机器人在反向运动时车体系统的不稳定性,诸多研究工作以机器人的稳定反向运动控制方法为重点。传统控制方法在处理反向泊车运动的非线性和不稳定性方面较弱。随着深度学习和机器学习技术的发展,一些基于强化学习的算法被提出并应用于解决移动机器人控制问题,如郝欣恺 4提出的基于深度强化学习的神经模糊控制器,该控制器利用深度神经网络对
10、输人信号进行耦合,使得牵引车能够更好地跟踪圆形轨迹和正弦形轨迹。此外,路径规划也是反向泊车运动的重要问题,因此 Zhang 等 5对自动泊车过程中的几何关系进行了分析,并结合最小半径法和不等半径法的优点,改进了圆弧式泊车轨迹规划方法,从而提高了泊车的精度和效率。尽管传统控制方法在简单场景下仍然适用,但随着应用场景复杂性的提高,这些方法已经难以达到稳定的控制效果。与基于线性控制理论和非线性系统理论的运动控制方法不同,笔者基于策略梯度强化学习方法设计了拖挂式移动机器人反向泊车运动控制策略的学习方法。通过设计反向泊车运动的奖励函数来更新学习策略,并采用策略梯度算法来优化网络模型参数。最后,通过仿真实
11、验证明了笔者所设计的策略梯度强化学习方法能够有效地应用于拖挂式移动机器人的反向泊车运动控制策略的学习过程。1#拖挂式移动机器人反向泊车运动控制1.1反向泊车运动控制单节拖车的拖挂式移动机器人结构如图1 所示。其中,和为牵引车和拖车的方向角度,为牵引车的转向角,L1为前轮和后轮之间的距离,L2为P2的轮轴和Q点之间的距离,L,为连接轴的长度。反向泊车运动控制问题要求拖挂式移动机器人控制牵引车反向驱动拖车运动至期望泊车位置,如图2 所示。图2 中P1点和P2点分别是牵引车和拖车的位置,P点是期望泊车的位置。为满足牵引车的控制输入转向角的机械约束要求 8 ,避免拖车和牵引车的车体发生碰撞,牵引车第4
12、1 卷P牵引车拖车图1 单节拖车的拖挂式移动机器人结构模型Fig.1 Structure model of TTMR with one trailerP图2 反向泊车运动模型Fig.2 Backward parking motion model的转向角以及牵引车和拖车的方向角度1 和2需满足式(1):1s,102-01/T22因此,拖挂式移动机器人系统属于存在完整机械约束的非完整系统,其稳定控制问题具有较大难度。1.2运动学仿真模型单节拖车的拖挂式移动机器人运动学仿真模型可以表示为:x=Vcosi,y=vsindi,0i=vtangLVHsin(0i-2)-L2$=W。式中:V为牵引车的线性速
13、度。拖挂式移动机器人反向泊车运动中,拖车和牵引车连接的几何关系参见文献 1 ,2 个车体连接而形成的完整约束为:X2=X1-L,cos 01-L2cos02,1y2=y1-L,sin 4,-L2sin 02。根据文献 9 定义拖车和牵引车之间的夹角为PL-tan pcos(0)-2)L1(1)(2)(3)第1 0 期=0i-2,定义a为拖车的期望方向角度,则拖车的方向角度与拖车期望方向角度之差为d=Q2-Qd。为了使得拖车和牵引车在反向泊车运动过程中不发生碰撞,保证2 辆车运动的安全性,应设置牵引车转向角?的控制律为:sin+cos a tan-k sin d=arctanL(cos+cos
14、a+LLL式中:h为控制系数。2策略梯度(PG)算法策略梯度可以分为随机性策略梯度和确定性策略梯度,随机性策略梯度的计算如式(5)所示 1 0 ,确定性策略梯度的计算如式(6)所示 1 。VoL()=Jsp(s)JaV。o(a s)Q (s,a)d a d s=Esp.am,Velog To(als)Q(s,a)。(5)林俊文等:基于策略梯度及强化学习的拖挂式移动机器人控制方法T3,a=0=T3,a=1103向泊车运动的最优策略,其中策略分为随机性策略和确定性策略,可由式(9)表示:T(as)=pa,=a|s,=s 。式中:(als)为多次训练中学习到的策略,a为假设随机性策略函数中某一时刻下
15、选择的动作,s,为某一时刻下的状态。(4)确定性策略指的是在相同状态下,拖挂式移动机器人选择的动作是唯一的。在训练和探索中,通常采用概率最高的动作*,可由式(1 0)表示:a=argmaxa(als)。拖挂式移动机器人在进行反向泊车运动时,存在着转向的问题,为保持车体系统的稳定,拖车和牵引车之间的夹角需满足式(1 1)的要求:(11)(9)(10)式中:T(als)为随机策略,即在状态s下选择动作的概率;Q(s,a)为状态值函数;p(s)为在T(als)下的状态分布,这个公式表示在sp 和T。时,策略梯度函数在Q(s,a)上的期望。VoL(o)=/sp(s)Vouo(s)V.Q(s,a)a=M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 策略 梯度 强化 学习 拖挂 移动 机器人 控制 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。