基于策略梯度及强化学习的拖挂式移动机器人控制方法.pdf

上传人：自信****多点

文档编号：2197639

上传时间：2024-05-22

格式：PDF

页数：5

大小：2.45MB

《基于策略梯度及强化学习的拖挂式移动机器人控制方法.pdf》由会员分享，可在线阅读，更多相关《基于策略梯度及强化学习的拖挂式移动机器人控制方法.pdf（5页珍藏版）》请在咨信网上搜索。

1、第41 卷第1 0 期2023年1 0 月文章编号：1 0 0 9-7 7 6 7（2 0 2 3)1 0-0 1 0 1-0 5Vol.41,No.10Journal of Municipal Technology0ct.2023D0I:10.19922/j.1009-7767.2023.10.101基于策略梯度及强化学习的拖挂式移动机器人控制方法林俊文，程金1*，季金胜2(1.济南大学自动化与电气工程学院，山东济南2 50 0 2 4；2.南洋理工大学电子电气工程学院，新加坡6 3 9 7 9 8)摘要：针对拖挂式移动机器人的反向泊车运动控制问题，提出了一种基于策略梯度及强化学习的拖挂式移

2、动机器人控制方法。首先，在Gym软件中搭建了具有单节拖车的拖挂式移动机器人的运动学仿真模型，并设计了稳定的反向泊车运动控制律。其次，构建了基于Tensorflow框架的神经网络模型，设计了相应的损失函数，并利用策略梯度算法更新神经网络的参数，以训练机器人的反向泊车运动。仿真实验结果表明，经过训练的拖挂式移动机器人能够有效地学习反向泊车运动控制策略，并稳定地实现反向泊车运动。不同参数下的实验结果验证了基于策略梯度算法的强化学习模型的有效性。关键词：拖挂式移动机器人；强化学习；人工智能；策略梯度算法；反向泊车中图分类号：TP181Control Method for Tractor-Trailer

3、 Mobile Robot Based onPolicy Gradient and Reinforcement LearningLin Junwen,Cheng Jin*,Ji Jinsheng?(1.School of Electrical Engineering,University of Jinan,Jinan 250024,China;2.School of Electrical and Electronic Engineering,Nanyang Technological University,Singapore 639798)Abstract:A control method o

4、f tractor-trailer mobile robot(TTMR)is proposed based on policy gradient and rein-forcement learning approach for backward parking motion.Firstly,kinematic model of TTMR with one trailer is con-structed by Gym software.A stable reverse motion control law is designed.Secondly,a neural network model i

5、s con-structed based on the Tensorflow framework,and the corresponding loss function is designed.The policy gradientalgorithm is used to update the parameters of the neural network and train the robots reverse parking motion.Simu-lation experimental results show that the trained TTMR can effectively

6、 learn the backward motion control strategyand do stably.The experimental results under different parameters validate the effectiveness of the reinforcementlearning model based on the policy gradient algorithm designed in this paper.Key words:tractor-trailer mobile robot(TTMR);reinforcement learning

7、;artificial intelligence;policy gradientalgorithm;backward parking文献标志码：A随着物流及运输业的不断发展，移动机器人的应用场景日益广泛。拖挂式移动机器人（tractor-trailer收稿日期：2 0 2 3-0 6-1 4基金项目：国家自然科学基金（6 1 2 0 3 3 3 5）作者简介：林俊文，男，在读硕士研究生，主要研究方向为深度学习与人工智能。通讯作者：程金，男，副教授，博士，主要研究方向为非完整系统运动控制、深度学习与人工智能。引文格式：林俊文，程金，季金胜.基于策略梯度及强化学习的拖挂式移动机器人控制方法 J.市

8、政技术，2 0 2 3，41（1 0)：1 0 1-1 0 5.（LINJW,CHENGJ,JI J S.Control method for tractor-trailer mobile robot based on policy gradient and reinforcement learningJ.Journal of municipal technol-0gy,2023,41(10):101-105.)mobile robot,TTMR)由牵引车拖动单节或多节拖车 1 组成，其作为一种重要的运输工具在物流业和运输市放技木102Journal of Municipal Technolo

9、gy业中扮演着极其重要的角色。拖挂式移动机器人不仅具备一般移动机器人的运动功能，还具有车体系统简单、承载能力强等特点 2 。目前,该领域已涌现出许多针对拖挂式移动机器人运动控制问题的研究工作 3-8 ,包括反馈线性法、滑模变结构控制、模糊控制法、神经网络控制和模型预测控制法等。鉴于机器人在反向运动时车体系统的不稳定性，诸多研究工作以机器人的稳定反向运动控制方法为重点。传统控制方法在处理反向泊车运动的非线性和不稳定性方面较弱。随着深度学习和机器学习技术的发展，一些基于强化学习的算法被提出并应用于解决移动机器人控制问题，如郝欣恺 4提出的基于深度强化学习的神经模糊控制器，该控制器利用深度神经网络对

10、输人信号进行耦合，使得牵引车能够更好地跟踪圆形轨迹和正弦形轨迹。此外，路径规划也是反向泊车运动的重要问题,因此 Zhang 等 5对自动泊车过程中的几何关系进行了分析，并结合最小半径法和不等半径法的优点，改进了圆弧式泊车轨迹规划方法，从而提高了泊车的精度和效率。尽管传统控制方法在简单场景下仍然适用，但随着应用场景复杂性的提高，这些方法已经难以达到稳定的控制效果。与基于线性控制理论和非线性系统理论的运动控制方法不同，笔者基于策略梯度强化学习方法设计了拖挂式移动机器人反向泊车运动控制策略的学习方法。通过设计反向泊车运动的奖励函数来更新学习策略，并采用策略梯度算法来优化网络模型参数。最后，通过仿真实

11、验证明了笔者所设计的策略梯度强化学习方法能够有效地应用于拖挂式移动机器人的反向泊车运动控制策略的学习过程。1#拖挂式移动机器人反向泊车运动控制1.1反向泊车运动控制单节拖车的拖挂式移动机器人结构如图1 所示。其中,和为牵引车和拖车的方向角度,为牵引车的转向角,L1为前轮和后轮之间的距离,L2为P2的轮轴和Q点之间的距离,L,为连接轴的长度。反向泊车运动控制问题要求拖挂式移动机器人控制牵引车反向驱动拖车运动至期望泊车位置，如图2 所示。图2 中P1点和P2点分别是牵引车和拖车的位置，P点是期望泊车的位置。为满足牵引车的控制输入转向角的机械约束要求 8 ，避免拖车和牵引车的车体发生碰撞，牵引车第4

12、1 卷P牵引车拖车图1 单节拖车的拖挂式移动机器人结构模型Fig.1 Structure model of TTMR with one trailerP图2 反向泊车运动模型Fig.2 Backward parking motion model的转向角以及牵引车和拖车的方向角度1 和2需满足式(1)：1s,102-01/T22因此，拖挂式移动机器人系统属于存在完整机械约束的非完整系统,其稳定控制问题具有较大难度。1.2运动学仿真模型单节拖车的拖挂式移动机器人运动学仿真模型可以表示为：x=Vcosi,y=vsindi,0i=vtangLVHsin(0i-2)-L2$=W。式中：V为牵引车的线性速

13、度。拖挂式移动机器人反向泊车运动中，拖车和牵引车连接的几何关系参见文献 1 ，2 个车体连接而形成的完整约束为：X2=X1-L,cos 01-L2cos02,1y2=y1-L,sin 4,-L2sin 02。根据文献 9 定义拖车和牵引车之间的夹角为PL-tan pcos(0)-2)L1(1)(2)(3)第1 0 期=0i-2,定义a为拖车的期望方向角度,则拖车的方向角度与拖车期望方向角度之差为d=Q2-Qd。为了使得拖车和牵引车在反向泊车运动过程中不发生碰撞，保证2 辆车运动的安全性，应设置牵引车转向角?的控制律为：sin+cos a tan-k sin d=arctanL(cos+cos

14、a+LLL式中：h为控制系数。2策略梯度(PG)算法策略梯度可以分为随机性策略梯度和确定性策略梯度，随机性策略梯度的计算如式(5)所示 1 0 ,确定性策略梯度的计算如式(6)所示 1 。VoL()=Jsp(s)JaV。o(a s)Q (s,a)d a d s=Esp.am,Velog To(als)Q(s,a)。(5)林俊文等：基于策略梯度及强化学习的拖挂式移动机器人控制方法T3,a=0=T3,a=1103向泊车运动的最优策略，其中策略分为随机性策略和确定性策略,可由式(9)表示：T(as)=pa,=a|s,=s 。式中：(als)为多次训练中学习到的策略,a为假设随机性策略函数中某一时刻下

15、选择的动作,s,为某一时刻下的状态。(4)确定性策略指的是在相同状态下，拖挂式移动机器人选择的动作是唯一的。在训练和探索中，通常采用概率最高的动作*,可由式(1 0)表示：a=argmaxa(als)。拖挂式移动机器人在进行反向泊车运动时，存在着转向的问题，为保持车体系统的稳定，拖车和牵引车之间的夹角需满足式(1 1)的要求：(11)(9)(10)式中：T(als)为随机策略,即在状态s下选择动作的概率;Q(s,a)为状态值函数;p(s)为在T(als)下的状态分布,这个公式表示在sp 和T。时,策略梯度函数在Q(s,a)上的期望。VoL(o)=/sp(s)Vouo(s)V.Q(s,a)a=M

16、(s)ds=EspmVV.Q(s,a)la=M()。(6)2.1策略梯度算法的网络结构策略梯度算法利用Softmax函数对输出的动作进行概率选择。Softmax激活函数使得拖挂式移动机器人在每次训练过程中选择动作概率最大的动作，可由式(7)表示：Softmax(x:)=一1式中：x;为第i个节点的输出值，n为输出节点个数。在每次训练中，拖挂式移动机器人对输出的动作概率进行随机采样，频繁的采样和积分使得参数更新的计算量大大增加，而策略梯度算法的神经网络可以使拖挂式移动机器人的计算能力得到提高，并增加策略更新的效率。2.2拖挂式移动机器人的策略选择策略梯度算法定义了拖挂式移动机器人在不同状态下所需

17、要选择的动作和输出动作的概率(s)，可由式(8)表示：(8)强化学习旨在找到拖挂式移动机器人实现反2.3反向运动损失函数拖挂式移动机器人在进行反向运动的探索过程中，会优先选择奖励值较高的动作，通过累计奖励设置一个函数来达到最优策略的目的，利用累计奖励值可以构造一个函数：loss=-E(log(als)V(s,a)/。(1 2)式中：V(s,)为策略在状态s下采取动作的期望值。在反向泊车运动中，通过奖励值的高低来判断动作的优劣，而小车在这个过程中通过累计奖励值不断地优化动作选择。由于(ls)是指智能体在多次训练中学习到的策略，不能用公式进行表示,并且也无法判定每个动作的优劣，所以损失函数最终表达

18、式为：e(7)a=T(s)。loss=-E(logpe(t)JR(t)/。式中:po(t)为动作轨迹出现的概率。损失函数是一种用于评估特定算法对给定数据建模程度的方法。在经过网络的优化与参数迭代后，损失函数会逐渐减小预测值与实际结果之间的误差。3反向运动控制策略3.13强化学习不同于传统的有监督和无监督学习算法，强化学习同时具有这2 种学习算法的特点，即通过不断地试错，并根据环境设置的奖励值探索出最优的动作选择策略，模型更加偏向奖励值较高的动作。强化学习过程示意图如图3 所示。(13)市放技术104Journal of Municipal Technology1.0智能体0.80.6位0.4F

19、环境0.2图3 强化学习过程示意图0.00Fig.3 Schematic diagram of reinforcement learning process图4拖挂式移动机器人运动过程中的动作强化学习的本质是通过智能体与环境的不断Fig.4 Actions during TTMR exercise交互来获取奖励值，智能体会根据奖励值的高低来评估动作的优劣，奖励值越高，智能体在下一次循环中执行该动作的概率就越大。强化学习的目的是使智能体获得奖励值最大化。3.2反向运动训练过程将拖挂式移动机器人放置在P2=（x 2,y 2,0 2),然后通过神经网络生成一个动作，通过该动作来更新机器人的状态，如位

20、置和方向。在状态更新完成后，计算拖挂式移动机器人的初始位置与期望泊车位置P=(xg,g,32)之间的位置偏差ea以及初始位置与期望泊车位置之间的角度偏差e，可由式（1 4）、（1 5)表示：(14)eo=102-09l。(15)通过反复训练来优化策略，使拖挂式移动机器人能够稳定地实现反向运动，然后根据这些偏差计算奖励值。不同于直线运动，反向运动的位置和角度偏差的权重也对运动的稳定性有很大的影响,因此，笔者选取参数ka和kg用于设置位置和角度偏差函数V(ed,eo):V(ed,eo)=kdea+hoeoo为了使机器人更好地完成反向运动，笔者将动作所得到的奖励值V和上一次动作所得到的奖励值Vh-1

21、进行比较，设置如下奖励函数Rewardk：1,ViVk-IReward;=lo,ViVk-141仿真实验结果4.1动作选择策略梯度算法可以使模型在不完全按照给定控制动作的情况下，仍然具备一定的探索能力。在反向泊车运动中,动作的取值为0 和1,根据策略梯度算法，选择当前动作的同时，还考虑了每个动作作用的时间，如图4所示。第41 卷2040步长4.2角度控制不同于一般小车的反向运动，拖挂式移动机器人需要驱动单节或多节拖车，其反向运动控制问题更为复杂。在反向泊车运动过程中，拖车和牵引车的方向角度响应曲线如图5所示，拖车和牵引车之间的夹角响应曲线如图6 所示。4.754.504.25PE/4.003.

22、75ea=IIP2-Pll。3.503.253.002.750图5拖车和牵引车的方向角度响应曲线Fig.5 Response curves of trailer and tractor direction angels0.6F(16)0.40.20.0-0.2-0.4-0.6(17)0图6 拖车和牵引车之间的夹角响应曲线Fig.6 Response curves of trailer and tractor included angles由图5可以看出，牵引车稳定地驱动拖车趋近于期望方向角度号T。由图6 可以看出，在反向泊车2运动过程中，车体之间的夹角小于，避免了车体602040步长2040步

23、长8060806080第1 0 期碰撞。4.3反向运动轨迹通过给定的控制动作、拖车和牵引车的方向角度和夹角,并设置期望泊车位置坐标Pg(20,10),在多次训练中，拖挂式移动机器人通过试错和探索逐渐找到了一个最优的运动策略。拖挂式移动机器人的运动轨迹如图7 所示；拖挂式移动机器人反向运动轨迹如图8 所示，给出了包含车体角度信息的运动轨迹。10一牵引车864200.02.5 5.07.510.0 12.515.017.5220.0 x/m图7 拖挂式移动机器人运动轨迹Fig.7Trajectory ofTTMR1086三4200.0 2.5 5.07.510.0112.515.0017.520.

24、0 x/m注：蓝色方形为牵引车，红色矩形为拖车。图8 拖挂式移动机器人反向运动轨迹Fig.8 Backward parking motion trace of TTMR由图7 可以看出，牵引车驱动拖车稳定地趋近期望泊车位置Pg（2 0,1 0)。由图8 可以看出，车体系统在整个反向泊车运动过程中是稳定无碰撞的。5结论笔者提出了一种基于策略梯度及强化学习的拖挂式移动机器人控制方法。该方法将强化学习算法与拖车的反向泊车运动相结合，并通过训练和仿真验证了策略梯度算法和强化学习在拖挂式移动机器人反向运动控制中的可行性。在训练过程中,拖挂式移动机器人经历了多次试错和探索，最终找到林俊文等：基于策略梯度及

25、强化学习的拖挂式移动机器人控制方法拖车C/IEEE,2014:2605-2608.10SUTTON R S,MCALLESTER D A,SINGH S,et al.Policy Gra-dient methods for reinforcement learning with function approxi-mationCJ/MIT Press.MIT Press,1999,1057-1063.11 SILVER D,LEVER G,HEESS N,et al.Deterministic policy gra-dient algorithmsCJ/International Confere

26、nce on Machine Learn-ing.PMLR,2014,387-395.其他作者：季金胜，男，副教授，博士，主要研究方向为遥感图像处理。105了反向运动的最优策略，并成功实现了自动泊车。此外，笔者设计的强化学习算法仅考虑单个拖挂式移动机器人的情况，并排除了周围环境因素的干扰。因此,后续的研究将结合深度策略梯度方法,并将环境干扰添加到控制模型中，以实现复杂环境下的拖挂式移动机器人反向运动控制。参考文献【1 张勇，程金，张晓华.拖挂式移动机器人反馈镇定控制问题研究J.控制工程,2 0 1 3,2 0(2):3 0 1-3 0 4,3 0 8.(ZHANGY,CHENGJ,ZHANG

27、X H.Research on the feedback stabilization controlproblem of a tractor-trailer mobile robotJ.Control engineeringofChina,2013,20(2):301-304,308.)2 J YALLALA M,MIJA S J.Path tracking of differential drive mo-bile robot using two step feedback linearization based on back-stepping C/2017 International C

28、onference on Innovations inControl.Communication and Information Systems(ICICCI).2017,26(12):12-13.3PRADALIER C,USHER K.Robust trajectory tracking for a revers-ing tractor trailer J.Journal of field robotics,2010,25(6/7):378-399.4郝欣恺.人工智能技术发展及应用研究综述 J.环渤海经济望,2 0 2 0,3 1 2(9):1 52-1 53.(HA0 X K.A sur

29、vey of artificialintelligence technology development and application researchJJ.Economic outlook the Bohai Sea,2020,312(9):152-153.)5 ZHANG Z,WANGL,LILH.Design and implementation of two-wheeled mobile robot by variable structure sliding mode controlC/Chinese Control Conference,2016,3671-3681.6TROJNA

30、CKI M.Method of automatic parking of a car-theoreti-cal considerations and simulation studiesJ.Journal of automa-tion mobile robotics&intelligent systems,2020,13(4):3-10.7 LI C X,JIANG H B,MA S D,et al.Automatic parking pathplanning and tracking control research for intelligent vehiclesJ.Applied sci

31、ences,2020,10(24):9100.8 CHENG J,WANG B,ZHANG Y,et al.Backward orientationtracking control of mobile robot with N trailers JJ.Internationaljournal of control,automation and systems,2017(138):72-82.9 J CHENG J,ZHANG Y,WANG Z H,et al.A motion control ap-proach to reverse a mobile robot with two off-axle hitching trailers

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于策略梯度强化学习拖挂移动机器人控制方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。