分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 结合先验知识与深度强化学习的机械臂抓取研究.pdf

结合先验知识与深度强化学习的机械臂抓取研究.pdf

上传人：自信****多点

文档编号：645710

上传时间：2024-01-23

格式：PDF

页数：10

大小：1.82MB

《结合先验知识与深度强化学习的机械臂抓取研究.pdf》由会员分享，可在线阅读，更多相关《结合先验知识与深度强化学习的机械臂抓取研究.pdf（10页珍藏版）》请在咨信网上搜索。

1、西安工程大学学报J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y 第3 7卷第4期(总1 8 2期)2 0 2 3年8月V o l.3 7,N o.4(S u m.N o.1 8 2)引文格式:缪刘洋,朱其新,丁正凯,等.结合先验知识与深度强化学习的机械臂抓取研究J.西安工程大学学报,2 0 2 3,3 7(4):9 2-1 0 1.M I AO L i u y a n g,Z HU Q i x i n,D I N G Z h e n g k a i,e t a l.R o b o t i c a

2、 r m g r a s p i n g s t u d y c o m b i n i n g p r i o r k n o w l e d g e a n d d e e p r e i n f o r c e m e n t l e a r n i n gJ.J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y,2 0 2 3,3 7(4):9 2-1 0 1.收稿日期:2 0 2 3-0 4-2 6 修回日期:2 0 2 3-0 6-2 7 基金项目:国家自然科学基金(5 1 8 7 5 3 8 0;6

3、2 0 6 3 0 1 0);泰州市科技计划项目(T G 2 0 2 1 1 7)第一作者:缪刘洋(1 9 9 5),男,硕士研究生。通信作者:朱其新(1 9 7 1),男,教授,博士,研究方向为伺服控制、控制理论及应用。E-m a i l:b o b 2 1 c n 1 6 3.c o m结合先验知识与深度强化学习的机械臂抓取研究缪刘洋1,朱其新2,丁正凯3,王旭1(1.苏州科技大学电子与信息工程学院,江苏苏州 2 1 5 0 0 9;2.苏州科技大学机械工程学院/建筑智慧节能江苏省重点实验室/苏州市共融机器人技术重点实验室,江苏苏州 2 1 5 0 0 9;3.苏州科技大学电子

4、与信息工程学院/建筑智慧节能江苏省重点实验室,江苏苏州 2 1 5 0 0 9)摘要在应用深度强化学习(d e e p r e i n f o r c e m e n t l e a r n i n g,D R L)实现机械臂自主行为决策过程中,高维连续的状态-动作空间易引起数据采样效率低及经验样本质量低,最终导致奖赏函数收敛速度慢、学习时间长。针对此问题,提出一种引入先验知识的D R L模型。该模型与机械臂逆运动学相结合,在D R L采样阶段引入先验知识指导智能体(A g e n t)采样,解决学习过程中的数据采样效率低、经验样本质量低的问题;同时通过网络参数迁移的方式验证引入先验知识的

5、D R L模型在面对新任务时仍具有较强的泛化能力;最后,利用P y t h o n和C o p p e l i a S i m仿真平台进行联合仿真实验。结果表明:引入先验知识的D R L模型比原始模型的学习效率提升了1 3.8 9%、1 2.8 2%,完成任务的成功率提高了1 6.9 2%、1 3.2 5%;在新任务中,学习率提升了2 3.0 8%、2 3.3 3%,成功率提高了1 0.7%、1 1.5 7%。关键词机械臂;先验知识;深度强化学习;网络迁移开放科学(资源服务)标识码(O S I D)中图分类号:T P 2 4 2.6;T P 3 9 9 文献标志码:AD O I:1 0.1

6、3 3 3 8/j.i s s n.1 6 7 4-6 4 9 x.2 0 2 3.0 4.0 1 2R o b o t i c a r m g r a s p i n g s t u d y c o m b i n i n g p r i o r k n o w l e d g e a n d d e e p r e i n f o r c e m e n t l e a r n i n gM I A O L i u y a n g1,ZHU Q i x i n2,D I NG Z h e n g k a i3,WANG X u1(1.S c h o o l o f E l e c t r

7、o n i c a n d I n f o r m a t i o n E n g i n e e r i n g,S u z h o u U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,S u z h o u 2 1 5 0 0 9,J i a n g s u,C h i n a;2.S c h o o l o f M e c h a n i c a l E n g i n e e r i n g/J i a n g s u P r o v i n c e K e y L a b o r a t o r y o

8、f I n t e l l i g e n t B u i l d i n g E n e r g y E f f i c i e n c y/S u z h o u K e y L a b o r a t o r y o f C o e x i s t i n g-C o o p e r a t i v e-C o g n i t i v e R o b o t T e c h n o l o g y,S u z h o u U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,S u z h o u 2 1 5 0

9、0 9,J i a n g s u,C h i n a;3.S c h o o l o f E l e c t r o n i c a n d I n f o r m a t i o n E n g i n e e r i n g/J i a n g s u P r o v i n c e K e y L a b o r a t o r y o f I n t e l l i g e n t B u i l d i n g E n e r g y E f f i c i e n c y,S u z h o u 2 1 5 0 0 9,J i a n g s u,C h i n a)A b s

10、t r a c t I n t h e p r o c e s s o f a p p l y i n g d e e p r e i n f o r c e m e n t l e a r n i n g(D R L)t o r e a l i z e a u t o n o m o u s b e h a v i o r a l d e c i s i o n-m a k i n g o f r o b o t i c a r m s,t h e h i g h-d i m e n s i o n a l c o n t i n u o u s s t a t e-a c t i o n

11、s p a c e i s p r o n e t o l o w d a t a s a m p l i n g e f f i c i e n c y a n d l o w q u a l i t y o f e m p i r i c a l s a m p l e s,w h i c h u l t i m a t e l y l e a d s t o s l o w c o n v e r g e n c e o f t h e r e w a r d f u n c t i o n a n d l o n g l e a r n i n g t i m e.T o a d d

12、r e s s t h i s p r o b l e m,a D R L m o d e l t h a t i n t r o d u c e s p r i o r k n o w l e d g e w a s p r o p o s e d.T h e m o d e l w a s c o m b i n e d w i t h t h e i n v e r s e k i n e m a t i c s o f t h e r o b o t i c a r m,a n d p r i o r k n o w l e d g e w a s i n t r o d u c e

13、d t o g u i d e t h e a g e n t d u r i n g t h e s a m p l i n g p h a s e o f D R L,a d d r e s s i n g t h e i s-s u e s o f l o w d a t a s a m p l i n g e f f i c i e n c y a n d p o o r q u a l i t y o f e x p e r i e n c e s a m p l e s d u r i n g t h e l e a r n i n g p r o c e s s.F u r t

14、h e r m o r e,t h e i n t r o d u c e d p r i o r k n o w l e d g e D R L m o d e l s s t r o n g g e n e r a l i z a t i o n c a p a b i l i t i e s w e r e v e r i f i e d w h e n f a c i n g n e w t a s k s t h r o u g h n e t w o r k p a r a m e t e r t r a n s f e r.L a s t l y,j o i n t s i m

15、u l a t i o n e x p e r i m e n t s w e r e c o n d u c t e d u s i n g P y t h o n a n d t h e C o p p e l i a S i m p l a t f o r m.T h e r e s u l t s s h o w t h a t t h e D R L m o d e l w i t h t h e i n t r o d u c t i o n o f p r i o r k n o w l e d g e i m p r o v e s t h e l e a r n i n g

16、e f f i c i e n c y b y 1 3.8 9%a n d 1 2.8 2%,a n d t h e s u c c e s s r a t e o f c o m p l e t i n g t h e t a s k i n c r e a s e s b y 1 6.9 2%a n d 1 3.2 5%t h a n t h e o r i g i n a l m o d e l;i n t h e n e w t a s k,t h e l e a r n i n g r a t e i m p r o v e s b y 2 3.0 8%a n d 2 3.3 3%,

17、a n d t h e s u c c e s s r a t e i m p r o v e s b y 1 0.7%a n d 1 1.5 7%.K e y w o r d s r o b o t i c a r m s;p r i o r k n o w l e d g e;d e e p r e i n f o r c e m e n t l e a r n i n g;n e t w o r k m i g r a t i o n0 引言在机器人领域中,机械臂的应用最为广泛1,是自动化应用中不可或缺的一部分,特别是在搬运、分拣、装配、医疗等工作场景中扮演着重要的角色。机械臂不仅提

18、高了作业安全和产品质量,而且降低了生产成本与工作强度2。然而,机械臂通常面向特定的生产线,按照设定程序完成重复且技术含量低的工作3。在复杂的非标准环境下,如何保证机械臂准确高效地完成特定工作依然存在巨大的挑战,虽然国内外学者已经提出了使用智能算法对机械臂进行路径规划4-5,但是传统的控制方法在面对陌生环境时仍然存在一定缺陷,例如缺乏自适应能力等6。2 0世纪五六十年代人工智能兴起,为机械臂的控制策略提供了新思路7。不同于传统的固定命令控制方法8,强化学习与机械臂技术相结合,使机械臂借助强化学习的试错机制与环境交互获取信息9,从而具有强大的学习能力,极大地提高了机械臂对陌生环境

19、和新任务的适应能力。强化学习主要用来解决决策问题1 0,通过最大化累计奖赏方式找到最优策略1 1。但在机械臂行为决策能力的研究中还存在机械臂数据特征提取困难、任务空间大等问题,D R L为此提供了良好的解决方案。D R L是深度学习(d e e p l e a r n i n g,D L)和强化学习(r e i n-f o r c e m e n t l e a r n i n g,R L)的交叉领域,不仅具有D L的线性拟合和特征提取能力1 2,还具有R L的决策能力,且在机械臂控制领域已有大量的研究与应用。文献1 3 设计了一种具有卷积神经网络(c o n v o l u-t i

20、 o n a l n e u r a l n e t w o r k s,C NN)的深度Q网络(d e e p Q-n e t w o r k,D QN),以图片作为输入学习策略,机械臂在自身环境与位置未知的情况下,可将小球推入球网。文献1 4 使用深度确定性策略梯度(d e e p d e t e r m i n i s t i c p o l i c y g r a d i e n t,D D P G)训练机械臂到达三维空间内的目标点,同时设计了多种奖赏函数对机械臂进行训练,验证了合理的奖赏函数可以加快算法的收敛。文献1 5 使用D D P G训练机械臂实现推、抓、扔小球等任务,文中使用

21、事后经验回放(h i n d s i g h t e x p e r i e n c e r e p l a y,HE R)算法与D D P G相结合的方式来处理学习过程中奖赏稀疏的问题。实验结果表明,使用HE R可以提高简单实验的成功率,但在复杂任务中HE R的能力有所下降。文献1 6 提出一种位姿最佳算法以降低稀疏奖赏对机械臂训练的影响。文献1 7 对D D P G做出2点改39第4期缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究进以加快学习速度和提高性能:一是使用非对称输入,其中A c t o r网络使用通过C NN网络处理图像数据输入,而C r i t i c网络使用仿真环境

22、反馈的状态(例如物体的位置、机械臂的关节角度等)作为输入;二是通过增加一组状态预测网络与C NN网络并行一起输入进A c t o r网络。上述内容通过D R L方法实现了机械臂的自主规划与学习,能够在未知环境下完成任务;但是部分研究通过减少机械臂的关节数量来降低训练难度。因此,在机械臂使用D R L的学习过程中仍存在数据采样效率低、经验样本质量低、高维连续的状态-动作空间等问题,进而导致D R L的奖赏函数收敛速度慢、学习效率低,直接影响机械臂的训练效果。目前机械臂与强化学习的结合主要集中于路径自主规划、目标物体抓取等方面。现有研究的抓取目标多为球体,机械臂末端仅需保证夹爪与物体的中心点重合即

23、可,无须考虑抓取时的姿态。而在抓取的研究中,多数仅针对同一位姿物体分析机械臂的任务完成情况,未考虑训练完成后D R L算法在新任务中的泛化能力。针对上述问题,本文以D D P G和S o f t m a x深度双确定性策略梯度(简称S D 3)1 8为原始模型,在原始模型中引入先验知识,并将模型与机械臂逆运动学相结合对机械臂自主抓取的行为决策进行训练,以奖赏函数的收敛速度和任务的成功率为指标对原始及引入先验知识的4种模型性能进行比较分析。同时,将训练所得的网络参数进行迁移,分析比较引入先验知识前后算法的泛化能力。为符合实际,本文使用长方体作为机械臂自主抓取对象,同时要求夹爪以特定的姿态执行抓取

24、动作。1 相关知识1.1 强化学习(R L)R L是机器学习的范式和方法论之一,用于描述和解决智能体(A g e n t)在与环境交互过程中通过奖赏最大化的方式以达成策略优化或实现特定目标的问题1 9。R L问题可以转化为马尔可夫决策过程(m a r k o v d e c i s i o n p r o c e s s,MD P)。通常MD P由(S,A,P,R,)五元组构成,其中S为状态空间,A为动作空间,P为状态转移概率矩阵,R为奖赏函数,为折扣因子。A g e n t在给定状态s(sS)下选取一个动作a(aA)的函数称为策略。策略为A g e n t在状态s下选取动作a的概率:(a|

25、s)=PAt=a|St=s。A g e n t执行每一步动作得到的奖赏:Gt=k=0 Rt+k+1。A g e n t通过最大化Gt寻找最优策略*。R L算法可依据有无模型进行分类。其中有模型算法需要对环境进行建模,但模型往往无法充分考虑到现实环境中的各种因素总是存在误差,导致在现实应用中达不到仿真训练的效果2 0,且无法适应动态环境;而无模型R L算法无须对环境进行精确建模,从而避免上述问题。此外,R L算法还可以按照基于值函数和基于策略进行分类。基于值函数的R L计算量大、存在震荡不收敛的现象2 1,在高维连续动作空间中的交互过程难以学习最优策略。而策略函数可以针对连续动作空间直接产生动作

26、值,很好地解决连续动作空间问题。针对上述问题,本文选择无模型D R L方法进行机械臂自主抓取训练。1.2 深度确定性策略梯度(D D P G)文献2 2 基于A c t o r-C r i t i c(A-C)和D QN的理念架构提出D D P G算法解决连续空间问题。D D P G是一种基于策略的D R L算法,策略可以描述为一个包含参数的函数:(s,a)=Pa|s,。对应策略目标函数为:J()=EG。策略目标函数可以通过梯度上升或下降的方法实现A g e n t与环境互动过程中的累计奖赏最大化。文献2 3 提出策略目标函数的随机策略梯度:J()=E l n(s,a)Q(s,a)(1)式中:

27、(s,a)为策略函数;Q(s,a)为状态价值函数。D D P G包含了A c t o r和C r i t i c网络,A c t o r由在线A c t o r网络(s|)和目标A c t o r网络(s|)组成,C r i t i c由在线C r i t i c网络Q(s,a|Q)和目标C r i t i c网络Q(s,a|Q)组成。其中A c t o r负责与环境互动和生成动作,C r i t i c负责评价A c t o r并指导后续动作。D D P G中具有经验回放机制,在A g e n t学习过程中通过批量采样经验样本来更新网络参数。其中在线A c t o r网络根据在线C r i

28、t i c网络输出的Q值进行更新。随机策略梯度存在计算量大等问题,文献2 4 提出了确定性策略梯度,使用确定性策略梯度(d e t e r-m i n i s t i c p o l i c y g r a d i e n t,D P G)进行网络更新,更新梯度为J=1NiaQ(s,a|Q)|s=si,a=i(s|)|s=si(2)49 西安工程大学学报第3 7卷其中Q(s,a|Q)|s=si,a=i为在线C r i t i c网络在s=si,a=i状态下输出的Q值,(s|)|s=si为在线A c t o r网络在s=si状态下输出的动作。在线C r i t i c网络则利用最小化在线C r

30、 i t i c网络参数;(0,1)为学习率。1.3 S o f t m a x深度双确定性策略梯度S D 3算法在双延迟D D P G(简称T D 3)基础上使用了双重A c t o r网络和C r i t i c网络,同时引入了S o f t m a x函数来更新值函数,有效地改善高估和低估偏差对性能的影响2 5。学习过程中,从2组目标C r i t i c网络选取较小的Q 值并通过S o f t m a x函数更新在线C r i t i c网络参数。其中连续动作空间的S o f t m a x通过对Q 值采样进行无偏估计:s o f t m a x(Q(s,a)=Eape x p(Q(s

31、,a)Q(s,a)p(s)Eape x p(Q(s,a)p(a)(6)式中:为S o f t m a x算子参数;Q(s,a)为目标C r i t i c网络输出的Q值;p(a)为概率密度函数;a=(s)+为动作策略,其中为随机噪声来防止过拟合并降低方差,以提高目标Q值估计准确性。2 算法改进及实施本节将深入研究算法改进和实施的关键步骤。首先着眼于算法改进来提高算法的性能,随后转向算法实施,详细说明如何将改进后的算法应用在机械臂自主行为决策中。2.1 算法改进在机械臂自主行为决策过程中,原始D R L模型难以处理高维连续的状态-动作空间引起的数据采样效率低及经验样本质量低等问题,本文对算法的改

32、进具体如下。2.1.1 先验知识D R L与机械臂结合的本质是D R L指导机械臂自主探索和学习行为策略。诸多研究表明,机械臂使用D R L方法解决行为决策问题时,面临的最大问题为机械臂高维连续的动作空间导致数据采样效率低和经验样本质量低。该问题直接导致训练数据不足,使得D R L无法发挥在特征提取和拟合方面的强大能力2 6,最终导致前期学习效率低和训练时间过长。如果通过增加经验池和采样大小来提高前期学习效率,则将导致算力成本增加以及单步学习时间增长。针对上述问题,本文在D R L算法中引入先验知识,即通过专家指导的方式以达到加快奖赏函数收敛速度和减少训练时长的目的。本文主要在采样阶段引入先验

33、知识,先验知识的本质为专家经验。在原始模型中,使用完全随机的方式进行采样,收集的经验样本随机性强。虽然该方式可以完全发挥A-g e n t的探索能力,但是直接导致样本质量不够好,无法采集到十分有效的样本,导致数据采样效率低,A g e n t难以在有限的样本中学到好的效果,如此情况下,想要得到良好的训练效果,则需要庞大的样本数量,浪费大量的算力及时间成本。在引入先验知识后,本文在一定概率下使用专家经验指导代替完全随机进行采样。引入先验知识的D R L模型如图1所示。图 1 引入先验知识的D R L模型F i g.1 D R L m o d e l w i t h t h e i n t r o

34、 d u c t i o n o f p r i o r k n o w l e d g e59第4期缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究图1中,(s,a)表示当前状态及当前动作,(s,a,r,s)表示当前状态、当前动作、奖赏和下一状态。在采样阶段,A g e n t以一定概率选择通过先验知识或随机方式作为动作输出,经验池溢出后,由A c t o r网络输出动作。采样前期,以随机采样为主并以低概率伴随实施专家指导采样,随着采样数量增加逐步提高概率直至完成采样工作。在该方式下,前期大量的随机采样在保证A g e n t的探索能力同时避免其陷入局部最优;后期的专家指导采样确保经

35、验样本质量的同时保证数据的采样效率。本文假设被抓物体相对于参考坐标系的位姿信息T已知,并将T作为先验知识用于指导A g e n t采样。具体实施如下:在随机采样阶段,以概率P进行采样。剩余1-P则通过T对机械臂的末端运动方向以及R G 2夹爪的横滚角、俯仰角、偏航角(r o l l、p i t c h、y a w,简称R P Y)旋转方向进行指导,运动和旋转的幅度在动作空间A中随机选取。为避免先验知识限制A g e n t的探索能力和采样数据的多样性,同时保证先验知识对A g e n t的有效指导,设定Pi+1=0.9 9Pi,P0=0.9,其中i为回合数。2.1.2 状态-动作空间优化为降低

36、状态空间和动作空间的空间复杂度,减少计算量,降低神经网络的拟合难度,本文将D R L与机械臂逆运动学相结合。在该方式下,A g e n t无须同时观察机械臂的关节信息并进独立控制;只需观察和控制夹爪的位姿,降低状态与动作空间的维度。A g e n t在输出动作时,仅需要根据当前状态输出夹爪的位姿,以机械臂逆向运动学(i n v e r s e k i n e-m a t i c s,I K)的方式,将夹爪的位姿转换为关节角度。本文使用六自由度机械臂作为实验对象,其雅克比矩阵存在不可逆的情况,使用伪逆进行求解时在奇异点处难以求解。因此本文使用阻尼最小二乘法进行I K求解,在奇异点处仍能稳定求解。

37、2.2 算法实施本节主要介绍引入先验知识的D R L模型与机械臂结合实现自主行为决策的具体实施方法。2.2.1 MD P建模使用D R L解决机械臂的自主抓取问题,首先需要将问题建模为MD P。状态空间、动作空间和奖赏函数的定义如下所示。1)状态空间S。本文设定A g e n t在机械臂每步动作上观测的状态向量st为px,py,pz,。其中,px,py,pz 为夹爪的夹持点相对于参考坐标系的空间位置信息,为夹爪相对于参考坐标系的R P Y角信息。2)动作空间A。A g e n t根据观察到的状态输出动作向量at=dx,dy,dz,d,d,d,其中,dx,dy,dz 为R G 2夹持点相

38、对于基坐标系在 x,y,z3个方向上位移的偏移值,d,d,d为R G 2的R P Y角相对于基坐标系在 x,y,z3个方向上转动的偏移角度,转动顺序为xyz。限定夹持点在3个方向上每次动作范围为-2 0 0 mm,2 0 0 mm,夹爪的R P Y角转动范围为-2 0,2 0 。3)奖赏函数R。R L的基本思想就是通过最大化奖赏寻找最优策略,奖赏函数对训练速度和学习结果有着非常重要的作用。在机械臂的自主行为决策训练过程中,易出现奖赏稀疏问题,该问题会直接影响奖赏函数的收敛和机械臂的训练效果。合理的奖赏函数,在一定程度上可以解决奖赏稀疏的问题。因此本文在机械臂每进行一个动作后给予一个适当的立即

39、奖赏,具体奖励函数包含6个部分。a)若机械臂或夹爪与被抓物体、地面、本身发生碰撞,则给予r1=-1 0 0的负奖励。b)若A g e n t给定的动作超出机械臂的运动范围,则给予r2=-1 0 0的负奖励。c)若机械臂正确完成抓取任务,则给予r3=2 0 0的正奖励。d)若夹爪夹持点与上一步相比,靠近被抓物体则给予正奖励,相反则给予负奖励。奖赏函数r4=l n(dt-dt+1-1),其中dt为第t步夹爪夹持点与被抓物体中心的距离,dt+1为第t+1步时的距离。e)为让A g e n t每个回合使用较少的步数完成目标,每个回合内A g e n t每执行一次动作给予-1的负奖励,限定每回合最大步数

40、为5 0步,超过则立即终止该回合,并给予r5=-5 0的负奖励。f)抓取时,夹爪在目标物体一定范围内时,根据R P Y角的偏差给予一定的负奖赏。奖赏函数r6=-e|RT-R|-e|PT-P|-e|YT-Y|+3,其中Rt、Pt、Yt分别为第t步夹爪的R P Y角,R、P、Y为目标物体的R P Y角。综上,奖赏函数为R=r1+r2+r3+r4+r5+r6-1。2.2.2 网络结构神经网络在D R L中用来拟合值函数和特征提取,实现端到端的学习。为保证2种算法对比的有效性,S D 3采用与D D P G一致的网络结构与激活函69 西安工程大学学报第3 7卷数。A c t o r和C r i t

41、i c网络结构如图2所示。(a)A c t o r网络结构(b)C r i t i c网络结构图2 A c t o r与C r i t i c网络结构F i g.2 A c t o r a n d C r i t i c n e t w o r k s t r u c t u r e图2中,2种网络均由2层全连接层组成,A c t o r的激活函数采用了R e l u和T a n h,而C r i t i c的激活函数则为R e l u。所有在线网络和目标网络结构完全一致。A c t o r网络第1层有1 2 8个神经元,第2层有6 4个神经元。A c t o r网络由状态向量st经过全连接输

42、入第1层神经元,再经过R e l u函数输入到第2层神经元,最后通过T a n h函数输出动作a。C r i t i c网络第1层由2组数量为1 2 8的神经元组成,第2层由6 4个神经元组成。C r i t i c网络由状态向量st和动作向量at经过全连接输入第1层的一组神经元,然后,将第1层的2组神经元进行拼接,再经过R e l u函数输入到第2层神经元,最后输出Q值。2.2.3 超参数超参数在D R L的学习过程中也起着至关重要的作用,合理的参数设置可以加快学习速度同时避免A g e n t陷入局部最优。为确保对比实验的有效性,S D 3与D D P G相同类型参数设置同样的参数值,通过

43、对各参数不断地测试与调整,最终奖赏折扣因子、软更新学习率、A c t o r网络学习率、C r i t i c网络学习率、经验池大小、采样大小分别设置为0.9、0.0 0 5、0.0 0 1、0.0 0 1、5 0 0 0 0、1 0 2 4;S D 3算法的Q值采样数量k设置为5 0。2.2.4 算法流程D D P G和S D 3算法流程主要分为采样和学习两个阶段。整体算法流程具体如图3所示。图 3 算法实施流程F i g.3 A l g o r i t h m i m p l e m e n t a t i o n p r o c e s s图3中,在采样阶段:首先初

44、始化A c t o r和C r i t i c网络参数,获取初始状态;然后根据概率,从先验知识或随机方式选择一种输出动作,并获取下一状态;最后计算即时奖励并存储经验。学习阶段:A c t o r网络根据状态输出动作,同时获取下一状态;然后计算计时奖励并存储经验;最后从经验池随机选取样本更新A c t o r和C r i t i c网络参数。3 仿真实验与结果分析本文使用C o p p e l i a S i m软件进行仿真实验。C o p p e l i a S i m是一款专业的机器人仿真软件,具有强大的动力学和运动学仿真能力,支持多种物理引擎仿真,同时还支持C、M a

45、t l a b、P y t h o n等多种编程语言远程连接。本文在C o p p e l i a S i m中搭建机械臂模型,物理引擎为B u l l t e。使用P y t h o n编写D R L机械臂控制程序,A c t o r和C r i t i c神经网络基于P y-t o r c h框架搭建,通过远程应用程序编程接口实现P y t h o n与C o p p e l i a S i m通信连接,完成D R L训练C o p p e l i a S i m中机械臂的自主抓取任务。3.1 仿真实验本文以一款型号为“UR 5”的六自由度协作机械臂作为仿真实验对象,机械臂末端执行器为R

46、G 2夹爪,UR 5的基坐标系作为参考坐标系,UR 5+R G 2的D-H参数如表1所示。表 1 UR 5+R G 2 D-H参数表T a b.1 D-H p a r a m e t e r t a b l e o f UR 5+R G 2编号i/()di/mmai-1/mmi-1/()1 0 7 5 0 9 02 9 0 04 2 5 03 0 03 9 2 04 9 0 1 1 0 0 9 05-9 0 9 5 0-9 06 0 2 6 2.2 5 0 079第4期缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究表1中i为关节转角,di为连杆偏距,ai-1为连杆长度,i-1为连杆

47、转角。为符合实际工程应用情况,将抓取对象设置为1 5 0 mm5 0 mm3 0 mm的长方体。本文使用2种位姿的长方体进行实验,一种用于自主抓取训练,一种用于迁移网络参数后检验模型的泛化能力。其中,用于训练的长方体对于参考坐标系的中心坐标为0 mm,8 0 0 mm,1 5 mm,参考坐标系的R P Y角为0,0,9 0 。检验泛化能力的长方体中心坐标为1 0 mm,7 5 0 mm,6 0 mm,R P Y角为 4 5,0,9 0 。实验流程:首先,训练机械臂对平放在地面的长方体抓取;然后,使用本次训练的神经网络参数对不同位姿的同一长方体进行抓取,检验2种算法的泛化能力;最后,从2次实验

48、的奖赏函数收敛情况和抓取成功率对2种算法进行比较。3.2 结果分析奖赏函数收敛情况是评价D R L算法有效性的重要指标之一。机械臂自主抓取本质上来说是一种行为决策问题,仅从奖赏函数的收敛状况进行分析评价不具有客观性。为符合实际应用场景,本文从奖赏函数、抓取成功率以及迁移训练所得网络参数对不同位姿的同一物体抓取情况进行对比分析。抓取成功判断指标:夹爪的夹持点与被抓物体的中心点重合(位置误差1 c m),夹爪与物体的R P Y角一致,且横滚角、俯仰角、偏航角的误差均小于0.5。3.2.1 先验知识与原始模型比较分析D D P G、S D 3算法引入先验知识前后4种模型的训练结果如图4所示,图4(a

49、)为4种模型奖赏图,图4(b)为4种模型抓取成功率。(a)训练奖赏(b)训练抓取成功率图 4 D D P G、S D 3算法引入先验知识前后4种模型训练结果F i g.4 T r a i n i n g r e s u l t s o f f o u r m o d e l s b e f o r e a n d a f t e r i n t r o d u c i n g p r i o r k n o w l e d g e i n t o D D P G a n d S D 3 a l g o r i t h m s从图4可以看出,所有模型在起始学习阶段获得的奖赏和成功率都很低,但随着

50、训练回合数的增加均逐步提高并收敛。根据本文奖赏函数设定,机械臂成功完成抓取任务A g e n t就会获得很大奖赏,相反任务失败或训练步数超过限制奖赏则会很低。比较各模型,引入先验知识的S D 3模型和D D P G模型奖赏收敛速度较快,分别在1 5 5 0和1 7 0 0回合时趋于稳定,而S D 3和D D P G原始模型分别在1 8 0 0和1 9 5 0回合左右逐步稳定,比原始模型的学习效率提升了1 3.8 9%、1 2.8 2%。在抓取成功率上,引入先验知识的S D 3模型和D D P G模型在2 0 0 0回合的成功率达到2 7.9 1%、2 2.3 5%,相比原始模型成功率分别提高了

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 结合先验知识深度强化学习机械抓取研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。