结合先验知识与深度强化学习的机械臂抓取研究.pdf
《结合先验知识与深度强化学习的机械臂抓取研究.pdf》由会员分享,可在线阅读,更多相关《结合先验知识与深度强化学习的机械臂抓取研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、西 安 工 程 大 学 学 报J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y 第3 7卷第4期(总1 8 2期)2 0 2 3年8月V o l.3 7,N o.4(S u m.N o.1 8 2)引文格式:缪刘洋,朱其新,丁正凯,等.结合先验知识与深度强化学习的机械臂抓取研究J.西安工程大学学报,2 0 2 3,3 7(4):9 2-1 0 1.M I AO L i u y a n g,Z HU Q i x i n,D I N G Z h e n g k a i,e t a l.R o b o t i c a
2、 r m g r a s p i n g s t u d y c o m b i n i n g p r i o r k n o w l e d g e a n d d e e p r e i n f o r c e m e n t l e a r n i n gJ.J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y,2 0 2 3,3 7(4):9 2-1 0 1.收稿日期:2 0 2 3-0 4-2 6 修回日期:2 0 2 3-0 6-2 7 基金项目:国家自然科学基金(5 1 8 7 5 3 8 0;6
3、2 0 6 3 0 1 0);泰州市科技计划项目(T G 2 0 2 1 1 7)第一作者:缪刘洋(1 9 9 5),男,硕士研究生。通信作者:朱其新(1 9 7 1),男,教授,博士,研究方向为伺服控制、控制理论及应用。E-m a i l:b o b 2 1 c n 1 6 3.c o m结合先验知识与深度强化学习的机械臂抓取研究缪刘洋1,朱其新2,丁正凯3,王 旭1(1.苏州科技大学 电子与信息工程学院,江苏 苏州 2 1 5 0 0 9;2.苏州科技大学 机械工程学院/建筑智慧节能江苏省重点实验室/苏州市共融机器人技术重点实验室,江苏 苏州 2 1 5 0 0 9;3.苏州科技大学 电子
4、与信息工程学院/建筑智慧节能江苏省重点实验室,江苏 苏州 2 1 5 0 0 9)摘要 在应用深度强化学习(d e e p r e i n f o r c e m e n t l e a r n i n g,D R L)实现机械臂自主行为决策过程中,高维连续的状态-动作空间易引起数据采样效率低及经验样本质量低,最终导致奖赏函数收敛速度慢、学习时间长。针对此问题,提出一种引入先验知识的D R L模型。该模型与机械臂逆运动学相结合,在D R L采样阶段引入先验知识指导智能体(A g e n t)采样,解决学习过程中的数据采样效率低、经验样本质量低的问题;同时通过网络参数迁移的方式验证引入先验知识的
5、D R L模型在面对新任务时仍具有较强的泛化能力;最后,利用P y t h o n和C o p p e l i a S i m仿真平台进行联合仿真实验。结果表明:引入先验知识的D R L模型比原始模型的学习效率提升了1 3.8 9%、1 2.8 2%,完成任务的成功率提高了1 6.9 2%、1 3.2 5%;在新任务中,学习率提升了2 3.0 8%、2 3.3 3%,成功率提高了1 0.7%、1 1.5 7%。关键词 机械臂;先验知识;深度强化学习;网络迁移开放科学(资源服务)标识码(O S I D)中图分类号:T P 2 4 2.6;T P 3 9 9 文献标志码:AD O I:1 0.1
6、3 3 3 8/j.i s s n.1 6 7 4-6 4 9 x.2 0 2 3.0 4.0 1 2R o b o t i c a r m g r a s p i n g s t u d y c o m b i n i n g p r i o r k n o w l e d g e a n d d e e p r e i n f o r c e m e n t l e a r n i n gM I A O L i u y a n g1,ZHU Q i x i n2,D I NG Z h e n g k a i3,WANG X u1(1.S c h o o l o f E l e c t r
7、o n i c a n d I n f o r m a t i o n E n g i n e e r i n g,S u z h o u U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,S u z h o u 2 1 5 0 0 9,J i a n g s u,C h i n a;2.S c h o o l o f M e c h a n i c a l E n g i n e e r i n g/J i a n g s u P r o v i n c e K e y L a b o r a t o r y o
8、f I n t e l l i g e n t B u i l d i n g E n e r g y E f f i c i e n c y/S u z h o u K e y L a b o r a t o r y o f C o e x i s t i n g-C o o p e r a t i v e-C o g n i t i v e R o b o t T e c h n o l o g y,S u z h o u U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,S u z h o u 2 1 5 0
9、0 9,J i a n g s u,C h i n a;3.S c h o o l o f E l e c t r o n i c a n d I n f o r m a t i o n E n g i n e e r i n g/J i a n g s u P r o v i n c e K e y L a b o r a t o r y o f I n t e l l i g e n t B u i l d i n g E n e r g y E f f i c i e n c y,S u z h o u 2 1 5 0 0 9,J i a n g s u,C h i n a)A b s
10、t r a c t I n t h e p r o c e s s o f a p p l y i n g d e e p r e i n f o r c e m e n t l e a r n i n g(D R L)t o r e a l i z e a u t o n o m o u s b e h a v i o r a l d e c i s i o n-m a k i n g o f r o b o t i c a r m s,t h e h i g h-d i m e n s i o n a l c o n t i n u o u s s t a t e-a c t i o n
11、s p a c e i s p r o n e t o l o w d a t a s a m p l i n g e f f i c i e n c y a n d l o w q u a l i t y o f e m p i r i c a l s a m p l e s,w h i c h u l t i m a t e l y l e a d s t o s l o w c o n v e r g e n c e o f t h e r e w a r d f u n c t i o n a n d l o n g l e a r n i n g t i m e.T o a d d
12、r e s s t h i s p r o b l e m,a D R L m o d e l t h a t i n t r o d u c e s p r i o r k n o w l e d g e w a s p r o p o s e d.T h e m o d e l w a s c o m b i n e d w i t h t h e i n v e r s e k i n e m a t i c s o f t h e r o b o t i c a r m,a n d p r i o r k n o w l e d g e w a s i n t r o d u c e
13、d t o g u i d e t h e a g e n t d u r i n g t h e s a m p l i n g p h a s e o f D R L,a d d r e s s i n g t h e i s-s u e s o f l o w d a t a s a m p l i n g e f f i c i e n c y a n d p o o r q u a l i t y o f e x p e r i e n c e s a m p l e s d u r i n g t h e l e a r n i n g p r o c e s s.F u r t
14、h e r m o r e,t h e i n t r o d u c e d p r i o r k n o w l e d g e D R L m o d e l s s t r o n g g e n e r a l i z a t i o n c a p a b i l i t i e s w e r e v e r i f i e d w h e n f a c i n g n e w t a s k s t h r o u g h n e t w o r k p a r a m e t e r t r a n s f e r.L a s t l y,j o i n t s i m
15、u l a t i o n e x p e r i m e n t s w e r e c o n d u c t e d u s i n g P y t h o n a n d t h e C o p p e l i a S i m p l a t f o r m.T h e r e s u l t s s h o w t h a t t h e D R L m o d e l w i t h t h e i n t r o d u c t i o n o f p r i o r k n o w l e d g e i m p r o v e s t h e l e a r n i n g
16、e f f i c i e n c y b y 1 3.8 9%a n d 1 2.8 2%,a n d t h e s u c c e s s r a t e o f c o m p l e t i n g t h e t a s k i n c r e a s e s b y 1 6.9 2%a n d 1 3.2 5%t h a n t h e o r i g i n a l m o d e l;i n t h e n e w t a s k,t h e l e a r n i n g r a t e i m p r o v e s b y 2 3.0 8%a n d 2 3.3 3%,
17、a n d t h e s u c c e s s r a t e i m p r o v e s b y 1 0.7%a n d 1 1.5 7%.K e y w o r d s r o b o t i c a r m s;p r i o r k n o w l e d g e;d e e p r e i n f o r c e m e n t l e a r n i n g;n e t w o r k m i g r a t i o n0 引 言 在机器人领域中,机械臂的应用最为广泛1,是自动化应用中不可或缺的一部分,特别是在搬运、分拣、装配、医疗等工作场景中扮演着重要的角色。机械臂不仅提
18、高了作业安全和产品质量,而且降低了生产成本与工作强度2。然而,机械臂通常面向特定的生产线,按照设定程序完成重复且技术含量低的工作3。在复杂的非标准环境下,如何保证机械臂准确高效地完成特定工作依然存在巨大的挑战,虽然国内外学者已经提出了使用智能算法对机械臂进行路径规划4-5,但是传统的控制方法在面对陌生环境时仍然存在一定缺陷,例如缺乏自适应能力等6。2 0世纪五六十年代人工智能兴起,为机械臂的控制策略提供了新思路7。不同于传统的固定命令控制方法8,强化学习与机械臂技术相结合,使机械臂借助强化学 习的试错 机制与 环 境 交 互 获 取 信息9,从而具有强大的学习能力,极大地提高了机械臂对陌生环境
19、和新任务的适应能力。强化学习主要用来解决决策问题1 0,通过最大化累计奖赏方式找到最优策略1 1。但在机械臂行为决策能力的研究中还存在机械臂数据特征提取困难、任务空间大等问题,D R L为此提供了良好的解决方案。D R L是深度学 习(d e e p l e a r n i n g,D L)和 强 化 学 习(r e i n-f o r c e m e n t l e a r n i n g,R L)的交叉领域,不仅具有D L的线性拟合和特征提取能力1 2,还具有R L的决策能力,且在机械臂控制领域已有大量的研究与应用。文献1 3 设计了一种具有卷积神经网络(c o n v o l u-t i
20、 o n a l n e u r a l n e t w o r k s,C NN)的深度Q网络(d e e p Q-n e t w o r k,D QN),以图片作为输入学习策略,机械臂在自身环境与位置未知的情况下,可将小球推入球网。文献1 4 使用深度确定性策略梯度(d e e p d e t e r m i n i s t i c p o l i c y g r a d i e n t,D D P G)训练机械臂到达三维空间内的目标点,同时设计了多种奖赏函数对机械臂进行训练,验证了合理的奖赏函数可以加快算法的收敛。文献1 5 使用D D P G训练机械臂实现推、抓、扔小球等任务,文中使用
21、事后经验回放(h i n d s i g h t e x p e r i e n c e r e p l a y,HE R)算法与D D P G相结合的方式来处理学习过程中奖赏稀疏的问题。实验结果表明,使用HE R可以提高简单实验的成功率,但在复杂任务中HE R的能力有所下降。文献1 6 提出一种位姿最佳算法以降低稀疏奖赏对机械臂训练的影响。文献1 7 对D D P G做出2点改39第4期 缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究进以加快学习速度和提高性能:一是使用非对称输入,其中A c t o r网络使用通过C NN网络处理图像数据输入,而C r i t i c网络使用仿真环境
22、反馈的状态(例如物体的位置、机械臂的关节角度等)作为输入;二是通过增加一组状态预测网络与C NN网络并行一起输入进A c t o r网络。上述内容通过D R L方法实现了机械臂的自主规划与学习,能够在未知环境下完成任务;但是部分研究通过减少机械臂的关节数量来降低训练难度。因此,在机械臂使用D R L的学习过程中仍存在数据采样效率低、经验样本质量低、高维连续的状态-动作空间等问题,进而导致D R L的奖赏函数收敛速度慢、学习效率低,直接影响机械臂的训练效果。目前机械臂与强化学习的结合主要集中于路径自主规划、目标物体抓取等方面。现有研究的抓取目标多为球体,机械臂末端仅需保证夹爪与物体的中心点重合即
23、可,无须考虑抓取时的姿态。而在抓取的研究中,多数仅针对同一位姿物体分析机械臂的任务完成情况,未考虑训练完成后D R L算法在新任务中的泛化能力。针对上述问题,本文以D D P G和S o f t m a x深度双确定性策略梯度(简称S D 3)1 8为原始模型,在原始模型中引入先验知识,并将模型与机械臂逆运动学相结合对机械臂自主抓取的行为决策进行训练,以奖赏函数的收敛速度和任务的成功率为指标对原始及引入先验知识的4种模型性能进行比较分析。同时,将训练所得的网络参数进行迁移,分析比较引入先验知识前后算法的泛化能力。为符合实际,本文使用长方体作为机械臂自主抓取对象,同时要求夹爪以特定的姿态执行抓取
24、动作。1 相关知识1.1 强化学习(R L)R L是机器学习的范式和方法论之一,用于描述和解决智能体(A g e n t)在与环境交互过程中通过奖赏最大化的方式以达成策略优化或实现特定目标的问题1 9。R L问题可以转化为马尔可夫决策过程(m a r k o v d e c i s i o n p r o c e s s,MD P)。通 常MD P由(S,A,P,R,)五元组构成,其中S为状态空间,A为动作空间,P为状态转移概率矩阵,R为奖赏函数,为折扣因子。A g e n t在给定状态s(sS)下选取一个动作a(aA)的函数称为策略。策略为A g e n t在状态s下选取动作a的概率:(a|
25、s)=PAt=a|St=s。A g e n t执行每一步动作得到的奖赏:Gt=k=0 Rt+k+1。A g e n t通过最大化Gt寻找最优策略*。R L算法可依据有无模型进行分类。其中有模型算法需要对环境进行建模,但模型往往无法充分考虑到现实环境中的各种因素总是存在误差,导致在现实应用中达不到仿真训练的效果2 0,且无法适应动态环境;而无模型R L算法无须对环境进行精确建模,从而避免上述问题。此外,R L算法还可以按照基于值函数和基于策略进行分类。基于值函数的R L计算量大、存在震荡不收敛的现象2 1,在高维连续动作空间中的交互过程难以学习最优策略。而策略函数可以针对连续动作空间直接产生动作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 先验 知识 深度 强化 学习 机械 抓取 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。