复杂动态环境下基于深度强化学习的AGV避障方法_蔡泽.pdf
《复杂动态环境下基于深度强化学习的AGV避障方法_蔡泽.pdf》由会员分享,可在线阅读,更多相关《复杂动态环境下基于深度强化学习的AGV避障方法_蔡泽.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 卷第期计算机集成制造系统 年月 :收稿日期:;修订日期:。;基金项目:国家重点研发计划资助项目();国家自然科学基金资助项目()。:,(),()复杂动态环境下基于深度强化学习的 避障方法蔡泽,胡耀光,闻敬谦,张立祥(北京理工大学 工业与智能系统工程研究所,北京 )摘要:为提升自动导引车()在智能工厂复杂动态环境下的避障能力,使其能在全局路径引导下安全、高效地完成避障任务,提出一种基于深度强化学习的局部避障方法。首先,将避障问题表示为部分观测马尔可夫决策过程,详细描述了观测空间、动作空间、奖励函数和最优避障策略,通过设置不同的奖励实现以全局路径引导局部避障规划;然后,在此基础上,采用深度确定
2、性策略梯度算法训练避障策略;最后,建立了仿真实验环境,并设计多种实验场景来验证所提方法的有效性。实验结果表明,所提方法可以应对复杂动态环境,减小避障时间与距离,提高运行效率。关键词:动态避障;深度强化学习;全局路径引导;智能工厂中图分类号:文献标识码:,(,):(),(),(),:;引言自 动 导 引 车(,)因其自动化程度高、应用灵活等特点逐渐成为智能工厂物料运输的关键设备。在智能工厂中,工厂布局柔性多变、多运行相互影响,使得的运行环境更加复杂,对其动态避障能力有了更高的要求。避障路径规划要求 以合理的方式躲避障碍,安全高效地完成运输任务。早期的避障路径规划多采用集中式方法,由一个中央服务器
3、决定所有的运行,中央服务器可以获取工厂环第期蔡泽 等:复杂动态环境下基于深度强化学习的 避障方法境信息和所有 的运行状态,为多 同时规划无碰 撞 的 路 径。集 中 式 方 法 可 以 保 证 多 个安全运行,并能使路径达到近似最优,但这种方法严重依赖于实时通信和精准的状态感知,抗干扰和容错能力很差,不适用于复杂环境和有人参与的场景。与集中式方法对应的是分散式方法,分散式方法允许只感知自身局部环境信息,不需要中央服务器。分散式方法中一种经典的方法是速度障碍法,根据周围环境中障碍物的信息选择回避障碍的速度,基于此框架衍生出互惠速度障碍法(,)、最优互惠速度障碍法(,)等方法,但速度障碍避障方法需
4、要对障碍的位置、速度和形状有精确感知,在现实应用中很难实现。机器学习、大数据等人工智能技术的发展为避障问题提供了新的解决方案,深度学习强大的表示能力与强化学习技术的结合,允许直接利用原始的传感器数据动态规划路径。基于深度强化学习技术的避障方法通常采用端到端的模式,以传感器(如激光雷达、深度相机等)采集到的数据为输入,输出 的控制指令(速度、角速度、电机转速等),因为控制指令多为连续值,所以采用基于策略的算法等。避障路径规划通常被设置为点到点的局部避障,检测到障碍后从全局路径中选取一个路点作为局部目标点,无碰撞的运行到此目标点后视为避障结束。避障过程被建立为适合强化学习解决的离散序列决策问题,在
5、每个时刻根据环境的状态决策出运动控制指令。基于以上模式,研 究 者开始探索 在复 杂环境 中 的 避 障 方法。等 针对复杂室内场景(如迷宫等)中局部目标点难以定位的问题,将感知的第一人称环境图像作为 输 入,引 导 运 行;等 针 对 多场景下算法难以收敛的问题,提出多场景多阶段的训练方法,从简单到复杂的训练避障策略;等 考虑到人运动的随机性,融合多传感器评估行人意图,使 适应不确定运行环境。上述方法将局部避障视为点到点过程,以 是否到达目标点一定范围内作为避障结束的依据,该方式只关注了躲避障碍而没有考虑局部避障规划对后续运行的影响,避障结束后需要继续调整轨迹使回到全局路径,影响了的运行效率
6、。因此,为解决复杂动态环境下考虑全局路径引导的避障问题,本文提出一种基于深度强化学习的局部避障路径规划方法。首先,将 避障问题表示为部分观测马尔可夫决策过程,详细介绍了观测空间、动作空间和奖励函数,在建立避障决策模型时同时考虑了路点位置和后续路径方向的引导作用;基于建立的决策过程,开发仿真环境并采用深度确定性策略梯度算法(,)训练避障策略。最后,进行仿真实验,设置多种实验场景验证提出方法的有效性。避障问题描述与数学表征 问题描述与假设在智能工厂中,设备布局柔性多变、多 同时执行物料搬运任务,的运行环境更加复杂,为了安全、高效地执行任务,需要有自感知与自决策能力。在运行过程中,通过安装的传感器实
7、时探测周围环境,当检测到附近存在障碍物时,需要自主规划出避障路径规避碰撞风险;为完成搬运任务通常采用全局与局部相结合的路径规划方法,在执行任务前先全局规划出从起点到任务目标点的全局路径,在运行过程中遇到障碍时进行局部路径规划。因此,局部避障路径规划既要满足无碰撞的要求,也要考虑任务的影响,在全局路径的引导下完成避障。在多同时运行时,需要躲避不同速度的障碍,因此局部避障路径规划需要具有应对动态环境的能力。假设:以激光雷达感知周围环境,可以实时获取到雷达数据与自身位置姿态;在运动前规划出全局路径,全局路径以等间隔的点表示;有一定的安全运行范围,当障碍进入该范围时进行局部路径规划;可以获取到自身的运
8、行速度(,),分别为线速度和角速度,的最大速度为 (,),即,。避障过程数学表征局部避障路径规划可以表示为在等间隔离散时间点的序列决策问题,上安装有感知周围环境的激光雷达,在开始时刻(记时刻)检测到有障碍物进入安全范围,进入避障状态,从全局路径的路点中选择局部目标点;避障过程中,在每个时刻(,)接受传感器感知的环境信息、自身的位置姿态、运行速度等状态信息以及目标点的位置信息,根据以上信息生成运动计算机集成制造系统第 卷控制指令并执行,改变自身状态;每一步决策完成后时间推进,进入下一时刻;当 无碰撞的到达局部目标点时完成避障,如果在该过程中与障碍物发生碰撞则避障失败。要解决的问题是得到局部避障策
9、略,在每个时刻以观测到的信息为输入,输出运行控制指令。每一时间步的避障决策表示为:在时刻,观测到环境信息和自身状态信息(,),为激光雷达探测到的周围环境信息、为在全局坐标系下的位置、为 的姿态角,为行驶速度、为选择的局部目标点。由于中的数据只包含当前时刻障碍物的静态信息,为了能够大致评估障碍物在一段时间内的运动趋势等动态信息,使用从时刻()(为整数)到时刻的个观测值(),(),)作为避障策略的输入。为的输出,是对的运行控制指令,采用(,)(的线速度和角速度)控制运动。因此,局部规划过程中每一步的决策可以表示为()。局部避障需要满足以下要求:在运行过程中不与障碍物发生碰撞;局部规划以全局路径作为
10、引导,避免过度偏离全局路径,避障结束后的运行方向与全局方向一致;避障过程消耗的时间尽可能少;确保避障路径的平滑性与 运行稳定性,控制指令不能大幅度变化。无碰撞的要求表示为:在避障过程的每一个时刻,对任何障碍物都有(,),表示 的几何形状,为障碍物的几何形状。以全局路径引导避障表示在局部避障规划时尽可能沿全局路径的轨迹行驶,不能大幅度偏离全局轨迹。全局路径由一组路点表示,在 检测到障碍时从中选择局部避障点,考虑到要用后续路径引导局部规划,选择之后的相邻路点构成全局引导向量。在每一时刻的位置与目标点构成位置向量为,在时刻执行动作后位置向量由变为,变化量为,和在的法向量上投影的模长分别为和,如图所示
11、。在全局路径引导下意味着要尽可能保证:运行方向与全局路径相同,即,运行方向与全局引导方向呈锐角;不偏离全局轨迹,即,对全局轨迹的偏离距离不会增大。避障策略决策出的控制指令为 下一刻的预期速度,预期速度可能与当前时刻速度有较大差距,即 的加速度过大导致 的轨迹不够平滑,对的平稳运行有很大影响,同时也会带来安全问题。因此还需增加底层控制策略,采用工业控制领域常用的 控制方法,对输出的控制指令进一步处理,最后用于控制运行的实际控制指令为 (,),具体计算方法为;。()式中:是当前时刻的速度;是由控制策略生成的下一时刻预期速度;是经过 控制方法处理后的下一时刻的真实速度;、分别为比例系数、积分系数、微
12、分系数。在下一时刻的位置和姿态为:。()式中:、分别为 位置在横纵方向的分量。考虑到在实际运行中,局部目标点可能与障碍重合,因此判定 到达目标点不必严格要求的位置与目标点位置重合或接近,只需整体运行轨迹与全局路径一致即可。结合上述全局路径引导的要求,在时到达目标点可以表示为、,即 在全局方向上超过目标点、的运行方向与全局方向一致。对观测信息做进一步补充,加入全局路径方向信息,同时将环境信息、引导向量、位置向量由全局坐标变换到以 位置为原点,以姿态方向为第期蔡泽 等:复杂动态环境下基于深度强化学习的 避障方法轴的相对坐标系下,新的观测信息表示为(,)。以 最 短 时 间 完 成 避 障 表 示
13、最 小化。综上所述,智能工厂环境下的 避障问题可以转化为不确定环境下的从开始避障到结束避障的序列决策问题,优化目标为:()。()决策变量为:()。()约束包括:,(,);(,);(,);。()部分观测马尔可夫决策过程构建为了求解最优策略,本文将局部避障问题构建为马尔可夫决策过程,由于观测数据只来自于对应的,是对环境信息的部分观测,该决策问题属于部分观测马尔可夫决策过程(,)。包含个元素(,),其中:为环境的状态空间,包含运行环境中的所有可能状态;为动作空间,包括对的控制指令;为状态转移函数,表示执行动作后状态转移的概率;为奖励函数,用来评价状态转移过程;为观测空间();为 对 环 境 状 态
14、的 观 测 函 数()。在建立的模型中,依据对环境的观测决策出控制指令,因此不需要考虑环境的相关元素,下面详细介绍避障问题中的观测空间、动作空间与奖励函数。观测空间 在时刻观测到的信息包括周围环境数据、运行速度、避障过程的全局路径引导方向以及表示 位置与局部目标点位置的,如图所示。由布置在 前端的激光雷达扫描产生,可以探测 的平面区域,角分辨率为,全部的雷达探测数据维度过高,不利于计算,因此在每个时刻等间隔()抽取 个数据()作为最终的输入,雷达测距半径为 ;为 的运行速度,由 行驶的线速度和角速度(,)表示();为表示全局路径方向的二维向量();表示 与避障目标点的位置关系,同样由二维向量表
15、示()。单次观测包含环境中障碍物的静态信息(如形状、位置等),为了提高决策的有效性,需要利用环境中的动态信息,因此使用最近的个连续观测值组成的观测序列(),(),)推测障碍的速度、运动趋势等信息。观测序列中的观测数量越多,包含的环境信息也越充分,可以提高决策的准确率,但过多的信息会影响计算的速度,对决策的时效性产生负面影响,综合考虑本文取,即(,)作为观测序列。在开始避障的时刻,观测序列取(,)。动作空间动作 空 间 是允许 的 运 行 速 度,本 文 以的线速度和角速度作为控制指令控制其运动,即(,),的运动模型如式()。由于只能观测到前方的环境,决策出的动作只能控制 前进或者转向,设置动作
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 复杂 动态 环境 基于 深度 强化 学习 AGV 方法 蔡泽
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。