复杂动态环境下基于深度强化学习的AGV避障方法_蔡泽.pdf

上传人：自信****多点

文档编号：234936

上传时间：2023-04-01

格式：PDF

页数：10

大小：2.03MB

《复杂动态环境下基于深度强化学习的AGV避障方法_蔡泽.pdf》由会员分享，可在线阅读，更多相关《复杂动态环境下基于深度强化学习的AGV避障方法_蔡泽.pdf（10页珍藏版）》请在咨信网上搜索。

1、第卷第期计算机集成制造系统年月：收稿日期：；修订日期：。；基金项目：国家重点研发计划资助项目（）；国家自然科学基金资助项目（）。：，（），（）复杂动态环境下基于深度强化学习的避障方法蔡泽，胡耀光，闻敬谦，张立祥（北京理工大学工业与智能系统工程研究所，北京）摘要：为提升自动导引车（）在智能工厂复杂动态环境下的避障能力，使其能在全局路径引导下安全、高效地完成避障任务，提出一种基于深度强化学习的局部避障方法。首先，将避障问题表示为部分观测马尔可夫决策过程，详细描述了观测空间、动作空间、奖励函数和最优避障策略，通过设置不同的奖励实现以全局路径引导局部避障规划；然后，在此基础上，采用深度确定

2、性策略梯度算法训练避障策略；最后，建立了仿真实验环境，并设计多种实验场景来验证所提方法的有效性。实验结果表明，所提方法可以应对复杂动态环境，减小避障时间与距离，提高运行效率。关键词：动态避障；深度强化学习；全局路径引导；智能工厂中图分类号：文献标识码：，（，）：（），（），（），：；引言自动导引车（，）因其自动化程度高、应用灵活等特点逐渐成为智能工厂物料运输的关键设备。在智能工厂中，工厂布局柔性多变、多运行相互影响，使得的运行环境更加复杂，对其动态避障能力有了更高的要求。避障路径规划要求以合理的方式躲避障碍，安全高效地完成运输任务。早期的避障路径规划多采用集中式方法，由一个中央服务器

3、决定所有的运行，中央服务器可以获取工厂环第期蔡泽等：复杂动态环境下基于深度强化学习的避障方法境信息和所有的运行状态，为多同时规划无碰撞的路径。集中式方法可以保证多个安全运行，并能使路径达到近似最优，但这种方法严重依赖于实时通信和精准的状态感知，抗干扰和容错能力很差，不适用于复杂环境和有人参与的场景。与集中式方法对应的是分散式方法，分散式方法允许只感知自身局部环境信息，不需要中央服务器。分散式方法中一种经典的方法是速度障碍法，根据周围环境中障碍物的信息选择回避障碍的速度，基于此框架衍生出互惠速度障碍法（，）、最优互惠速度障碍法（，）等方法，但速度障碍避障方法需

4、要对障碍的位置、速度和形状有精确感知，在现实应用中很难实现。机器学习、大数据等人工智能技术的发展为避障问题提供了新的解决方案，深度学习强大的表示能力与强化学习技术的结合，允许直接利用原始的传感器数据动态规划路径。基于深度强化学习技术的避障方法通常采用端到端的模式，以传感器（如激光雷达、深度相机等）采集到的数据为输入，输出的控制指令（速度、角速度、电机转速等），因为控制指令多为连续值，所以采用基于策略的算法等。避障路径规划通常被设置为点到点的局部避障，检测到障碍后从全局路径中选取一个路点作为局部目标点，无碰撞的运行到此目标点后视为避障结束。避障过程被建立为适合强化学习解决的离散序列决策问题，在

5、每个时刻根据环境的状态决策出运动控制指令。基于以上模式，研究者开始探索在复杂环境中的避障方法。等针对复杂室内场景（如迷宫等）中局部目标点难以定位的问题，将感知的第一人称环境图像作为输入，引导运行；等针对多场景下算法难以收敛的问题，提出多场景多阶段的训练方法，从简单到复杂的训练避障策略；等考虑到人运动的随机性，融合多传感器评估行人意图，使适应不确定运行环境。上述方法将局部避障视为点到点过程，以是否到达目标点一定范围内作为避障结束的依据，该方式只关注了躲避障碍而没有考虑局部避障规划对后续运行的影响，避障结束后需要继续调整轨迹使回到全局路径，影响了的运行效率

6、。因此，为解决复杂动态环境下考虑全局路径引导的避障问题，本文提出一种基于深度强化学习的局部避障路径规划方法。首先，将避障问题表示为部分观测马尔可夫决策过程，详细介绍了观测空间、动作空间和奖励函数，在建立避障决策模型时同时考虑了路点位置和后续路径方向的引导作用；基于建立的决策过程，开发仿真环境并采用深度确定性策略梯度算法（，）训练避障策略。最后，进行仿真实验，设置多种实验场景验证提出方法的有效性。避障问题描述与数学表征问题描述与假设在智能工厂中，设备布局柔性多变、多同时执行物料搬运任务，的运行环境更加复杂，为了安全、高效地执行任务，需要有自感知与自决策能力。在运行过程中，通过安装的传感器实

7、时探测周围环境，当检测到附近存在障碍物时，需要自主规划出避障路径规避碰撞风险；为完成搬运任务通常采用全局与局部相结合的路径规划方法，在执行任务前先全局规划出从起点到任务目标点的全局路径，在运行过程中遇到障碍时进行局部路径规划。因此，局部避障路径规划既要满足无碰撞的要求，也要考虑任务的影响，在全局路径的引导下完成避障。在多同时运行时，需要躲避不同速度的障碍，因此局部避障路径规划需要具有应对动态环境的能力。假设：以激光雷达感知周围环境，可以实时获取到雷达数据与自身位置姿态；在运动前规划出全局路径，全局路径以等间隔的点表示；有一定的安全运行范围，当障碍进入该范围时进行局部路径规划；可以获取到自身的运

8、行速度（，），分别为线速度和角速度，的最大速度为（，），即，。避障过程数学表征局部避障路径规划可以表示为在等间隔离散时间点的序列决策问题，上安装有感知周围环境的激光雷达，在开始时刻（记时刻）检测到有障碍物进入安全范围，进入避障状态，从全局路径的路点中选择局部目标点；避障过程中，在每个时刻（，）接受传感器感知的环境信息、自身的位置姿态、运行速度等状态信息以及目标点的位置信息，根据以上信息生成运动计算机集成制造系统第卷控制指令并执行，改变自身状态；每一步决策完成后时间推进，进入下一时刻；当无碰撞的到达局部目标点时完成避障，如果在该过程中与障碍物发生碰撞则避障失败。要解决的问题是得到局部避障策

9、略，在每个时刻以观测到的信息为输入，输出运行控制指令。每一时间步的避障决策表示为：在时刻，观测到环境信息和自身状态信息（，），为激光雷达探测到的周围环境信息、为在全局坐标系下的位置、为的姿态角，为行驶速度、为选择的局部目标点。由于中的数据只包含当前时刻障碍物的静态信息，为了能够大致评估障碍物在一段时间内的运动趋势等动态信息，使用从时刻（）（为整数）到时刻的个观测值（），（），）作为避障策略的输入。为的输出，是对的运行控制指令，采用（，）（的线速度和角速度）控制运动。因此，局部规划过程中每一步的决策可以表示为（）。局部避障需要满足以下要求：在运行过程中不与障碍物发生碰撞；局部规划以全局路径作为

10、引导，避免过度偏离全局路径，避障结束后的运行方向与全局方向一致；避障过程消耗的时间尽可能少；确保避障路径的平滑性与运行稳定性，控制指令不能大幅度变化。无碰撞的要求表示为：在避障过程的每一个时刻，对任何障碍物都有（，），表示的几何形状，为障碍物的几何形状。以全局路径引导避障表示在局部避障规划时尽可能沿全局路径的轨迹行驶，不能大幅度偏离全局轨迹。全局路径由一组路点表示，在检测到障碍时从中选择局部避障点，考虑到要用后续路径引导局部规划，选择之后的相邻路点构成全局引导向量。在每一时刻的位置与目标点构成位置向量为，在时刻执行动作后位置向量由变为，变化量为，和在的法向量上投影的模长分别为和，如图所示

11、。在全局路径引导下意味着要尽可能保证：运行方向与全局路径相同，即，运行方向与全局引导方向呈锐角；不偏离全局轨迹，即，对全局轨迹的偏离距离不会增大。避障策略决策出的控制指令为下一刻的预期速度，预期速度可能与当前时刻速度有较大差距，即的加速度过大导致的轨迹不够平滑，对的平稳运行有很大影响，同时也会带来安全问题。因此还需增加底层控制策略，采用工业控制领域常用的控制方法，对输出的控制指令进一步处理，最后用于控制运行的实际控制指令为（，），具体计算方法为；。（）式中：是当前时刻的速度；是由控制策略生成的下一时刻预期速度；是经过控制方法处理后的下一时刻的真实速度；、分别为比例系数、积分系数、微

12、分系数。在下一时刻的位置和姿态为：。（）式中：、分别为位置在横纵方向的分量。考虑到在实际运行中，局部目标点可能与障碍重合，因此判定到达目标点不必严格要求的位置与目标点位置重合或接近，只需整体运行轨迹与全局路径一致即可。结合上述全局路径引导的要求，在时到达目标点可以表示为、，即在全局方向上超过目标点、的运行方向与全局方向一致。对观测信息做进一步补充，加入全局路径方向信息，同时将环境信息、引导向量、位置向量由全局坐标变换到以位置为原点，以姿态方向为第期蔡泽等：复杂动态环境下基于深度强化学习的避障方法轴的相对坐标系下，新的观测信息表示为（，）。以最短时间完成避障表示

13、最小化。综上所述，智能工厂环境下的避障问题可以转化为不确定环境下的从开始避障到结束避障的序列决策问题，优化目标为：（）。（）决策变量为：（）。（）约束包括：，（，）；（，）；（，）；。（）部分观测马尔可夫决策过程构建为了求解最优策略，本文将局部避障问题构建为马尔可夫决策过程，由于观测数据只来自于对应的，是对环境信息的部分观测，该决策问题属于部分观测马尔可夫决策过程（，）。包含个元素（，），其中：为环境的状态空间，包含运行环境中的所有可能状态；为动作空间，包括对的控制指令；为状态转移函数，表示执行动作后状态转移的概率；为奖励函数，用来评价状态转移过程；为观测空间（）；为对环境状态

14、的观测函数（）。在建立的模型中，依据对环境的观测决策出控制指令，因此不需要考虑环境的相关元素，下面详细介绍避障问题中的观测空间、动作空间与奖励函数。观测空间在时刻观测到的信息包括周围环境数据、运行速度、避障过程的全局路径引导方向以及表示位置与局部目标点位置的，如图所示。由布置在前端的激光雷达扫描产生，可以探测的平面区域，角分辨率为，全部的雷达探测数据维度过高，不利于计算，因此在每个时刻等间隔（）抽取个数据（）作为最终的输入，雷达测距半径为；为的运行速度，由行驶的线速度和角速度（，）表示（）；为表示全局路径方向的二维向量（）；表示与避障目标点的位置关系，同样由二维向量表

15、示（）。单次观测包含环境中障碍物的静态信息（如形状、位置等），为了提高决策的有效性，需要利用环境中的动态信息，因此使用最近的个连续观测值组成的观测序列（），（），）推测障碍的速度、运动趋势等信息。观测序列中的观测数量越多，包含的环境信息也越充分，可以提高决策的准确率，但过多的信息会影响计算的速度，对决策的时效性产生负面影响，综合考虑本文取，即（，）作为观测序列。在开始避障的时刻，观测序列取（，）。动作空间动作空间是允许的运行速度，本文以的线速度和角速度作为控制指令控制其运动，即（，），的运动模型如式（）。由于只能观测到前方的环境，决策出的动作只能控制前进或者转向，设置动作

16、的取值为，。奖励函数局部避障路径规划的目标是在无碰撞约束、全局路径引导约束、轨迹平滑约束下以最短的时间完成避障。上文通过对动作进行控制处理实现了轨迹平滑约束，下面介绍奖励函数的设置以实现优化目标与其余两种约束。本研究的奖励函数设置为：。（）固定奖励是完成避障前每一步决策的消极奖励，用于鼓励缩短决策时间，尽快完成避障，固定奖励对应于以最大速度、与全局方向同方向的运行距离，是一个负常数。切向运行奖励表示在全局路径方向的移动得到的奖励，切向移动的距离为。计算机集成制造系统第卷当时，表示在前进，因此给与正奖励；当时，表示在后退，给与负奖励。奖励值大小如式（）：，（前进）；，（后退）。（

17、）切向奖励根据切向距离的大小与固定奖励成比例。法向运行奖励表示在靠近或偏离全局路径时得到的奖励，在时刻执行动作后位置向量由变为，和在的法向量上投影的模长分别为和，轨迹在全局路径法向上的变化量为。当时，说明偏离了全局路径，应该给与负奖励；当时，说明靠近或没有偏离全局路径，应该给与正奖励。奖励大小的设计也是以固定奖励为基础，为了鼓励能沿着全局路径运行以及在完成避障后与后续路径的方向保持一致，法向奖励为切向奖励的倍，奖励值计算方法如式（）：，（偏离全局轨迹）；，（靠近全局轨迹）。（）碰撞奖励是与任何障碍物（如其他、工人、设备等）发生碰撞后得到的惩罚，碰撞奖励是一个很大的负常数，引导避开障碍。基于

18、深度强化学习的避障策略求解局部避障问题最终需要求解得到最优避障策略（），在建立的模型中观测状态属于高维连续输入，输出的动作同样也是连续的，因此本文采用深度强化学习算法中的算法训练确定性策略，在每一步决策出最优的动作。网络结构算法中包含动作（）和评价（）两种神经网络，分别对策略与价值近似表征。网络以观测序列为输入，输出动作，控制的行驶速度和方向，为规划出避障路径，表征避障策略（）；网络以观测序列和动作为输入，输出二者的价值（，），对网络的决策结果进行评价，使其能够不断优化。本文选取决策时刻观测数据和前两个时刻的观测数据组成观测序列，以多帧序列数据作为决策所需的输入数据。为了解决多帧序列

19、输入的决策问题，本文针对和网络设计了如图和图所示的架构。如图所示为网络，观测序列被分为全局路径方向、速度序列（，）、雷达探测序列（，）和位置序列（，），单帧数据连接全连接网络，种多帧序列输入数据按照先后顺序堆叠为一维向量分别连接全连接网络，中间层及最后的输出层均为全连接网络，网络的具体参数如表所示。第期蔡泽等：复杂动态环境下基于深度强化学习的避障方法表网络参数网络结构维度激活函数描述输入无全局路径方向输入（，）无帧速度数据输入（，）无帧雷达扫描数据输入（，）无帧位置向量数据全连接层连接输入全连接层连接输入（，）全连接层连接输入（，）全连接层连接输入（，）全连接层连接，

20、全连接层连接输出连接，输出动作如图所示为网络，与网络类似，网络同样采用数据堆叠的方法处理多帧序列输入问题，因为网络是对观测动作（，）进行评价，所以还添加了动作处理层，网络的具体参数如表所示。两种网络中用到的激活函数包括：双曲正切函数（）和（）（，）。表网络参数网络结构维度激活函数描述输入无全局路径方向输入（，）无帧速度数据输入（，）无帧雷达扫描数据输入（，）无帧位置向量数据输入无动作全连接层连接输入全连接层连接输入（，）全连接层连接输入（，）全连接层连接输入（，）全连接层连接，全连接层连接输入全连接层连接，输出（，）无连接，输出价值（，）算法流程算法是基于

21、（动作评价）网络的确定性策略梯度算法，算法使用经验回放与备份网络的方法提高数据利用率与算法稳定性。本文利用算法训练避障策略的流程如下：（）随机初始化网络（，）和网络（），初始化参数（奖励折扣因子）、（网络更新率）、（学习率）；（）复制和的网络参数，初始化目标网络（，）和（），；（）初始化经验存储池，容量为，设置经验采样数（），设置训练回合数；（）训练次：）初始化策略探索噪声；）检测到障碍物，进入避障状态，时间步，获取雷达扫描数据、运行速度、全局路径方向以及位置向量，构建初始观测；）由网络（）生成控制指令（），用控制方法对指令做进一步处理（，），同时要保证的速度在允许范围内（

22、，）；）执行控制指令，更新环境状态，仿真环境提供奖励、新的观测，并判断是否完成避障完成避障，未完成避障。；）向经验池中存入状态转移过程（，）；）从经验池中随机抽取个状态转移过程；）使用两种目标网络（，）和（）计算观测动作的目标价值，（，（）采用梯度下降方法以学习率更新网络，目标是最小化对价值的评价误差，使对价值的估计更准确，损失函数为：（，）；）采用梯度上升方法以学习率更新网络，目标是最大化价值，使选择更好的动作，损失函数为：（，）；）更新目标网络（）（）时间步更新；）重复步骤）步骤），直到避障结束，此回合结束。（）训练结束。在上述算法的每一回合中，网络表示避障策略，输入观

23、测，输出控制指令，在对处理后由仿真环境中的执行，根据改变自身位置和速度，仿真环境根据式（）计算相应的奖励，并产生新的观测，同时判断是否完成了避障（）。每一步可以表示为一个状态转移过程（，），并将其存入经验池中。当经验池中积累了足够多的状态转移过程后即可用来更新网络参数，优化网络。网络的优化目标是更准确地描述观测动作（，）的价值，因此建立目标函数（计算机集成制造系统第卷（，），以梯度下降法减小对价值估计的误差；在准确估计价值的基础上，网络优化的目标是输出价值更大的动作，即更好的策略，建立目标函数（，），以梯度上升法提高策略能够获得的价值。因为算法是根据最大价值生成确定动作，不具备探索其他动作的

24、能力，可能会陷入局部最优解，所以在生成动作时加入噪声以探索其他的动作，考虑到行驶的稳定性，本文采用适合惯性系统的噪声探索动作。算法中的相关参数如表所示：表算法参数设置参数参数值奖励折扣因子网络更新率学习率经验池容量单次经验抽样数量训练回合数避障策略训练本文使用编程语言搭建仿真环境，实现了状态更新、雷达感知、碰撞检测等功能，模拟运行，使用开发包编写算法，硬件采用处理器和显卡。在训练避障策略时，每个回合随机设置静态障碍、的引导路径及的初始避障状态（包括位置、姿态、线速度、角速度），设置多台同时运行，每台与环境交互生成经验并利用算法训练避障策略，同时也作为其他

25、运行时的动态障碍。策略训练仿真环境的相关参数如表所示。表避障策略训练环境参数设置参数参数值训练环境尺寸静态障碍面积占比全局目标点位置与开始避障位置相距数量台尺寸避障半径系数，仿真更新频率基于构建的仿真环境和节的算法流程训练避障策略，训练过程中每个回合得到的奖励值如图所示。由图可以看到，训练后期可以获得较大奖励且奖励值保持平稳趋势，表明算法已经收敛。策略训练时每回合的障碍分布和多状态随机设置，因此奖励值会出现微小波动。仿真实验与分析本文提出的方法在避障时考虑了后续路径方向的引导作用，因此对避障策略的避障性能与整体运行效率进行实验分析，并与现有的只以目标点作为引导，不考虑后续方向

26、的策略进行对比。基于节介绍的仿真环境开展单次避障与长距离多次避障实验。评价指标本文采用以下种指标对避障性能和效率进行评价：（）成功率成功完成避障次数占总避障次数的比率；（）额外时间比完成避障消耗的时间除以预期时间，预期时间指在无障碍环境下以最大速度到达目标点所需时间；（）额外距离比避障过程的行驶距离除以预期距离，预期距离指避障起始点到目标点的路径距离。单次避障测试在实际应用中，当之间的路径重合或者交叉时即有碰撞风险，本文设计了交替、交叉以及十字形种实验场景，场景中包含台，如图所示。（）交替场景路径重合，两端的第期蔡泽等：复杂动态环境下基于深度强化学习的避障方法运行方向相反；（）交

27、叉场景路径垂直交叉，且交叉位置在路径中间部分；（）十字形场景同时包含路径交叉与重合。在不同场景下进行次避障实验，每次实验时为在路径方向的位置增加随机扰动，使的开始避障位置发生变化。分别采用本文得到的避障策略和文献无方向引导的避障策略控制完成避障实验，实验结果如表所示，两种策略下的避障轨迹如图所示，图中不同使用不同颜色标出，从开始避障到结束，轨迹的颜色由浅变深。表不同场景下的避障结果场景策略（均值）（均值）交替本文文献交叉本文文献十字形本文文献长距离多次避障测试为了探究避障策略对整体运行效率的影响，本文设计了长距离运行实验，在实验中需要多次躲避障碍完成较长距离的运行。实

28、验场景如图所示，实验场景为的矩形，场景中间设置的矩形块障碍，需要从左端运行到右端。设置不同密度障碍的实验场景，障碍的间距分别为、，对应的障碍数量为个、个、个。在每种场景下进行次实验，每次实验时随机设置障碍物在竖直方向的位置，分别以本文策略和文献的策略控制运行，实验结果如表所示，运行轨迹如图所示。表不同障碍密度场景下的运行结果障碍物间距策略（均值）（均值）本文文献本文文献本文文献实验结果分析经过上述实验测试，本文提出的局部避障方法可以为规划出有效的避障轨迹，保证的无碰撞运行，避障成功率已达或接近。在单次避障实验中，相比于不考虑后续方向引导的方法，本文方法使在避障时偏离路径

29、的程度更小，可以缩短左右的行驶距离。在长距离多次避障测试中，本文方法可以使计算机集成制造系统第卷避障结束后的运行方向与后续路径方向尽可能保持一致，在障碍物密集环境下可以有效提升运行效率，在实验中，当障碍物间隔为时，行驶时间和距离分别缩短和。由于是以避障时间最短为优化目标，在避障时与障碍物的间距较小，运行轨迹对障碍的位置和形状敏感，在现实中可能会因为误差等原因导致安全问题，因此后续还需针对数据误差等问题做进一步研究，提升方法的鲁棒性。结束语本文针对智能工厂复杂动态环境下的无冲突运行问题，提出一种基于深度强化学习的局部避障路径规划方法。主要研究内容包括：将局部避障路径规划问题表征为部分观

30、测马尔可夫决策过程，考虑了后续路径方向对避障的引导作用，介绍了观测空间、动作空间和奖励函数；设计算法求解最优避障策略，利用多帧数据评估障碍物的运动趋势，使可以应对动态环境；最后设计仿真实验对训练出的避障策略进行验证，实验结果表明本文所提方法可以为规划出安全的行驶轨迹，相比于现有方法可以提升运行效率。本研究提出的方法是以传感器观测到的外部环境数据作为输入，没有充分考虑自身的参数，如尺寸、载重等，下一步的研究将尽可能全面地考虑影响避障的因素，提高的避障能力。参考文献：，（）：，（）：，（）：，：，：，：，：，：，（）：，（）：，：，：，（）：，：，：，：，：，：，：，（）：，（）：（）孙辉辉，胡

31、春鹤，张军国移动机器人运动规划中的深度强化学习方法控制与决策，（）：，（）：（）郭兴海，计明军，刘双福融合多目标与能耗控制的无人仓库内路径规划计算机集成制造系统，（）：，（）：，：（），：，：第期蔡泽等：复杂动态环境下基于深度强化学习的避障方法，（）：（）冯春，张祎伟，黄成，等双足机器人步态控制的深度强化学习方法计算机集成制造系统，（）：，（）：，（）董瑶，葛莹莹，郭鸿湧，等基于深度强化学习的移动机器人路径规划计算机工程与应用，（）：，（）：，（）：（）曹小华，朱孟基于冲突预测的多自动导引小车避碰决策优化计算机集成制造系统，（）：作者简介：蔡泽（），男，陕西宝鸡人，硕士研究生，研究方向：路径规划、数字孪生，：；胡耀光（），男，黑龙江绥化人，教授，研究方向：智能工厂、智能制造系统，通讯作者，：；闻敬谦（），男，安徽滁州人，讲师，研究方向：生产管理、运维服务；张立祥（），男，陕西咸阳人，博士研究生，研究方向：智能生产调度、强化学习。

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 复杂动态环境基于深度强化学习 AGV 方法蔡泽

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。