分销赏收藏举报申诉 / 14

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 一种差分演化Q表的改进Q-Learning方法.pdf

一种差分演化Q表的改进Q-Learning方法.pdf

上传人：自信****多点

文档编号：757674

上传时间：2024-03-05

格式：PDF

页数：14

大小：6.55MB

《一种差分演化Q表的改进Q-Learning方法.pdf》由会员分享，可在线阅读，更多相关《一种差分演化Q表的改进Q-Learning方法.pdf（14页珍藏版）》请在咨信网上搜索。

1、第43卷第4期2023年8 月DOI:10.16185/.2023.04.401一种差分演化Q表的改进Q-Learning方法西安工业大学学报Journal of Xian Technological UniversityVol.43 No.4Aug.2023http:/李骁，曹子建，贾浩文，郭瑞麒（西安工业大学计算机科学与工程学院，西安7 10 0 2 1）摘要：针对Q-Learning算法在路径搜索应用中的盲目性而导致收敛速度慢、回报效率低的问题，文中提出了一种差分演化Q表的改进Q-Learning方法（DE-Q-Learning）。改进算法利用差分演化算法的全局搜索优势，将由Q表个体组成

2、的演化种群通过变异、交叉和选择操作选择出较好的初始Q表，以此提升Q-Learning前期回报与探索能力。文中在OpenAI的Gym环境中验证了DE-Q-Learning方法的有效性，并进一步在复杂迷宫环境和强化学习环境Pacman中实验了其在复杂路径搜索和动态避障问题上的性能。实验结果表明,DE-Q-Learn-ing在Pacman环境中相比于改进算法Double-Q-Learning和SA-Q-Learning不仅在历史回报方面具有明显优势，而且收敛速度分别提升了42.16%和15.8 8%，这表明DE-Q-Learning能够显著提高历史累积回报和算法的收敛速度。关键词：强化学习；差分演化

3、；Q-Learning;Q表中图号：TP273Improved Q-Learning Method with Differential Evolution(School of Computer Science and Engineering,Xian Technological University,Xian 710021,China)Abstract:In response to the slow convergence and low return resulting from the limitations of Q-Learning algorithms when applied in

4、 path search,this paper proposes a path search method calledDifferential Evolution Q-Learning(DE-Q-Learning)that improves Q-Learning by optimizing Q-table.The proposed algorithm leverages the global optimality of the differential evolution algorithm,selectingan evolving population composed of Q-tabl

5、e individuals with excellent initial values through mutation,crossover,and selection operations to enhance the Q-Learning payoff and exploration ability.Firstly,theeffectiveness of the DE-Q-Learning method was verified in the Open AIs Gym environment.And thenits performance in complex path search an

6、d dynamic obstacle avoidance was further tested in a complex文献标志码：Aby Optimizing Q-TableLI Xiao,CAO Zijian,JIA Haowen,GUO Ruiqi文章编号：16 7 3-9 9 6 5（2 0 2 3)0 4-0 36 9-0 14*收稿日期：2 0 2 3-0 3-15基金资助：基础加强计划技术领域基金项目（2 0 2 1-JCJQ-J0513)。第一作者简介：李骁（19 9 8 一），男，西安工业大学硕士研究生。通信作者简介：曹子建（19 7 8 一），男，西安工业大学副教授，主要研

7、究方向为演化算法、机器学习、网络安全，E-mail:。引文格式：李，曹子建，贾浩文，等.一种差分演化Q表的改进Q-Learning方法 J.西安工业大学学报，2 0 2 3，43（4）：36 9-38 2.LI Xiao,CAO Zijian,JIA Haowen,et al.Improved Q-Learning Method with Differential Evolution by Optimizing Q-TableJJ.Journal of Xian Technological University,2023,43(4):369-382.370maze environment an

8、d in the reinforcement learning environment of Pacman.The experimental resultsshow that DE-Q-Learning has notable advantages in historical returns over the improved algorithms(Double-Q-Learning and SA-Q-Learning)in the Pacman environment,with its convergence speedincreased by 42.16%and 15.88%,respec

9、tively.These findings indicate that DE-Q-Learning caneffectively enhance the historical cumulative return and accelerate the convergence speed.Key words:reinforcement learning;differential evolution;Q-Learning;Q-Table路径搜索是人工智能领域中的一个重要问题，涉及到诸如自动规划、运动控制、资源分配、游戏策略等诸多应用场景。在路径搜索问题中，通常需要在状态空间中找到一条最优路径，以满足

10、某些约束条件或优化目标。针对不同的问题，可以采用多种搜索算法进行求解，目前已有的路径搜索算法有很多，例如人工势场方法 1、蚁群算法 2 等，但这些传统搜索算法在实际应用中面临着挑战和限制。而强化学习类型的方法能够自主探索未知环境模型，以提高路径搜索问题的求解效率和精度，故该方向成为了近年来的研究热点。强化学习(Reinforcement Learning,RL)作为人工智能领域的一个重要分支，已经得到广大学者的高度认可，在解决序贯决策问题上，强化学习采用马尔可夫决策过程的方式，智能体通过与环境交互得到经验集于当前状态进行决策3。而Q-Learning作为一种经典的无模型强化学习方法 4非常适合

11、求解有限空间的路径搜索问题,其收敛能力主要取决于智能体对环境信息的探索与利用。而在优化Q-Learning探索能力方面，不同研究人员提出了多种改进方法。文献 5 引人了探索因子和深度学习因子来提高算法的探索效率，但忽略了算法的可拓展性和稳定性；文献 6 通过势场优化Q表初值，并采用多步长策略和动态调节贪婪因子来平衡探索与利用,但未考虑动态障碍物的避障策略；文献 7 提出了使用平均奖赏和相对值函数的值迭代方式来加速收敛，但计算复杂度较高且对奖励信号不敏感；文献 8 将资格迹概念融人Q-Learning中，提出了Q（a）-L e a r n i n g 算法，减少了Q值的计算量，但缺乏实验验证；文

12、献 9 提出了DoubleQ-Learning算法，通过使用两个估计器分离最优动作和最大Q值的选取，改善了收敛速度；同样，Speedy Q-Learning（SQ L）和 DoubleSpeedyQ-Learning也对Q值的更新方式进行了改进，提高了收敛能力 10-11，但这些方法通常需要更西安工业大学学报长的训练时间；除此之外，许多学者考虑Q-Learn-ing与演化算法结合优化的模式，将演化算法的思想融入Q-Learning中，并从多个角度对算法存在的问题进行了优化。文献 12 提出了一种结合退火算法（Simulated Annealing)中的Metropolis 准则的Q-Learn

13、ing改进算法（SA-Q-Learning），利用模拟退火的思想对的取值进行线性控制，从而保证算法更加快速找到最优策略，但并未发挥出演化算法的优势。文献13为了解决不确定性的POMDP近似最优解问题，在基于 SA-Q-Learning算法的基础上提出了一种有限步历史信息与状态信度概率分布相结合，提出了一种直接进化策略的新算法（MA-Q-Learning），该算法提高了算法的收敛速度，但存在Q值过估计的问题。在实际工程应用中，文献 14 针对虚拟作业中存在的不确定性问题，提出了一种遗传算法（Genetic Algorithm，GA)结合Q-Learning算法进行最优策略选择的策略规划模型（GA

14、-Q-Learning），该模型有效地避免了早期较大的Q值动作，但该模型鲁棒性较差，无法有效地解决行为空间较少的问题。上述改进算法能够提高Q-Learning算法的性能，但均未考虑Q-Learning算法在初始化时的盲目性，这会导致Q-Learning算法在前期路径搜索中长时间地无效探索，影响算法的收敛速度和平均回报。基于此，文中提出了一种利用差分演化(Differential Evolution,DE)算法对Q表进行优化来改进Q-Learning收敛能力的方法DE-Q-Learn-ing。该方法利用演化算法优化Q表的初始化，解决了Q-Learning算法在初始环境中的盲目性问题。通过使用差分

15、演化算法推动Q表的进化，DE-Q-Learning在时间和空间上提高了算法的探索效率。最后在复杂迷宫环境、实验环境Pacmman游戏和OpenAI的gym工具包中MountainCar上进行了仿真实验，实验结果显示DE-Q-Learning算法相比于Q-Learning及其改进算法具有优异的性能，并且能够在更短的时间内快速收敛。第43卷第4期1基础理论1.1Q-LearningQ-Learning是一种基于时序差分的无模型学习方法，其Q-Learning的核心是Q表，Q表的行和列分别表示State和Action的值，用Q表的值Q(s,a)来衡量当前状态采取动作a的价值,所以Q-Learning

16、只考虑当前状态s以及当前状态选择的行为,使Q(s,a)值最大即可，智能体采用Q-Learning算法与环境交互如图1所示。UpdateQ-tableQ(s,aQ(s,aQ(si,)Q(s,aQ(s,a)Q(s,a.)Q(smaQ(sma.)Q(Sma.)Q(State,Action)StateQ-valueActionaObervation(State)图1Q-Learning算法与环境交互过程Fig.1 Interaction between Q-Learning algorithmand environment通过这种局部映射的方式，无需充分地计算全局信息，只需通过局部选择的方式便可获得全

17、局最优动作序列，进而使智能体获取最大目标收益。Q-Learning的算法伪代码如算法1所示。算法 1 Q-Learning 伪代码初始化环境E,状态空间S,动作空间A，折扣因子,Q表Q-table初始化行为值函数Q(s,）=0，(a|s)=1A最小化问题。Fork=O,l,m do#agent的每条完整路径min f()初始化状态：s.t.aE Q E RDFor t=0,l,2,3,do#agent 的每一个训式中:D为目标解空间的维数;2 ERD则为可行解练步集。DE算法关键步骤为通过贪心策略of元在环境E中采取动作AStep1:变异r,s=Step(A）#执行下一个动作A产生0,=+F.

18、(ch2一r3)。奖励r和下一个状态s对于变异算子的设定，通过在t代随机取样三Q(s,a)Q(s,a)+r+maxQ(s,a)-个不同个体1,2，3来执行变异操作;F作为Q(s,a）#更新Q表Q-table变异因子，用来调控变异程度，代表第t代生成的变异个体。李骁，等：一种差分演化Q表的改进Q-Learning方法Q(s,a),式中：s为当前状态；为当前状态s所采取的动作；为学习率；r为在当前状态s下执行动作所得到的立即回报。为折扣因子，用来控制将来累积回报对当前状态所产生的影响。s表示当前状态s采取动作到达的后续状态，为在状态s下选择的动ChooseAction作，然后用新的Q值去更新Q表。

19、AgentQ-Learning分别采取两种不同的策略来进行介Q(s,aiQ(si,Q(s,aQ(s,a.)Q(ss,aQ(sm,a.)RewardAction=argmax(Q(State,Action)Chagne theActionEnvironmentEnvironment371end for s is terminatedend for元（s）=a r g m a x Q(s,a）#根据Q表更新策略Q-Learning 的状态行为值函数更新为Q(s,a)Q(s,a)+r+maxQ(s,a)-(1)Q(si,a)策略评估和更新。在策略更新上Q-Learning采用Q(s,a)Q(s.a)

20、贪心算法来选择动作，在更新Q表时则采用贪心算法，通过下一个状态的最大Q值来更新当前状态的值。而在动作选择中，Q-Learning采用贪心算法，其主要思想是在探索的同时也能同时进行一定的利用。在行为选择时采用的-贪心算法，其中值越大则探索的效果越好。反之,若值越小则更加注重利用。但正因为其取值的固定，往往不能更好地平衡其探索和利用的效率，取值的不合理同时也会使得算法的搜索效率大幅度下降，在实际案例中一般在 0,0.1 区间内取值。1.2差分演化算法差分演化（DE）算法自19 9 6 年由文献 15提出后，在解决优化问题上有着广泛的适用性。DE算法在遗传算法的启发下提出，其思想与传统演化算法保持一

21、致，主要由变异、交叉、选择这三个步骤所组成，在解决NP(Nondeterministic Polynominal)难问题上有着良好的适用性。对于求解以下形式的(2)(3)372Step2:交叉Ui.,if A U B一ci.j,otherwise其中,令 A为条件 rand(j)CR”,B为条件 j=random(i),且j=1,2,D,其中 rand(j)表示生成一个在 0，j）范围内的随机整数或随机浮点数，而random（i表示生成一个在O，i）范围内的随机浮点数，CR为交叉因子，u代表第t代经过交叉操作生成的个体。Step3:选择Jutiif(f(ult)f(i.,)通过选择操作将适应度

22、值较好的个体进行保留，并作为下一代种群的初始值。2演化优化Q表的改进Q-Learning方法马尔可夫模型作为强化学习与演化算法共同的理论基础，其定义如下：通过创建一个五元组并结合Bellamn方程构成一个基本的马尔可夫决策过程（MDP)问题模型，其中五元组中的元素分别表示为：S（有限的状态空间）,A（有限的动作空间），P（状态-动作转移概率矩阵），R(奖励函数），（折扣因子）。MDP动态过程如图2 所示，智能体初始状态为So，从合法状态集A中挑选一个动作执行，得到回报ro，然后按照一定概率随机转移到下一个Si状态，如此往复直到到达终止状态。在这个过程中不同的状态动作影响着最优策略的搜索进度，因

23、此，可以使用演化算法来优化存储状态动作对的Q表，以加速Q-Learn-ing寻找最优策略的效率。演化算法由于其固有的并行性，能够不受问题性质的限制，有效地解决传统优化问题难以处理的复杂问题，加快了策略搜索速度。从而能够有效缓解Q-Learning在环境信息匮乏的情况下的盲目搜索性问题。S.S2aa2图2 MDP结构Fig.2The structure of MDP西安工业大学学报2.1时间复杂度分析(4)Q-Learning作为一种无模型算法，样本复杂性T决定了其时间复杂度O（T)，空间复杂度O(SAH)更多取决于状态和动作的空间大小。其中S代表状态空间大小，A代表动作空间大小，H则表示为每一

24、次执行所走的步长 16 。而在解决无模型问题上，Q-Learning在已知状态空间和动作空间的前提下，如何有效地利用环境信息是提升算法收敛能力的关键。随着模型环境复杂度的提升，不仅状态、动作对的数量增加，而且智能体在每次探(5)索时所需的步长H也会随之增加。由此可以看出，环境信息对算法的运行效率起着至关重要的作用。演化算法作为一种解决复杂问题的有效手段，可以用于解决强化学习在算法初期的盲目探索性问题。DE具有较低的时间复杂度O（NP-D-Gmax)17-20,其中NP代表种群大小,D表示维度，Gmax为算法最大运行代数。对于复杂无模型问题，若将状态行为值函数Q作为NP的输人，S作为D的输入，步

25、长H则在搜索空间进行了提升。每当演化算法生成一代Q表种群作为NP输入时，步长H在空间上则扩展为NPH,由此便提高了算法的执行效率。由于DE算法具有控制参数少、收敛速度快、寻优精度高及鲁棒性强的优点，因此文中选用DE作为演化算法实例。当然任何其它演化算法都可以作为实例算法来对Q-Learning进行优化,文中主要侧重于DE-Q-Learning算法的原理。2.2算法的局限性在Q-Learning算法运行初期，Q表参数的初始化会导致采集到的数据往往是未经训练的样本集。如何更加有效地提升算法的执行效率，更多程度取决于算法前期的探索能力。另外，在算法前期的探索阶段，所获取到的立即回报值不一定对算法训练

26、有效，能够正确引导智能体进行决策的立即汇报过少，无法有效地帮助算法在前期快速收敛。同S时，对于大多数问题模型而言，若属于密集回报型问题，则对算法的训练相对较好。但遇到稀疏回报问题时，大多数的状态转移对可能始终无法获得有效的回报值。这样便导致算法重复了很多盲目的a3训练，既浪费了时间也得不到令人满意的效果。2.3演化Q表的初始化方式在Q-Learning算法中，Q表的初始化通常为第43卷第4期一个全0 矩阵，所以在模型探索初期存在较大的盲目性而导致算法无法快速的收敛。如何有效的初始化Q表信息对算法收敛起到了强有力的推动作用，但在无模型问题上，往往只能以随机的方式来初始化Q表信息，这未必会对算法的

27、收敛能力起到促进作用。Q表由状态和动作的映射所组成，若初始化得到一个合适的Q表，这无疑在很大程度上加快了算法的收敛速度。可以将该问题转换为一种组合优化问题，采用演化算法的方式来寻求一种最优解，最优解的输出代表最合适的Q表。将李骁，等：一种差分演化Q表的改进Q-Learning方法373一个Q表视作种群中的个体，通过随机初始化若干Q表来构成演化种群NP,并采用特定的评价标准保留优良个体，较好的Q表个体中的状态-动作值满足较好的组合方式。随着演化的进行，状态-动作值的最好组合方式将被找到并作为Q表的初始化信息。图3给出了个体与种群的设定形式。这样便产生了多个并行的解空间。基于以上方式利用演化算法生

28、成与目标函数相关的高适应度初始种群，从而可以充分探索问题的解空间，极大地提高算法前期的探索效率。个体ActionAction,Action,StateState,Q(si,a,)Q(si,a2)ActionnQ(S1,a,)种群State,Q(sm,a.)Q(sm,a2)Q(s,a,)图3个体的创建过程Fig.3 The process of creating an individual2.4DE-Q-Learning理论思想在求解无模型问题时，Q-Learning采用时序差分（Temporal Difference,TD)思想来进行策略更新，通过行为值函数计算公式对当前Q表进行更新，如此反复

29、地进行“收集-利用-更新”这一过程来找寻最优策略。对于每一步状态转移所产生Q表的更新，都将直接或间接影响后续策略的选择。由于算法在更新迭代时，对先前信息存在较大的依赖性，而在探索初期，若收集到的环境反馈信息较少，则会使算法陷人盲目勘探中，无法有效获得更加具有指导性的环境信息。图4描绘了以DE算法为例所提出的一种新型优化算法（DE-Q-Learning）。这里从宏观层面表述了DE-Q-Learning 的通用性，并重点阐明了算法的独特性。在算法框架的设计上，文中提出了一种通用的方法，使其可以自由更换演化算法类型以满足在不同问题下Q-Learning的适用性。对比 Q-Learning 与 DE-

30、Q-Learning 可观察到，在初始化Q表时，两者最大的区别在于同一时间所更新Q表的数量。DE-Q-Learning在空间层面出现了更加丰富的并行解集，极大程度优化了算法的执行效率。与此同时，由于在优化过程中Q表种群信息是随机初始化的，在使用演化算法对其进行优化后，输出较优的Q表时总会伴随着有效Q值的存在。环境信息环境交互随机初始化Q表种群输出新否景否满Q表定条件是输出最优优Q表图4DE-Q-Learning算法流程Fig.4The flow chart of DE-Q-Learning algorithm对于如何使用DE算法来优化Q-Learning，需要重点解决表示方法、个体的定义及评价

31、函数设定问题。由于不同的演化算法对应的演化过程不尽DE优化过程变叶交选择演化当代最优Q表374相同，这里重点突出优化的思路和方式，而不针对演化算法的具体搜索过程展开对比描述。山地车（MountainCar）问题是强化学习中的经典问题，如图5所示，小车在一条一维的轨道上，位于两座“山”之间，目标是开车上山，但是一开始小车的发动机不足以直接行驶上山，所以需要来回行驶增强动力以达到目的。接下来在MountainCar中进行实验来验证DE-Q-Learning算法的理论假设。图5MountainCar游戏环境Fig.5The game environment of MountainCar1）表示方法的

32、设定在问题的设定上，将Q表作为演化种群NP，最终将得到一个最优个体作为Q表的输出。在MountainCar游戏环境和大部分强化学习环境中，回报值的定义均为实数形式，最终计算得到的Q值也为实数形式，所以这里采用实数编码形式作为演化算法的个体编码以及函数值表示方法。小车的参数见表1。2）演化个体的设定在个体的定义问题上，Q-Learning算法中的Q表思想上均可以视作为一个状态动作对应值的二维列表。随机初始化若干Q表作为演化算法中的初始种群，并通过不断地演化来更新种群中的个Tab.2 Experimental parameters of each algorithm in the Mountain

33、Car environment序号变量名称1学习率2折扣因子3贪婪因子。4种群数NP5个体维度D6变异因子F7交叉因子CR8演化代数G9初始温度10退火参数西安工业大学学报体信息。在山地车问题中，Q表的内容由状态-动作对应的Q值组成构成，根据游戏的回报将Q值初始化在一2,0 之间。根据表1,小车的观测值Observation是2 0 X20的二维表格，表示小车的速度与位置，将其作为状态，而动作集是由3个离散动作组成的一维表格，故整个Q表是状态动作的三维表格。3）适应度函数的设定在演化算法中，适应度函数的设定取决于优化问题的目标。而在解决强化学习问题时，针对不同的问题模型制定不同的评价函数是解决

34、问题的最佳手段。在MountainCar游戏环境中，回报设置很简单：如果小车到达山顶终点的旗帜（Position=0.5),则奖励0;如果小车的位置低于0.5(Position0.5),则奖励一1。基于以上设定，文中在MountainCar游戏环境中对DE-Q-Learning进行验证，并且使用传统Q-Learning以及它的改进 SA-Q-Learning与 Doub-le-Q-Learning 进行对比,其中 Double Q-Learning主要思想是采用双估计器的方式来解决Q-Learn-ing的过估计问题,SA-Q-Learning则优化了算法探索和利用之间的权衡关系。算法使用的参数

35、见表2，超参数无具体单位，可以根据具体情况进行调整和优化，“二”代表该算法不使用此参数。表1MountainCar-o参数Tab.1 The parameters of MountainCar-o小车位置/m1.2,0.6状态小车速度/m/s向左加速动作集不加速向右加速表2 MountainCar环境各算法实验参数Q-LearningDE-Q-Learning0.900.900.950.950.500.505020X20X30.80,120第43卷-0.07,0.07SA-Q-LearningDouble-Q-Learning0.900.900.950.950.500.501000.95第4期

36、每种强化学习算法在该游戏环境迭代2 0 0 0次，将每代回报取平均、最大、最小的实验结果如图6 7 所示。根据实验结果可以看出DE-Q-Learning算法的累积回报在训练的各个阶段都要大于原始Q-Learning算法以及它的改进算法，并且收敛速度明显快于其他算法，这是由于DE-Q-Learning算法在训练开始前就已经获得了DE算法优化出的最佳Q表，使得智能体在与环境的交互过程中能够根据状态选择出Q值最大的动作，说明DE-Q-Learning应用于此类二维状态空间有限的环境中是很有效的。为了达到在输出最优个体时不影响实例模型中Q表变化这一目的，文中提出的DE-Q-Learning算法在演化Q

37、表时取极小运算值来初始化种群，这样既达到优化的目的，又将无关干扰因素降至最小。Q-Learning-DE-Q-Learning-160-SA-Q-LearningDouble-Q-Learning-165-170-175回-180-185-190-195-20000.250.500.751.001.251.501.752.00训练代数10 3图6MountainCar环境下算法的平均回报Fig.6The average returns of each algorithmin the MountainCar environmentQ-LearningDE-Q-Learning-100-SA-Q-

38、Learning-Double-Q-Learning-120-140F回-160-180-20000.25 0.500.751.001.251.501.752.00训练代数X103图7MountainCar环境下算法的最大回报Fig.7The maximum returns of each algorithmin the MountainCar environment李骁，等：一种差分演化Q表的改进Q-Learning方法表作为种群中不同个体：Q;=rand(D,U)i=1,2,.,NP,式中：Q为数量对应种群个数NP,(NP=1,2，n),其编码形式采用实数编码方式;D,U为特定环境Q值的最

39、小最大值。rand(D,U）随机生成指定范围内的Q值来构成Q表种群。Step2：计算种群中每个个体的适应度fitness，并找寻最优个体Q；及最大适应度值bestfitness。Step3:(变异)DE/rand-to-best/1/bin为文中所采用的变异算法。U;(t+1)=Qr1.j+F.(Qbest-Q1.j)+F.(Qr2.j-Qrs.j),式中.i,ri,r2,r E(1,2,.,NP);jE(1,2,.,D),且r1r2rs;Qn.j，Q r 2.j，Q r 3.;表示从Q表种群中随机选取的Q表个体；Qbest代表当代最优个体。通过以上步骤得到一个变异后的种群Ui。Step4：（

40、交叉）采用二项式交叉的方式得到新的种群ui，令A为条件 rand(j)CR”,B为条件“j=random(i),则交叉个体为i.j,if A U Bu=Qi.j,otherwiseStep5：（选择）计算交叉后种群u的适应度值ufitness，并与初始种群的适应度值fitness进行比较从而挑选出优良个体作为下一代的初始种群。Step6：判断是否达到所需精度或最大迭代次数，若满足，则终止循环并输出最优个体。否则，返回步骤2。Step7:将最优个体作为Q-Learning的初始模型输入，通过训练找到最优策略。DE-Q-Learning的伪代码如算法2 所示。算法 2 DE-Q-Learning伪

41、代码Q表种群的随机初始化Qbest=DE(q_table_population）#最优Q表由DE算法演化3752.51DE-Q-Learning算法流程根据2.4对DE-Q-Learning算法的理论阐述做出验证证明其是有效的，该算法的核心在于使用DE算法演化得到最优Q表，智能体能够根据Q表中的最优Q值来选取能够获得最大的收益的动作,DE-Q-Learning算法描述如下：Stepl:初始化。针对不同问题模型构建相对应的环境信息，使用随机初始化的方式构建若干Q(6)(7)(8)376输入：环境E,状态空间S，动作空间A，折扣因子初始化行为值函数Q（s，）=0，元（als）=1TATFor k=

42、0,l，,m do#agent的每条完整路径初始化状态SFor t=0,1,2,3,do#agent的每个训练步通过贪心策略of元在环境E中采取动作Ar,s=Step(A）#执行下一个动作A产生奖励r和下一个状态sQ(s,a)-Q(s,a)+Lr+maxQ(s,a)-Q(s,a)#更新Q表end for s is terminatedend for元（s）=a r g m a x Q(s,a）#根据Q表更新策略3实验与分析为了进一步验证文中提出DE-Q-Learning的性能，文中采用两种不同的二维迷宫环境进行实验，这类游戏有两个特点：动作维数小，状态维数大。具有明显胜利和失败的条件，且奖惩区

43、别明显，适合验证Q-Learning改进算法的通用性和泛化能力。3.1复杂迷宫环境3.1.1实验环境在如图8 所示的复杂迷宫环境中，分别对三个算法的收敛性能进行对比实验。具体实验仿真环境为:16 GBRAM,512G硬盘,2.6 0 GHz64位处理器，Windows10操作系统，使用Matlab2018b仿真软件。3.1.2环境状态设定为了凸显出算法在稀疏回报状况下的高效性，该实验环境设定如下。设定黑色区域为墙体，代表不可达状态，模型左下角绿色区域为迷宫起点，即智能体的初始位置。模型右上角对应的蓝色区域则为迷宫出口，代表终止状态。模型中共有37 6 个可抵达的状态，智能体在除终止状态的其余位

44、置上回报值R均为0，在抵达终止状态时，回报R设定为10 0。之所以将模型的反馈情况设置为稀疏回报，其目的是为了突显出DE-Q-Learning算法的西安工业大学学报高效性。当积极回报仅存在于终止状态时，只有通过智能体反复地探索直至抵达目标状态从而不断地更新Q表，才能促使算法收敛。这一过程起初可能是盲目的，智能体在毫无先验信息的基础上进行探索无疑增加了算法的运行时间。墙体（不可达区域）起始状态终止状态图8 实验迷宫环境Fig.8The experimental labyrinth environment3.1.3适应度函数以及评价指标由于需要更加直观的评价标准即找到迷宫出口的次数，若在规定的步长

45、下，智能体到达终止状态的次数较多，则说明此时的Q表具备较好的环境信息。所以针对文中实验所涉及的问题，将适应度函数设定为在指定步长下目标状态命中次数，即f()=(fit_num=fit_num+1 if(arrive goal state)fit_num,=fit_num,otherwise(9)式中：iE（1,2,NP);fit_n u m;为第t代的第i个个体的适应度值。对于适应度值较高的个体，将其保留作为下一代的初始种群。另外，用算法平均命中率作为算法优劣的评价指标，算法在指定的步数Step内智能体对环境进行探索，判断是否抵达目标状态，若抵达，则命中数加1，否则，重新开始循环。其表达式为f

46、(num)=(num=num+1 if(arrive goal state)(num=num otherwise2f(mum)G()=-1t式中：t为算法运行代数；num为智能体在t代时累计目标状态命中次数。通过计算函数表达G(）求第43卷，(10)t E(1,2,.,n),(11)第4期得算法的平均命中率。DE-Q-Learning算法与对比算法的具体参数见表3。对于其它在实验中所涉及到的参数设定，这里给出统一规定。设定参数“Step”代表各算法在每次探索中所需最大步长，用来限制智能体的移动次数；设定参数“Gen”作为各算法的循环次数，代表最大训练程度。在智能体探索环境时，Q表的每一代变化都

47、为下一代智能体在探索环境时提供了更新信息。3.1.4实验结果及分析图 9 对比了 DE-Q-Learning 与 Q-Learning、Double Q-Learning 及 SA-Q-Learning算法在目标序号123456789101.00.90.80.70.6#0.50.40.30.20.1050100150200250300350400450500运行代数(a)G=20图9 DE-Q-Learning在NP为2 0 时与不同算法命中率比较Fig.9Comparison in the hit rate between DE-Q-Learning and other algorithms

48、 at NP of 20图10 对比了Q-Learning、D o u b l e Q-L e a r n-ing、SA-Q-L e a r n i n g 与DE-Q-Learning在种群个体为50 的情况下，分别演化2 0 代与50 代的命中李骁，等：一种差分演化Q表的改进Q-Learning方法表 3DE-Q-Learning 与对比算法参数Tab.3Parameters of DE-Q-Learning and other algorithms变量名称Q-Learning学习率0.90折扣因子0.95贪婪因子。0.50种群数NP个体维度D变异因子F交叉因子 CR演化代数G初始温度退火

49、参数377状态命中率上的比较情况。横坐标表示算法的运行代数Gen,纵坐标为命中率，这里将Gen的取值设为50 0。图9(a)中,DE-Q-Learning算法在DE处理上的参数设置为：种群数量NP设置为2 0，演化代数G设置为2 0。图9（b)中，种群数量NP设置为2 0，演化代数G设置为50。由实验结果发现，随着演化代数的提升,DE-Q-Learning在命中率上有明显的提升，相较于SA-Q-Learning和Q-Learning,其效果有着明显的提升。而DoubleQ-Learning在动作选择上采用双估计器的方式来解决过拟合问题，在前期的收敛能力上可能不及Q-Learning 和 SA-

50、Q-Learning。DE-Q-LearningComplex maze0.900.950.50503760.8o,120,100率中鸟0.60.50.40.3DE-Q-LearningQ-LearningDouble-Q-LearningSA-Q-LearningSA-Q-Learning Double-Q-LearningPacman0.900.950.5050200X50.8o,1201.00.90.80.70.20.1050100150200250300350400450500运行代数(b)G=50率情况。由实验结果可以看出，随着NP数量的增加,算法在空间上提升了搜索效率，在对模型进一

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种演化改进 Learning 方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。