分销赏收藏举报申诉 / 5

立即下载 VIP下载

当前位置：首页 > 环境建筑 > 智能建筑 > 基于共享注意力的多智能体强化学习订单派送_黄晓辉.pdf

基于共享注意力的多智能体强化学习订单派送_黄晓辉.pdf

上传人：自信****多点

文档编号：275513

上传时间：2023-06-26

格式：PDF

页数：5

大小：1.59MB

《基于共享注意力的多智能体强化学习订单派送_黄晓辉.pdf》由会员分享，可在线阅读，更多相关《基于共享注意力的多智能体强化学习订单派送_黄晓辉.pdf（5页珍藏版）》请在咨信网上搜索。

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1620-1624ISSN 1001-9081CODEN JYIIDUhttp：/基于共享注意力的多智能体强化学习订单派送黄晓辉，杨凯铭*，凌嘉壕（华东交通大学信息工程学院，南昌 330013）（通信作者电子邮箱）摘要：网约车因方便、快捷成为现今人们出行热门之选，如何更高效地派送合适的订单将乘客送到目的地是如今研究的热点。许多研究着重于训练单智能体，再由它统一分配订单，车辆本身并不参与决策。针对以上问题，提出一种基于共享注意力的多智能体强化学习（SARL）算法。该算法将订单派

2、送问题建模为一个马尔可夫决策过程，运用多智能体强化学习，通过集中训练、分散执行的方式让每个智能体均成为决策者；同时加入共享注意力机制，让智能体彼此共享信息并合作。最后，在不同尺度地图、不同乘客数以及不同车辆数情形下与完全随机匹配（Random）、贪婪算法（Greedy）、多智能体强化学习算法IDQN和混合Q值网络（QMIX）进行对比。结果显示，在固定和可变的车辆与乘客组合情况下，SARL算法在三个不同尺度地图（100100、1010和500500）的时间效率均达到了最优，验证了算法的泛化性能和稳定性。SARL算法可以优化车辆和乘客的配对，减少乘客等待时间，提升乘客满意度。关键词：机器学习；深度

3、强化学习；注意力机制；多智能体强化学习；车辆订单派送中图分类号：TP18；TP391 文献标志码：AOrder dispatching by multi-agent reinforcement learning based on shared attentionHUANG Xiaohui，YANG Kaiming*，LING Jiahao（School of Information Engineering，East China Jiaotong University，Nanchang Jiangxi 330013，China）Abstract:Ride-hailing has become a

4、 popular choice for people to travel due to its convenience and speed，how to efficiently dispatch the appropriate orders to deliver passengers to the destination is a research hotspot today.Many researches focus on training a single agent，which then uniformly distributies orders，without the vehicle

5、itself being involved in the decision making.To solve the above problem，a multi-agent reinforcement learning algorithm based on shared attention，named SARL（Shared Attention Reinforcement Learning），was proposed.In the algorithm，the order dispatching problem was modeled as a Markov decision process，an

6、d multi-agent reinforcement learning was used to make each agent become a decision-maker through centralized training and decentralized execution.Meanwhile，the shared attention mechanism was added to make the agents share information and cooperate with each other.Comparison experiments with Random m

7、atching（Random），Greedy algorithm（Greedy），Individual Deep-Q-Network（IDQN）and Q-learning MIXing network（QMIX）were conducted under different map scales，different number of passengers and different number of vehicles.Experimental results show that the SARL algorithm achieves optimal time efficiency in t

8、hree different scale maps（100100，1010 and 500500）for fixed and variable vehicle and passenger combinations，which verifies the generalization performance and stable performance of the SARL algorithm.The SARL algorithm can optimize the matching of vehicles and passengers，reduce the waiting time of pas

9、sengers and improve the satisfaction of passengers.Key words:machine learning;deep reinforcement learning;attention mechanism;multi-agent reinforcement learning;vehicle order dispatching0 引言近年来，随着互联网高速发展，人们的出行方式有了很大改变。“网约车”走入了人们的生活，随时随地约车、方便快捷且舒适等特点使“网约车”迅速成为人们出行的热门之选。随着需求的不断增长，网约车平台也面临着一项难题，即如何高效地

10、将订单派送给合适的司机。高效的订单派送能极大地优化交通资源分配，同时提高司机及平台收入，并提高用户体验及出行效率，对交通拥堵的情况也略有改善1-3。现今，强化学习方法受到了广泛的关注，主要被用于解决序列决策问题，并且在解决极其复杂的决策问题方面取得了巨大的成功4-7。例如 Mnih 等8提出了一种新的智能决策方法，称为深度Q网络（Deep-Q-Network，DQN），它可以储存训练中的经验，直接从历史经验中学习成功的策略。Rashid等9提出了一种新颖的基于价值的强化学习方法，可以端到端进行集中的训练，以分散的方式执行策略，称为混合Q值网络（Q-learning MIXing network

11、，QMIX）。QMIX设计了一个文章编号：1001-9081（2023）05-1620-05DOI：10.11772/j.issn.1001-9081.2022040630收稿日期：2022-05-06；修回日期：2022-07-11；录用日期：2022-07-13。基金项目：国家自然科学基金资助项目（62062033）；江西省自然科学基金资助项目（20212BAB202008）。作者简介：黄晓辉（1984），男，江西上高人，副教授，博士，CCF会员，主要研究方向：深度学习、智慧交通；杨凯铭（1996），男，江西南昌人，硕士研究生，主要研究方向：深度强化学习、智慧交通；凌嘉壕（1999），男，

12、湖南长沙人，硕士研究生，主要研究方向：深度强化学习、智慧交通。第 5 期黄晓辉等：基于共享注意力的多智能体强化学习订单派送神经网络来整合每个智能体的局部值函数得到联合动作值函数，确保整体最优解和个体最优解的一致。基于此，De Lima等10提出将 QMIX 用于订单派送，取得了不错的效果；但是，该算法忽视了车辆与车辆之间的关联，单纯地认为车辆与车辆是完全独立的个体，从而导致车辆基于贪婪的原则选择订单，可能错失整体的更优解。本文提出一种基于共享注意力的多智能体强化学习（Shared Attention Reinforcement Learning，SARL）算法，在不改变先到先服务的原则下，融入

13、共享注意力模块，让车辆与车辆互相关注、合作，以获得整体更优解。本文的主要工作如下：将订单匹配问题建模为以最快送达时间为目标的马尔可夫决策过程，并基于此提出了SARL算法；设计了一个共享注意力模块，将注意力机制与多智能体强化学习相结合用于订单派送；最后在不同规模的数据集上验证了本文算法的优越性以及泛化能力。1 相关工作目前基于强化学习的订单派送算法主要分为两类：基于价值网络的单智能体强化学习算法和基于多智能体的强化学习算法。1.1基于价值网络的单智能体强化学习算法该方法主要将整体订单信息输入控制中枢，然后由控制中枢经过学习和训练后分配给合适的车辆完成订单。如图1所示，智能体读取环境状态信息，通

14、过价值网络对状态和可行动作进行评估，选择其中一种动作执行；动作改变环境，环境给出新的状态和执行该动作的奖励，以此循环。这种方法的特点就是集中训练、统一分配，控制中枢会根据价值网络进行学习，评估每一个动作将带来的影响价值，然后根据价值选择合适的动作。Pan等11开发了一种新的深度强化学习算法，称为层次强化定价（Hierarchical Reinforcement Pricing，HRP）。HRP解决了由于高维空间和时间依赖而产生的复杂性问题，减少了输入空间和训练损失。与现有算法相比，HRP算法提高了收敛性，取得了更好的性能。Tang 等12提出了小脑价值网络（Cerebellar Value N

15、ETwork，CVNET）模型，该模型将地图分层平铺，然后通过小脑嵌入组合在一起，帮助网络学习比经纬度更抽象的概念比如街道、小区、城市等；其次针对不同区域比如市中心或者郊区网络能自适应学习并结合不同地图精度来获得更准确的状态表达。Wang等13提出了基于行动搜索的深度 Q 网络学习方法，为了提高模型的适应性和效率，还提出了一种相关特征渐进迁移的方法，并证明了先从源城市学习到分配策略，然后再将它迁移到目标城市或者同一个城市的不同时间的方法，比没有迁移的学习效果更好。van Hasselt 等14提出了一种新的时差学习算法多 Q 学习（Multi Q-Learning，MQL）。MQL 算法试图通

16、过使用多动作值函数近似来提高值估计的稳定性。Chilukuri等15提出了时间约束网络中联合路由和调度的深度强化学习（deep REinforcement learning method for joint routing and sCheduling in time-ConstrainEd network，RECCE）算法，用于集中控制时间受限网络中的联合路由与调度，不同于其他启发式算法在每个时间间隙中考虑相同的调度标准（如松弛性、相对截止日期），RECCE利用深度强化学习应用不同的标准在每个时隙中转发数据包，结果表明RECCE效果显著。1.2基于多智能体的强化学习算法多智能体强化学习主要是

17、让每一个智能体做自己的决策，一般执行三种任务，完全合作任务（订单派送一般被认为是完全合作任务）、完全对抗任务和混合任务。每个智能体会根据相应值网络学习出一个价值，再通过特定网络将价值组合得到联合动作-状态的总奖励值。Rashid 等9提出的QMIX网络将联合作用值估计为每个智能体值的复杂非线性组合，这些值只以局部观察为条件，在结构上强制每个智能体的联合动作值是单调的，这使非策略学习中的联合动作值更易最大化，并保证了集中式和分散式策略之间的一致性。针对 QMIX 的局限性，Son等16提出了分解变换协作多智能体强化学习（Q-learning to factorize with TRANsform

18、ation for cooperative multi-agent reinforcement learning，QTRAN）。QTRAN 摆脱了结构约束，采用了一种新的方法将原来的联合作用值函数转换为易于分解的联合作用值函数，并且具有相同的最优作用。QTRAN保证了比 QMIX更通用的因子分解，因此比以前的方法覆盖了更广泛的多智能体强化学习任务类别。Cui 等17提出了一种基于协调度的合作多智能体强化学习方法（Cooperative Multi-Agent Reinforcement Learning method based on Coordination Degree，CMAR

19、L-CD），并对其在更一般情况下的动态特性进行了分析，结果表明CMARL-CD在不需要估计全局价值函数的情况下实现了智能体之间的协调。每个智能体估计自身行动的协调度，这代表了成为最优行动的潜力。Liu 等18提出了 COPA，一个教练-选手框架，假设教练对环境有全局观，并通过分配个人策略来协调只有部分观点的球员。具体来说，采用教练和球员的注意力机制；提出一个变分目标来规范学习；设计一种自适应的沟通方式，让教练决定何时与选手沟通。Luo等19提出了一种新的基于动作级联的策略优化方法，将电动汽车重新定位的动作分解为两个后续的、有条件依赖的子动作，并使用两个连通网络来求解制定的多智能强化学习任务。Z

20、hou等20提出了一种基于多智能体强化学习的分散执行订单调度方法，以解决大规模订单调度问题。与以前的协作多智能体强化学习算法不同，所有智能体在联合策略评估的指导下独立工作，因为智能体之间不需要通信或显式合作。2 问题及符号定义本文是一个在线学习问题，首先将问题建模为马尔可夫决策过程G=(N，S，A，R，P，)，其中N、S、A、R、P、分别为智能体的数量、状态集、动作空间、奖励函数、转移概率函数、折扣因子。它们的定义如下：智能体数量 N：将每辆空闲车辆视为一个智能体，每个智能体有自己独立的决策，它的目标是将发送订单的乘客送图1深度强化学习流程Fig.1Flow of deep reinforc

21、ement learning1621第 43 卷计算机应用到目的地；智能体之间彼此独立，只负责自己的决策。状态集S：S()s1c，s2c，sic|s1p，s2p，sip，其中sic表示 t 时刻第i辆车的状态信息，sip表示t时刻第i个乘客的状态信息，它们分别包含车辆位置与状态、乘客上车点及目的地坐标。当idle=0时表示车辆空闲，即sic=(cix，ciy，idle)，sip=(pix，piy，dix，diy)。动作ait A：ait表示t时刻第i个智能体的动作行为，动作为司机到指定位置接乘客并送达目的地或保持空闲。如a21=5表示在第 1个时间片编号为 2的车辆被指派去完成 5

22、号乘客发出的订单。奖励函数Rt：在同一个时间片的智能体享受共同的奖励函数，为一轮实验总计时长的负数。每个智能体都试图最大化自己的预期回报，本文设置=0.99：E|k=0kRt+k。状态转移概率函数P()st+1|st，at：S A 0，1，它表示当前状态采取联合行动时转移到下一个状态时的概率。在强化学习过程中，需要度量每一个动作以及车辆联合动作的价值：个体价值Qit：Qit(sit，ait)表示在t时刻第i个智能体在状态sit的情况下选择动作ait获得的价值。联合总价值Qtot：表示总体价值，即所有智能体执行动作后产生的共同价值，它的大小表示整体行为的好坏。3 基于共享注意力的多智能体强化学习

23、算法 SARL算法的整体框架主要分为两层：第一层为计算个体价值的智能体网络；第二层为计算联合价值的共享注意力模块。3.1计算Qi的智能体网络SARL的框架如图 2所示：第一层网络采用 DQN估计个体价值，采用 DQN 的优势是可以更准确地估算个体价值。如果乘客或者车辆不在地图上，所有坐标信息都会被设置为0，每位乘客都会与一辆汽车配对，作为整体行动的一部分。网络将为每个乘客匹配车辆并估算个体价值，并输出具有最大个体价值的动作。整体损失函数为：L()=1Bi=1BG(Rt-Qit(s，ait，)（1）其中：B是batch size；Rt是t时刻智能体获得的奖励；Qit是t时刻第i个智能体选择动作a

24、it之后得到的价值。G为Huber损失函数，定义如下：G(x)=|12x2，|x 1|x-12，其他（2）Huber损失函数的优势在于当对动作价值的估计有噪声时，例如出现经验回访池中没有的状态-动作对，它对噪声是鲁棒的，在这种情况下可以防止梯度爆炸。Huber损失结合了平均绝对误差和均方误差的优点，对异常点更加鲁棒。3.2共享注意力模块共享注意力模块是对多头注意力机制的改进，框架如图3所示。Qtot的计算公式如下：Qtot=C(s)+h=1H i=1Ni，h(s)Qi（3）这个框架通过选择性地关注来自其他智能体的信息来学习每个智能体的自我注意力。每对智能体之间的自我注意力不执行，而是使用自我注

25、意力来帮助整个系统在每个智能体上建模每个个体的影响。具体来说，将全局状态的嵌入向量es(st)和合作特征的嵌入向量ei(uit)之间的相似性传递到Softmax中得到多头注意力的头系数i，h，这个过程将进行H次，例如2，2表示第二个智能体的第二阶头系数：i，h exp(eTiWTk，hWq，hes)（4）其中：Wk，h和Wq，h为共享注意力模块的输入，分别为全局状态和共享特征向量；es(st)和ei(uit)可以通过对全局状态和共享特征向量进行一层或两层嵌入变换获得。之后，i，h再与每个智能体个体价值Qi进行点积得到联合价值Qh：Qh=i=1Ni，hQi（5）接下来，对N个智能体的联合价值Qh

26、求和，得到：Qtot=C(s)+h=1HQh（6）其中：H是多头注意力的头数，也就是说，共享注意力模块首先利用单头注意力计算出联合价值Qh，再将这个过次重复H次，将结果加在一起得到联合总价值 Qtot。C（s）是训练中的固有噪声，可以通过输入全局状态St的神经网络学习获得。在第一层DQN，对每个智能体输入同样的全局状态St而不是智能体个体的观察值，这样做的目的是每个智能体在学习状态时都可以考虑到其他智能体位置从而做出选择，以便多智能体之间的合作。在第二层共享注意力模块，把共享特征向量uit（除第i个智能体以外的所有智能体的状态信息）作为输入而不是个体的观测值，这样可以让网络通过 Softmax

27、学习车辆之间的动作、位置的相似性，让智能体选择动作时更关注其他智能体的选择和位置，达到选择更优联合价值的目的。4 实验与结果分析 4.1实验设置与评价指标为了对本文算法进行评估和对比，采用了文献 3 中的一个模拟环境。本文使用地图为网格地图，如图 4所示，每条边代表一条街道，每个交叉点表示路口，每个交叉点表示附近范围的集合即车辆只在交叉点处接送乘客。每条道路上都有汽车通行所需时间成本，成本代表了不同交通条件在内的因素，根据现实路况模拟生成。实验分为 3 个部分：1）在 100100 的地图上进行了 6 组图2SARL的整体框架Fig.2Overall framework of SARL图3共享

28、注意力模块Fig.3Shared attention module1622第 5 期黄晓辉等：基于共享注意力的多智能体强化学习订单派送车辆与乘客数量不同的训练及实验；2）为了验证本算法在不同大小城市的泛化能力，将 100100的地图上训练的模型，在1010及500500的网格大小上进行实验；3）评估了数量不同的车辆和乘客的性能，也就是说，车辆和乘客的数量是根据地图大小在一个范围内随机分配的。为了保持结果的客观性，所有实验及对比实验使用同一批参数，训练次数相同。评价指标为实验1 000次以上每轮实验平均花费时长以及提升率：时长代表这一次实验该网格地图中所有乘客都被车辆送达目的地所花费的时间；提升

29、率表示SARL算法时间效率对比其他算法最优时间效率所提升的百分比，即（次优算法消耗的时间-SARL算法消耗的时间）/次优算法消耗的时间。4.2对比算法本实验对比算法如下：Random10：完全随机匹配车辆给乘客，不作任何调度。Greedy10：非基于学习的贪婪算法，遵循先到先服务策略，因为提前要求用车的乘客会获得更高的优先级，每位乘客都会按距离贪婪地匹配一辆车。IDQN（Individual Deep-Q-Network）10：为了有效地为乘客匹配车辆，为每辆车（即智能体）执行一次DQN算法，根据价值来选择合适的动作以获得最大奖励。QMIX9：该算法采用一个混合网络对单智能体局部值函数进行合并

30、，并在训练学习过程中加入全局状态信息辅助来提高算法性能。4.3不同地图尺寸的实验首先在 100100 网格地图上共选择 6 组车乘组合（P、C表示在固定人车网格地图中每回合初始的乘客数量和车辆数量）进行实验，训练模型；为了验证模型的泛化能力，在1010以及 500500网格上进行同样的 6组实验。表 1为平均每次实验所花时长对比，其中：加粗表示最优结果，下划线表示次优结果。可以看出 SARL 算法平均每次实验所花时长始终最短，在所有车乘组合中都超越了几种对比算法。在 100100 网格上，对比其他算法最优时间，在车乘组合为（20，25）时，SARL 提升率达到最大，为 18.03%；在 101

31、0 网格上，在车乘组合（20，25）时，SARL 提升率达到最大，为 18.42%；在 500500 网格上，在车乘组合（9，4）时，SARL提升率达到最大，为10.08%。这说明SARL可以在一种地图大小上训练，然后在另一种地图大小（无论是更大或是更小）上进行测试，并且表现良好，说明相比 QMIX 等算法，SARL能更好地推广到不同大小地图，验证了其泛化能力。4.4车辆和乘客组合可变情况下实验结果本节实验中，车辆与乘客在一个区间里随意变化，这比固定车辆与乘客组合更现实，也更难，因为模型必须适应更多变的环境因素。在1010的网格地图上，车辆与乘客在数量1至10随机变化，即Pmax=10，Cma

32、x=10；在500500的网格地图上，车辆与乘客在1至20随机变化，即Pmax=20，Cmax=20。结果如表2所示，可以看出在1010网格上，SARL算法相比QMIX算法的提升率达到了6.28%；在500500网格上，SARL算法相比QMIX算法的提升率达到了1.24%。这说明即使面对车辆和乘客组合可变的复杂情况，SARL算法在实验中依然优于对比算法，在更复杂更现实的情况下依然性能稳定。图4网格地图Fig.4Grid map表1在不同尺寸地图上的实验对比Tab.1Experimental comparison on different size maps地图尺寸100100（训练模型）101

33、0500500车乘组合P=7，C=2P=10，C=10P=11，C=13P=9，C=4P=10，C=2P=25，C=20P=7，C=2P=10，C=10P=11，C=13P=9，C=4P=10，C=2P=25，C=20P=7，C=2P=10，C=10P=11，C=13P=9，C=4P=10，C=2P=25，C=20时长/sRandom3 386.252 210.872 089.872 958.864 644.592 962.79337.30215.64208.77287.57448.38291.6217 092.4010 860.2110 428.2414 715.8223 303.6414

34、820.33Greedy3 526.962 208.552 089.633 072.814 934.913 173.54348.70209.07199.75303.86474.44287.8417 251.2010 720.6010 950.8015 582.5024 491.4016 046.20DQN3 306.882 102.652 046.652 763.204 847.972 853.66323.90201.28197.53262.40454.27285.6216 473.1010 139.369 968.4413 571.8823 688.5014 649.64QMIX3 218.

35、542 042.441 951.382 724.034 357.722 573.24316.50206.46197.32265.10417.91283.0616 274.3010 120.579 835.7513 548.9221 871.9912 784.23SARL2 981.381 912.151 742.732 523.494 214.862 109.84295.38179.10181.11247.01392.16230.9314 916.6010 021.459 098.4312 182.7120 910.9211 902.55提升率/%7.376.3410.717.383.2818

36、.036.6713.258.226.826.1618.428.340.987.5010.084.396.891623第 43 卷计算机应用5 结语多智能体强化学习近年来作为人工智能领域的一种热门算法，被广泛应用于车辆调度、订单派送等问题，并取得了不错的进展。基于此，本文提出了SARL一种新的多智能体强化学习框架用于订单派送，并添加了一个共享注意力模块以此达到车辆彼此关注、合作的目的。结果表明SARL在时间效率性能上超越了所有对比算法，而且值得注意的是，SARL在多车合作的实验场景下表现也很优异。在接下来的研究，一方面准备优化实验的模拟器，用真实数据来训练模拟器；另一方面，考虑在框架中加入知识

37、迁移，以达到更好的泛化的目的。参考文献（References）1 LI Z，LIANG C，HONG Y，et al.How do on-demand ridesharing services affect traffic congestion？The moderating role of urban compactness EB/OL.2022-01-22.https：/ 李建斌，杨帆，管梦城，等.共同配送模式下订单车辆匹配决策优化研究J.管理工程学报，2021，35（6）：259-266.（LI J B，YANG F，GUAN M C，et al.Research on optimizat

38、ion of order-vehicle matching decision under the joint distribution modeJ.Journal of Industrial Engineering and Engineering Management，2021，35（6）：259-266.）3 QIN Z，TANG X，JIAO Y，et al.Ride-hailing order dispatching at DiDi via reinforcement learning J.INFORMS Journal on Applied Analytics，2020，50（5）：2

39、72-286.4 GAPEROV B，KOSTANJAR Z.Deep reinforcement learning for market making under a Hawkes process-based limit order book model J.IEEE Control Systems Letters，2022，6：2485-2490.5 TANG X，HUANG B，LIU T，et al.Highway decision-making and motion planning for autonomous driving via soft actor-critic J.IEE

40、E Transactions on Vehicular Technology，2022，71（5）：4706-4717.6 王建平，王刚，毛晓彬，等.基于深度强化学习的二连杆机械臂运动控制方法 J.计算机应用，2021，41（6）：1799-1804.（WANG J P，WANG G，MAO X B，et al.Motion control method of two-link manipulator based on deep reinforcement learningJ.Journal of Computer Applications，2021，41（6）：1799-1804.）7 陈浩

41、杰，范江亭，刘勇.深度强化学习解决动态旅行商问题 J.计算机应用，2022，42（4）：1194-1200.（CHEN H J，FAN J T，LIU Y.Solving dynamic traveling salesman problem by deep reinforcement learningJ.Journal of Computer Applications，2022，42（4）：1194-1200.）8 MNIH V，KAVUKCUOGLU K，SILVER D，et al.Human-level control through deep reinforcement learnin

42、g J.Nature，2015，518（7540）：529-533.9 RASHID T，SAMVELYAN M，DE WITT C S，et al.QMIX：monotonic value function factorisation for deep multi-agent reinforcement learningC/Proceedings of the 35th International Conference on Machine Learning.New York：JMLR.org，2018：4295-4304.10 DE LIMA O，SHAH H，CHU T S，et al.

43、Efficient ridesharing dispatch using multi-agent reinforcement learning EB/OL.2022-03-27.https：/arxiv.org/pdf/2006.10897.pdf.11 PAN L，CAI Q，FANG Z，et al.A deep reinforcement learning framework for rebalancing dockless bike sharing systemsC/Proceedings of the 33rd AAAI Conference on Artificial Intell

44、igence.Palo Alto，CA：AAAI Press，2019：1393-1400.12 TANG X，QIN Z，ZHANG F，et al.A deep value-network based approach for multi-driver order dispatchingC/Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York：ACM，2019：1780-1790.13 WANG Z，QIN Z，TANG X，et

45、 al.Deep reinforcement learning with knowledge transfer for online rides order dispatchingC/Proceedings of the 2018 IEEE International Conference on Data Mining.Piscataway：IEEE，2018：617-626.14 VAN HASSELT H，GUEZ A，SILVER D.Deep reinforcement learning with double Q-learningC/Proceedings of the 30th A

46、AAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2016：2094-2100.15 CHILUKURI S，PESCH D.RECCE：deep reinforcement learning for joint routing and scheduling in time-constrained wireless networks J.IEEE Access，2021，9：132053-132063.16 SON K，KIM D，KANG W J，et al.QTRAN：learning to factoriz

47、e with transformation for cooperative multi-agent reinforcement learning C/Proceedings of the 36th International Conference on Machine Learning.New York：JMLR.org，2019：5887-5896.17 CUI H，ZHANG Z.A cooperative multi-agent reinforcement learning method based on coordination degree J.IEEE Access，2021，9：

48、123805-123814.18 LIU B，LIU Q，STONE P，et al.Coach-player multi-agent reinforcement learning for dynamic team composition C/Proceedings of the 38th International Conference on Machine Learning.New York：JMLR.org，2021：6860-6870.19 LUO M，ZHANG W，SONG T，et al.Rebalancing expanding EV sharing systems with

49、deep reinforcement learning C/Proceedings of the 29th International Joint Conference on Artificial Intelligence.California：ijcai.org，2020：1338-1344.20 ZHOU M，JIN J，ZHANG W，et al.Multi-agent reinforcement learning for order-dispatching via order-vehicle distribution matching C/Proceedings of the 28th

50、 ACM International Conference on Information and Knowledge Management.New York：ACM，2019：2645-2653.This work is partially supported by National Natural Science Foundation of China（62062033），Natural Science Foundation of Jiangxi Province（20212BAB202008）.HUANG Xiaohui，born in 1984，Ph.D.，associate profe

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于共享注意力智能强化学习订单派送黄晓辉

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。