欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于异步优势强化学习的交通信号控制策略.pdf

    • 资源ID:647688       资源大小:1.19MB        全文页数:8页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于异步优势强化学习的交通信号控制策略.pdf

    1、第39卷 第3期2023年 6月Vol.39 No.3Jun.2023交通科学与工程JOURNAL OF TRANSPORT SCIENCE AND ENGINEERINGDOI:10.16544/43-1494/u.20220314001文章编号:1674-599X(2023)03-0110-08引用格式:邓兰,吴义虎.基于异步优势强化学习的交通信号控制策略 J.交通科学与工程,2023,39(3):110-117.Citation:DENG Lan,WU Yihu.Traffic signal control strategy based on asynchronous advantage

    2、 actor-critic algorithm J.J.Transp.Sci.Eng.,2023,39(3):110-117.基于异步优势强化学习的交通信号控制策略邓兰,吴义虎(长沙理工大学 交通运输工程学院,湖南 长沙 410114)摘要:为解决交通信号控制中的信号灯配时调度不合理、路口拥堵等问题,提出一种基于行动者-评论家算法的城市智能交通控制算法。该算法是一种基于异步优势的算法,可对交通状态特征进行抽象表征,并以多线程并行实现对交通状态的精确感知。该算法还参考了强化学习算法,能在最短时间内不断迭代优化其内部参数,得到交通信号控制的最优方案。为验证该算法的有效性,采用交通仿真软件SUMO,

    3、对该算法和其他3种典型的交通信号控制算法进行模拟仿真,并对仿真结果进行比较和分析。研究结果表明:与这 3类典型算法中效果最好的 Q-learning算法相比,该算法的交叉口车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。该交通信号控制算法能有效地改善城市道路拥堵,提高道路交叉口的通行效率。关键词:智能交通信号控制;城市交通控制;深度强化学习;异步强化学习中图分类号:U491.5文献标志码:ATraffic signal control strategy based on asynchronous advantage actor-critic alg

    4、orithmDENG Lan,WU Yihu(School of Traffic and Transportation Engineering,Changsha University of Science&Technology,Changsha 410114,China)Abstract:In order to solve the problems in traffic signal control,such as unreasonable timing of signal lights and congestion at intersections,we propose an urban i

    5、ntelligent traffic control algorithm based on the asynchronous advantage actor-critic(A3C).This algorithm leverages asynchronous advantages to abstract and represent traffic state features,enabling accurate perception of traffic conditions through parallel multithreading.Drawing inspiration from rei

    6、nforcement learning techniques,the algorithm iteratively optimizes its internal parameters to obtain the optimal solution for traffic signal control within the shortest possible timeframe.To assess the algorithms effectiveness,we conducted simulated experiments using the traffic simulation software

    7、SUMO,comparing its performance with three other commonly used traffic signal control algorithms.The simulation results reveal that compared to the Q-learning algorithm,this algorithm reduces the average delay time of vehicles at intersections by 14.1%,decreases the average queue length by 13.1%,and

    8、lowers the average waiting time by 13.5%.This traffic signal control algorithm can effectively alleviate urban road congestion and improve the traffic efficiency of road intersections.Key words:intelligent traffic signal control;urban traffic control;deep reinforcement learning;asynchronous reinforc

    9、ement learning随着中国经济的高速发展,中国汽车人均拥有量不断增加,交叉口拥堵也成为城市道路常态,城市路网的通行效率受到了极大的影响。交通拥堵的主要原因是交通信号配时调度不合理,控制效率收稿时间:2022-03-14作者简介:邓兰(1996),女,长沙理工大学硕士生。邓兰,等:基于异步优势强化学习的交通信号控制策略第3期低下。因此,亟须合理、高效的交通信号控制方案,提高城市道路通行效率,减少道路拥堵 1-2。许多学者在设计合理的交通信号控制方面做了大量研究,石冬花等3采用定时控制和感应控制的方法调节交叉口信号。Webster方法是较经典的定时控制方法,其以延误时间最小化为目标函数,

    10、确定参数,但该方法无法根据实时变化的交通状态来及时调整原有参数4。ARAGHI 等5-6提出的SCOOT算法能根据实时交通状况,有规律地调整每个行车方向的可通行时间,大幅提高通行效率,但该算法仍无法解决复杂路面上的交通信号控制问题。这是因为该算法只能根据当前的交通状态,从已有的配时方案中选取最合适的,但备选方案可能均不能满足实际道路的需求。姜涛等7在对潮汐特性显著的交叉口设计交通信号控制方案时,将各控制时段的最优车道方案和信号控制组合方案组合起来,得到了通行效果更好的算法。BOWLING8率先将强化学习算法运用到交通信号控制中。MARSETI9发现与固定配时算法相比,Q-learning算法能

    11、更好地缓解交通拥堵,但其仿真试验均在静态交通环境下进行,在某些实际道路中效果不佳。THORPE10通过仿真,将SARSA算法得到的配时方案与传统固定配时方案进行了对比,发现SARSA算法的配时方案能更好地改善交通拥堵,但效果不够稳定。LIU等11采用Q-learning算法,对交叉路口的信号灯进行控制,但由于该算法提供的信息有限,不能完全显示车辆状态,导致大量交通信息被忽略。综上所述,为能提出更有效的城市路网的信号灯配时方案,本研究从两个方面入手:在同一时间内,让交通信号灯根据交叉路口各个方向上不同交通流的实时状况,在较短时间内选择最适合的交通信号控制策略;将该算法与其他算法在SUMO开源软件

    12、上进行仿真与比较,验证该算法的有效性及可行性。1强化学习算法1.1行动者-评论家算法DEGRIS12将价值迭代和策略迭代两种神经网络迭代算法结合在一起,提出了行动者-评论家(actor-critic,AC)算法。在该算法框架中,行动者(actor)运用策略函数,执行动作,并与环境进行交互、合作;评论家(critic)则运用评价函数,判断行动者动作的优劣,并引导其下一阶段的动作。AC算法的原理如图1所示。该算法虽然可同时迭代两个神经网络,但稳定性不佳。状态s环境价值网络(评论家)策略网络(行动者)动作a优势函数奖励r图1行动者-评论家算法原理Fig.1Actor-critic algorithm

    13、 principle1.2优势行动者-评论家算法优 势 行 动 者-评 论 家 算 法(advantage actor-critic,A2C)在AC算法的基础上增加了优势函数,并将其作为判定和选择动作的标准。如果执行动作的评价值高于期望值,则说明该动作优于平均动作,函数正在朝梯度上升方向运动;若执行动作的评价值低于期望值,则说明该函数正在朝梯度下降方向运动。A2C算法的原理如图2所示。由于该算法采取直接更新的策略,其迭代训练速度较为缓慢。动作a价值网络(评论家)策略网络(行动者)环境奖励r状态s对时间差分图2优势行动者-评论家算法网络结构Fig.2Advantage actor critica

    14、l algorithm network structure1.3异步优势行动者-评论家算法异步优势行动者-评论家算法(asynchronous advantage actor-critic,A3C)算法是 MNIH13于 2016年提出的。该算法在交通系统中得到了广泛运用,是一种能明显提高道路通行效率的异步强化学习算法14。与 AC 算法和 A2C 算法相比,A3C 算法的最大改变是可以采取异步操作。为能更迅速地收集数据,该算法采取多线程并行交互的方式,进行数据的采集、学习和训练。每个线程可自主采集样本信息,独立地完成数据训练,并获取下一个阶段的参数值,最后,将其异步更新到全局神经网络中。在每

    15、一次训练后,算法都会同步全局神经网络的参111第39卷交通科学与工程数,再与环境进行交互,展开新一轮的学习与训练。且各线程采用的神经网络均与全局神经网络保持一致,但每个线程都对应不同的环境,并与之进行交互。因此,每个线程环境的数据均不同,每个线程得到的样本序列也会有差别。这对于策略学习是有价值的,它能让模型在最短的时间内掌握更多的信息和知识。A3C 算法原理模型结构如图 3 所示。在图3中,策略(s)为全局神经网络输出的策略估计值,评论家v(s)为全局神经网络输出的行动评价值。全局网络策略(s)评论家v(s)神经网络输入(s)进程2环境1环境2进程n环境n进程1策略(s)评论家v(s)神经网络

    16、输入(s)策略(s)评论家v(s)神经网络输入(s)策略(s)评论家v(s)神经网络输入(s)图3异步优势行动者-评论家算法架构Fig.3Asynchronous advantage actor-critic algorithm model architecture2异步深度强化学习交通控制算法异步深度强化学习算法对在单交叉路口的智能体、状态输入、动作相位和奖励函数进行了定义。1)智能体。智能体是具有自主活动的抽象类实体,如:无人驾驶的车辆、智能冰箱等。其能与周围环境不断地进行交流与合作,直至达到期望目标。在交通信号控制领域中,交通信号智能控制系统(交通信号灯)通过观测交叉路口的交通状况来选择

    17、合适的信号控制方案。因此,交通信号灯可作为在该智能系统中强化学习算法的智能体。2)状态输入。交通路口状态信息是交通信号灯选择信号相位的依据。为了更好地掌握交叉路口的实时交通情况,将交叉路口各个方向的每个车道中的车辆停车等待时间w、车辆排队长度l、平均车头时距h、交叉口的车辆延误时间d、交通信号灯相位变化c作为交通状态的输入变量。3)动作相位。相位能影响交通信号灯能否选择出最合适的交通信号控制方案。目前,在大多数交通信号控制算法中,交叉路口的相位顺序是固定的,算法只对相位通行时间进行调整。这些算法不能应对复杂多变的实时交通流。因此,本研究既可以调整各个相位的绿灯时长,又可以根据交通流的实时变化任

    18、意切换相位。在交叉路口的车辆的 4个动作相位设置如图5所示,本试验暂不考虑车辆右转这一情况。为避免交通冲突,规定交通信号灯一次只能选择在一个相位a上执行动作,此时,在其余相位方向上的车流均必须在停车线内等待。当a=1时,保持该通行相位;当a=0时,切换到另一相位。当交通信号灯选择相位时,算法会优先考虑最大交通需求方向上的车流,但也要顾及其他方向车流的最长等待时间wmax15。该最长等待时间wmax会因城市道路环境的不同而有所区别。112邓兰,等:基于异步优势强化学习的交通信号控制策略第3期 (a)南北直行 (b)南北左转 (c)东西左转 (d)东西直行图5交通路口车辆动作集合Fig.5Inte

    19、rsection vehicle action collection4)奖励函数。对于交通信号控制方案而言,奖励函数可对交通信号灯选择某一相位动作后的交通状况变化情况进行评价,判断该方案是否达到预期通行效果,并最终确定其是否为最优交通信号控制方案。某一交通信号控制方案的奖励值越大,其实际通行效果越好;反之,若某一交通信号控制方案的奖励值越小,其实际通行效果越差。随着迭代时间的延长,交通路口智能控制方案的奖励值影响会逐渐降低。为提高交叉路口的通行效率,奖励函数要考虑交通路口状况的各项评价指标,如:车辆延误时间、队列长度、等待时间等。该交叉路口奖励函数的表达式为:r=k1d+k2q+k3w+k4p

    20、 (1)式中:k1、k2、k3、k4为权重系数;d为交叉口在各方向上所有车辆的延迟时间之和;q为该交叉口在各方向上所有车辆队列长度之和;w为交叉口在各方向上所有车辆等待时间之和;p 为不同相位的切换时间 16。在交通控制的异步深度学习强化算法中,智能体(交通信号灯)先根据观察的交叉路口信息,选择符合该地交通状态的动作相位;然后,执行该动作相位,并将道路交通流的变化结果反馈给智能体(交通信号灯);最后,智能体根据反馈结果自适应地调整原有参数。交通智能体(交通信号灯)的强化学习算法的流程如图6所示。回馈跟踪信息信控路口环境交通信号智能体信号控制动作集合交通状态信息图6交通智能体的强化学习算法流程F

    21、ig.6Reinforcement learning basic model of traffic signal agent3算法设计与仿真SUMO仿真软件能灵活地定义交通场景,模拟实时交通场景,在交通规划和管理中得到了广泛的应用17。本研究采用SUMO仿真软件中的TraCI接口模块来完成其与Python平台间的交流,根据交叉路口的实时交通信息,选择合适的信号配时方案 18。该算法建立在深度学习框架Tensor Flow的基础上19。3.1算法设计该算法先初始化交通信号灯参数;算法的各线程再从SUMO仿真软件中获得当前其在各自的交通环境中交叉路口的状态信息;然后,将该状态信息传输至各自的神经网

    22、络中,根据神经网络输出的反馈结果,从动作相位集合中按照一定的策略,选择其中的一个相位;最后,把当前交叉路口的交通状态信息、动作相位、下一个时间步长的回报值、交通环境状态信息组合为一个4元数组,并以此来更新全局神经网络的参数。当全局神经网络进行更新时,适当放缓更新速率,保证该神经网络学习的稳定性,使全局神经网络的输出值能更贴近目标Q值。选择具有最大的Q值的动作相位,即可得到交通信号控制方案。重复以上操作,直到交通路口的信号灯最终获得最优交通控制策略为止。设 A3C算法公共部分的全局神经网络的策略参数为,价值参数为,共享迭代轮数为N,全局最大迭代次数Nmax,步长为;A3C算法各线程的神经网络的策

    23、略参数为,价值参数为,各线程内单次迭代时间序列最大长度为Nlocal,状态特征维度为n,动作集为A,步长为,熵系数为c,折扣因子为,探索率为。113第39卷交通科学与工程算法步骤为:1)输入公共部分A3C全局神经网络参数,;重新分别设定行动者、评论家两个网络梯度:d=0,d=0;2)将全局神经网络中参数同步到各个线程中:=,=;3)令tstart=t,从初始化交通环境中得到交通状态st;4)根据策略(at|st;),选择合适的动作相位at,通过选择好的动作相位a,获得奖励值rt和下一个交通状态;定义当前的交通状态:t t+1,T T+1;5)若st为最后状态,或t-tstart=tlocal,

    24、则计算最后一个时间序列位置st的Q(s,t);否则回到步骤4)。Q(s,t)的表达式为:Q(s,t)=0 ,最终状态V(st,),不是最终状态,进入下一状态;6)计算异步梯度,i (t-1,t-2,tstart):估计目标函数Q值,计算每个时刻的Q(s,i):Q(s,i)=ri+Q(s,i+1);对累计Actor的本地梯度进行更新(判定策略梯度方向):d d+log(si,ai)(Q(s,i)-V(si,)+cH(si,);对累计Critic的本地梯度进行更新(判定价值梯度方向):d d+(Q(s,i)-V(si,);7)更 新 全 局 神 经 网 络 参 数:-d,-d;8)若N Nmax,

    25、则算法结束,输出公共部分的A3C神经网络参数、;否则,返回步骤2)。参数设置:为了保证试验公正,各对比算法都使用同样的参数设置。学习率设置为0.001,折扣因子 设置为 0.9,当算法进行学习训练时,采用-greedy算法来进行探寻和动作选择,的初值设为0.1,随着训练次数的增加,值会大幅下降。因此,在训练开始之前,需要初始化算法模型的参数,提升算法的稳定性。根据试验观察,式(1)中各系数设定为:k1=-0.25,k2=-0.25,k3=-0.25,k4=-1.00。3.2试验环境设置3.2.1路口属性设置单一交叉路口是城市交通网络中最简单、最基本的交叉路口。对单一交叉路口的控制效果是评估交通

    26、控制系统的重要基础。本次道路试验的单一交叉路口由一条南北向道路和一条东西向道路组成,试验暂时仅考虑机动车,忽略其他交通要素的影响。每条道路均设计为双向六车道,车道最高设计时速为65 km/h,如图7所示。设交叉路口4个方向均有车流。4个交通仿真环境将同时生成数据,并独立训练各自的神经网络。图7单交叉路口仿真区域Fig.7Single intersection simulation area3.2.2配时方案设置该交叉路口在饱和状态下的固定信号配时方案见表1。其具备4个相位,且其中包含左转相位。在每个相位的绿灯结束后,设定3 s的黄灯时间,保证在绿灯结束时刻冲出停车线的车辆能在红灯开启前驶离交叉

    27、路口。表1固定信号配时方案Table 1Fixed signal timing scheme相位第一相位第二相位第三相位第四相位方向南北直行南北左转东西直行东西左转绿灯时间/s29214325黄灯时间/s3333周期/s1301301301303.2.3车流量设置假设车辆到达服从泊松分布,交叉路口各个方向的车辆平均到达率、仿真时间等参数见表2。114邓兰,等:基于异步优势强化学习的交通信号控制策略第3期表2交通流量设置Table 2Traffic flow settings车流方向南北直行南北左转东西直行东西左转车辆平均到达率/(辆 s-1)0.1000.0300.1500.026仿真时间/s

    28、 7 2007 2007 2007 2004试验结果与分析Q-Learning算法与A3C算法在学习过程中平均累计奖励值与总训练次数间的关系曲线如图 8所示。训练步数0 20 40 60 80 1000-50-100-150-200-250-300-350平均奖励值Q-learningA3C图8不同算法的平均累计奖励对比Fig.8Average cumulative reward comparison从图8可以看出,在各算法的训练早期,它们均未收敛,但A3C算法和Q-Learning算法的训练值较接近。随着训练次数的增加,Q-learning算法仍处于振荡发散状态,未达到其最优的控制效果;但A

    29、3C算法则很快地收敛,进入了稳定状态。根据在该交叉路口采集的车辆信息,经A3C算法反复迭代和优化后,得到的最佳信号灯配时方案见表3。由表3可知,相比固定配时方案,A3C算法优化得到的最佳信号灯配时方案在交通需求量较大的相位上的绿灯时间和绿信比均有所增加。参考 城市道路交通管理评价指标体系(2008版)中对城市等级的划分和 城市道路设计规范(CJJ 3790)中对交叉口类型的划分,本研究选取B类城市的交叉口,对其进行数值仿真,并假设驾驶人可接受的等待时间为 120200 s。由表 3可知,各算法优化后的各方向车流的等待时间上限wmax均在设定的合理范围内。表3优化后的信号配时方案Table 3O

    30、ptimized signal timing scheme相位第一相位第二相位第三相位第四相位方向东西直行南北直行南北左转东西左转绿灯时长/s53342620黄灯时长/s3333周期/s145145145145为更好地检验基于异步优势行动者-评论家算法对交通信号控制的有效性,以平均延误时间、平均队列长度、平均等待时间作为评价指标,将其与定时控制、感应控制、Q-Learning 这三类典型算法进行对比。各算法训练的对比结果如图9所示,各算法各指标的平均值对比见表 4。在相同交通状态条件下,这三个交通评价指标的平均值越小,交叉路口车辆的通行效率就越高,算法有效性也就越好。表4饱和状态下算法仿真结果

    31、对比Table 4Comparison of algorithm simulation results in saturated state算法定时控制感应控制Q-learningA3C平均延误/s75.4268.2361.2152.57平均队列长度/m66.8159.1454.9647.83平均等待时间/s61.0256.1150.3843.58100908070605040Q-learningA3C定时控制感应控制0 20 40 60 80 100训练步数平均延误时间/s(a)平均延迟115第39卷交通科学与工程0 20 40 60 80 100训练步数10090807060504030平

    32、均等待时间/sQ-learningA3C定时控制感应控制(b)平均等待时间0 20 40 60 80 100训练步数100908070605040平均队列长度/mQ-learningA3C定时控制感应控制(c)平均队列长度图9交通控制效果对比Fig.9Comparison of traffic control effects由表4可知,与3类常用算法中优化效果最好的 Q-learning算法对比,A3C算法的车辆平均延误时间减少了14.1%,平均队列长度缩短了13.1%,平均等待时间减少了13.5%。在本次仿真试验中,设置的道路流量较大,该高负载路面状态导致A3C算法的收敛速度有所下降,但A3

    33、C算法仍是这4种算法中收敛速度最快的。5结论本研究针对城市道路的单个交叉路口提出一种基于异步优势行动者-评论家算法的交通信号控制算法。该算法能有效利用城市道路交叉路口的实时状态信息,解决以往大部分算法在学习训练过程中难以得到最优的交通控制方案的问题,能有效地降低交叉路口车辆排队长度和停车等待时间,改善城市道路拥挤,缓解交通压力。本算法通过SUMO仿真软件进行了数值试验。该仿真试验仅考虑机动车对交通状况的影响,是在一种理想的道路交通环境中进行的。但实际的交通环境还会受到非机动车、行人等多因素的影响。这也是本研究接下来要做的工作。参考文献(References):1 SUN H,CHEN C L,

    34、LIU Q,et al.Traffic signal control method based on deep reinforcement learning J.Computer Science,2020,47(2):169-174.2 朱海峰,刘畅,刘彦斌,等.基于通行能力系数优化的道路交叉口单点动态控制研究 J.公路与汽运,2019(5):29-34.ZHU Haifeng,LIU Chang,LIU Yanbin,et al.Research on single point dynamic control of road intersection based on capacity co

    35、efficient optimization J.Highways&Automotive Applications,2019(5):29-34.3 石冬花,田国亮,闫彭.道路交叉口信号控制方法的发展现状与趋势 J.交通标准化,2011,39(7):193-197.SHI Donghua,TIAN Guoliang,YAN Peng.Development status and trends of signal control algorithm at road intersection J.Transport Standardization,2011,39(7):193-197.4 LO H

    36、K.A reliability framework for traffic signal controlJ.IEEE Transactions on Intelligent Transportation Systems,2006,7(2):250-260.5 ARAGHI S,KHOSRAVI A,CREIGHTON D.A review on computational intelligence methods for controlling traffic signal timing J.Expert Systems with Applications,2015,42(3):1538-15

    37、50.6 隋莉颖,李威,石建军,等.SCOOT和ACTRA信号控制系统分析 J.道路交通与安全,2007,7(2):10-13.SUI Liying,LI Wei,SHI Jianjun,et al.The analysis and application actuality of traffic signal control systemSCOOT and ACTRA in BeijingJ.Road Traffic&Safety,2007,7(2):10-13.7 姜涛,马倩楠.多时段可变导向车道设置与信号优化方法 J.交通科学与工程,2019,35(1):86-93.JIANG Tao,

    38、MA Qiannan.Multi-time variable guiding lane setting and signal optimization methodJ.Journal of Transport Science and Engineering,2019,35(1):86-93.8 BOWLING M.Multi agent learning in the presence of agents with limitations R.Carnegie Mellon Univ Pittsburgh Pa School of Computer Science,2003.9 MARSETI

    39、 R,EMROV D,URA M.Road artery traffic light optimization with use of the reinforcement learning J.PROMET-Traffic&Transportation,2014,116邓兰,等:基于异步优势强化学习的交通信号控制策略第3期26(2):101-108.10THORPE T L,Anderson C W.Traffic light control using sarsa with three state representationsR.Technical report,Cite seer,199

    40、6.11LIU Y,LIU L,CHEN W P.Intelligent traffic light control using distributed multi-agent Q learning C/IEEE 20th International Conference on Intelligent Transportation Systems(ITSC).October 16-19,2017,Yokohama,Japan.IEEE,2018:1-8.12DEGRIS T,WHITE M,SUTTON R S.Off-policy actor-critic EB/OL.(2013-06-20

    41、)2021-12-16.https:/arxiv.org/abs/1205.483913V.MNIH,A.P.BADIA,M.MIRZA,A.Graves,T.Lillicrap,T.Harley,K.Kavukcuoglu,et al.,Asynchronou-s methods for deep reinforcement learning EB/OL.(2016-02-04)2021-12-26.https:/arxiv.org/abs/1602.01783.14GENDERS W,RAZAVI S.Evaluating reinforcement learning state repr

    42、esentations for adaptive traffic signal controlJ.Procedia Computer Science,2018,130:26-33.15郭海锋,张贵军.基于无线传感网络的单点自组织信号控制方法 J.中国公路学报,2010,23(3):102-107.GUO Haifeng,ZHANG Guijun.Method of traffic self-organizing signal control for isolated intersection based on wireless sensor network J.China Journal of

    43、 Highway and Transport,2010,23(3):102-107.16黄浩,胡智群,王鲁晗,等.基于Sumtree DDPG的智能交通信号控制算法 J.北京邮电大学学报,2021,44(1):97-103.HUANG Hao,HU Zhiqun,WANG Luhan,et al.Intelligent traffic signal control algorithm based on Sumtree DDPGJ.Journal of Beijing University of Posts and Telecommunications,2021,44(1):97-103.17侯

    44、德藻,高兰达,钱振伟,等.基于SUMO软件的异构交通流仿真平台车辆模型开发与集成 J.同济大学学报(自然科学版),2021,49(7):957-963,1038.HOU Dezao,GAO Landa,QIAN Zhenwei,et al.Development and integration of vehicle model for heterogeneous traffic flow simulation platform based on SUMO J.Journal of Tongji University(Natural Science),2021,49(7):957-963,103

    45、8.18王莹多.基于深度强化学习的路口自适应控制 D.大连:大连理工大学,2017.WANG Yingduo.Adaptive control of intersections based on deep reinforcement learning D.Dalian:Dalian University of Technology,2017.19朱昭俊,李雪芹.基于Python与Tensorflow的交通信号决策系统 J.综合运输,2022,44(5):74-79,143.ZHU Zhaojun,LI Xueqin.Traffic signal decision system based on

    46、 python and tensorflow J.China Transportation Review,2022,44(5):74-79,143.(责任编辑:李脉;校对:罗容;英文编辑:刘至真)contact surface during rotation construction of long-span bridgesD.Guangzhou:South China University of Technology,2019.13郭大智,冯德成.层状弹性体系力学 M.哈尔滨:哈尔滨工业大学出版社,2001.GUO Dazhi,FENG Decheng.Mechanics of layered elastic system M.Harbin:Harbin Institute of Technology Press,2001.14格拉德韦尔,G.M.L.经典弹性理论中的接触问题 M.范天佑,译.北京.北京理工大学出版社,1991.GLADWELL,G.M.L.Contact problems in classical elasticity Theory M.Fan Tianyou.Trans.Beijing:Beijing Institute of Technology Press,1991.(责任编辑:欧兆虎;校对:罗容;英文编辑:刘至真)(上接第89页)117


    注意事项

    本文(基于异步优势强化学习的交通信号控制策略.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png