一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf
《一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf》由会员分享,可在线阅读,更多相关《一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023一种基于深度强化学习的 TCP 网络拥塞控制协议卢光全李建波*吕志强(青岛大学计算机科学技术学院山东 青岛 266071)收稿日期:2020 07 16。国家重点研发计划重点专项项目(2018YFB2100303);山东省高等学校青创科技计划创新团队项目(2020KJN011);山东省博士后创新人才支持计划项目(40618030001);国家自然科学基金项目(61802216);中国博士后基金项目(2018M642613)。卢光全,
2、硕士生,主研领域:边缘计算。李建波,教授。吕志强,硕士生。摘要在面对网络变化时,传统的 TCP 拥塞控制协议因其固有的规则机制只能做出固定的动作,既未充分利用链路带宽,也未从历史经验中学习,并且在发生拥塞时带宽恢复所用时间较长。近年来基于强化学习的拥塞控制协议(einforcement Learning Congestion Control,L-CC)虽然可以有效地从历史经验中学习,但是它没有考虑历史经验在时序上存在的因果关系。对这种因果关系进行隐式提取,提出一种基于时序卷积网络和强化学习的拥塞窗口自适应智能化拥塞控制协议(Temporal convolutional network and
3、einforcement Learning CongestionControl,TL-CC)。TL-CC 通过 NS-3 仿真不同带宽的网络环境。大量的仿真实验表明,与 Neweno 和 L-CC做对比,TL-CC 在吞吐量方面提升 32 8%和 8 5%,时延降低 41 3%和 12%。关键词TCPAIMD拥塞控制强化学习时序卷积网络中图分类号TP3文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 028A TCP NETWOK CONGESTION CONTOL POTOCOLBASED ON DEEP EINFOCEMENT LEANINGLu Gua
4、ngquanLi Jianbo*L Zhiqiang(College of Computer Science Technology,Qingdao University,Qingdao 266071,Shandong,China)AbstractWhen the network changes,the protocol of traditional TCP congestion control can only make fixed actionsdue to its inherent rule mechanism,neither fully utilizes the link bandwid
5、th,nor learns from historical experience,andwhen congestion occurs,it takes a long time to restore bandwidth The congestion control protocol based on reinforcementlearning(L-CC)can effectively learn from historical experience,but it does not consider the causality of historicalexperience of time ser
6、ies By implicitly extracting this causal relationship,a congestion window adaptive intelligentcongestion control protocol based on temporal convolutional network and reinforcement learning(TL-CC)is proposedTL-CC simulated network environments with different bandwidths through NS-3A large number of s
7、imulationexperiments show that compared with Neweno and L-CC,TL-CC has a 32 8%and 8 5%increase in throughput,and a delay reduction of 41 3%and 12%KeywordsTCPAIMDCongestion controleinforcement learningTemporal convolutional network0引言随着互联网规模和网络应用的不断增加,网络拥塞现象日益显著。尽管高带宽的网络链路能够在一定程度上满足网络服务的需求,提高吞吐量和降低延迟
8、等,但更高端的硬件资源价格昂贵且没有从本质上解决网络拥塞问题。更可行的是对高层的拥塞控制协议进行设计或改进。随着计算机网络路由协议算法的不断创新,许多网络拥塞控制协议被提出1 3。其中TCP Neweno 拥塞控制协议是业界的主流,但由于其基于规则的设计模式,它在动态变化的网络环境中未180计算机应用与软件2023 年能更好地均衡吞吐量和时延。在网络构建的过程中上述规则被定义为“事件-动作”,即在面对丢包或者拥塞时此类网络协议只能根据单一的映射关系选择固定“动作”,尽管这一“动作”会降低网络吞吐量等性能指标。这些网络协议也未能根据网络的过去经验对拥塞窗口做出动态的自适应调整,仅仅是在特定场景和
9、特定假设下达到网络性能的次优化。基于规则的协议主要存在两个问题:(1)当网络环境发生变化时,这些基于规则的协议不能动态地对新的网络环境更好地适应。即不同的网络环境存在不同的带宽、延迟和网络拓扑。因此,适用于特定网络下的 TCP 拥塞控制协议很难甚至无法在另一个网络中起作用。(2)在构建网络的时候,人为地建立标准性的假设,在这些假设之上成立规则。拥塞控制算法在保证应用数据进行可靠传输中起着重要的作用。但是,网络环境是复杂且动态变化的,链路的信息具有非透明性,这对设计拥塞控制算法提出了更高的挑战。如图 1 所示,通信双方的通信链路带宽不均衡。当以 1 Mbit/s 从 S 向 发送数据时,超过链路
10、所提供的最大带宽,在 M 处会发生拥塞,导致网络性能变差甚至崩塌。此时 S 就会减小拥塞窗口,降低其发送速率。Neweno 遇到此类问题时执行固定的 AIMD 规则,在网络出现拥塞时,拥塞窗口的大小默认缩减至原始值的 1/2,这种设计浪费了网络资源,从而严重降低了网络的性能。图 1链路带宽不均衡深度强化学习通过挖掘网络历史经验为处理网络拥塞提供了新模式。TL-CC 可以有效地克服上述问题,从而学习到一个较成功的策略,最终实现智能化拥塞控制。TL-CC 通过利用历史经验实现拥塞控制智能化和摆脱基于规则的模式。在这种情况下,每个发送方作为一个代理,代理与网络环境直接进行交互,代理不需要了解网络的全
11、部信息,它只需要观测网络环境的状态(例如:往返时间(TT)、吞吐量、拥塞窗口等)。一次 TCP 会话建立到会话结束称为一个片段。在一个片段内的每个时间步,代理通过接收网络环境的状态选择一个合适的动作,此时的动作会被反馈给环境并且影响环境的下个状态,同时代理将得到执行这一动作带来的回报,目的是最大化未来折扣累积回报。通过上述对传统 TCP 拥塞控制问题的描述,本文提出一种基于深度强化学习的智能化拥塞控制方案TL-CC。尽管没有必要说明,TL-CC 建立在 Neweno之上。对 TL-CC 研究的主要贡献如下:(1)TL-CC 利用时序卷积网络对历史经验进行时序上因果关系处理,并结合强化学习选取合
12、适的动作对拥塞窗口进行调整。据我们了解,尽管在这之前存在基于强化学习的拥塞控制方案,同时它们也利用历史经验学习网络环境以达到目标(例如:高吞吐量、低延迟等)。但是,它们仅仅是把过去经验直接作为输入,未考虑历史经验中存在的隐式关系。利用当前的网络状况跟过去一段时间内的网络情况有着密切联系这一隐式条件,TL-CC 可以学习到更优的策略来实现智能化的拥塞控制。所以该方案是首次利用历史经验在时序上的因果关系并结合强化学习实现拥塞控制。(2)TL-CC 在实现智能化的拥塞控制方案时,对往返时间进行量化。拥塞窗口通过结合量化往返时间进行自适应动态调整。(3)本文考虑到环境执行动作到代理收到执行这一动作的回
13、报存在延迟。所以,TL-CC 在学习过程中对 Q 函数的更新做了修改。代理用 t+1 时刻的回报代替 t 时刻的回报。(4)TL-CC 通过NS-3 4 仿真,并且与TCP Neweno以及基于强化学习的拥塞控制(L-CC)方案作比较,表明 TL-CC 能够更好地学习网络状况,同时在性能方面较 Neweno 和 L-CC 有着显著的提升。1相关工作1 1回顾在有线和无线网络中,TCP 是被广泛探讨的话题。同时,拥塞控制是网络中最基本的问题。多年来,许多端到端拥塞控制理论被提出。例如,eno5 根据返回的确认字符(ACK)信息调整拥塞窗口,在低带宽、低时延的网络中可以发挥出优势。但是在高带宽延时
14、网络中,TT 很大,拥塞窗口增长慢,导致带宽利用率降低。Cubic6 使用 cubic 函数调整拥塞窗口,其优点在于只要没检测到丢包,就不会主动降低发送速率,可以最大程度地利用网络剩余带宽。但这也将会成为其短板。Vegas7 将时延作为拥塞出现的信号。如果 TT超过了预期的值则开始减小拥塞窗口。还有包括BB8、Compound TCP9 等端到端的拥塞控制协议。这些协议都有各自独特的设计,它们使用固定的函数第 3 期卢光全,等:一种基于深度强化学习的 TCP 网络拥塞控制协议181或者规则调整拥塞窗口的变化。对于上述传统的拥塞控制协议,固定规则策略限制了它们适应现代网络的复杂性和快速变化。更重
15、要的是,这些拥塞控制协议不能从历史经验中学习。同时,研究者们已经利用机器学习方法来解决传统 TCP 协议的局限性。例如,emy10 使用机器学习的方式生成拥塞控制算法模型,针对不同网络状态采用不同的方式调整拥塞窗口。它通过离线方式进行训练,通过输入各种参数(如瓶颈链路带宽、时延等),反复调节目标函数使其达到最优,最终会生成一个网络状态到调节方式的映射表。当训练的网络模型假设与实际网络的假设一致时,emy 可以很好地工作。但是当实际网络假设发生改变时,emy 的性能会下降。它的映射表是在训练时计算得出的,与传统的 TCP 及其变种一样,它无法适应不断变化的网络环境,每当网络环境发生变化时,它必须
16、重新计算映射表。PCC11 摒弃基于规则的模式,可以快速适应网络中不断变化的条件。它不断地通过“微型实验”积极寻找更优的发送速率。但是,贪婪地寻找更优的发送速率会让其陷入局部最优的地步。并且,它的性能需要依靠准确的时钟。不论是 emy 还是 PCC,它们都把网络环境视为黑匣子,抛弃了传统的基于规则的设计模式,专注于寻找可以达到最好性能的发送速率改变规则。但是,它们都没有利用先前的经验。近来,许多研究者利用强化学习和网络拥塞控制结合,这一结果能够更好地解决 TCP 拥塞控制问题。QTCP12 是把 Q-learning 与拥塞控制结合得到的在线学习方案。它可以较好地适应新的网络环境,摆脱传统的基
17、于规则的设计原理,从经验中学习网络状况以获得更好的性能(例如,高吞吐量、低时延)。并且提出一种广义的 Kanerva 编码函数逼近算法。TCP-Drinc13 与深度强化学习结合,把多个观测状态通过深度卷积网络处理,然后加入 LSTM 再对特征进行深层次的提取,最终通过一个全连接网络选择动作,来决定如何调整拥塞窗口的大小。它也是一种从过去的经验中学习合适的策略以适应网络环境动态变化的拥塞控制方案。尽管 QTCP 和 TCP-Drinc 都是从过去的经验中学习,但都未曾考虑历史经验中的因果关系。1 2Neweno 存在的问题拥塞控制的目标是多个发送方可以公平地共享一个瓶颈链路带宽,不会引起网络的
18、崩塌。每个发送方包含一个有限大小的拥塞窗口(cwnd),维持发送数据的多少,以保证注入网络的数据包不会引起网络拥塞。TCP 拥塞控制协议及其变种不断地被提出。TCPNeweno 通过 AIMD 规则来维持整拥塞窗口。AIMD主要包含三个步骤:(1)慢开始:cwnd=cwnd+1(每个 ACK 都被发送方收到)。(2)拥塞避免:cwnd=cwnd+1/cwnd(每个 ACK都被发送方收到)。(3)快恢复:cwnd=cwnd/2(收到三次重复 ACKs)。图 2 为 TCP Neweno 流的拥塞窗口(包的数量)随时间的变化。它通过 AIMD 规则控制拥塞窗口变化。一个 TCP 会话建立时,发送方
19、并不知道拥塞窗口应该取多大的值适合当前的网络状况,所以数据包刚注入网络时拥塞窗口会快速提升到某个值(1)慢开始),尽管这种策略被称为慢开始,但是拥塞窗口呈指数增长。TCP 设置了一个慢开始门限限制拥塞窗口无限增加。发送方根据确认字符判断网络出现拥塞,进入拥塞避免阶段(2)拥塞避免),拥塞窗口增长缓慢(在接收到每个确认信息 ACK)。直到链路发生丢包或发送方收到三个重复冗余 ACK,进入第三阶段(3)快恢复),跳过慢开始阶段直接进入拥塞避免。AIMD 原理说明 TCP 过程将会收敛到一个同时满足效率和公平性的平衡点上,也表明多个流在共享一个链路时最终能得到收敛14。图 2Neweno 流拥塞窗口
20、2对问题的建模2 1问题描述当一个网络的拓扑和参数发生改变时,网络需要重新被规划以充分利用瓶颈链路带宽和降低往返时间。事实上,在保证充分利用带宽和降低往返时间的前提下,本文提出基于强化学习的 TL-CC 通过学习历史经验达到自适应动态规划网络目的。强化学习包含两个实体:代理和环境。通常情况下,深度强化学习用于解决马尔可夫决策问题(MDP)。但在本文中,网络内部信息并不透明,代理不能完全了解网络信息。因此,本文对网络环境建模为部分可观测马尔可夫问题(POMDP)。182计算机应用与软件2023 年没有先验知识的代理通过学习得到最优策略(ast),通常情况,策略(ast)是通过状态空间 S到动作空
21、间 A 映射,定义为:(ast)SA(1)代理根据当前状态 st随机或根据式(1)固定地选取动作 at并从环境中获得回报 r(st,at),目的是最大化长期累积折扣回报,被定义为:t=r(st,at)+t+1(2)式中:0,1 表示折扣因子。即使在相同的环境中,当策略发生变化时,累计回报也会发生改变。这是因为累计回报取决于选取的动作。此时,需要计算代理在状态 st下执行动作 at后获得的累计回报,这得以从 Q 函数体现,被定义为:Q(st,at)=Est+1 rt+Q(st+1,at+1)st,at(3)2 2状态空间在一个 TCP 会话建立时,有许多的状态变量可以描述网络情况,例如往返时间
22、TT和最小往返时间TT,min、上次发包的时间、慢开始的阈值、拥塞窗口大小、连续两次发包的拥塞窗口的差值、平均往返时间、收到确认信息的总和、在一个时间间隔内接收到的平均确认信息、网络吞吐量等。选取只与代理目标相关的特征并做预处理是必要的,因为能更好地解释模型。数据包传输时,通过最小往返时间可以估计出链路的传输时延,但是链路可能会发生动态变化。因此,最小延迟比 vTT=TT,min/TT也作为衡量网络状况特征,它表示在动态变化的链路中数据的传播时延所占的比例。同时,数据包的传输过程中需要考虑队列延迟,把 dTT=TT TT,min作为队列延迟的估计。此外,返回确认信息表明在一次数据传输过程,接收
23、方收到数据包还是丢失数据包,一定程度上可以反映网络情况,所以确认信息(ACK)也作为一个特征。通过上述讨论,下一步定义 TL-CC 的状态空间。在一个 TCP 会话期间,代理对观测状态处理之后,我们考虑以下特征:(1)拥塞窗口大小,用 w 表示;(2)一次发包时间内的吞吐量(tp);(3)往返时间(TT);(4)TT,min和 TT之比 TT;(5)TT和 TT,min两者之间的差值 dTT;(6)发送数据包后返回的确认字符,用 ACK表示。因此,状态空间定义为:S=s1,s2,sk(4)其中 st表示为:st=w(t),tp(t),TT(t),TT(t),dTT(t),ACK(t)(5)代理
24、选取式(5)中的 s1,s2,sk这 K 个历史经验作为时序卷积网络的输入,提取时序上隐式的因果关系。最终,代理把提取的隐式特征压成一维张量作为DQN 的输入。2 3动作空间代理通过在动态变化网络中学习合适的策略,处理每个观测状态后选择合适的动作,构成 状态,动作 对,并将动作映射为拥塞窗口的改变。如表 1 所示,拥塞窗口调整的状态空间 A,共有 5 个动作。代理结合往返时间的量化对拥塞窗口做动态改变。本文参考文献 15对往返时间均匀量化为 M 个区间,如式(6)所示。=(TT,max TT,min)/M(6)式中:称为乘性因子,拥塞窗口随乘性因子做不定的改变。代理预测的任何一个动作对改变拥塞
25、窗口满足式(7):wt+TT=wt+(1 )8000 iwt+400i jwt+(1+)(100)j nwt+(1+)(200)n mwt其他(7)表 1拥塞窗口改变规则拥塞窗口动作/B增加800增加400减少200减少100不变02 4回报和效用函数回报是指代理在每个时间步选取动作后作用于环境中,然后从环境中获得的评价性响应。回报取值通过效用函数得到映射。TL-CC 的效用函数目标是最大化吞吐量且最小化延迟。因此,效用函数的定义如下:Utilityt=log(tp(t)log(TT(t)(8)式中:、代表吞吐量、往返时间的权重,且 +=1。式(8)表明应该努力地最大化吞吐量的同时最小化延迟。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 深度 强化 学习 TCP 网络 拥塞 控制 协议 卢光全
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。