分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 品牌综合 > 临存文档 > 一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf

一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf

上传人：自信****多点

文档编号：465198

上传时间：2023-10-12

格式：PDF

页数：9

大小：2.73MB

《一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf》由会员分享，可在线阅读，更多相关《一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf（9页珍藏版）》请在咨信网上搜索。

1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023一种基于深度强化学习的 TCP 网络拥塞控制协议卢光全李建波*吕志强(青岛大学计算机科学技术学院山东青岛 266071)收稿日期:2020 07 16。国家重点研发计划重点专项项目(2018YFB2100303);山东省高等学校青创科技计划创新团队项目(2020KJN011);山东省博士后创新人才支持计划项目(40618030001);国家自然科学基金项目(61802216);中国博士后基金项目(2018M642613)。卢光全，

2、硕士生，主研领域:边缘计算。李建波，教授。吕志强，硕士生。摘要在面对网络变化时，传统的 TCP 拥塞控制协议因其固有的规则机制只能做出固定的动作，既未充分利用链路带宽，也未从历史经验中学习，并且在发生拥塞时带宽恢复所用时间较长。近年来基于强化学习的拥塞控制协议(einforcement Learning Congestion Control，L-CC)虽然可以有效地从历史经验中学习，但是它没有考虑历史经验在时序上存在的因果关系。对这种因果关系进行隐式提取，提出一种基于时序卷积网络和强化学习的拥塞窗口自适应智能化拥塞控制协议(Temporal convolutional network and

3、einforcement Learning CongestionControl，TL-CC)。TL-CC 通过 NS-3 仿真不同带宽的网络环境。大量的仿真实验表明，与 Neweno 和 L-CC做对比，TL-CC 在吞吐量方面提升 32 8%和 8 5%，时延降低 41 3%和 12%。关键词TCPAIMD拥塞控制强化学习时序卷积网络中图分类号TP3文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 028A TCP NETWOK CONGESTION CONTOL POTOCOLBASED ON DEEP EINFOCEMENT LEANINGLu Gua

4、ngquanLi Jianbo*L Zhiqiang(College of Computer Science Technology，Qingdao University，Qingdao 266071，Shandong，China)AbstractWhen the network changes，the protocol of traditional TCP congestion control can only make fixed actionsdue to its inherent rule mechanism，neither fully utilizes the link bandwid

5、th，nor learns from historical experience，andwhen congestion occurs，it takes a long time to restore bandwidth The congestion control protocol based on reinforcementlearning(L-CC)can effectively learn from historical experience，but it does not consider the causality of historicalexperience of time ser

6、ies By implicitly extracting this causal relationship，a congestion window adaptive intelligentcongestion control protocol based on temporal convolutional network and reinforcement learning(TL-CC)is proposedTL-CC simulated network environments with different bandwidths through NS-3A large number of s

7、imulationexperiments show that compared with Neweno and L-CC，TL-CC has a 32 8%and 8 5%increase in throughput，and a delay reduction of 41 3%and 12%KeywordsTCPAIMDCongestion controleinforcement learningTemporal convolutional network0引言随着互联网规模和网络应用的不断增加，网络拥塞现象日益显著。尽管高带宽的网络链路能够在一定程度上满足网络服务的需求，提高吞吐量和降低延迟

8、等，但更高端的硬件资源价格昂贵且没有从本质上解决网络拥塞问题。更可行的是对高层的拥塞控制协议进行设计或改进。随着计算机网络路由协议算法的不断创新，许多网络拥塞控制协议被提出1 3。其中TCP Neweno 拥塞控制协议是业界的主流，但由于其基于规则的设计模式，它在动态变化的网络环境中未180计算机应用与软件2023 年能更好地均衡吞吐量和时延。在网络构建的过程中上述规则被定义为“事件-动作”，即在面对丢包或者拥塞时此类网络协议只能根据单一的映射关系选择固定“动作”，尽管这一“动作”会降低网络吞吐量等性能指标。这些网络协议也未能根据网络的过去经验对拥塞窗口做出动态的自适应调整，仅仅是在特定场景和

9、特定假设下达到网络性能的次优化。基于规则的协议主要存在两个问题:(1)当网络环境发生变化时，这些基于规则的协议不能动态地对新的网络环境更好地适应。即不同的网络环境存在不同的带宽、延迟和网络拓扑。因此，适用于特定网络下的 TCP 拥塞控制协议很难甚至无法在另一个网络中起作用。(2)在构建网络的时候，人为地建立标准性的假设，在这些假设之上成立规则。拥塞控制算法在保证应用数据进行可靠传输中起着重要的作用。但是，网络环境是复杂且动态变化的，链路的信息具有非透明性，这对设计拥塞控制算法提出了更高的挑战。如图 1 所示，通信双方的通信链路带宽不均衡。当以 1 Mbit/s 从 S 向发送数据时，超过链路

10、所提供的最大带宽，在 M 处会发生拥塞，导致网络性能变差甚至崩塌。此时 S 就会减小拥塞窗口，降低其发送速率。Neweno 遇到此类问题时执行固定的 AIMD 规则，在网络出现拥塞时，拥塞窗口的大小默认缩减至原始值的 1/2，这种设计浪费了网络资源，从而严重降低了网络的性能。图 1链路带宽不均衡深度强化学习通过挖掘网络历史经验为处理网络拥塞提供了新模式。TL-CC 可以有效地克服上述问题，从而学习到一个较成功的策略，最终实现智能化拥塞控制。TL-CC 通过利用历史经验实现拥塞控制智能化和摆脱基于规则的模式。在这种情况下，每个发送方作为一个代理，代理与网络环境直接进行交互，代理不需要了解网络的全

11、部信息，它只需要观测网络环境的状态(例如:往返时间(TT)、吞吐量、拥塞窗口等)。一次 TCP 会话建立到会话结束称为一个片段。在一个片段内的每个时间步，代理通过接收网络环境的状态选择一个合适的动作，此时的动作会被反馈给环境并且影响环境的下个状态，同时代理将得到执行这一动作带来的回报，目的是最大化未来折扣累积回报。通过上述对传统 TCP 拥塞控制问题的描述，本文提出一种基于深度强化学习的智能化拥塞控制方案TL-CC。尽管没有必要说明，TL-CC 建立在 Neweno之上。对 TL-CC 研究的主要贡献如下:(1)TL-CC 利用时序卷积网络对历史经验进行时序上因果关系处理，并结合强化学习选取合

12、适的动作对拥塞窗口进行调整。据我们了解，尽管在这之前存在基于强化学习的拥塞控制方案，同时它们也利用历史经验学习网络环境以达到目标(例如:高吞吐量、低延迟等)。但是，它们仅仅是把过去经验直接作为输入，未考虑历史经验中存在的隐式关系。利用当前的网络状况跟过去一段时间内的网络情况有着密切联系这一隐式条件，TL-CC 可以学习到更优的策略来实现智能化的拥塞控制。所以该方案是首次利用历史经验在时序上的因果关系并结合强化学习实现拥塞控制。(2)TL-CC 在实现智能化的拥塞控制方案时，对往返时间进行量化。拥塞窗口通过结合量化往返时间进行自适应动态调整。(3)本文考虑到环境执行动作到代理收到执行这一动作的回

13、报存在延迟。所以，TL-CC 在学习过程中对 Q 函数的更新做了修改。代理用 t+1 时刻的回报代替 t 时刻的回报。(4)TL-CC 通过NS-3 4 仿真，并且与TCP Neweno以及基于强化学习的拥塞控制(L-CC)方案作比较，表明 TL-CC 能够更好地学习网络状况，同时在性能方面较 Neweno 和 L-CC 有着显著的提升。1相关工作1 1回顾在有线和无线网络中，TCP 是被广泛探讨的话题。同时，拥塞控制是网络中最基本的问题。多年来，许多端到端拥塞控制理论被提出。例如，eno5 根据返回的确认字符(ACK)信息调整拥塞窗口，在低带宽、低时延的网络中可以发挥出优势。但是在高带宽延时

14、网络中，TT 很大，拥塞窗口增长慢，导致带宽利用率降低。Cubic6 使用 cubic 函数调整拥塞窗口，其优点在于只要没检测到丢包，就不会主动降低发送速率，可以最大程度地利用网络剩余带宽。但这也将会成为其短板。Vegas7 将时延作为拥塞出现的信号。如果 TT超过了预期的值则开始减小拥塞窗口。还有包括BB8、Compound TCP9 等端到端的拥塞控制协议。这些协议都有各自独特的设计，它们使用固定的函数第 3 期卢光全，等:一种基于深度强化学习的 TCP 网络拥塞控制协议181或者规则调整拥塞窗口的变化。对于上述传统的拥塞控制协议，固定规则策略限制了它们适应现代网络的复杂性和快速变化。更重

15、要的是，这些拥塞控制协议不能从历史经验中学习。同时，研究者们已经利用机器学习方法来解决传统 TCP 协议的局限性。例如，emy10 使用机器学习的方式生成拥塞控制算法模型，针对不同网络状态采用不同的方式调整拥塞窗口。它通过离线方式进行训练，通过输入各种参数(如瓶颈链路带宽、时延等)，反复调节目标函数使其达到最优，最终会生成一个网络状态到调节方式的映射表。当训练的网络模型假设与实际网络的假设一致时，emy 可以很好地工作。但是当实际网络假设发生改变时，emy 的性能会下降。它的映射表是在训练时计算得出的，与传统的 TCP 及其变种一样，它无法适应不断变化的网络环境，每当网络环境发生变化时，它必须

16、重新计算映射表。PCC11 摒弃基于规则的模式，可以快速适应网络中不断变化的条件。它不断地通过“微型实验”积极寻找更优的发送速率。但是，贪婪地寻找更优的发送速率会让其陷入局部最优的地步。并且，它的性能需要依靠准确的时钟。不论是 emy 还是 PCC，它们都把网络环境视为黑匣子，抛弃了传统的基于规则的设计模式，专注于寻找可以达到最好性能的发送速率改变规则。但是，它们都没有利用先前的经验。近来，许多研究者利用强化学习和网络拥塞控制结合，这一结果能够更好地解决 TCP 拥塞控制问题。QTCP12 是把 Q-learning 与拥塞控制结合得到的在线学习方案。它可以较好地适应新的网络环境，摆脱传统的基

17、于规则的设计原理，从经验中学习网络状况以获得更好的性能(例如，高吞吐量、低时延)。并且提出一种广义的 Kanerva 编码函数逼近算法。TCP-Drinc13 与深度强化学习结合，把多个观测状态通过深度卷积网络处理，然后加入 LSTM 再对特征进行深层次的提取，最终通过一个全连接网络选择动作，来决定如何调整拥塞窗口的大小。它也是一种从过去的经验中学习合适的策略以适应网络环境动态变化的拥塞控制方案。尽管 QTCP 和 TCP-Drinc 都是从过去的经验中学习，但都未曾考虑历史经验中的因果关系。1 2Neweno 存在的问题拥塞控制的目标是多个发送方可以公平地共享一个瓶颈链路带宽，不会引起网络的

18、崩塌。每个发送方包含一个有限大小的拥塞窗口(cwnd)，维持发送数据的多少，以保证注入网络的数据包不会引起网络拥塞。TCP 拥塞控制协议及其变种不断地被提出。TCPNeweno 通过 AIMD 规则来维持整拥塞窗口。AIMD主要包含三个步骤:(1)慢开始:cwnd=cwnd+1(每个 ACK 都被发送方收到)。(2)拥塞避免:cwnd=cwnd+1/cwnd(每个 ACK都被发送方收到)。(3)快恢复:cwnd=cwnd/2(收到三次重复 ACKs)。图 2 为 TCP Neweno 流的拥塞窗口(包的数量)随时间的变化。它通过 AIMD 规则控制拥塞窗口变化。一个 TCP 会话建立时，发送方

19、并不知道拥塞窗口应该取多大的值适合当前的网络状况，所以数据包刚注入网络时拥塞窗口会快速提升到某个值(1)慢开始)，尽管这种策略被称为慢开始，但是拥塞窗口呈指数增长。TCP 设置了一个慢开始门限限制拥塞窗口无限增加。发送方根据确认字符判断网络出现拥塞，进入拥塞避免阶段(2)拥塞避免)，拥塞窗口增长缓慢(在接收到每个确认信息 ACK)。直到链路发生丢包或发送方收到三个重复冗余 ACK，进入第三阶段(3)快恢复)，跳过慢开始阶段直接进入拥塞避免。AIMD 原理说明 TCP 过程将会收敛到一个同时满足效率和公平性的平衡点上，也表明多个流在共享一个链路时最终能得到收敛14。图 2Neweno 流拥塞窗口

20、2对问题的建模2 1问题描述当一个网络的拓扑和参数发生改变时，网络需要重新被规划以充分利用瓶颈链路带宽和降低往返时间。事实上，在保证充分利用带宽和降低往返时间的前提下，本文提出基于强化学习的 TL-CC 通过学习历史经验达到自适应动态规划网络目的。强化学习包含两个实体:代理和环境。通常情况下，深度强化学习用于解决马尔可夫决策问题(MDP)。但在本文中，网络内部信息并不透明，代理不能完全了解网络信息。因此，本文对网络环境建模为部分可观测马尔可夫问题(POMDP)。182计算机应用与软件2023 年没有先验知识的代理通过学习得到最优策略(ast)，通常情况，策略(ast)是通过状态空间 S到动作空

21、间 A 映射，定义为:(ast)SA(1)代理根据当前状态 st随机或根据式(1)固定地选取动作 at并从环境中获得回报 r(st，at)，目的是最大化长期累积折扣回报，被定义为:t=r(st，at)+t+1(2)式中:0，1 表示折扣因子。即使在相同的环境中，当策略发生变化时，累计回报也会发生改变。这是因为累计回报取决于选取的动作。此时，需要计算代理在状态 st下执行动作 at后获得的累计回报，这得以从 Q 函数体现，被定义为:Q(st，at)=Est+1 rt+Q(st+1，at+1)st，at(3)2 2状态空间在一个 TCP 会话建立时，有许多的状态变量可以描述网络情况，例如往返时间

22、TT和最小往返时间TT，min、上次发包的时间、慢开始的阈值、拥塞窗口大小、连续两次发包的拥塞窗口的差值、平均往返时间、收到确认信息的总和、在一个时间间隔内接收到的平均确认信息、网络吞吐量等。选取只与代理目标相关的特征并做预处理是必要的，因为能更好地解释模型。数据包传输时，通过最小往返时间可以估计出链路的传输时延，但是链路可能会发生动态变化。因此，最小延迟比 vTT=TT，min/TT也作为衡量网络状况特征，它表示在动态变化的链路中数据的传播时延所占的比例。同时，数据包的传输过程中需要考虑队列延迟，把 dTT=TT TT，min作为队列延迟的估计。此外，返回确认信息表明在一次数据传输过程，接收

23、方收到数据包还是丢失数据包，一定程度上可以反映网络情况，所以确认信息(ACK)也作为一个特征。通过上述讨论，下一步定义 TL-CC 的状态空间。在一个 TCP 会话期间，代理对观测状态处理之后，我们考虑以下特征:(1)拥塞窗口大小，用 w 表示;(2)一次发包时间内的吞吐量(tp);(3)往返时间(TT);(4)TT，min和 TT之比 TT;(5)TT和 TT，min两者之间的差值 dTT;(6)发送数据包后返回的确认字符，用 ACK表示。因此，状态空间定义为:S=s1，s2，sk(4)其中 st表示为:st=w(t)，tp(t)，TT(t)，TT(t)，dTT(t)，ACK(t)(5)代理

24、选取式(5)中的 s1，s2，sk这 K 个历史经验作为时序卷积网络的输入，提取时序上隐式的因果关系。最终，代理把提取的隐式特征压成一维张量作为DQN 的输入。2 3动作空间代理通过在动态变化网络中学习合适的策略，处理每个观测状态后选择合适的动作，构成状态，动作对，并将动作映射为拥塞窗口的改变。如表 1 所示，拥塞窗口调整的状态空间 A，共有 5 个动作。代理结合往返时间的量化对拥塞窗口做动态改变。本文参考文献 15对往返时间均匀量化为 M 个区间，如式(6)所示。=(TT，max TT，min)/M(6)式中:称为乘性因子，拥塞窗口随乘性因子做不定的改变。代理预测的任何一个动作对改变拥塞

25、窗口满足式(7):wt+TT=wt+(1 )8000 iwt+400i jwt+(1+)(100)j nwt+(1+)(200)n mwt其他(7)表 1拥塞窗口改变规则拥塞窗口动作/B增加800增加400减少200减少100不变02 4回报和效用函数回报是指代理在每个时间步选取动作后作用于环境中，然后从环境中获得的评价性响应。回报取值通过效用函数得到映射。TL-CC 的效用函数目标是最大化吞吐量且最小化延迟。因此，效用函数的定义如下:Utilityt=log(tp(t)log(TT(t)(8)式中:、代表吞吐量、往返时间的权重，且 +=1。式(8)表明应该努力地最大化吞吐量的同时最小化延迟。

26、尽管效用函数是模型要实现的目标，但值得注意的是，代理仅仅采用式(8)作为回报函数，代理可能持续选择相同的动作，使得效用函数一直是最大化，但网络的性能并不一直是最优的。为了能够更好地均衡吞第 3 期卢光全，等:一种基于深度强化学习的 TCP 网络拥塞控制协议183吐量和往返时间。本文采用时间步 t 和 t+TT连续时间的效用函数值之差来定义效用函数，如下:U=Ut+TT Ut(9)表 2 中，表示两个连续效用值差值的容忍度。当连续的两个效用函数值的差大于，代理会得到一个正的回报值，反之亦然。表 2效用函数回报U回报值U10U 203拥塞控制方案3 1TL-CC随着机器学习和深度学习在视频流16

27、18、流量预测19 20 等方面的成功发展，这促使本文利用深度学习对拥塞控制做进一步研究，寻找一个智能化的拥塞控制方案。TL-CC 的设计如图 3 所示，它可以从历史经验中隐式学习和预测未来网络情况。它大致可以分为三部分:(1)对网络实行控制和决策的代理;(2)执行代理选择的动作并对这些动作做出标准性评价的环境;(3)存放历史经验的缓冲区。图 3TL-CC 模型本文对传统的强化学习策略做了改进。首先，每过一个往返时间，缓冲区更新一次。数据以元组(st，at，rt，st+TT)的形式存放在缓冲区中。TL-CC 利用时序卷积网络提取历史经验中隐式的关系作为输入，每次选取 K 个历史经验。最后，t

28、时刻的回报经过 TT才会被代理收到。本文考虑这一延迟，改变了 Q 函数的更新方式。通过这些改进，DQN 可以从历史经验中更好地学习。3 2代理在定义了状态、动作空间、回报函数和 TL-CC 方案设计之后，现在介绍代理的设计如图 4 所示。代理将时序上连续的 K 个历史经验作为输入，并且输出是动作空间中的下一个动作。图 4代理设计(FC:全连接层;A:动作空间)在单独使用强化学习实现拥塞控制时，仅仅是把过去经验直接作为输入。尽管可以得到比传统模型好的效果，但 L-CC 却忽略了历史经验中隐式的因果关系。文献 21中提到时序卷积网络(TCN)在处理时序上的序列时是一个非常有前景的方法。在 t 时刻

29、，代理从缓冲区中选取 t 时刻之前的 K 个连续的历史经验作为 TCN 的输入。TCN 的卷积网络层层之间是有因果关系的，意味着不会“遗漏”历史信息的情况发生。而且它使用大量的空洞卷积扩大感受野，可获得更长的历史信息。网络参数的丢弃概率是 0 3。最后，代理通过两个全连接网络来计算最合适的动作的Q 函数值。在图 4 中，代理使用全连接层网络计算每个动作的 Q 函数值时，采用的是 Softmax 激活函数，定义如下:Ai=eijej代理选取最大概率的动作 Ai计算对应的 Q 函数值。3 3DQN 训练过程在实现拥塞控制时，在每个时间步 t，代理会接收到来自环境的状态向量 st，基于策略(st)选

30、择动作at。并且在下一个时间 t+TT，代理收到标量值回报r(st，at)，表示在时间步 t 执行动作 at的回报。但是，环境执行动作 at的回报被代理在时间 t+TT收到，这表明在学习中存在延迟。在强化学习中，像这样的延迟大多都被忽略掉。然而，对于拥塞控制来说，它对维持网络稳定有着重要的作用。出于此原因，TL-CC在学习过程中对 Q 函数(式(3)的更新做了修改。代理把 rt+1作为动作 at的回报。因此，在时间 t+1 开始时，修改 Q 函数的更新方式为:Q(st，at)rt+1+Q(st+2，at+2)(10)184计算机应用与软件2023 年式中:Q 函数利用神经网络进行近似。Q(st

31、，at，)Q(st，at)(11)式中:表示神经网络权重，将代理得到的观测状态通过时序神经网络进行处理后和权重作为神经网络的输入，然后通过迭代和学习得到近似的 Q 函数。在神经网络进行训练时，假设式(11)成立，由此定义损失函数为:L()=E(yt Q(st，at，)2(12)式中:yt是目标值，根据式(10)得到 yt=rt+1+Q(st+2，at+2)。4实验结果与分析4 1网络环境本文利用 NS-3 仿真网络环境，如图 5 所示，在路由器 1 和路由器 2 之间有着大小为 B 的颈链路带宽，设置最小往返时间为80 ms，这是一种典型的哑铃状网络模型。有 N 个发送方和 N 个接收方，多个

32、发送方共同竞争一个瓶颈链路，每个发送方都是一个独立的代理。代理每次训练 50 个片段，每个片段为 800 s。如果代理在 TT时间间隔内没有接收到确认字符，则会用上一时刻的观测状态。图 5网络拓扑为了验证 TL-CC 的性能，选择两个基准方案 Ne-weno、L-CC 进行对比。本文主要专注于吞吐量和往返时间两方面的性能。4 2评估本节评估本文提出的 TL-CC 方案的性能。首先它与传统的拥塞控制算法 Neweno、未考虑时序特征的基于强化学习的拥塞控制方案进行对比。随后通过实验分析历史经验 K 的取值。最后，TL-CC 不做任何改变的部署在高带宽网络进行实验分析。4 2 1TL-CC 性能图

33、 6 是代理在进行 20 个片段的训练后得到的拥塞窗口和往返时延以及吞吐量的变化曲线。它包含代理学习的三个过程:(1)随机探索;(2)随机学习;(3)收敛阶段。拥塞窗口的变化符合式(7)，在图 6(a)和图6(b)中可以看出拥塞窗口是通过往返时延量化的。标注之间是随机探索过程，代理以一定概率随机选取动作，随机选择动作的概率为 0 1。在代理学习的过程中随机选择概率会减小，但是最终它不会为零，因为面对动态变化的网络保持一定的概率探索环境是有必要的。标注之间是随机学习过程，代理通过学习到的策略选择合适的动作，然后结合效用函数确保代理达到收敛阶段(标注)，最终往返时延收敛到最小往返时延附近波动。(a

34、)拥塞窗口的变化(b)往返时延的变化(c)吞吐量的变化图 6TL-CC 方案性能通过图 6(c)可以看出，尽管代理在学习过程中使得拥塞窗口自适应减小(发包数量减少)，但是吞吐量却一直保持稳定。这也进一步说明 TL-CC 在减小延迟的同时也能充分利用瓶颈链路带宽，提高链路利用率。4 2 2对比实验此节主要通过从吞吐量和延迟方面进行比较，展示 TL-CC 在吞吐量和延迟方面具有良好的性能。主要以下面三个拥塞控制方法进行比较:(1)TCP Neweno:如今广泛应用的经典拥塞控第 3 期卢光全，等:一种基于深度强化学习的 TCP 网络拥塞控制协议185制算法之一。(2)L-CC:基于强化学习的拥塞控

35、制方案，没有利用历史经验在时序上的关系。将其作为 TL-CC 的对比实验。(3)TL-CC:在 L-CC 的基础之上，考虑过去经验在时序上的因果关系。即此刻的网络情况与之前某段时间内的网络情况是有联的。利用时序卷积网络提取网络中潜在的关系，对未来网络情况做更好的规划。从图7(a)可以看出，Neweno 的时延上下浮动剧烈且时延较其他两者相对较高。在图7(b)中，Neweno的吞吐量存在波动且不能保持稳定。这主要是因为Neweno 中固定的 AIMD 规则，当代理观测到有包丢失时，拥塞窗口减半。而另一方面，在 TCP 连接刚建立时，L-CC 方案随机探索阶段时延波动大、收敛较慢，同时吞吐量的稳定

36、性比较差。TL-CC 较 L-CC可以学习到控制网络行为更优的策略，时延可以快速收敛且在最小往返时间附近波动，吞吐量保持相对稳定。主要原因是，历史经验中存在时序上隐式关系，这种关系一旦被提取利用，代理就可以更好地结合过去经验和现在的网络情况，并对未来网络情况做好规划。(a)三个算法的往返时间(b)三个算法的吞吐量(c)平均往返时间(d)平均吞吐量图 7TL-CC、Neweno、L-CC 比较通过图 7(a)和图 7(b)，得到了图 7(c)和图 7(d)。可以进一步看出，TL-CC 无论在时延还是吞吐量方面，它的性能较于前两者都是最好的。这是因为它利用历史经验中潜在的因果关系，并且得以从效用函

37、数中体现。TL-CC 在吞吐量方面较 Neweno 提升32 8%，较 L-CC 提升 8 5%，瓶颈带宽链路得到了充分利用;较 Neweno 时延降低 41 3%，较 L-CC 时延降低 12%。TL-CC 不仅在吞吐量和延迟方面达到了较高的性能，而且相较于其他两个方案更均衡吞吐量和时延，更加具有鲁棒性。4 2 3K 取值分析在考虑过去经验时，过去经验选取数量(K)对拥塞控制有着很大影响。此节对历史经验 K 取值进行比较，同时取不同 K 值的方案也与 Neweno 以及 L-CC作对比，结果如图 8 所示。(a)K 取不同值的往返时间对比(b)K 取不同值的吞吐量对比186计算机应用与软件2

38、023 年(c)平均往返时间(d)平均吞吐量图 8K 取值不同对网络影响正如图 8(a)所示，当 K=64 和 K=128 时，延迟波动较小且在最小往返时间附近，相对较小。反观 K=16 和 K=32 时，尽管时延在 Neweno 和 L-CC 下面浮动，但却几乎没有收敛到最小往返时间附近。这种原因有两种:(1)在定义状态空间时，代理加入了队列延迟这一特征;(2)关键是时序卷积网络处理较长时间的历史经验，它能够存储更长时间的信息，代理可以从更丰富的信息中学习，使队列延迟一直保持较小值。另一方面，图 8(b)表示吞吐量的变化，K 取值大(K=64 128)，吞吐量变化保持稳定。结果表明，历史经验

39、K 越大时，TL-CC 方案的性能越优。同时，通过图 8(a)和图 8(b)，TL-CC 通过效用函数均衡了吞吐量和往返时间。最后，柱状图(图 8(c)、图 8(d)进一步诠释了上述结论。4 2 4高带宽网络本节把在瓶颈链路带宽 2 Mbit/s、最小往返时间为 80 ms 训练好的模型直接部署到网络瓶颈链路带宽为 20 Mbit/s、最小往返时间为 80 ms 的网络中。每个片段的训练时间仍然是 800 s。在网络发生变化时，图 9 表示三种拥塞控制方案的自适应性。Neweno 因基于规则的设计，不能从历史经验中学习，导致它在面对网络变化时表现出很差的性能甚至使网络出现崩塌。TL-CC 在面

40、对网络变化时仍然可以从历史经验中学习到最优策略，具有更好的鲁棒性。如图 9(a)所示，随着瓶颈链路带宽的增大(与 2 Mbit/s 相比)，往返时间变小。这是由于带宽变大时队列延迟降低，这显然是合理的。图 9(b)是相应的吞吐量随模拟时间的变化，当历史经验 K 取值较大时，代理在学习过程中会谨慎。这是因为代理综合“考虑”历史经验，避免出现网络性能下降。历史经验K 取值越大、延迟越小且在最小往返时间附近波动;吞吐量也越稳定。(a)链路带宽为 20 Mbit/s 的往返时间(b)链路带宽为 20 Mbit/s 的吞吐量(c)平均往返时间(d)平均吞吐量图 9链路带宽发生变化时性能对比图9(c)和图

41、9(d)表明，TL-CC 较 Neweno 吞吐量提升 25 8%，较 L-CC 吞吐量提升 8 3%。另一方面，TL-CC 较 Neweno 延迟降低 33%，比 L-CC 降第 3 期卢光全，等:一种基于深度强化学习的 TCP 网络拥塞控制协议187低 15%。最终，在变化的网络中，TL-CC 的自适应性更好，仍然能保持最优性能。5结语本文提出智能化的拥塞控制方案。不像传统的基于规则的拥塞控制协议，它通过量化往返时间控制拥塞窗口自适应动态变化。虽然 L-CC 通过学习过去经验对未来网络进行规划，取得了较好的效果。但TL-CC 通过时序卷积网络处理过去经验在时序上存在的因果关系，这使得该方案

42、较 L-CC 更具有鲁棒性，在吞吐量和往返时间方面取得更好的性能。首先，本文在瓶颈链路带宽较小的网络中部署TL-CC。TL-CC 较 Neweno 和 L-CC(未考虑过去经验在时序上存在的因果关系)在吞吐量和延迟方面达到了更好的性能。在平均吞吐量方面，TL-CC比 Neweno 提升 32 8%，比 L-CC 提升 8 5%。同时TL-CC 的时延比 Neweno 降低 41 3%，比 L-CC 降低了 12%。然后，把训练好的 TL-CC 迁移到高带宽网络环境中，不需要再次训练。通过实验分析，TL-CC 的吞吐量比 Neweno 和 L-CC 分别提升25 8%和83%;延迟降低 33%和

43、 15%。最终，本文对历史经验K 取值进行探讨，发现代理“考虑”历史经验越多时，TL-CC 越可以更好地均衡吞吐量和时延。参考文献1 Floyd S，Henderson T，Gurtov A FC3782:The Newenomodification to TCPs fast recovery algorithmJ FC，2004，3782:1 192 Padhye J，Firoiu V，Towsley D F，et al Modeling TCP e-no performance:A simple model and its empirical validation J IEEE/ACM T

44、ransactions on Networking，2000，8(2):133 1453 Liu S，Baar T，Srikant TCP-Illinois:A loss and delay-based congestion control algorithm for high-speed networks C/1st International Conference on Performance Evalua-tion Methodolgies and Tools，20064 Gawowicz P，Zubow A Ns-3 meets OpenAI gym:The play-ground f

45、or machine learning in networking researchC/22nd International ACM Conference on Modeling，Analysisand Simulation of Wireless and Mobile Systems，2019:1131205 Padhye J，Firoiu V，Towsley D A stochastic model of TCPreno congestion avoidence and control University ofMassachusetts，19996 Ha S，hee I，Xu L CUB

46、IC:A new TCP-friendly high-speed TCP variant J ACM SIGOPS Operating Systems e-view，2008，42(5):64 747 Brakmo L S，Peterson L L TCP vegas:End to end conges-tion avoidance on a global Internet J IEEE Journal on Se-lected Areas in Communications，1995，13(8):1465 14808 Cardwell N，Cheng Y，Gunn C S，et al BB:

47、Congestion-based congestion control J Queue，2016，14(5):20 539 Song K T J，Zhang Q，Sridharan M Compound TCP:Ascalable and TCP-friendly congestion control for high-speednetworksC/4th International Workshop on Protocols forFast Long-Distance Networks(PFLDNet)，2006 10 Winstein K，Balakrishnan H TCP ex mac

48、hina:Computer-generated congestion control J ACM SIGCOMM ComputerCommunication eview，2013，43(4):123 134 11 Dong M，Li Q，Zarchy D，et al PCC:e-architecting con-gestion control for consistent high performanceC/12thUSENIX Symposium on Networked Systems Design and Im-plementation(NSDI 15)，2015:395 408 12

49、Li W，Zhou F，Chowdhury K，et al QTCP:Adaptivecongestion control with reinforcement learningJ IEEETransactions on Network Science and Engineering，2018，6(3):445 458 13 Xiao K，Mao S，Tugnait J K TCP-Drinc:Smart congestioncontrol based on deep reinforcement learning J IEEE Ac-cess，2019，7:11892 11904 14 Chi

50、u D M，Jain Analysis of the increase and decrease al-gorithms for congestion avoidance in computer networks J Computer Networks and ISDN Systems，1989，17(1):1 14 15 罗颖，林茂松，江虹无线网络中基于强化学习的拥塞控制算法改进 J 自动化仪表，2014，35(6):65 68 16 Stockhammer T Dynamic adaptive streaming over HTTPstandards and design princip

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种基于深度强化学习 TCP 网络拥塞控制协议卢光全

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。