基于边端协同的CNN推理加速框架.pdf

上传人：自信****多点

文档编号：633564

上传时间：2024-01-19

格式：PDF

页数：10

大小：8.06MB

《基于边端协同的CNN推理加速框架.pdf》由会员分享，可在线阅读，更多相关《基于边端协同的CNN推理加速框架.pdf（10页珍藏版）》请在咨信网上搜索。

1、第卷第期年月南京邮电大学学报（自然科学版）（）：基于边端协同的推理加速框架郭永安，周金粮，王宇翱，南京邮电大学通信与信息工程学院，江苏南京教育部泛在网络健康服务系统工程研究中心，江苏南京南京邮电大学边缘智能研究院，江苏南京摘要：基于卷积神经网络（）的移动应用程序通常处理的是计算密集型任务，然而传统的云推理和端推理方式在低时延和高准确率方面仍面临着挑战。针对以上问题，提出了一种基于边端协同的推理框架，它能让一个端设备和多个边缘服务器协同工作以提供推理服务。该方法综合考虑高度动态的网络带宽和设备负载情况，分步决策出模型多个最佳分割位置以优化计算和

2、通信权衡。基于硬件测试平台的实验评估表明，相较于种流行的推理方法，该方法实现了的推理加速，提升边缘服务器的计算资源利用率。关键词：协同推理；分步决策；低时延；计算资源利用率中图分类号：文献标志码：文章编号：（），：（），：；收稿日期：；修回日期：本刊网址：基金项目：江苏省前沿引领技术基础研究专项（）和江苏省重点研发计划（社会发展）（）资助项目作者简介：郭永安，男，博士，教授，引用本文：郭永安，周金粮，王宇翱基于边端协同的推理加速框架南京邮电大学学报（自然科学版），（）：近年来，凭借在特征提取和特征映射方面的出色表现，卷积神经网络（）在智能交通、无人驾驶、智能工厂等场景中得到了广泛应用

3、，特别是在视频目标识别、图像检测等计算任务上发挥了重要作用。随着当前推理任务复杂度的爆炸式增长，传统的云推理和端推理方式已无法满足低时延和高精度需求。其中依赖中心云的推理方式，面临着广域网传输链路不稳定而导致通信开销过大的问题，同时也存在着敏感信息因广泛传输而被窃取的风险。端设备受限于十分有限的计算资源，往往无法满足推理所需的内存消耗。为了满足低时延、高精度的推理需求，新兴的边端协同推理计算范式成为研究重点。边端协同可视为将类似云服务器的计算功能卸载到靠近数据源的边缘服务器上。当发生推理任务请求时，首先将推理分为由端设备处理的前半部分和由边缘集群处理的后半部分，再在边缘集群内对具有不

4、同负载的边缘服务器做细致的推理任务划分。如图所示。然而，边端协同推理同样面临着两个需要解决的关键挑战：（）如何根据设备负载进行推理任务分配，（）在动态网络带宽条件下，如何决策出模型的最佳分割位置以平衡计算和通信开销。为了应对以上挑战，目前的研究工作主要集中在个方面：模型架构优化、模型分割优化和硬件加速。其中模型架构优化通过采用模型裁剪技术和多分支训练技术以减少计算开销，但这面临着模型准确度降低的风险；在模型分割方面，和尝试通过将只分割成两部分以减少通信开销，这种方式忽略了多边缘服务器参与的可能；硬件加速方面的研究工作主要围绕硬件加速平台展开。上述工作倾向于仅在中寻找一个最佳分割点

5、来优化协同推理时延，忽视了高度动态的网络带宽和设备负载情况下多边缘服务器参与带来的推理加速。图边端协同推理示意图为了解决以上问题，设计了一个用于视频目标识别的（）框架。它可以在一个终端设备和多个边缘服务器上加速协作推理。首先，完整保留了的结构和参数，以确保高精度。其次，在动态网络带宽和设备负载情况下，将优化问题定义为最小化协同推理延迟，并通过逐步确定的多个最优分割点来解决该问题。分割点位置的确定被选择以匹配计算任务复杂度、设备负载、张量数据和网络带宽。随着优化协作推理延迟，边缘服务器的计算资源利用率也得到了提高。最后，搭建了一个硬件测试平台来实现原型。实验结果表明，与种流行的推

6、理方法相比，实现了的推理加速，并将边缘服务器的计算资源利用率提高了。总而言之，本文所作贡献总结如下：（）设计了，这是一种针对视频流目标识别的轻量级边端协同推理框架，可以避免精度的损失，在最小化协同推理时延的同时提升边缘服务器的计算资源利用率。（）包含轻量化的推理时延预测（，）模型和推理卸载决策（，）模型两个重要组成部分。其中，能根据设备的负载为其分配合理的推理任务量；基于和静态、动态带宽条件，可以分步决策出模型多个最佳分割位置来优化计算和通信权衡。（）搭建了硬件测试平台，并在智慧交通场景下结合种流行的推理方法来评估的工作性能。相关工作对于基于边端协同的低时延

7、推理，研究工作主要集中在个方面：模型架构优化、模型分割优化和硬件加速。模型架构优化尝试通过开发新的结构，达到牺牲模型部分精度换取高效推理速度的目的。这包括通过稀疏数据表示、放弃不必要的中间层计算等模型裁剪技术。比如等在一个预训练模型的基础上，用零替换低于某个阈值的参数，形成一个稀疏矩阵。另一种实现模型架构优化的方法是将原始训练为多分支，从概率选择的角度确定符合精度和时延要求的模型出口。类似的工作包括等提供了一个基础的多分支训练框架，它为每种类型的手动设置了个出口。与以上研究工作相比，完全不需承担模型准确率降低的风险，因为模型参数和结构从未被改变过。模型分割优化，即沿的顺序执行

8、方向，按层间结构对其进行分割。等设计的通过实时发送一帧数据，以监测当前的网络带宽情况和设备的计算资源负载情况，这个过程产生的时延消耗，很容易造成第期郭永安，等：基于边端协同的推理加速框架推理卸载策略的过时，得益于根据设备负载即时测算的推理时延，生成的策略在适应计算环境方面表现良好；等提出的通过分析传输时延和推理时延占比，采用寻找最小中间层数据的方法以换取最少的传输时延，进而确定最佳分割位置，这种方式忽视了高性能边缘服务器带来的分层推理加速，过度依赖网络带宽环境，而在探索开发边缘服务器的计算资源利用率方面更加积极。硬件加速包含两方面。其一是旨在硬件级中设计有利于

9、计算的模块，比如：谷歌推出的一种小型专用集成电路芯片，用于在边缘设备上运行。另一方面旨在优化设备的计算资源利用率，包括为推理分配特定的内存空间、为卷积运算和激活运算划分不同的计算空间。与现有研究工作相比，本文整合了模型分割和硬件加速两种方法来扩展用于视频目标识别的协同推理框架的设计思路。不仅适用于静态带宽环境，更能在动态的网络带宽和设备负载情况中，最小化协同推理时延的同时开发边缘服务器的计算资源利用率，这是之前的工作没有涉及到的。设计和工作流程设计图显示了由两个重要阶段组成：离线学习和在线决策。在离线学习阶段，首先将训练完备的经预分层操作分割为单独的层，然后将每一层卸载到设

10、备上做存储并进行离线推理，收集设备负载和对应处理每一层产生的推理时延，基于以上收集到的信息，训练得到推理时延预测模型。可以根据持续监测到的设备负载，预测该设备处理任意层消耗的推理时延。在线决策阶段，推理卸载决策模型可以基于预测得到的推理时延和静态、动态带宽条件下传输张量数据造成的传输时延共同制定推理卸载策略，策略包括最佳分割位置的确定和参与协同推理的设备选定。为了推理过程的流畅和避免不必要的传输时延消耗，在开展基于边端协同的推理工作之前，和同样也需要被卸载到各个设备上。图框架推理卸载策略制定流程端设备发起推理任务请求标志着协同推理工作的开始。此时，终端设备在执行推理任务

11、的前半部分时，同步测量时延。随后，终端设备利用来预测自身完成所有推理任务的总时延，以及预测边缘集群中的每个边缘服务器执行推理任务的后半部分所产生的时延。最终，终端设备使用来预测传输的中间层张量数据所产生的传输时延。基于定义的“低时延要求”：，终端设备制定第一个推理卸载策略。如果不满足低时延要求，则终端设备计算所有的推理任务。一旦建立了初始策略，边缘服务器就尝试在执行推理任务的后半部分期间，利用其自身加载的和制定第二策略，同时遵守低时延要求。参与协同推理的所有设备都遵循这些步骤来开发新策略，直到推理结束，最后一个设备将推理结果发送到终端设备。自适应推理任务卸载自适应推理任务卸载是

12、为了提高协同推理方面的时延和计算资源利用率指标。在下文中，首先将南京邮电大学学报（自然科学版）年优化问题定义为在一定的网络带宽和设备负载情况下，最小化协同推理时延，再利用和将其换算为与计算任务复杂度、设备负载、张量数据量和网络带宽相关联的最优化问题并求解。定义了必要的概念和符号，见表。对于特殊字符，将在文中使用时给出说明。表符号说明表符号含义，多层被分为层，指第层层结构，被计算后产生张量数据，参与协同推理的层被分为部分，被计算后产生张量数据，个设备参与协同推理。设备负责计算，设备和间的网络带宽为设备传输产生的传输时延设备计算产生的推理时延协同

13、推理时延问题定义一个多层经过预分层操作被分割为层后，最终在和的决策下由个设备参与协同推理，产生的最小化协同推理时延问题如下（）（）（）最小化协同推理时延的关键是对最佳分割位置的确定和参与协同推理的设备选择，简而言之是根据动态变化的网络带宽和设备负载对式（）中的确定，将在节中有效解决这个问题。问题转化推理时延预测模型研究者大都使用回归的思想来预测计算负载已知的设备在处理具有一定复杂度的推理任务时可能消耗的推理时延。在换算设备负载方面，相较于等只关注设备的实时使用率，本文发现基于的推理加速平台在时延节省方面表现更加强劲，因此，选用和的实时浮点计算能力（）来表征

14、设备负载。（）（）（）（）式（）、（）中的实时计算负载和实时计算负载共同组成了设备负载，其中由的理论浮点运算峰值和使用率相乘组成，由的理论浮点运算峰值和显存使用率相乘组成。式（）中的、分别代表设备中芯片个数、单个处理器核心数、主频、单个时钟周期浮点计算次数。有双精度、单精度和半精度个类别，针对一个，只会以一种形式存在，这取决于的数据类型。丹麦技术大学的博士提供了一个测算的测试程序，能较好满足本文需求。式（）中的符号含义和式（）同理。使用浮点计算次数（）来表征计算复杂度。当前计算的方法较多，集中体现在对卷积层和全连接层的计算处理上，参考采用滑动窗口法实现卷积

15、层和全连接层的计算。（）（）（）（）对于一个被预分层为层的，如果中包含卷积层，那么它的用式（）中的表示，如果是由全连接层组成的，那么它的用式（）中的表示。式（）中的、依次代表输入的特征图的高度、宽度、通道数、卷积核的边长、输出的特征图的通道数，式（）中的、分别代表输入的特征向量的维数、输出的特征向量的维数。在后文的表述中在不表明是卷积层还是全连接层的情况下，使用代表的。综上，相较于等过分关注特征层的计算复杂度而忽视了设备本身计算负载和等只关注设备的使用情况，本文更深入地挖掘了任务复杂度、设备负载和推理时延内在的联系，并基于遗传算法为每个不同

16、的训练用于每层推理时延估计的专属。（，）（）第期郭永安，等：基于边端协同的推理加速框架（，）（）算法：推理时延预测模型生成算法：，离线学习阶段收集的推理时延，：种群大小，选择算子，：交叉算子，：变异算子，：终止代数，：适应度函数，：编码方案：推理时延预测模型和（），；（）（）；（）；（）；（）；（）（）；和共同组成了。式（）中，代表只搭载的设备在计算负载为的情况下推理产生的推理时延结果；式（）中，代表同时搭载和的设备在计算负载为和的情况下推理产生的推理时延结果。在遗传算法的开始部分加入了编码方案更新设计（算法的第行），它会在第一次训练完成后将编码方案中冗余

17、的编码舍弃掉，这会大大降低后续模型更新的复杂难度，同时在后续的模型更新过程中也会遵循更新编码方案的原则。推理卸载决策模型定义如下（）（）（）（）（）式（）只展示了推理卸载的第一步，即在第一个约束条件（）下，基于和完成第一个最佳分割位置和最佳边缘服务器的选择，实现第一部分协同推理时延的最小化。其中，被分成（，）和（，）两部分并分别在端设备和边缘服务器上进行推理，产生的推理时延分别为（）和（）。进一步地，若满足第二个约束条件（），则表明可对（，）再进行推理卸载决策，方法同理。式（）最终表明，低时延协同推理的本质是对计算任务复杂度、设备负载、张量数据量和网络

18、带宽组成的最优化问题的求解，这可以基于和得到解决。基于马尔科夫决策过程思想实现了的求解，如算法所示。算法：推理卸载模型：，：最小化协同推理时延；（）：；，；实验验证在本节中，搭建了一个硬件测试台来实现原型，并评估其在协同推理时延和边缘服务器的计算资源利用率方面的性能，将围绕的两个阶段展开。实验设置在原型中，使用平台推理了经典的模型：，在推理前被预分层为层。模型预分层结果见图。所有设备上执行的计算任务都是相同的对单位视频流（秒帧图像）执行关于目标识别的推理。在离线学习阶段，搭建了一个由台机组成的实验床，并通过控制设备的使用率和显存使用率模拟了种计算负载情况，实验

19、床设备硬件配置和使用率、显存使用率设置见表。将在每种计算负载情况下连续运行次并记录平均推理时延，基于以上信息，训南京邮电大学学报（自然科学版）年练得到。在在线决策阶段，搭建了一个硬件测试平台来实现原型，相关设备由按照算力需求从实验床中选用的、三类机组成，它们分别代表低性能本地端设备、中性能边缘服务器和高性能边缘服务器，其中设备一台，服务器三台，服务器两台。设备负载配置见表。基于提供的真实世界网络带宽日志数据集合和带宽控制工具，设定了静态、动态两种带宽环境和高、中、低种带宽速率并开展测试。将与以下种相关方法在降低协同推理时延和提升边缘服务器的计算资源利用率方面进行比较。

20、（）（）：推理完全在端设备上进行；（）（）：通过实时发送一帧数据以监测当前的网络带宽和设备负载，完成最佳分割位置的确定和协同推理设备的选择；（）（）：通过分析传输时延和推理时延占比，采用寻找最小中间层数据的方法以换取最少的传输时延，进而确定最佳分割位置。图预分层示意图表实验床设备硬件配置设备，利用率范围：间隔：范围：间隔：范围：间隔：范围：间隔：范围：间隔：范围：间隔：范围：间隔：范围：间隔：使用率范围：间隔：范围：间隔：表测试平台计算负载配置设备低性能端设备中性能边缘服务器高性能边缘服务器浮点计算能力浮点计算能力无无利用率，利用率无无，性能评估推理时延预测模型工作

21、性能评估实验床设备由只搭载和同时搭载、的两种设备组成，因此训练得到两个推理时延预测模型，如式（）、（）。其中参数和参数见表。第期郭永安，等：基于边端协同的推理加速框架（）（）（）（）（）（）（）（）（）（）表模型参数表参数值参数值参数值将设备负载和各层的计算复杂度输入式（）或（）中，便能输出该设备处理该层产生的计算时延预测值。在设备、使用率为的服务器、使用率为和显存使用率为的服务器上测试了两个推理时延预测模型的训练效果，结果见图。对比结果显示确定系数维持在，这表明推理时延预测模型的预测结果达到了令人满意的程度，这为推理卸载策略的制定提供了坚实的基础。（）端设备（）边

22、缘服务器（）边缘服务器图推理时延预测模型训练结果推理卸载决策模型工作性能评估为了简化说明，将使用（）、（）和（）来代表高上行速率（）、中上行速率（）和低上行速率（）。静态带宽环境指的是在推理期间整个测试环境的网络带宽维持不变，动态带宽环境指的是在推理期间整个测试环境的网络带宽是变化的。假设和的南京邮电大学学报（自然科学版）年出现意味着当前环境处于忙碌状态，即服务器处于忙碌状态，此时只有服务器能参与协同推理；同样地，的出现意味着当前环境处于空闲状态，此时服务器和都能参与协同推理；基于以上假设，排除掉一些不合理的测试环境。测试结果分别见图、图。图和图分别

23、显示了在静态和动态带宽环境下使用、和实现边端协同推理的时延结果。其中图（）的代表在执行协同推理工作时，设备和服务器之间的带宽为，台服务器之间的带宽为，借此来模拟推理过程中的网络带宽变化。图显示了在同样带宽环境下，协同推理中边缘服务器的参与情况。图静态带宽环境下的协同推理时延对比结果图动态带宽环境下的协同推理时延对比结果如图所示，在条件下，相较其他两种协同推理方法，实现了的推理加速，并且随着网络带宽条件的转好条件下，推理加速维持在，对比，时延更是减少了。在条件下，、和都因庞大的通信开销而放弃协同推理方式，转而在端设备完成推理，其中和因为模型裁剪和模型分支

24、技术的应用，取得了较好的时延第期郭永安，等：基于边端协同的推理加速框架节省效果，但这也为它们带来了模型精度损失的风险。图参与协同推理的边缘服务器数量图中的（）、（）、（）、（）和（）表明种协同推理方法都能出于对通信和计算的权衡来决定的最佳分割位置；但结合图（）和图，相较于和，不但实现了的推理加速，同时实现了设备、服务器和三者的协同，将边缘服务器的计算资源利用率提升了。综上，表现更为优异，原因来自于三方面，其一是因为在运行时需要频繁发送一帧数据来监测当前的环境，这产生的时延消耗影响了整体推理的流畅性；其二是对计算负载的忽视；最后一点同时也是最重要的一点，和的设计思路使他

25、们忽略了高度动态的网络带宽和计算负载带来的多边缘服务器协同的可能，这能为协同推理带来更好的时延节省效果，对比图（）和图（）不难发现这一点：在较差的带宽环境下，也能取得和在下近似相等的推理加速效果。结束语在本文中，提出了一种针对视频目标识别的边端协同推理框架，可在保证模型准确率的前提下，最小化协同推理时延的同时提升边缘服务器的计算资源利用率。探索了边端协同推理工作流程，并将涉及到的推理时延和传输时延转换为与计算任务复杂度、设备负载、张量数据量和网络带宽等相关联的最优化问题。为了有效解决它，设计了一个推理时延预测模型和一个推理卸载决策模型，基于二者的协作，能在高度动态的网络带宽和计算负载环境

26、中分步决策出的多个最佳分割位置，实现多边缘服务器参与的低时延协同推理。基于硬件测试平台的实验评估表明，与基于端和两种流行的协同推理方法相比，实现了的推理加速，提升边缘服务器的计算资源利用率。展望未来，我们计划进一步优化工作流程，设计出更加轻量级的推理卸载算法，并在多场景中验证和改进本文方法。参考文献：，：，：，：（）：，：，：，：，（）：，：，（）：，（）：吴正坤，江凌云，穆晏如多边缘节点协同下的应用卸载算法研究南京邮电大学学报（自然科学版），（）：，（），（）：（）南京邮电大学学报（自然科学版）年王翊，卢兴俊，许耀华，等基于位置预测的多服务器协同卸载算法南京邮电大学学报（自然科学版），（）：，（），（）：（），：，（）：，：（），：，：，（）：，：，：（）：，：（）：，：，：（）：，：，（）：（责任编辑：李小溪）第期郭永安，等：基于边端协同的推理加速框架

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于协同 CNN 推理加速框架

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。