基于边端协同的CNN推理加速框架.pdf
《基于边端协同的CNN推理加速框架.pdf》由会员分享,可在线阅读,更多相关《基于边端协同的CNN推理加速框架.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 卷第 期 年 月南 京 邮 电 大 学 学 报(自 然 科 学 版)():基于边端协同的 推理加速框架郭永安,周金粮,王宇翱,南京邮电大学 通信与信息工程学院,江苏 南京 教育部泛在网络健康服务系统工程研究中心,江苏 南京 南京邮电大学 边缘智能研究院,江苏 南京 摘要:基于卷积神经网络()的移动应用程序通常处理的是计算密集型任务,然而传统的云推理和端推理方式在低时延和高准确率方面仍面临着挑战。针对以上问题,提出了一种基于边端协同的 推理框架,它能让一个端设备和多个边缘服务器协同工作以提供 推理服务。该方法综合考虑高度动态的网络带宽和设备负载情况,分步决策出模型多个最佳分割位置以优化计算和
2、通信权衡。基于硬件测试平台的实验评估表明,相较于 种流行的 推理方法,该方法实现了 的推理加速,提升边缘服务器的计算资源利用率。关键词:协同 推理;分步决策;低时延;计算资源利用率中图分类号:文献标志码:文章编号:(),:(),:;收稿日期:;修回日期:本刊网址:基金项目:江苏省前沿引领技术基础研究专项()和江苏省重点研发计划(社会发展)()资助项目作者简介:郭永安,男,博士,教授,引用本文:郭永安,周金粮,王宇翱基于边端协同的 推理加速框架南京邮电大学学报(自然科学版),():近年来,凭借在特征提取和特征映射方面的出色表现,卷积神经网络()在智能交通、无人驾驶、智能工厂等场景中得到了广泛应用
3、,特别是在视频目标识别、图像检测等计算任务上发挥了重要作用。随着当前 推理任务复杂度的爆炸式增长,传统的云推理和端推理方式已无法满足低时延和高精度需求。其中依赖中心云的 推理方式,面临着广域网传输链路不稳定而导致通信开销过大的问题,同时也存在着敏感信息因广泛传输而被窃取的风险。端设备受限于十分有限的计算资源,往往无法满足 推理所需的内存消耗。为了满足低时延、高精度的 推理需求,新兴的边端协同推理计算范式成为研究重点。边端协同可视为将类似云服务器的计算功能卸载到靠近数据源的边缘服务器上。当发生推理任务请求时,首先将 推理分为由端设备处理的前半部分和由边缘集群处理的后半部分,再在边缘集群内对具有不
4、同负载的边缘服务器做细致的推理任务划分。如图 所示。然而,边端协同推理同样面临着两个需要解决的关键挑战:()如何根据设备负载进行推理任务分配,()在动态网络带宽条件下,如何决策出模型的最佳分割位置以平衡计算和通信开销。为了应对以上挑战,目前的研究工作主要集中在 个方面:模型架构优化、模型分割优化和硬件加速。其中模型架构优化通过采用模型裁剪技术和多分支 训练技术以减少计算开销,但这面临着模型准确度降低的风险;在模型分割方面,和 尝试通过将 只分割成两部分以减少通信开销,这种方式忽略了多边缘服务器参与的可能;硬件加速方面的研究工作主要围绕硬件加速平台 展开。上述工作倾向于仅在 中寻找一个最佳分割点
5、来优化协同推理时延,忽视了高度动态的网络带宽和设备负载情况下多边缘服务器参与带来的推理加速。图 边端协同推理示意图为了解决以上问题,设计了一个用于视频目标识别的()框架。它可以在一个终端设备和多个边缘服务器上加速协作 推理。首先,完整保留了 的结构和参数,以确保高精度。其次,在动态网络带宽和设备负载情况下,将优化问题定义为最小化协同推理延迟,并通过逐步确定 的多个最优分割点来解决该问题。分割点位置的确定被选择以匹配计算任务复杂度、设备负载、张量数据和网络带宽。随着 优化协作推理延迟,边缘服务器的计算资源利用率也得到了提高。最后,搭建了一个硬件测试平台来实现 原型。实验结果表明,与 种流行的 推
6、理方法相比,实现了的推理加速,并将边缘服务器的计算资源利用率提高了。总而言之,本文所作贡献总结如下:()设计了,这是一种针对视频流目标识别的轻量级边端协同推理框架,可以避免 精度的损失,在最小化协同推理时延的同时提升边缘服务器的计算资源利用率。()包 含 轻 量 化 的 推 理 时 延 预 测(,)模型和推理卸载决策(,)模型两个重要组成部分。其中,能根据设备的负载为其分配合理的 推理任务量;基于 和静态、动态带宽条件,可以分步决策出模型多个最佳分割位置来优化计算和通信权衡。()搭建了硬件测试平台,并在智慧交通场景下结合 种流行的 推理方法来评估 的工作性能。相关工作对于基于边端协同的低时延
7、推理,研究工作主要集中在 个方面:模型架构优化、模型分割优化和硬件加速。模型架构优化尝试通过开发新的 结构,达到牺牲模型部分精度换取高效推理速度的目的。这包括通过稀疏数据表示、放弃不必要的中间层计算等模型裁剪技术。比如 等在一个预训练模型的基础上,用零替换低于某个阈值的参数,形成一个稀疏矩阵。另一种实现模型架构优化的方法是将原始 训练为多分支,从概率选择的角度确定符合精度和时延要求的模型出口。类似的工作包括 等提供了一个基础的多分支 训练框架,它为每种类型的 手动设置了 个出口。与以上研究工作相比,完全不需承担模型准确率降低的风险,因为模型参数和结构从未被改变过。模型分割优化,即沿 的顺序执行
8、方向,按层间 结 构 对 其 进 行 分 割。等设 计 的 通过实时发送一帧数据,以监测当前的网络带宽情况和设备的计算资源负载情况,这个过程产生的时延消耗,很容易造成 第 期郭永安,等:基于边端协同的 推理加速框架推理卸载策略的过时,得益于根据设备负载即时测算的推理时延,生成的策略在适应计算环境方面表现良好;等提出的 通过分析传输时延和推理时延占比,采用寻找最小中间层数据的方法以换取最少的传输时延,进而确定最佳 分割位置,这种方式忽视了高性能边缘服务器带来的分层推理加速,过度依赖网络带宽环境,而 在探索开发边缘服务器的计算资源利用率方面更加积极。硬件加速包含两方面。其一是旨在硬件级中设计有利于
9、 计算的模块,比如 :谷歌推出的一种小型专用集成电路芯片,用于在边缘设备上运行 。另一方面旨在优化设备的计算资源利用率,包括为 推理分配特定的内存空间、为卷积运算和激活运算划分不同的计算空间。与现有研究工作相比,本文整合了模型分割和硬件加速两种方法来扩展用于视频目标识别的协同 推理框架的设计思路。不仅适用于静态带宽环境,更能在动态的网络带宽和设备负载情况中,最小化协同推理时延的同时开发边缘服务器的计算资源利用率,这是之前的工作没有涉及到的。设计和工作流程 设计图 显示了 由两个重要阶段组成:离线学习和在线决策。在离线学习阶段,首先将训练完备的 经预分层操作分割为单独的层,然后将每一层 卸载到设
10、备上做存储并进行离线推理,收集设备负载和对应处理每一层 产生的推理时延,基于以上收集到的信息,训练得到推理时延预测模型。可以根据持续监测到的设备负载,预测该设备处理任意层 消耗的推理时延。在线决策阶段,推理卸载决策模型 可以基于 预测得到的推理时延和静态、动态带宽条件下传输 张量数据造成的传输时延共同制定推理卸载策略,策略包括 最佳分割位置的确定和参与协同推理的设备选定。为了推理过程的流畅和避免不必要的传输时延消耗,在开展基于边端协同的 推理工作之前,和 同样也需要被卸载到各个设备上。图 框架 推理卸载策略制定流程端设备发起 推理任务请求标志着协同推理工作的开始。此时,终端设备在执行 推理任务
11、的前半部分时,同步测量时延。随后,终端设备利用 来预测自身完成所有推理任务的总时延,以及预测边缘集群中的每个边缘服务器执行 推理任务的后半部分所产生的时延。最终,终端设备使用 来预测传输 的中间层张量数据所产生的传输时延。基于定义的“低时延要求”:,终端设备制定第一个推理卸载策略。如果不满足低时延要求,则终端设备计算所有的推理任务。一旦建立了初始策略,边缘服务器就尝试在执行 推理任务的后半部分期间,利用其自身加载的 和 制定第二策略,同时遵守低时延要求。参与协同推理的所有设备都遵循这些步骤来开发新策略,直到 推理结束,最后一个设备将推理结果发送到终端设备。自适应推理任务卸载自适应推理任务卸载是
12、为了提高协同推理方面的时延和计算资源利用率指标。在下文中,首先将南京邮电大学学报(自然科学版)年优化问题定义为在一定的网络带宽和设备负载情况下,最小化协同推理时延,再利用 和 将其换算为与计算任务复杂度、设备负载、张量数据量和网络带宽相关联的最优化问题并求解。定义了必要的概念和符号,见表。对于特殊字符,将在文中使用时给出说明。表 符号说明表符号含义,多层 被分为 层,指第 层 层结构,被 计 算 后 产 生 张 量 数据,参与协同推理的 层 被分为 部分,被计算后产生张量数据,个设备参与协同推理。设备 负责计算,设备 和 间的网络带宽为 设备 传输 产生的传输时延设备 计算 产生的推理时延协同
13、推理时延 问题定义一个多层 经过预分层操作被分割为 层后,最终在 和 的决策下由 个设备参与协同推理,产生的最小化协同推理时延问题如下 ()()()最小化协同推理时延的关键是对 最佳分割位置的确定和参与协同推理的设备选择,简而言之是根据动态变化的网络带宽和设备负载对式()中 的确定,将在 节中有效解决这个问题。问题转化 推理时延预测模型研究者大都使用回归的思想来预测计算负载已知的设备在处理具有一定复杂度的 推理任务时可能消耗的推理时延。在换算设备负载方面,相较于 等只关注设备的实时 使用率,本文发现基于 的 推理加速平台 在时延节省方面表现更加强劲,因此,选用 和 的实时浮点计算能力()来表征
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 协同 CNN 推理 加速 框架
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。