欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    轻量化卷积注意力特征融合网络的实时语义分割.pdf

    • 资源ID:714809       资源大小:1.86MB        全文页数:9页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    轻量化卷积注意力特征融合网络的实时语义分割.pdf

    1、第 35 卷 第 6 期 计算机辅助设计与图形学学报 Vol.35 No.6 2023 年 6 月 Journal of Computer-Aided Design&Computer Graphics Jun.2023 收稿日期:2021-11-25;修回日期:2022-02-16.基金项目:国家自然科学基金(62062029,61762024).董荣胜(1965),男,学士,教授,CCF 高级会员,主要研究方向为机器学习、知识图谱;刘意(1992),男,硕士研究生,主要研究方向为图像处理;马雨琪(1995),女,硕士研究生,主要研究方向为图像处理;李凤英(1974),女,博士,教授,论文通信

    2、作者,主要研究方向为知识图谱、机器学习、符号计算.轻量化卷积注意力特征融合网络的实时语义分割 董荣胜,刘意,马雨琪,李凤英*(桂林电子科技大学广西可信软件重点实验室 桂林 541004)()摘 要:轻量化卷积神经网络的出现促进了基于深度学习的语义分割技术在低功耗移动设备上的应用.然而,轻量化卷积神经网络一般不考虑融合特征之间的关系,常使用线性方式进行特征融合,网络分割精度有限.针对该问题,提出一种基于编码器-解码器架构的轻量化卷积注意力特征融合网络.在编码器中,基于 MobileNetv2 给出空洞MobileNet 模块,以获得足够大的感受野,提升轻量化主干网络的表征能力;在解码器中,给出卷

    3、积注意力特征融合模块,通过学习特征平面通道、高度和宽度 3 个维度间的关系,获取不同特征平面之间的相对权重,并以此对特征平面进行加权融合,提升特征融合的效果.所提网络仅有60.68 10参数量,在未使用预训练模型、后处理和额外数据的情况下,使用 NVIDIA 2080Ti 显卡在城市道路场景数据集 Cityscapes 和 CamVid 上进行实验的结果表明,该网络的平均交并比分别达到了 72.7%和 67.9%,运行速度分别为 86 帧/s 和 105 帧/s,在分割精度、网络规模与运行速度之间达到了较好的平衡.关键词:实时语义分割;轻量化卷积神经网络;注意力机制;特征融合 中图法分类号:T

    4、P391.41 DOI:10.3724/SP.J.1089.2023.19499 Lightweight Network with Convolutional Attention Feature Fusion for Real-Time Semantic Segmentation Dong Rongsheng,Liu Yi,Ma Yuqi,and Li Fengying*(Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004)Abstract:Rec

    5、ently reported lightweight networks have promoted the application of real-time semantic seg-mentation on mobile platforms.However,the linear combination operation performed in lightweight net-works do not consider the relationship between fused features,resulting in limited segmentation accuracy.To

    6、solve this dilemma,a lightweight network with convolutional attention feature fusion based on en-coder-decoder architecture is proposed in this paper.In the encoder,a dilated MobileNet block is given based on MobileNetv2 to create sufficient receptive fields and enhance representation ability of the

    7、 lightweight backbone.In the decoder,convolutional attention feature fusion module is given.Relative attention weights that contain interactions between channel,height and width are used to aggregate feature maps.Specifically,without a pretrained model,postprocessing or extra data,the lightweight ne

    8、twork with convolutional atten-tion feature fusion has only 0.68 million parameters and achieves a 72.7%mean intersection over union on the Cityscapes dataset with a speed of 86 frames per second and a 67.9%mean intersection over union on the Camvid dataset with a speed of 105 frames per second on a

    9、 single 2080Ti GPU.The comprehensive experi-ments demonstrate that our model achieves favorable trade-off between accuracy,model size and speed.936 计算机辅助设计与图形学学报 第 35 卷 Key words:real-time semantic segmentation;lightweight convolution neural network;attention mechanism;fea-ture fusion 语义分割是计算机视觉领域的基

    10、本任务之一,其目的是对给定的图像进行逐像素的分类预测,以分割出不同语义标识的区域.近年来,语义分割技术已经应用于日常生活中,如自动驾驶、无人机实时监控以及盲人视觉辅助等,这些应用要求对图像进行实时语义分割,即要求网络的运行速度达到 30 帧/s.实时语义分割网络常常部署于低功耗移动设备上,而这类设备的内存容量和计算能力均较为有限.因此,对于语义分割网络而言,如何在分割精度、网络规模和运行速度之间达到平衡,以适用于低功耗移动设备,是一个非常具有挑战性的问题.2015 年,Long 等1提出的全卷积神经网络中,将传统卷积神经网络的全连接层替换为卷积层,实现了语义分割的端到端训练,为后续语义分割网络

    11、的发展奠定了基础;但因其在下采样过程中丢失了大量空间信息,导致生成的分割结果较为粗糙.为此,以 Ronneberger 等2提出的以 U-Net为代表的编码器-解码器网络中,通过长跳跃连接将编码器中的空间信息与解码器中的语义信息融合,使分割结果保留了更多细节.为了减少在下采样时空间信息的丢失,Chen 等3-6提出的 DeepLab系列网络中利用空洞卷积层取代普通卷积层,在特征平面分辨率不变的情况下增加大网络的感受野;引入空洞金字塔池化结构以融合不同尺度的语义信息,提高网络对特征的利用效率.2017 年,Lin 等7提出的 RefineNet 中逐步将低分辨率的语义特征与高分辨率的空间特征融合

    12、,使网络充分利用各分辨率的特征信息,最终生成包含不同尺度特征的高分辨率输出特征平面.随着深度学习技术的持续发展,通过不断增加卷积神经网络的层数和参数量,网络的分割精度不断提高.然而,大规模卷积神经网络庞大的参数量和冗余的网络结构导致其运行速度减慢,无法在保留精细分割效果的同时兼顾高效的运算速度,难以应用于实际场景中的实时语义分割.为此,参数量更少、运行速度更快的轻量化卷积神经网络开始成为研究的热点.Paszke8提出的ENet 中引入空洞卷积层,并减少残差模块的通道数量,大幅减少了网络的参数量和计算量.Zhang等9和Ma等10提出的ShuffleNet系列,以及Howard等11和 Sand

    13、ler 等12提出的 MobileNet 系列中引入深度可分离卷积层,在减少计算量的同时仅有小幅度的精度下降.Romera 等13提出的 ERFNet 中,将 1 个标准的3 3卷积层分解为核为3 1和1 3的2 个可分解卷积层,在保持相同感受野的同时进一步减少计算量.同时,轻量化技术开始在语义分割任务中得到应用14-17,使轻量化实时语义分割网络在分割精度、网络规模和运行速度上取得了较好的平衡.与大规模卷积神经网络中复杂的解码器结构不同,为了加快运行速度,轻量化卷积神经网络17-18常常采用线性的特征融合方式,如逐元素相加或拼接.然而,该类方法未考虑不同特征平面之间的关系,可能将重要特征与无

    14、效特征融合生成较差的特征融合结果,导致网络的分割精度下降.为解决上述问题,本文提出一种用于实时语义分割的轻量化卷积注意力特征融合网络(lightweight convolutional attention feature fusion networks,LCANet).该网络采用经典的编码器-解码器架构,编码器的基础单元是空洞 MobileNet 模块(dilated MobileNet block,DMB),其通过引入空洞卷积层,在不增加参数量的情况下获得额外的感受野,既减少了网络的规模,又生成了足够大的感受野以覆盖大分辨率的图像,提高了轻量化主干网络的表征能力.在解码器中提出卷积注意力特征

    15、融合模块(convolutional attention feature fusion module,CAFF),通过对编码器中相邻阶段的输出特征平面进行逐级融合,逐步还原特征平面的空间细节,获得高精度的输出特征平面.在 CAFF 中,通过 3 分支的注意力机制生成包含 3 个维度间关系的相对注意力权重,并加权分配给需要融合的 2 个特征平面,该非线性的特征融合方式学习了不同特征平面间的关系,可以有效地提高特征融合的效果.1 LCANet 1.1 整体结构 图 1 所示为本文提出的 LCANet 整体结构图,其采用经典的编码器-解码器架构,网络结构简单,能进行端到端的训练;其中,特征平面尺寸的

    16、 3 个维度分别是通道、高度和宽度,C表示数据集中标签类型的数量.详细的网络结构参数如表 1 所示.第 6 期 董荣胜,等:轻量化卷积注意力特征融合网络的实时语义分割 937 图 1 LCANet 整体结构 表 1 LCANet 结构参数 层数 结构 特征平面尺寸 输入 43 512 102 1 下采样单元 32 256 512 24 DMB13d 32 256 512 5 下采样单元 64 128 256 67 DMB12d 64 128 256 8 下采样单元 128 64 128 916 DMB1DMB22DMB5DMB9dddd 128 64 128 1724 DMB2DMB52DMB

    17、9DMB17dddd 128 64 128 25 CAFF 128 64 128 26 上采样单元 64 128 256 27 CAFF 64 128 256 28 上采样单元 32 256 512 29 CAFF 32 256 512 30 上采样单元 512 1024C 编码器由包含4个阶段的主干网络构成,其基础单元是 DMB.本文引用文献8的初始单元作为下采样单元,其由步长为 2、核为3 3的卷积层与步长为 2、核为2 2的池化层拼接而成,可以有效减少下采样时的信息丢失.在主干网络中,除了第4 阶段外,每个阶段的第 1 个单元均为下采样单元,总共包含 3 个下采样单元,下采样率仅为 8,

    18、使网络能够保留更多的空间信息.在解码器中,引入 3 个 CAFF 对主干网络中相邻阶段的输出特征平面进行特征融合,以逐步恢复特征平面的分辨率,减少空间信息的丢失.上采样单元由1 1卷积层、批量正则化(batch normaliza-tion,BN)19、修正线性单元(rectified linear unit,ReLU)和 2 倍双线性插值组成,最后 1 个上采样单元用作像素级分类器.1.2 DMB 如图 2a 所示,以 He 等20提出的以 ResNet 为代表的大规模主干网络,通过不断加深层数并降低特征平面的分辨率,生成足够大的感受野以获取图像中丰富的上下文语义信息.如图 2b 所示,在

    19、MobileNetv212中,3 3普通卷积层被替换为3 3深度可分离卷积层,大幅减少了网络规模和计算量.然而,由于轻量化卷积神经网络减少了网络深度和通道数量,使经典的残差模块无法生成足够大的感受野.为此,在 MobileNetv2 的基础上,本文提出 DMB,如图 2c 所示,以获得足够大的感受野,提高轻量化主干网络的表征能力.DMB由以下组件组成:(1)1 个1 1卷积层,用于聚合上一层的特征响应;(2)1 个3 3深度可分 图 2 残差模块结构对比 938 计算机辅助设计与图形学学报 第 35 卷 离卷积层,用于提取图像特征并减少参数量;(3)与 MobileNetv2 相比,1 个额外

    20、的3 3空洞深度可分离卷积层,用于获取额外的感受野;(4)1 个1 1卷积层,用于恢复分离通道之间的通信;(5)恒等映射,将模块的输入与输出进行融合,促进梯度流的反向传播.DMB 未使用与 MobileNetv2 相同的倒残差结构,主干网络的下采样率控制在 8,最大通道数量则为 128,大大减少了网络的参数量;但因此主干网络的感受野下降,表征能力减弱,为了弥补这些损失,DMB 引入 1 个额外的空洞深度可分离卷积层.此外,受文献16的启发,第3阶段和第4阶段的 DMB 采用逐渐增加的空洞率d,使主干网络获得足够大的感受野,既保证了主干网络的表征能力,也可以去除网格伪影.1.3 CAFF 近年来

    21、,注意力机制成为计算机视觉中最热门的研究方向之一,最具代表性的是 Hu 等21提出的挤压与激励网络(squeeze-and-excitation net-works,SENet),其通过通道注意力机制获取通道间的关系,但忽略了空间注意力信息在特征表示中的重要作用.之后,研究人员通过融合不同尺度的注意力信息对 SENet进行改进.Woo等22提出卷积块注意力模块(convolutional block attention module,CBAM),将通道注意力信息与空间注意力信息融合,生成更具鲁棒性的特征注意力表示;Dai 等23提出注意力特征融合(attentional feature fus

    22、ion,AFF),对全局和局部的通道注意力信息进行融合,以适应图像中不同尺度的特征信息.然而,这些方法仍未考虑通道注意力信息与空间注 意力信息之间的关系.为此,Hou 等24提出条纹池化网络,通过条纹池化层获取通道与宽度、通道与高度 2 种维度之间的关系;Hou 等25提出的协调注意力则将空间位置信息嵌入到通道注意力信息中;Misra 等26提出卷积三重注意力模块,通过 3 分支的注意力机制学习 3 个维度之间的关系.注意力机制在特征融合方面也展现出强大的潜力.Liu 等27提出的特征金字塔编码网络将深层的通道注意力信息与浅层的空间注意力信息融合,将语义特征和空间细节融合.Dai 等23提出

    23、AFF,用于在短跳跃连接和长跳跃连接中进行特征融合,该模块通过注意力机制学习不同尺度特征平面之间的相对注意力权重,并通过非线性加权的方式将特征平面融合,可以显著提高网络的分割精度.受文献26的启发,本文提出了 CAFF,如图 3所示,在保证计算量较小的同时,提高轻量化卷积神经网络中特征融合的质量.CAFF 通过 1 个 3 分支结构获取通道、高度和宽度 3 个维度两两之间的关系,生成 3 个二维注意力子图,并融合成 1 个完整的三维注意图,以适应不同维度的特征信息的变化;最后通过加权平均将不同尺度的特征平面进行融合;此外,还利用 2 个1 1卷积层组成瓶颈结构,以减少特征平面的通道数量,进一步

    24、降低CAFF 的计算量.CAFF 中,给定 2 个特征平面,C H WX Y,默认情况下,假设X是编码器浅层阶段的输出特征平面,Y则是深层阶段的输出特征平面,通过逐元素相加,X和Y首先被融合成输入张量C H WI,I经过1个1 1卷积层1P得到/C r H WT,公式为 图 3 CAFF 结构 第 6 期 董荣胜,等:轻量化卷积注意力特征融合网络的实时语义分割 939 1PTI (1)其中,表示 BN;r表示将张量映射到低通道维度空间的缩减比例.将T分别输入到 3 分支结构的每一个分支中,以获取通道、高度和宽度 3 个维度两两之间的关系.第1个分支对高度和宽度2个维度之间的关系进行学习.通过通

    25、道平均池化,将T在通道维度上进行编码,得到张量,1h wH WT,公式为 ,1i Ch wi j kC0TT (2),h wT通过1个7 7标准卷积层1S,得到1个包含高度和宽度 2 个维度之间关系的二维张量,1h wH WO,公式为 ,1h wh wSOO (3)这个二维张量被扩展为1 个三维张量/1C r H WO.第2个分支对高度和通道2个维度之间的关系进行学习.为了对T在宽度维度上进行编码,首先将其形状重新排列为/WHC r,再通过通道平均池化,得到,1/h cH C rT;然后通过 1 个7 7标准卷积层得到,1/h cH C rO,为了将其中的 关 系 匹 配 到 原 有 位 置,

    26、h cO被 重 新 排 列 为,/1c hC r HO,并被扩展为/2C r H WO.第3个分支对通道和宽度2个维度之间的关系进行学习.与第2个分支类似,首先将T的形状重新排列为/HC r W,并通过通道平均池化在高度维度上进行编码,得到,1/c wC r WT;然后通过 1 个7 7标准卷积层得到,1/c wC r WO,将其形状重新排列为/1C rW,扩展后得到/3C r H WO.通过逐元素相加和算术平均,将具有相同形状的 3 个分支的输出张量融合成 1 个三维张量/rCH WO,其中包含了T在通道、高度和宽度3 个维度两两之间完整的关系,即 12313OOOO (4)其中,表示逐元素

    27、相加.为了整合 3 个输出张量的全局上下文信息并恢复O的通道数至与X和Y相同,引入 1 个1 1卷积层2P;再通过 1 个 Sigmoid激活函数,得到三维注意力图C H W,即 2P O (5)将注意力图被加权分配给X和Y,得到输出张量C H WZ,公式为 1ZXY (6)其中,表示逐元素相乘;和1中的权重值在 01,分配给X和Y后,每个位置的和均是 1,可以看作X和Y之间的加权平均.2 实验与结果分析 2.1 实验数据集 本文实验中使用 2 个语义分割领域的主流数据集 Cityscapes28和 CamVid29.Cityscapes 数据集中包括5 000张带像素级精细标注的城市街景图片

    28、,分辨率为 1 0242 048 像素,包含 19 个类别,其中,训练集 2 975 张图片,验证集 500 张图片,测试集1 525 张图片.CamVid 数据集也是城市街景数据集,包含 701 张分辨率为 720960 像素的图片和 11 个类别,其中,训练集 367 张图片,验证集 101 张图片,测试集 233 张图片.2.2 训练设置 2.2.1 实验参数 本文实验在基于深度学习框架 PyTorch 中实现,单个 RTX 2080Ti GPU 上运行.使用动量为0.9、权重衰减为510的 Adam 优化器30对网络进行端到端训练,初始学习率为310.为了充分利用GPU 显存容量,在训

    29、练 Cityscapes 数据集时,批大小设为 6;在训练 CamVid 数据集时,批大小设为 16.训练中未使用预训练模型,在 Cityscapes 数据集和CamVid 数据集上分别进行了 300k 和 20k 次迭代.2.2.2 数据增强 为了扩充数据集、缓解样本不平衡问题,本文对训练集进行数据增强,采用随机水平翻转、归一化、随机缩放和随机裁剪方式,随机缩放的比例包括 0.75,1.00,1.25,1.50,1.75,2.00.在 Cityscapes数据集的训练中,将输入图片的分辨率随机裁剪为 5121 024 像素;在 CamVid 数据集的训练中,将输入图片的分辨率随机裁剪为 36

    30、0480 像素.2.2.3 训练优化策略 (1)学习率衰减策略.选择合适的学习率对网络进行训练极为重要,使用学习率衰减策略可以在训练初期加快收敛速度,在训练末期减少在最优点附近的震荡,提升训练效果.本文使用 Poly学习率策略4对学习率进行衰减,当前的学习率为 ccimax1pilli (7)其中,il表示初始学习率;ci表示当前迭代次数;maxi表示最大迭代次数;p表示幂指数,设置为0.9.940 计算机辅助设计与图形学学报 第 35 卷 (2)在线困难样本挖掘(online hard example mining,OHEM)策略31.由于Cityscapes数据集中存在数据不平衡问题和大量

    31、难以训练的样本,因此使用OHEM策略与交叉熵损失函数结合的方式进行训练.在训练时,OHEM自动选择有多样性和 高损失值的困难样本作为训练样本,以进一步提升训练效果,缓解样本不平衡问题.2.3 结果评估 2.3.1 有效性验证 通过一系列实验以验证DMB和CAFF的有效性.实验在Cityscapes训练集上进行训练,在Cityscapes验证集上进行测试,测试的图片分辨率为初始的1 0242 048像素.有效性验证见如表2所示.表 2 有效性验证 MobileNetv2 DMB AddSE-AFF CBAM-AFFAFFCAFFmIoU/%运行速度/(帧s1)106参数量 63.9 54 3.5

    32、2 69.0 97 0.66 70.2 95 0.68 70.7 66 0.69 71.9 86 0.69 73.1 86 0.68 注.表示使用对应模块进行有效性验证.(1)DMB的有效性验证.在相同的编码器-解码器架构中,使用逐元素相加作为特征融合方法,对MobileNetv2模块12和DMB进行对比.从表2的第1,2行数据项可以看出,DMB的平均交并比(mean intersection over union,mIoU)比MobileNetv2模块提高5.1%,表明MobileNetv2模块在轻量化主干网络中可能会出现因感受野不足而导致的精度损失,而DMB中额外的空洞深度可分离卷积层有效

    33、地增大了感受野,显著地提高了网络的分割精度;虽然DMB中额外的深度可分离卷积层使其内存访问成本(memory access cost,MAC)提高10,可能降低网络的运行速度,但DMB的运行速度从MobileNetv2模块的54帧/s提高到97帧/s,原因是MobileNetv2模块采用扩张率为6的倒残差结构,参数量比DMB增加81%,此时,大量冗余的参数成为MobileNetv2模块运行速度显著降低的主要原因,而DMB采用更轻量化的结构,获得了更快的运行速度.实验结果表明,DMB在轻量化主干网络中具有更好的分割精度、更小的网络规模和更快的运行速度.(2)CAFF的有效性验证.本文对5种不同的

    34、特征融合方法进行实验,分别是逐元素相加、采用AFF23特征融合方法的SE模块21(简称为SE-AFF)、采用AFF特征融合方法的CBAM模块22(简称为CBAM-AFF)、AFF模块和本文提出的CAFF模块.所有模块的通道缩减比均设为4,以保持相似的参数量.从表2第26行数据项可以看出,基于注意力的非线性特征融合方法在mIoU的评价指标上均优于线性的逐元素相加,证明了注意力机制在特征融合中的有效性;由于CBAM-AFF和AFF融合了不同尺度的注意力信息,在mIoU的评价指标上优于只考虑了通道注意力信息的SE-AFF;CAFF在mIoU的评价指标上比SE-AFF,CBAM-AF和AFF分别提高了

    35、2.9%,2.4%和1.2%,证明CAFF有效地提高了特征融合的质量;与逐元素相加的方法相比,CAFF仅牺牲了11帧/s的运行速度,而mIoU则提高了4.1%.上述实验结果表明,在计算量较小的情况下,CAFF可以有效地提高特征融合的质量,进而提高网络的分割精度.表2的可视化示例如图4所示.图4中,通过与原图片和真实标签的对比可以看出,在CAFF的分割示例中,大部分物体被正确分割且边缘轮廓完整准确;与其他特征融合方法相比,CAFF在各类别物体的分割细节上更为准确,例如,在第1行对空间占比大的人行道的分割结果中,CAFF对局部区域分割最准确,在第24行中,出现了在数据集中样本占比较少的货车、摩托车

    36、和在空间占比较小的行人,CAFF均准确地识别了对应区域并分割出了最清晰的边界.2.3.2 对比实验 将LCANet与其他先进的语义分割网络在Cityscapes和CamVid测试集上进行实验,不仅对比了先进的大规模语义分割网络1,3-4,32-35,也对比了目前比较先进的轻量化实时语义分割网络8,14-18,29,36-39.(1)在Cityscapes测试集上的实验.首先在Cityscapes训练集和验证集上对LCANet进行训 第 6 期 董荣胜,等:轻量化卷积注意力特征融合网络的实时语义分割 941 a.原图 b.真实标签 c.逐元素相加 d.SE-AFF21 e.CBAM-AFF22

    37、f.AFF g.CAFF 图 4 有效性验证 练;然后在测试集上得到预测结果,并将其上传至Cityscapes在线服务器,最终的实验结果如表3所示.可以看出,在不使用额外数据进行训练的情况下,LCANet的mIoU达到72.7%,运行速度达86帧/s,在mIoU评价指标方面明显优于所有对比的轻量化语义分割网络,甚至优于几种大规模语义分割网络,如PSPNet34和SFNet35的mIoU分别达到78.4%和78.9%,但LCANet仅分别用其1%和5%的参数量,就获得了较好的分割精度;在网络效率方面,LCANet的运行速度分别比FPENet27 表 3 在 Cityscapes 测试集上的实验结

    38、果 网络 类型 网络名称 mIoU/%运行速度/(帧s1)106参数量SegNet32 57.0 17 29.50 Deeplab3 63.1 1 FCN-8S1 65.3 2 134.50 Dilation1033 67.1 1 Deeplabv24 70.4 1 44.00 PSPNet34 78.4 1 65.70 大规模 SFNet35 78.9 26 13.50 ENet8 58.3 77 0.36 CGNet18 64.8 50 0.50 EDANet36 67.3 81 0.68 ERFNet13 68.0 42 2.10 CAM37 68.1 42 BiSeNet38 68.4

    39、 106 5.80 FPENet29 70.1 55 0.40 DABNet15 70.1 104 0.76 ICNet39 70.6 30 26.50 LEDNet14 70.6 71 0.92 FDDWNet16 71.5 60 0.81 LRNNet17 72.2 71 0.68 轻量化 LCANet 72.7 86 0.68 和LEDNet14快160%和120%,虽然BiSeNet38和DABNet15都比LCANet快120%,但其mIoU较LCANet分别下降了4.3%和2.6%;在网络规模方面,LCANet仅有60.68 10参数量,在所有对比的语义分割网络中处于较低水平,LC

    40、ANet冗余参数少,网络结构精简且高效.图5所示为Cityscapes测试集上轻量化网络在分割精度和运行速度方面进行对比的散点图.可以看出,LCANet位于图像的右上角,其分割精度超越了所有其他轻量化语义分割网络,运行速度也保持了较高水平.因此,在参数量较少的情况下,LCANet能够较好地兼顾精度和速度,在分割精度、网络规模和运行速度上达到了较好的平衡.图 5 轻量化网络精度与速度对比 (2)在CamVid测试集上的实验.在CamVid训练集和验证集上对LCANet进行训练,并在测试集上得到验证结果,实验结果如表4所示.可以看出,在没有额外数据的情况下,LCANet的mIoU达到67.9%,运

    41、行速度达到105帧/s,说明在mIoU评价指标方面明显优于所有对比的轻量化实时语义 942 计算机辅助设计与图形学学报 第 35 卷 表 4 在 Camvid 测试集上的实验结果 网络类型 网络名称 MIoU/%运行速度/(帧s1)SegNet32 46.4 5 FCN-8S1 57.0 Deeplab3 61.6 5 大规模 PSPNet33 69.1 5 ENet8 51.3 61 FPENet29 65.4 BiSeNet38 65.6 CGNet18 65.6 EDANet36 66.4 FDDWNet16 66.9 79 ICNet39 67.1 28 轻量化 LCANet 67.9

    42、 105 分割网络;虽然PSPNet34具有更高的精度,但LCANet规模更小,运行速度更快;与ICNet39和FDDWNet16相比,LCANet在mIoU上略有提升,而运行速度则分别提高了380%和130%.3 结 语 本文提出一种用于实时语义分割的LCANet,在编码器中利用空洞MobileNet模块获取足够大的感受野,提高了轻量化主干网络的表征能力;在编码器中使用CAFF提升特征融合的质量.针对不同模块进行了有效性验证,并与其他先进水平的网络进行对比.在Cityscapes和CamVid数据集上的实验结果表明,LCANet非常有竞争力,效果优于大多数先进的轻量化语义分割网络,甚至超越了

    43、部分大规模语义分割网络.充分证明了LCANet在分割精度、网络规模和运行速度方面达到了较好的平衡.在Cityscapes测试集进行实验时发现,LCANet的运行速度略低于BiseNet和DABNet,造成该现象的原因是在编码器中大量使用了深度可分离卷积层,使MAC增加,影响了网络的运行速度.在后续的工作中将对编码器结构继续优化,进一步提高网络的运行速度.参考文献(References):1 Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentationC/Proceedings of the

    44、 IEEE Con-ference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2015:3431-3440 2 Ronneberger O,Fischer P,Brox T.U-net:convolutional net-works for biomedical image segmentationC/Proceedings of International Conference on Medical Image Computing and Computer-Assis

    45、ted Intervention.Heidelberg:Springer,2015:234-241 3 Chen L C,Papandreou G,Kokkinos I,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFsJ.Computer Science,2014(4):357-361 4 Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:semantic image segmentation with deep convol

    46、utional nets,atrous con-volution,and fully connected CRFsJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848 5 Chen L C,Papandreou G,Schroff F,et al.Rethinking atrous convolution for semantic image segmentationOL.2021-11-25.http:/arxiv.org/pdf/1706.05587.pdf 6 Chen L

    47、C,Zhu Y K,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmenta-tionC/Proceedings of the European Conference on Computer Vision.Heidelberg:Springer,2018:833-851 7 Lin G S,Milan A,Shen C H,et al.RefineNet:multi-path re-finement networks for high-resolution s

    48、emantic segmenta-tionC/Proceedings of the IEEE Conference on Computer Vi-sion and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2017:5168-5177 8 Paszke A,Chaurasia A,Kim S,et al.ENet:a deep neural net-work architecture for real-time semantic segmentationOL.2021-11-25.http:/arxiv.org/p

    49、df/1606.02147.pdf 9 Zhang X Y,Zhou X Y,Lin M X,et al.ShuffleNet:an extremely efficient convolutional neural network for mobile devicesC/Proceedings of the IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2018:6848-6856 10 Ma N N,Zhang X Y,Zheng

    50、 H T,et al.ShuffleNet V2:practical guidelines for efficient CNN architecture designC/Proceedings of the European Conference on Computer Vision.Heidelberg:Springer,2018:122-138 11 Howard A G,Zhu M L,Chen B,et al.MobileNets:efficient convolutional neural networks for mobile vision applica-tionsOL.2021


    注意事项

    本文(轻量化卷积注意力特征融合网络的实时语义分割.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png