基于高效深度瓶颈结构的实时语义分割方法.pdf
《基于高效深度瓶颈结构的实时语义分割方法.pdf》由会员分享,可在线阅读,更多相关《基于高效深度瓶颈结构的实时语义分割方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、针对现阶段语义分割方法参数量多、计算成本高,难以满足实际场景需求的问题,提出了一种基于高效深度瓶颈结构的轻量级实时语义分割方法(GDBNet)。首先,利用分解卷积和扩张卷积的有效结合构建出高效深度瓶颈结构,并以一种轻量并高效的方式提取局部上下文信息;然后,将该结构堆叠来获取多尺度的语义信息;最后,通过注意力融合连接模块聚合多尺度的上下文信息并指导特征选择,以此提高分割效果。在不经过任何预训练和后处理的情况下,GDBNet 在Cityscapes 和 Camvid 数据集上以 140.0 FPS 和 143.7 FPS 的推理速度分别达到了 72.91%和 68.84%平均交并比的准确度并且参数
2、量仅为 0.66 M。该方法在 Cityscapes 数据集上,相比于同类型深度非对称瓶颈网络(DABNet),准确度提高了2郾 81 百分点,推理速度上升了 35.8 FPS,并且参数量降低了 0.1 M;在 Camvid 数据集上,与 SPMNet 方法相比,准确度提高了1.54 百分点,同时参数量和推理速度也更优。实验结果表明:所提方法在满足实时性要求的前提下,能较为准确地识别场景信息。关键词:瓶颈结构;实时语义分割;分解卷积;扩张卷积;上下文信息中图分类号:TP391.4摇 摇 摇 摇 摇摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0030-
3、07doi:10.3969/j.issn.1673-629X.2023.09.005Real-time Semantic Segmentation Method Based onEfficient Deep Bottleneck StructureCHEN Xue-hao1,2,3,LI Shun-xin1,2,3(1.School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,China;2.Hubei Province Key Laboratory of
4、Intelligent Information Processing and Real-time Industrial,Wuhan 430065,China;3.Institute of Big Data Science and Engineering,Wuhan University of Science and Technology,Wuhan 430065,China)Abstract:Aiming at the problem that the current semantic segmentation method has many parameters and high calcu
5、lation cost,which isdifficult to meet the needs of actual scenarios,a lightweight real-time semantic segmentation method(GDBNet)based on efficient deepbottleneck structure is proposed.Firstly,an efficient depth bottleneck structure is constructed by combining decomposition convolutionand extended co
6、nvolution,and the local context information is extracted in a lightweight and efficient way.Then,The structure is stackedto obtain multi-scale semantic information.Finally,the segmentation effect is improved by aggregating multi-scale contextualinformation and guiding feature selection through the a
7、ttention fusion connection module.Without any pre-training and post-processing,GDBNet achieves 72.91%and 68.84%mean Intersection Over Union accuracy and the number of parameters is only 0.66 M onCityscapes and Camvid datasets with 140.0 FPS and 143.7 FPS inference speed respectively.Compared with th
8、e same type of deepasymmetric bottleneck network(DABNet),the accuracy of the proposed method in Cityscapes dataset is improved by 2.81 percentagepoints,the reasoning speed is increased by 35.8 FPS,and the number of parameters is reduced by 0.1 M.In the Camvid dataset,theaccuracy improved by 1.54 per
9、centage points compared with the SPMNet method.At the same time,the number of parameters andreasoning speed are better.The experimental results show that the proposed method can accurately identify scene information on thepremise of meeting the real-time requirement.Key words:bottleneck structure;re
10、al-time semantic segmentation;factorized convolution;dilated convolution;contextual information第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 20230摇 引摇 言语义分割是计算机视觉中较为基础的技术之一,目的是对图像中的每个像素根据特定的预定义类别来分配相应的标签,可以看作是像素级别的分类任
11、务,但不同于图像分类和目标检测,语义分割最终输出的是带有标注的预测图像,具有识别和定位的功能。近年来,随着计算机视觉的快速发展,图像语义分割的准确度不断提高,然而盲人导向1、自动驾驶2、人物识别3、机器人视觉4以及其它一些现实领域的应用中,对语义分割的实时性提出了更高的要求,这些应用往往具有有限的计算成本和内存容量,并且还需要较高的准确度和实时性。因此,如何设计一个可以在准确度、推理速度和参数量之间达到相对平衡的实时语义分割方法,已成为当前研究的热点问题。针对这个问题,目前已提出许多基于全卷积网络(Fully Convolution Networks,FCN)5的实时语义分割方法。这些方法大致
12、分为三类:(1)优化卷积:ENet6使用浅层 ResNet7作为模型主干,并通过扩张卷积在不增加参数量的前提下增加感受野;MobileNet8采用深度卷积来代替传统卷积提高推理速度;ERFNet9、ShuffleNet10和 DABNet11分别通过使用一维非瓶颈结构减少参数量、深度方向的扩张瓶颈结构和有效利用分离扩张卷积的不对称瓶颈结构来降低计算成本,加快推理速度;(2)结合上下文信息:CBAM12将通道注意力和空间 注 意 力 相 结 合,以 获 得 更 准 确 的 信 息;Zhao等13、Chen 等14分别提出金字塔池化模块(PyramidPooling Module,PPM)、空间金
13、字塔池化模块(SpatialPyramid Pooling,SPP)来提取多尺度上下文信息;(3)构造轻量级架构:LEDNet15使用非对称编码结构,通过简化解码结构,减少计算量,提升分割效率;DFANet16构建轻量级架构,通过特征重用加强特征表达能力,提高推理速度;MJPU17使用多级特征图联合上采样的方式,有效降低网络计算的复杂度,以满足实时性需求。上述方法在实时语义分割领域中已取得一定的进展,但在准确度、推理速度和参数量的平衡研究中仍具有很大的提升空间。在此基础上,该文提出了一种基于高效深度瓶颈结构的实时语义分割方法(EfficientDeep Bottleneck Structure
14、 Net,GDBNet)。通过优化卷积,在传统的瓶颈结构上增加深度方向的分解扩张卷积,设 计 出 高 效 深 度 瓶 颈 结 构(Efficient DeepBottleneck Structure,EDB)。这种结构可以用较低的计算成本获得更深层的特征信息和上下文信息。为更好地结合上下文信息,提出注意力融合连接模块(Attention Fusion Connection Module,AFCM),在几乎不影响分割效率的前提下,有效融合深层特征信息和浅层特征信息,弥补深层特征信息关于空间细节特征的不足,优化分割结果。主要工作如下:(1)以构建实时语义分割方法为目的,深入研究了瓶颈结构、分解卷积
15、、扩张卷积的应用潜力,提出一种高效深度瓶颈模块。它可以用较少的参数量和较低的计算成本获得多尺度特征信息和上下文信息。(2)采用注意力融合连接模块,从深层特征和浅层特征中自适应选取有用的信息进行融合,优化分割结果。(3)利用高效深度瓶颈模块和注意力融合连接模块构建一个高效的轻量级实时语义分割方法,并且在Cityscapes 和 Camvid 测试集上进行一系列实验,并与其它现有方法进行对比分析,验证了该方法的有效性和泛化性。1摇 模型方法1.1摇 GDBNet 整体结构为保证准确率、实时性和模型复杂度三者之间的有效平衡,基于高效深度瓶颈模块和注意力融合连接模块,该文构建了一个新型的浅层轻量级实时
16、分割方法冥基于高效深度瓶颈结构的实时语义分割方法(GDBNet),整体网络结构如图 1 所示。33 Conv S=2Downsample33 Conv S=133 Conv S=1CCCEDB Block1EDB Block211 Conv S=1AFMDownsampleDownsampleBilinear Up4Upsample21/21/41/8图 1摇 GDBNet 网络模型整体结构13摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 陈学颢等:基于高效深度瓶颈结构的实时语义分割方法在 Encoder 部分,首先使用三个 3伊3 的标准卷积来提取输入图像的初始特征,其中第一个
17、3伊3 卷积的步长为 2,用于完成第一次下采样。为了保留更多的空间细节信息,GDBNet 一共只采用了三次下采样操作,随后的两次下采样使用与 ENet 初始块相同的下采样单元执行,即步长为 2 的 3伊3 卷积和 2伊2 最大池化进行通道拼接实现。在第二次和第三次下采样之后,将原图分辨率为1/4 和1/8 的特征图分别输入到 EDBBlock1 和 EDB Block2 中提取稠密的特征信息。为充分获取全局信息,增加感受野,EDB Block1 模块(如图2(a),堆叠了3 个扩张率为2 的 EDB 特征提取单元,EDB Block2 模块(如图 2(b),堆叠了 6 个扩张率分别为 4,4,
18、8,8,16,16 的 EDB 特征提取单元,并且对堆叠模块引入残差连接,使提取的特征信息更加充分。为进一步细化特征,采用长连接捕捉全局特征信息,并与相应阶段的输出相连接,补偿分辨率降低造成的信息损失。EDBEDBEDBEDBEDBEDBEDBEDBEDB(a)EDB Block1 摇 摇 摇 摇 摇(b)EDB Block2图 2摇 EDB 特征提取单元摇 摇 在 Decoder 部分,为避免引入过多参数,导致网络实时性的降低,该文没有使用复杂的解码器结构,而是参考 BiSeNet18中 特 征 融 合 的 思 想,保 留 了 EDBBlock1 输出的浅层特征,并与两倍上采样后的深层特征经
19、过 AFCM 模块进行指导融合,然后通过四倍双线性差值恢复至原始分辨率,得到最终的图像分割结果。1.2摇 高效深度瓶颈模块近年来,有许多实时语义分割方法为构建轻量级模型,将卷积结构的优化应用于瓶颈结构(图 3(a)、一维非瓶颈结构(图 3(b)和深度扩张瓶颈结构(图 3(c)等轻量级残差结构的设计中。其中,瓶颈结构利用 1伊1 卷积先降低通道数再恢复通道数的方法,能有效降低参数量,加快推理速度,而一维非瓶颈结构则通过 1伊3 和 3伊1 的分解卷积代替 3伊3 的标准卷积来减少参数量,提升模型的效率,但固定的卷积核尺寸会导致以上两种方法在层数较浅的实时分割方法中无法获取足够的感受野,影响分割的
20、准确度。深度扩张卷积结构采用深度扩张卷积来增加感受野,却增加了计算量,降低了推理速度。基于以上研究,该文构建高效深度瓶颈模块作为特 征提取单元(图 3(d),其 中DConv 表示深度分离卷积操作,r 为扩张率,“+冶为特征向量的加法操作。H 伊 W 为输入特征图的分辨率,卷积核的尺寸为K,输出通道数为 M 时,深度分解扩张卷积和深度扩张卷积的参数量之比,如式(1):(K 伊 1 伊 H 伊 W 伊 M)伊 2K2伊 H 伊 W 伊 M=2K(1)当卷积核的大小为 3 时,深度分解扩张卷积的参数量相较于深度扩张卷积减少了三分之一,可见深度分解卷积操作可以大幅降低计算量。同时 EDB 模块,还能
21、通过修改扩张率的大小,以提取不同类型的特征,在模型浅层位置可以利用小扩张率,关注一些局部信11 Conv33 Conv31 DConv(r)13 DConv(r)11 ConvC11 Conv33 Conv33 Dconv(r)11 ConvC31 Conv13 Conv31 Conv13 ConvC11 Conv33 Conv11 ConvC摇 摇 摇 摇 摇 摇 摇 摇(a)瓶颈结构摇 摇 摇 摇 摇 摇(b)一维非瓶颈结构摇 摇 摇 摇(c)深度扩张瓶颈结构摇 摇 摇 摇 摇(d)高效深度瓶颈结构图 3摇 轻量残差模块23摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
22、 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷息,在模型深层位置可以通过大扩张率提取比较复杂的全局特征,相较于固定卷积核尺寸的结构,不仅弥补了无法获取足够感受野的问题而且还有效降低了参数量,更能体现出实时性,有助于模型实现参数量、推理速度和准确率的有效均衡。1.3摇 注意力融合连接模块在图像语义分割中,深层高级语义信息和浅层空间细节信息的融合,对分割准确度具有十分重要的影响。深层特征一般包含更多高度抽象的语义信息,而浅层特征一般是含有一些点、线、面等噪声的等边缘细节信息,因为两个特征之间存在较大的差异,使用简单的 conc
23、at 融合得到的效果并不理想。因此,提出了注意力融合连接模块。AvgPoolConvSigmoidmulConcatCoBNRelumul+AvgPoolReluSigmoid1111图 4摇 注意力融合连接模块摇 摇 如图 4 所示,深层特征用 h 表示,浅层特征用 f 表示。该模块首先将深层特征 h 通过平均全局池化和注意力向量提炼出深层高级语义特征 A,如式(2):A=h 伊 鄣1(Conv1(AvgPool(h)摇 摇摇(2)其中,鄣1表示 Sigmoid 激活函数,Conv1 表示卷积核为1伊1 的卷积操作,AvgPool 表示平均池化操作。通过高级语义特征 A 与浅层特征 f 进行
24、 concat 融合,然后利用批标准化平衡融合后的特征得到 F0,如式(3):摇 摇F0=CoBnRelu(Concat(A,f)摇 摇(3)其中,CoBnRelu 表示先经过 1伊1 卷积,然后进行批量归一化处理,最后通过 Relu 修正线性单元激活函数的操作,Concat 表示在维度方向的融合。将平衡后的特征 F0池化为特征向量并计算权重向量 F1,如式(4):摇 摇F1=鄣1(CRC(AvgPool(F0)(4)其中,CRC 表示先进行 1伊1 卷积,然后通过 Relu 激活函数,最后再次经过 1伊1 卷积的操作。利用权重向量 F1对特征 F0进行重新加权,得到最后的输出结果 M,如式(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 高效 深度 瓶颈 结构 实时 语义 分割 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。