分销赏收藏举报申诉 / 7

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于高效深度瓶颈结构的实时语义分割方法.pdf

基于高效深度瓶颈结构的实时语义分割方法.pdf

上传人：自信****多点

文档编号：634976

上传时间：2024-01-20

格式：PDF

页数：7

大小：1.07MB

《基于高效深度瓶颈结构的实时语义分割方法.pdf》由会员分享，可在线阅读，更多相关《基于高效深度瓶颈结构的实时语义分割方法.pdf（7页珍藏版）》请在咨信网上搜索。

1、针对现阶段语义分割方法参数量多、计算成本高,难以满足实际场景需求的问题,提出了一种基于高效深度瓶颈结构的轻量级实时语义分割方法(GDBNet)。首先,利用分解卷积和扩张卷积的有效结合构建出高效深度瓶颈结构,并以一种轻量并高效的方式提取局部上下文信息;然后,将该结构堆叠来获取多尺度的语义信息;最后,通过注意力融合连接模块聚合多尺度的上下文信息并指导特征选择,以此提高分割效果。在不经过任何预训练和后处理的情况下,GDBNet 在Cityscapes 和 Camvid 数据集上以 140.0 FPS 和 143.7 FPS 的推理速度分别达到了 72.91%和 68.84%平均交并比的准确度并且参数

2、量仅为 0.66 M。该方法在 Cityscapes 数据集上,相比于同类型深度非对称瓶颈网络(DABNet),准确度提高了2郾 81 百分点,推理速度上升了 35.8 FPS,并且参数量降低了 0.1 M;在 Camvid 数据集上,与 SPMNet 方法相比,准确度提高了1.54 百分点,同时参数量和推理速度也更优。实验结果表明:所提方法在满足实时性要求的前提下,能较为准确地识别场景信息。关键词:瓶颈结构;实时语义分割;分解卷积;扩张卷积;上下文信息中图分类号:TP391.4摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇文章编号:1673-629X(2023)09-0030-

3、07doi:10.3969/j.issn.1673-629X.2023.09.005Real-time Semantic Segmentation Method Based onEfficient Deep Bottleneck StructureCHEN Xue-hao1,2,3,LI Shun-xin1,2,3(1.School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,China;2.Hubei Province Key Laboratory of

4、Intelligent Information Processing and Real-time Industrial,Wuhan 430065,China;3.Institute of Big Data Science and Engineering,Wuhan University of Science and Technology,Wuhan 430065,China)Abstract:Aiming at the problem that the current semantic segmentation method has many parameters and high calcu

5、lation cost,which isdifficult to meet the needs of actual scenarios,a lightweight real-time semantic segmentation method(GDBNet)based on efficient deepbottleneck structure is proposed.Firstly,an efficient depth bottleneck structure is constructed by combining decomposition convolutionand extended co

6、nvolution,and the local context information is extracted in a lightweight and efficient way.Then,The structure is stackedto obtain multi-scale semantic information.Finally,the segmentation effect is improved by aggregating multi-scale contextualinformation and guiding feature selection through the a

7、ttention fusion connection module.Without any pre-training and post-processing,GDBNet achieves 72.91%and 68.84%mean Intersection Over Union accuracy and the number of parameters is only 0.66 M onCityscapes and Camvid datasets with 140.0 FPS and 143.7 FPS inference speed respectively.Compared with th

8、e same type of deepasymmetric bottleneck network(DABNet),the accuracy of the proposed method in Cityscapes dataset is improved by 2.81 percentagepoints,the reasoning speed is increased by 35.8 FPS,and the number of parameters is reduced by 0.1 M.In the Camvid dataset,theaccuracy improved by 1.54 per

9、centage points compared with the SPMNet method.At the same time,the number of parameters andreasoning speed are better.The experimental results show that the proposed method can accurately identify scene information on thepremise of meeting the real-time requirement.Key words:bottleneck structure;re

10、al-time semantic segmentation;factorized convolution;dilated convolution;contextual information第 33 卷摇第 9 期2023 年 9 月摇摇摇摇摇摇摇摇摇摇计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT摇摇摇摇摇摇摇摇摇摇Vol.33摇 No.9Sep.摇 20230摇引摇言语义分割是计算机视觉中较为基础的技术之一,目的是对图像中的每个像素根据特定的预定义类别来分配相应的标签,可以看作是像素级别的分类任

11、务,但不同于图像分类和目标检测,语义分割最终输出的是带有标注的预测图像,具有识别和定位的功能。近年来,随着计算机视觉的快速发展,图像语义分割的准确度不断提高,然而盲人导向1、自动驾驶2、人物识别3、机器人视觉4以及其它一些现实领域的应用中,对语义分割的实时性提出了更高的要求,这些应用往往具有有限的计算成本和内存容量,并且还需要较高的准确度和实时性。因此,如何设计一个可以在准确度、推理速度和参数量之间达到相对平衡的实时语义分割方法,已成为当前研究的热点问题。针对这个问题,目前已提出许多基于全卷积网络(Fully Convolution Networks,FCN)5的实时语义分割方法。这些方法大致

12、分为三类:(1)优化卷积:ENet6使用浅层 ResNet7作为模型主干,并通过扩张卷积在不增加参数量的前提下增加感受野;MobileNet8采用深度卷积来代替传统卷积提高推理速度;ERFNet9、ShuffleNet10和 DABNet11分别通过使用一维非瓶颈结构减少参数量、深度方向的扩张瓶颈结构和有效利用分离扩张卷积的不对称瓶颈结构来降低计算成本,加快推理速度;(2)结合上下文信息:CBAM12将通道注意力和空间注意力相结合,以获得更准确的信息;Zhao等13、Chen 等14分别提出金字塔池化模块(PyramidPooling Module,PPM)、空间金

13、字塔池化模块(SpatialPyramid Pooling,SPP)来提取多尺度上下文信息;(3)构造轻量级架构:LEDNet15使用非对称编码结构,通过简化解码结构,减少计算量,提升分割效率;DFANet16构建轻量级架构,通过特征重用加强特征表达能力,提高推理速度;MJPU17使用多级特征图联合上采样的方式,有效降低网络计算的复杂度,以满足实时性需求。上述方法在实时语义分割领域中已取得一定的进展,但在准确度、推理速度和参数量的平衡研究中仍具有很大的提升空间。在此基础上,该文提出了一种基于高效深度瓶颈结构的实时语义分割方法(EfficientDeep Bottleneck Structure

14、 Net,GDBNet)。通过优化卷积,在传统的瓶颈结构上增加深度方向的分解扩张卷积,设计出高效深度瓶颈结构(Efficient DeepBottleneck Structure,EDB)。这种结构可以用较低的计算成本获得更深层的特征信息和上下文信息。为更好地结合上下文信息,提出注意力融合连接模块(Attention Fusion Connection Module,AFCM),在几乎不影响分割效率的前提下,有效融合深层特征信息和浅层特征信息,弥补深层特征信息关于空间细节特征的不足,优化分割结果。主要工作如下:(1)以构建实时语义分割方法为目的,深入研究了瓶颈结构、分解卷积

15、、扩张卷积的应用潜力,提出一种高效深度瓶颈模块。它可以用较少的参数量和较低的计算成本获得多尺度特征信息和上下文信息。(2)采用注意力融合连接模块,从深层特征和浅层特征中自适应选取有用的信息进行融合,优化分割结果。(3)利用高效深度瓶颈模块和注意力融合连接模块构建一个高效的轻量级实时语义分割方法,并且在Cityscapes 和 Camvid 测试集上进行一系列实验,并与其它现有方法进行对比分析,验证了该方法的有效性和泛化性。1摇模型方法1.1摇 GDBNet 整体结构为保证准确率、实时性和模型复杂度三者之间的有效平衡,基于高效深度瓶颈模块和注意力融合连接模块,该文构建了一个新型的浅层轻量级实时

16、分割方法冥基于高效深度瓶颈结构的实时语义分割方法(GDBNet),整体网络结构如图 1 所示。33 Conv S=2Downsample33 Conv S=133 Conv S=1CCCEDB Block1EDB Block211 Conv S=1AFMDownsampleDownsampleBilinear Up4Upsample21/21/41/8图 1摇 GDBNet 网络模型整体结构13摇第 9 期摇摇摇摇摇摇摇摇摇摇摇陈学颢等:基于高效深度瓶颈结构的实时语义分割方法在 Encoder 部分,首先使用三个 3伊3 的标准卷积来提取输入图像的初始特征,其中第一个

17、3伊3 卷积的步长为 2,用于完成第一次下采样。为了保留更多的空间细节信息,GDBNet 一共只采用了三次下采样操作,随后的两次下采样使用与 ENet 初始块相同的下采样单元执行,即步长为 2 的 3伊3 卷积和 2伊2 最大池化进行通道拼接实现。在第二次和第三次下采样之后,将原图分辨率为1/4 和1/8 的特征图分别输入到 EDBBlock1 和 EDB Block2 中提取稠密的特征信息。为充分获取全局信息,增加感受野,EDB Block1 模块(如图2(a),堆叠了3 个扩张率为2 的 EDB 特征提取单元,EDB Block2 模块(如图 2(b),堆叠了 6 个扩张率分别为 4,4,

18、8,8,16,16 的 EDB 特征提取单元,并且对堆叠模块引入残差连接,使提取的特征信息更加充分。为进一步细化特征,采用长连接捕捉全局特征信息,并与相应阶段的输出相连接,补偿分辨率降低造成的信息损失。EDBEDBEDBEDBEDBEDBEDBEDBEDB(a)EDB Block1 摇摇摇摇摇(b)EDB Block2图 2摇 EDB 特征提取单元摇摇在 Decoder 部分,为避免引入过多参数,导致网络实时性的降低,该文没有使用复杂的解码器结构,而是参考 BiSeNet18中特征融合的思想,保留了 EDBBlock1 输出的浅层特征,并与两倍上采样后的深层特征经

19、过 AFCM 模块进行指导融合,然后通过四倍双线性差值恢复至原始分辨率,得到最终的图像分割结果。1.2摇高效深度瓶颈模块近年来,有许多实时语义分割方法为构建轻量级模型,将卷积结构的优化应用于瓶颈结构(图 3(a)、一维非瓶颈结构(图 3(b)和深度扩张瓶颈结构(图 3(c)等轻量级残差结构的设计中。其中,瓶颈结构利用 1伊1 卷积先降低通道数再恢复通道数的方法,能有效降低参数量,加快推理速度,而一维非瓶颈结构则通过 1伊3 和 3伊1 的分解卷积代替 3伊3 的标准卷积来减少参数量,提升模型的效率,但固定的卷积核尺寸会导致以上两种方法在层数较浅的实时分割方法中无法获取足够的感受野,影响分割的

20、准确度。深度扩张卷积结构采用深度扩张卷积来增加感受野,却增加了计算量,降低了推理速度。基于以上研究,该文构建高效深度瓶颈模块作为特征提取单元(图 3(d),其中DConv 表示深度分离卷积操作,r 为扩张率,“+冶为特征向量的加法操作。H 伊 W 为输入特征图的分辨率,卷积核的尺寸为K,输出通道数为 M 时,深度分解扩张卷积和深度扩张卷积的参数量之比,如式(1):(K 伊 1 伊 H 伊 W 伊 M)伊 2K2伊 H 伊 W 伊 M=2K(1)当卷积核的大小为 3 时,深度分解扩张卷积的参数量相较于深度扩张卷积减少了三分之一,可见深度分解卷积操作可以大幅降低计算量。同时 EDB 模块,还能

21、通过修改扩张率的大小,以提取不同类型的特征,在模型浅层位置可以利用小扩张率,关注一些局部信11 Conv33 Conv31 DConv(r)13 DConv(r)11 ConvC11 Conv33 Conv33 Dconv(r)11 ConvC31 Conv13 Conv31 Conv13 ConvC11 Conv33 Conv11 ConvC摇摇摇摇摇摇摇摇(a)瓶颈结构摇摇摇摇摇摇(b)一维非瓶颈结构摇摇摇摇(c)深度扩张瓶颈结构摇摇摇摇摇(d)高效深度瓶颈结构图 3摇轻量残差模块23摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇

22、摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 33 卷息,在模型深层位置可以通过大扩张率提取比较复杂的全局特征,相较于固定卷积核尺寸的结构,不仅弥补了无法获取足够感受野的问题而且还有效降低了参数量,更能体现出实时性,有助于模型实现参数量、推理速度和准确率的有效均衡。1.3摇注意力融合连接模块在图像语义分割中,深层高级语义信息和浅层空间细节信息的融合,对分割准确度具有十分重要的影响。深层特征一般包含更多高度抽象的语义信息,而浅层特征一般是含有一些点、线、面等噪声的等边缘细节信息,因为两个特征之间存在较大的差异,使用简单的 conc

23、at 融合得到的效果并不理想。因此,提出了注意力融合连接模块。AvgPoolConvSigmoidmulConcatCoBNRelumul+AvgPoolReluSigmoid1111图 4摇注意力融合连接模块摇摇如图 4 所示,深层特征用 h 表示,浅层特征用 f 表示。该模块首先将深层特征 h 通过平均全局池化和注意力向量提炼出深层高级语义特征 A,如式(2):A=h 伊鄣1(Conv1(AvgPool(h)摇摇摇(2)其中,鄣1表示 Sigmoid 激活函数,Conv1 表示卷积核为1伊1 的卷积操作,AvgPool 表示平均池化操作。通过高级语义特征 A 与浅层特征 f 进行

24、 concat 融合,然后利用批标准化平衡融合后的特征得到 F0,如式(3):摇摇F0=CoBnRelu(Concat(A,f)摇摇(3)其中,CoBnRelu 表示先经过 1伊1 卷积,然后进行批量归一化处理,最后通过 Relu 修正线性单元激活函数的操作,Concat 表示在维度方向的融合。将平衡后的特征 F0池化为特征向量并计算权重向量 F1,如式(4):摇摇F1=鄣1(CRC(AvgPool(F0)(4)其中,CRC 表示先进行 1伊1 卷积,然后通过 Relu 激活函数,最后再次经过 1伊1 卷积的操作。利用权重向量 F1对特征 F0进行重新加权,得到最后的输出结果 M,如式(

25、5):摇摇M=F0+F0伊 F1(5)注意力融合连接模块相当于对特征进行重新选择组合,可以有效过滤掉浅层噪声,弥补深层缺少的空间细节信息,优化分割结果,并且该模块整个过程中仅用到 1伊1 的卷积操作,不会带来过多的额外参数。2摇实摇验2.1摇数据集Cityscapes 是目前用于语义分割的大规模数据集之一,包含了来自多个国家不同城市街道场景的 5 000张精细标注图像并含有 19 个语义类别,其中训练集2 975张,验证集 500 张,测试集 1 525 张,图像的分辨率均为1 024伊2 048,另外还有20 000 张粗略标注的图像。在该实验中,只使用精细标注的图像。Camvid

26、是一个从视频序列中提取城市道路场景的数据集,并由剑桥大学公开发布。它包含了 701 张精细标注的图像并含有 11 个语义类别,其中训练集367 张,验证集101 张,测试集233 张,图像的分辨率均为 720伊960。2.2摇指标说明实验采用平均交并比(mean Intersection OverUnion,mIOU)和帧速率(Frames Per Second,FPS)对模型的分割性能和推理速度进行评估。平均交并比:计算所有类别预测值和真实值的交集和并集之比的平均值,因其计算方便、代表性强等特点,成为语义分割中表示分割准确度的标准指标。假设某数据集一共有 k 个类别(不包括背

27、景色),其中 i表示真实值,j表示预测值,Pij表示将 i 类像素预测为 j类像素的总数,Pji表示将 j 类像素预测为 i 类像素的总数,Pii表示预测正确的像素总数,平均交并比的计算公式如式(6):33摇第 9 期摇摇摇摇摇摇摇摇摇摇摇陈学颢等:基于高效深度瓶颈结构的实时语义分割方法mIoU=1k+1移ki=0Pii移kj=0Pij+移kj=0Pji-Pii(6)帧速率:帧速率指的是画面每秒传输的速率,FPS越高说明模型处理图像的速度越快,是衡量模型推理速度的重要指标。假设一共有 N 张图像,第 i 张图像处理的时间是 Ti(单位:秒),帧速率的计算公式如式(7):

28、FPS=N移Ni=0Ti(7)2.3摇实施细节GDBNet 是基于 pytorch 框架实现,实验平台为NVIDIA GeForce RTX 3090、CUDA 11.0、pytorch1.7。在训练模型时,采用批量大小为 8,动量为 0.9,衰减权重为 1e-4 的小批量随机梯度下降(SDG)算法对模型进行优化,并使用“ploy冶学习策略(如式(8),对学习率进行动态调整,初始学习率为4.5e-2,最大 epoch 为1 000,训练时长约为 40 小时。lrrt=lrinit伊(1-epochmax_epoch)power(8)其中,lrrt为当前学习率,lrinit为初始学习率,epo

29、ch 为当前迭代次数,max_epoch 为最大迭代次数,power 默认为 0.9,并且该文没有采用任何预训练参数,即从头开始训练网络。为减少过度拟合的风险,提升模型的泛化性,在数据处理中使用了随机水平反转、随机裁剪和随机缩放等数据增强策略,且随机因子为0.75,1.0,1.25,1.5,1.75,2.0。最后,实验将 Cityscapes 数据集随机裁剪为 512伊1 024 分辨率用于训练,Camvid 数据集随机裁剪为 360伊480 分辨率用于训练。3摇实验结果与分析3.1摇消融实验分析通过一系列实验对 GDBNet 设计的有效性进行验证,所有实验均在 Cityscapes 训练

30、集上进行,并在其验证集上进行评估。为保证实验结果的准确性,所有的模型都在相同的环境中进行训练和测试。3.1.1摇瓶颈结构为验证高效深度瓶颈(EDB)模块的有效性,分别使用一维非瓶颈结构和深度扩张瓶颈结构替换GDBNet 中的 EDB 模块。结果如表 1 所示,当使用EDB 模块时,推理速度比深度扩张瓶颈结构高8.7FPS,准确度却几乎不受影响,而一维非瓶颈结构由于无法获取足够的感受野,分割准确度低于 EDB 模块4.31 百分点,推理速度和参数量也没有明显提升,充分证明了 EDB 模块的高效性。3.1.2摇上下文特征连接融合为探究 AFCM 模块对模型方法的影响,采用直接co

31、ncat 连接和利用 AFCM 模块对上下文信息进行融合的对比实验。结果如表 1 所示,使用 AFCM 模块在分割准确度方面提高 2.35 百分点,而对模型的推理速度和参数量几乎没有负面影响,由此看来 AFCM 模块有利于模型性能的提升。3.1.3摇编-解码结构为保证网络的推理速度,该文放弃了复杂的解码器结构。为验证其对分割结果的影响,在上采样部分利用 ERFNet 的解码器代替 AFCM 模块进行验证。结果如表 1 所示,由于 ERFNet 解码器复杂的结构,推理速度下降了 42.5 FPS,并且参数量增加了 0.25 M,但准确度仅提升了 0.32 百分点,而该文更注重方法的推理速度和参

32、数量,由此看来不使用编-解码结构,更有利于性能的提升,证明了 GDBNet 结构设计的合理性。表 1摇消融实验结果方法参数量/M平均交并比/%帧速率/FPSGDBNet-一维非瓶颈0.6267.21141.2GDBNet-深度扩张瓶颈0.6871.63132.2GDBNet-NoAFCM0.6571.52140.9GDBNet+AFCM0.6673.87140.0GDBNet+ERF 解码器0.9174.1997.53.2摇公开数据集实验对比与分析为进一步验证文中方法的有效性和泛化性,采用Cityscapes 数据集和 Camvid 数据集,在参数量、准确度和推理速度三个方面与其它现有优秀

33、方法进行比较,结果如表 2、表 3 所示。表 2摇 Cityscapes 数据集分割性能对比方法预训练参数量/M平均交并比/%帧速率/FPSESPNet19无0.3660.30112.0ERFNet无2.1068.0041.7DFANet有7.8070.30100.0BiSeNet有5.8068.40104.0LRNNet20无0.6872.2071.0FDDWNet21无0.8071.5060.0EACNet22无1.1074.20113.0DABNet无0.7670.10104.2CGPANet23无0.9172.494.7SPMNet24无0.7371.1896.0GDBNet无0.66

34、72.91140.043摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第 33 卷摇摇由表 2 可知,GDBNet 在 Cityscapes 测试集上以140 FPS 的推理速度取得了 72.91%平均交并比的准确度且参数量为 0.66 M。该方法与 ESPNet 相比,准确度和推理速度分别提高了 12.61 百分点和 28 FPS,具有显著提升,而参数量仅多了 0.3 M;与增强非对称卷积网络 EACNet 相比,推理速度上升了 27 FPS,参数量减少了 0.44

35、 M,虽然准确度降低了 1.29 百分点,但综合来看,GDBNet 表现更为出色;与近年来提出的CGPANet 相比,在参数量、准确度和推理速度上均表现出色。综合对比实验结果可知,GDBNet 在推理速度上具有明显优势,优于上述所有方法,由此可见,GDBNet 相对于同类型先进方法,在参数量、准确度和推理速度之间取得了更好的平衡,具有一定的优越性。为证明 GDBNet 的泛化性,还在 Camvid 数据集上对 GDBNet 进行性能测试,实验结果如表 3 所示。GDBNet 在测试集上获得了 68.84%平均交并比的准确度和 143.7 FPS 的推理速度,并且与其它先进方法相比,在参数量和推

36、理速度上取得了较大的提升,优于表中所有方法,有力证明了该方法具有良好的泛化能力。表 3摇 Camvid 数据集分割性能对比方法输入尺寸参数量/M平均交并比/%帧速率/FPSICNet22720伊96026.5067.1027.8DABNet360伊4800.7666.40117.0LRNNet360伊4800.6869.2076.5SPMNet360伊4800.7367.3124.0GDBNet360伊4800.6668.84143.74摇结束语该文设计并提出了一种基于高效深度瓶颈结构的实时语义分割方法,编码器中采用高效深度瓶颈模块,以较少的参数和较低的计算成本获取本地和上下文信息,在解码器

37、中采用注意力融合连接模块,有效引导浅层空间特征信息和深层语义特征信息的融合,进一步优化分割效果,并且无需消耗较多的计算量。为了验证方法的有效性,在 Cityscapes 和 Camvid 数据集上进行了验证,并与其它先进的实时语义分割方法进行比较。实验结果表明,GDBNet 能够在准确度、推理速度和参数量之间取得较好平衡。在未来的工作中,将进一步优化高效深度瓶颈模块和更为精细的注意力融合连接模块,加深对小目标和边缘信息的提取和关注,并在不同的语义分割数据集(Mapillary Vistas、NYUv2、ADE20K 等)上测试性能,从而使 GDBNet 更加通用和有效。参考文献:1摇 HSIE

38、H Y Z,LIN S S,XU F X.Development of a wearableguide device based on convolutional neural network for blindor visually impaired personsJ.Multimedia Tools and Ap鄄plications,2020,79(39):29473-29491.2摇何淼楹,崔宇超.面向自动驾驶的交通场景语义分割J.计算机应用,2021,41(S1):25-30.3摇 AHILA PRIYADHARSHINI R,ARIVAZHAGAN S,ARUNM.A deep

39、learning approach for person identification usingear biometricsJ.Applied Intelligence,2021,51(4):2161-2172.4摇 HASSABALLAH M,AWAD A I.Deep learning in computervision:principles and applications M.Boca Raton:CRCPress,2020.5摇 LONG J,SHELHAMER E,DARRELL T.Fully convolution鄄al networks for semantic segme

40、ntationC/Proceedings ofthe IEEE conference on computer vision and pattern recogni鄄tion.Boston:IEEE,2015:3431-3440.6摇PASZKE A,CHAURASIA A,KIM S,et al.Enet:a deepneural network architecture for real-time semantic segmenta鄄tion EB/OL.2021-12-15.https:/arxiv.org/pdf/1606.02147.pdf.7摇 HE K,ZHANG X,REN S,

41、et al.Deep residual learning forimage recognitionC/Proceedings of the IEEE conferenceon computer vision and pattern recognition.Las Vegas:IEEE,2016:770-778.8摇HOWARD A G,ZHU M,CHEN B,et al.Mobilenets:effi鄄cient convolutional neural networks for mobile vision appli鄄cationsEB/OL.2021-11-29.https:/arxiv

42、.org/pdf/1704.04861.pdf.9摇ROMERA E,ALVAREZ J M,BERGASA L M,et al.Erf鄄net:efficient residual factorized convnet for real-time seman鄄tic segmentationJ.IEEE Transactions on Intelligent Trans鄄portation Systems,2017,19(1):263-272.10 ZHANG X,ZHOU X,LIN M,et al.Shufflenet:an extremelyefficient convolutiona

43、l neural network for mobile devicesC/Proceedings of the IEEE conference on computer vi鄄sion and pattern recognition.Salt Lake City:IEEE,2018:6848-6856.53摇第 9 期摇摇摇摇摇摇摇摇摇摇摇陈学颢等:基于高效深度瓶颈结构的实时语义分割方法11 LI G,YUN I,KIM J,et al.Dabnet:depth-wise asymmetricbottleneck for real-time semantic segmen

44、tationEB/OL.2021-11-06.https:/arxiv.org/pdf/1907.11357v1.pdf.12 WOO S,PARK J,LEE J Y,et al.Cbam:convolutional blockattention moduleC/Proceedings of the European confer鄄ence on computer vision(ECCV).Munich:Springer,2018:3-19.13 ZHAO H,SHI J,QI X,et al.Pyramid scene parsing networkC/Proceedings of the

45、 IEEE conference on computer vi鄄sion and pattern recognition.Honolulu:IEEE,2017:2881-2890.14 CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Deep鄄lab:semantic image segmentation with deep convolutionalnets,atrous convolution,and fully connected crfsJ.IEEETransactions on Pattern Analysis and Machine Intellige

46、nce,2017,40(4):834-848.15 WANG Y,ZHOU Q,LIU J,et al.LEDNet:a lightweight en鄄coder-decoder network for real-time semantic segmentationC/2019 IEEE international conference on image process鄄ing(ICIP).Taipei,China:IEEE,2019:1860-1864.16 LI H,XIONG P,FAN H,et al.DFANet:deep feature aggre鄄gation for real-

47、time semantic segmentationC/Proceed鄄ings of the IEEE/CVF conference on computer vision andpattern recognition.s.l.:IEEE,2019:9522-9531.17 宋摇宇,王小瑀,梁摇超,等.基于多级特征图联合上采样的实时语义分割J.计算机技术与发展,2022,32(2):82-87.18 YU C,WANG J,PENG C,et al.Bisenet:bilateral segmenta鄄tion network for real-time semantic segmentat

48、ionC/Pro鄄ceedings of the European conference on computer vision(ECCV).Munich:Springer,2018:325-341.19 MEHTA S,RASTEGARI M,CASPI A,et al.Espnet:effi鄄cient spatial pyramid of dilated convolutions for semanticsegmentationC/Proceedings of the European conferenceon computer vision(ECCV).Munich:Springer,2018:552-568.20 JIANG W,XIE Z,LI Y,et al.Lrnnet:a light-weighted net鄄work with efficient reduced non-local operation for real-time semantic segmentation C/2020 IEEE internationalconference on multimedia&expo workshops(ICMEW).London:IEEE,2020:1-6.21 LIU J,ZHOU Q,QIANG Y,et al.FDDWN

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于高效深度瓶颈结构实时语义分割方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。