多尺度特征对齐聚合的语义分割方法_徐兆忠.pdf
《多尺度特征对齐聚合的语义分割方法_徐兆忠.pdf》由会员分享,可在线阅读,更多相关《多尺度特征对齐聚合的语义分割方法_徐兆忠.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展0215004-1研究论文多尺度特征对齐聚合的语义分割方法徐兆忠1,彭力1,2*,戴菲菲31江南大学物联网工程学院物联网技术应用教育部工程研究中心,江苏 无锡 214122;2无锡太湖学院江苏省物联网应用技术重点建设实验室,江苏 无锡 214122;3台州市产品质量安全监测研究院,浙江 台州 318000摘要 卷积神经网络在对图像进行语义分割时,高层特征经过降采样和 padding操作和低层特征之间容易产生错位。为了解决高低层特征之间的错位问题,更好地聚合多尺度特征信息,提出了一种带有多尺度特征对齐聚合(MFAA)模块的语义分割
2、方法。MFAA 模块采用一种可学习插值策略来学习像素的变换偏移,可以有效缓解不同尺度特征聚合的特征不对齐问题,同时模块内的注意力机制提高了解码器恢复重要细节特征的能力。该方法利用高层特征的语义信息和低层特征的空间信息,通过多个 MFAA 模块将高低层特征对齐之后聚合到一起,从而实现图像更加精细的语义分割效果。将所提网络结构在语义分割数据集 PASCAL VOC 2012上进行了验证,使用 ResNet-50作为骨干网络时在验证集上的平均交并比值达到了 78.4%。实验结果表明,该方法与几种主流分割方法相比在评价指标方面存在优越性,可以有效提高图像分割的效果。关键词 机器视觉;图像语义分割;特征
3、对齐;多尺度特征;注意力机制中图分类号 TP391.4 文献标志码 A DOI:10.3788/LOP212814Semantic Segmentation Method Based on Multiscale Feature Alignment and AggregationXu Zhaozhong1,Peng Li1,2*,Dai Feifei31Engineering Research Center of Internet of Things Technology Applications,School of IoT Engineering,Jiangnan University,Wux
4、i 214122,Jiangsu,China;2Jiangsu Province Internet of Things Application Technology Key Construction Laboratory,Wuxi Taihu College,Wuxi 214122,Jiangsu,China;3Taizhou Product Quality and Safety Monitoring Institute,Taizhou 318000,Zhejiang,ChinaAbstract During semantic segmentation of images,a convolut
5、ional neural network easily misplaces the high-level features with low-level features after down-sampling and padding operations.To solve the mismatch problem between high-and low-level features and better aggregate the multiscale feature information,this paper proposes a semantic segmentation metho
6、d with a multiscale feature alignment aggregation(MFAA)module.The MFAA module adopts a learnable interpolation strategy to learn pixel transform migration,thereby alleviating the feature-misalignment problem of feature aggregation at different scales.The module includes an attention mechanism that i
7、mproves the decoders ability to recover the important details.Using multiple MFAA modules,the semantic information of high-level features,and the spatial information of low-level features,this method aligns and aggregates the high-and low-level features to refine the semantic segmentation effect.The
8、 proposed network structure was validated on PASCAL VOC 2012.Using a ResNet-50 backbone network,the mean intersection-over-union reached 78.4%on the validation set.Experimentally,the proposed method achieved better evaluation indices than several mainstream segmentation methods and effectively impro
9、ved the image segmentation effect.Key words machine vision;image semantic segmentation;feature alignment;multiscale feature;attention mechanism收稿日期:2021-10-26;修回日期:2021-11-15;录用日期:2021-11-29;网络首发日期:2021-12-10基金项目:国家自然科学基金(61873112)、国家重点研发计划(2018YFD0400902)通信作者:*0215004-2研究论文第 60 卷 第 2 期/2023 年 1 月/激
10、光与光电子学进展1引言作为计算机视觉的基础任务之一,图像语义分割是目前计算机视觉的热点研究方向1。语义分割是一个像素级的分类任务,可以对图像中每一个像素点按设定的语义标签进行分类2。图像语义分割有许多应用场景:在医疗图像3领域,通过语义分割可以精准找出医疗图像中的肿瘤等病变部位,减少医生的负担;在自动驾驶4领域,可以帮助掌握驾驶时汽车周围的环境信息,识别道路与障碍物;在地理信息系统中,可以识别出卫星遥感影像中的道路、建筑、河流等信息,并对其分别标注。在深度学习尚未应用到计算机视觉领域时,对图像的分割主要分为基于阈值、边缘和区域的方法。随着计算机性能的提高及 GPU 加速技术的出现,以卷积神经网
11、络(CNN)为代表的深度学习方法取得了较大的进展。Long 等5在 2015 年提出了一种将全卷积神经网络(FCN)用于图像语义分割的方法,该方法被认为是卷积神经网络用于语义分割的基石之作。FCN 将 VGG166中的全连接层换成了卷积层,通过上采样得到高分辨率的深层特征后与浅层特征直接相加得到密集的预测结果,实现了端到端的图像分割。随后出现了一大批以 FCN 为基础架构的图像语义分割方法。特征融合是语义分割最近研究进展主要遵循的策略之一,然而特征融合的方法融合了不同尺度卷积块的特征,这可能引起特征错位的问题。为了解决这个问题,Lu 等7提出 IndexNet来学习池化和上采样操作的索引。Ja
12、derberg等8提出了一个新的可学习模块来提高卷积神经网络的空间不变性。Mazzini 等9提出了一个可以被引导的上采样模块来学习每个像素位置的二维变换偏移量。SFNet10和 AlignSeg11用光流的方式进行配准,来计算每个像素的运动偏移并进行校正。受以上方法的启发,本文提出了一种多尺度特征对齐聚合的语义分割方法,旨在更好地利用各层级特征信息对齐和融合多尺度特征,从而实现更精细的分割效果。利用骨干网络不同层级的特征有助于恢复图像边缘信息和纹理信息,提高网络的细节表征能力。通过多个特征对齐聚合模块逐步将低分辨率的深层特征与高分辨的浅层特征相融合,逐步挖掘不同分辨率的特征信息。在高级特征对
13、齐融合前加入空间注意力模块,增大重要的空间细节的权重,减少噪声干扰的同时强化网络的学习能力。使用空洞空间金字塔池化(ASPP)模块捕获上下文信息,在不降低特征分辨率的情况下扩大感受野。此外,在解码器中使用了一种平滑的激活函数 Mish12。Mish 具有平滑、非单调、无上界、有下界等特点,在深度神经网络中表现出了比ReLU 更好的效果。2相关工作图像语义分割常用编码器-解码器13结构预测端到端的像素级分类任务。编码器用于提取图像的高级语义特征,解码器则通过反卷积、插值等方式恢复原图尺寸,最终获得图像分割结果。目前分割较好的网络结构往往在解码阶段采用融合高分辨的低层特征来获得图像的空间信息,实现
14、更精细的分割效果。所提方法同样基于编解码结构,提出了多尺度特征对齐聚合(MFAA)模块。所提模型结构如图 1 所图 1所提模型结构图Fig.1Structure diagram of proposed model0215004-3研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展示,编码器使用 ResNet-50作为骨干网络来提取特征,下采样步幅为 16,输入图像经过 ResNet-50 提取特征后得到尺寸为输入图像尺寸 1/16的高级语义特征,然后经过上下文模块 ASPP 获得多种尺度的上下文特征。解码器中使用两个 MFAA 模块对骨干网络中不同分辨率的特征图进行对齐
15、聚合,得到的输出特征与ASPP 输出的高级特征进行级联,最后通过上采样获得密集的图像分割结果。2.1MFAAMFAA 由特征对齐模块(FAM)和空间注意力(SA)模块组成,是整个网络解码器的重要组成部分。MFAA 通过 SA 模块突出高层输入的重要空间细节,使高层特征在保留语义信息的情况下尽可能激活更多的空间信息。FAM 有两个输入,用于高层特征与低层特征之间的对齐与融合。高层特征首先进行二倍上采样,之后经过 SA 模块后与低层特征通过 FAM 模块对齐再进行相加融合。输入图像经过骨干网络后有不同分辨率的特征输出,为了获得更好的融合效果,可以使用多个 MFAA 模块串联进行多尺度的特征融合。所
16、提方法使用两个 MFAA 模块串联实现不同层的特征融合。2.1.1FAMFAM 采用一种可学习插值策略来学习像素的变换偏移,用于精确对齐高分辨和低分辨率的特征图,之后聚合高级特征和低级特征。特征融合的错位来自两个输入特征之间的偏移,特征经过 FAM 学习到高级特征与低级特征的偏移量,之后与各自的输入特征经过 对 齐 函 数 获 得 矫 正 后 的 特 征 信 息 再 进 行 融 合。FAM 模块如图 2所示,高级特征上采样后经过空间注意力模块得到Fh,Fh与低级特征Fl通过级联(Concat)来建立两个特征之间的相关性,之后经过 11卷积与批量归一化层后分成两个支路,每个支路使用 11卷积将通
17、道维度降为 2,用来预测该支路特征的二维偏移 R2 H W,的两维分别代表了特征的横向偏移与纵向偏移。两条支路输出的二维偏移h和l分别用于对齐高级特征和低级特征,通过函数U获得对齐之后的特征信息:Aout=U(Fh,h)+U(Fl,l),(1)式中:Aout是对齐之后的输出特征;Fh和Fl是需要对齐的两个输入特征;U是对齐函数。假设要对齐的特征图 F 的 大 小 为 HW,F 上 像 素 点Fhw的 坐 标 为(h,w),1hw和2hw分别是对Fhw预测的纵向偏移与横向偏移,则像素点Fhw对齐之后的期望输出坐标是(h+1hw,w+2hw),由函数U可得该像素点的期望输出为Uhw=h=1Hw=1
18、WFhw max(0,1-|h+1hw-h|)max(0,1-|w+2hw-w|)。(2)由式(2)可知,对齐函数的输出在全图范围内求和,但将公式中的绝对值展开后发现,只有点(h+1hw,w+2hw)周围最近的 4 个点(左上、左下、右上、右下)对权重有贡献,对齐之后的新像素点是根据期望输出坐标附近的 4个点按距离权重双线性插值后得到的。未采用更简单的最近邻插值是因为二维偏移量在大多数情况下不是整数,如果根据最近邻直接赋值给新像素点那么该映射不可导,无法满足反向传播的条件。2.1.2SASA 模块通过加权的方式增强图像上有用的关键信息并抑制其他的信息,使模型聚焦于特征图中感兴趣的特征空间区域,
19、突出高层输入的重要空间细节。SA 模块采用平均池化和最大池化来聚合通道信息,分别关注了特征图的全局特征和突出特征。SA 模图 2FAM 结构图Fig.2FAM structure diagram0215004-4研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展块结构如图 3 所示,输入特征首先经过两个池化模块得到通道上的平均池化特征 Favg和最大池化特征 Fmax,然后将 Favg和 Fmax在通道维度进行拼接,接着使用 33卷 积 融 合 特 征 将 通 道 维 度 降 为 1,最 后 经 过 一 个Sigmoid激活函数对特征的注意力权重归一化,对要强调或抑制的
20、位置进行编码。经过 SA 模块的特征输出为S(F)=SigmoidConv3 3Favg(F);Fmax(F),(3)式中:F代表输入特征。2.2ASPP空洞卷积是 ASPP 模块的关键,在标准卷积中填充空洞从而增大卷积核的尺寸,如图 4 所示。空洞卷积可以在不降低特征图分辨率、不增加参数量的情况下增大感受野。感受野大小可以根据空洞率调节,便于提取不同尺度的特征。空洞率与感受野对应关系为D=i=1nDi-(n-1),(4)式中:Di表示第 i 个卷积的感受野范围;n 代表级联卷积的个数。Deeplab14-17系列语义分割模型中的关键模块就是ASPP,ASPP 最 先 在 Deeplab v2
21、15中 被 提 出,之 后Deeplab v316和 Deeplab v3+17对 ASPP 进行了优化。ASPP 采用不同空洞率的空洞卷积来提取多尺度信息,由 5条并行支路组成,如图 5所示:第 1层是 11卷积,将通道数降为 256;第 2、3、4 层是拥有不同空洞率的 33 空洞卷积,对于 output_stride 为 16 的骨干网络,空洞率分别是 6、12、18;第 5 层首先是一个全局平均池化,然后通过双线性插值恢复原始大小,该层是为解决 ASPP 设置的空洞率过大时,有效的滤波参数减小,空洞卷积会退化为 11 卷积的问题。将 5 个并行支路得到的输出特征进行 Concat 后将
22、通道数降为256,就得到了拥有不同尺度的特征图。2.3Mish激活函数激活函数的作用是在神经网络中引入非线性。在深度学习中,常用的激活函数主要有 ReLU、Sigmoid、Tanh、PReLU18、Swish19等。所提方法在解码器中使用了一种新的激活函数 Mish,如图 6所示。Mish是一种自正则的非单调激活函数,与 ReLU 激活函数相比具有如下特点:1)Mish 函数允许较小的负梯度流入,因此保证了信息的流动,有效缓解了 ReLU 激活函数反向传播过程中梯度消失的问题;2)Mish函数中每一个点都是平滑的,平滑的激活函数可更好地允许信息深入神经网络,梯度下降效果更好;3)Mish 函数
23、有下界但没有上界,没有上界可以避免饱和,有下界保证了一定的正则化效果。Mish函数的表达式为图 3SA模块结构图Fig.3SA module structure diagram图 4空洞卷积Fig.4Dilated convolution0215004-5研究论文第 60 卷 第 2 期/2023 年 1 月/激光与光电子学进展Mish(x)=x tanhln1+exp(x)。(5)3实验与分析3.1实验分析实验使用 PASCAL VOC 2012 增 强 版数 据 集。PASCAL VOC 2012增强版数据集是图像语义分割领域最常用的公共数据集之一,总共包含 21 个类别,20个前景类和
24、1个背景类。数据集总共包含 10582张训练集,1449张验证集和 1456张测试集。实验程序基于深度学习框架 PyTorch实现。实验硬 件 配 置 为 AMD EPYC 7302 处 理 器,NVIDIA GeForce RTX 3090显卡。3.2实验参数设置及评价指标实验选用 ResNet-50 作为网络主干,输入图片大小设置为 513513,batch size 设置为 16,使用交叉熵损失函数。学习率衰减采用“poly”学习策略:Rlr=Rbase_lr(1-NiterNmax_iter)power,(6)式 中:power 设 置 为 0.9;初 始 学 习 率Rbase_lr设
25、 置 为0.01;Niter代表训练时每一次迭代的迭代次数;Nmax_iter代表总的迭代次数,设为 30000。采用平均交并比(mIoU)作为模型的评价指标。mIoU 是真实值和预测值两个集合的交集和并集之比,表示分割结果与其真值的重合度,是图像语义分割最常用的评价指标。mIoU 的表达式为RmIoU=1K(x=1KTxxy=1KTxy+y=1KTyx-Txx),(7)式中:K 是图像语义分割标签的总类别数;Txy代表像素类别是 x 类却被预测为 y 类的像素总数;Tyx代表像素类别是 y 类却被预测为 x 类的像素总数,Txx代表像素类别是 x类预测类别也是 x的像素总数。3.3特征选择与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 尺度 特征 对齐 聚合 语义 分割 方法 徐兆忠
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。