遥感图像语义分割的空间增强注意力U型网络_宝音图.pdf
《遥感图像语义分割的空间增强注意力U型网络_宝音图.pdf》由会员分享,可在线阅读,更多相关《遥感图像语义分割的空间增强注意力U型网络_宝音图.pdf(10页珍藏版)》请在咨信网上搜索。
1、http:/DOI:10.13700/j.bh.1001-5965.2021.0544遥感图像语义分割的空间增强注意力 U 型网络宝音图1,2,刘伟1,*,李润生1,李钦1,胡庆1(1.中国人民解放军战略支援部队信息工程大学数据与目标工程学院,郑州450001;2.中国人民解放军31401 部队,呼和浩特010051)F1摘要:针对基于深度学习的语义分割模型在解析遥感图像时,小尺寸目标和目标边界存在分割不准确的问题,提出一种 U 型网络模型 SGE-Unet。该模型通过优化网络结构加强模型的特征提取能力;融合空间组增强注意力,提升模型对上下文语义信息的解析能力;采用中值频率平衡交叉熵损失函数抑
2、制类别分布不均衡的影响。在 2 个数据集上进行实验,SGE-Unet 的整体准确率、平均交并比、分数和 Kappa 系数均高于主流模型,Vaihingen 数据集中小尺寸目标车的交并比和F1分数分别为 0.719 和 0.901,比次优模型提升了 16%和 11%,实验结果表明所提模型能更精准地分割小尺寸目标及目标边界。关键词:遥感图像;语义分割;深度学习;注意力;损失函数中图分类号:TP751.1;V19文献标志码:A文章编号:1001-5965(2023)07-1828-10语义分割是图像分割的一个分支,主要任务是给图像的每个像素分配语义标签,可在像素级对图像分类标识,并细粒度地描述目标,
3、已被广泛应用于基于遥感图像的土地覆盖利用分析、环境监测、灾害评估、城市规划和军事安全等任务1。近年来,随着深度学习的发展,受益于神经网络强大的表征能力,一些基于深度学习的语义分割模型在遥感图像解析中得到了较好效果2。根据研究对象的细粒程度,基于深度学习的遥感图像语义分割方法可分为基于区域的方法和基于像素的方法。基于区域的方法通常先将遥感图像按照一定策略划分区域,再通过深度学习模型分别辨识各区域信息并标注语义标签。划分区域主要依靠阈值、聚类、超像素和图论等方法,这些方法基于图像的颜色、纹理、光谱和位置等浅层次特征信息3,且需要设计人类工程特征或者专家知识支撑,因此基于区域的方法通常分割精度低、效
4、率不高。基于像素的方法能够直接对遥感图像每个像素标注语义标签,实现端到端的像素级分割。2016 年,Kampffmeyer 等4将全卷积神经网络(fullyconvolutionalnetwork,FCN)5用于遥感图像语义分割,实现了深度学习模型在遥感图像上的像素级分割。在此基础上,Guo 等6融合集成学习方法,提升遥感图像中小尺寸目标的分割精度。针对遥感图像目标方向尺寸多变的问题,Li7和 Alam8等在 U-Net9基础上使用不对称卷积块和索引池化提升模型对遥感图像中多方向目标的辨识能力。张小娟和汪西莉10利用多尺度特征融合增强模型对遥感图像目标尺寸的敏感度。Feng等11构建邻域像素亲
5、和损失函数,使模型更精准地分割遥感图像的目标边界。肖春姣等12通过条件随机场捕获上下文信息,对遥感图像的分割结果优化处理。翟鹏博13和杨军14等采用空洞卷积增大感受野,将数字地表模型(digitalsurfacemodel,DSM)信息和图像信息融合进行训练,构建双路径网络结构提升分割精度。基于深度学习的语义分割在解析遥感图像上收稿日期:2021-09-10;录用日期:2022-02-25;网络出版时间:2022-03-1808:58网络出版地址: J.北京航空航天大学学报,2023,49(7):1828-1837.BAO Y T,LIU W,LI R S,et al.Semantic seg
6、mentation of remote sensing images based on U-shaped network combined with spatialenhance attentionJ.Journal of Beijing University of Aeronautics and Astronautics,2023,49(7):1828-1837(in Chinese).2023年7月北京航空航天大学学报July2023第49卷第7期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.7取得了可观的成绩
7、,然而,遥感图像地物信息丰富,目标尺寸多变,同类目标之间和不同类目标之间尺寸差别很大,并且目标形状不规则,这些因素影响小尺寸目标和目标边界的分割效果11。造成上述问题的原因可归结为:各类别目标的像素数量分布不均衡;目标边界信息在整幅图像中占比少。网络模型如果平等地计算像素类别信息,就会导致小尺寸目标和目标边界信息被淹没。针对上述分析,为提升遥感图像中小尺寸目标和目标边界的分割效果,本文提出了融合空间组增强注意力15的 U 型网络(spatialgroupenhanceandU-net,SGE-Unet)结构用于遥感图像语义分割。为增 强 特 征 提 取 能 力,在 编 码 和 解 码 部 分
8、使 用EfficientNet16做基础骨干网络,引入空间组增强注意力机制加强对语义信息的理解。在训练阶段,将中值频率平衡交叉熵作损失函数用于反馈训练,抑制各类别像素数量分布不均衡的影响。在预测阶段,用拼接策略消除大尺寸遥感图像分割拼接后预测结果的拼接痕迹。1原理与方法1.1整体网络模型设计UNet+语义分割模型是一种 U 型网状的编码解码器结构,其密集的跳跃连接可以获取更多语义信息17。在 UNet+基础上改进特征提取模块,使用 EfficientNet16作为基础结构增强特征提取能力,在编码和解码部分添加空间组增强注意力模块,进一步提升模型解析语义能力。SGE-Unet 网络结构如图 1
9、所示。图中向下的实线箭头表示 2 倍下采样的编码过程,其中前 2 层为了保留背景信息采用了最大池化,后 2 层为了提取特征信息采用了平均池化。向上的实线箭头表示 2 倍上采样的解码过程,包括转置卷积和反池化;虚线箭头表示跳跃连接,将多张特征图进行融合,丰富特征信息。经过最后 1 个卷积块后,通过 Softmax 分类得到最终的分割结果。E0,0E1,0E2,0E3,0E4,0C0,1C1,1C2,1C3,1C0,2C1,2C2,2C0,3C1,3C0,4下采样上采样跳跃链接卷积块输入图像分割结果注意力模块Ci,jEi,jEfficientNet图1SGE-Unet 结构Fig.1Structu
10、reofSGE-Unet1.2空间组增强注意力模块遥感图像中不仅包含地物类别等有效信息,也包含着云、雾、遮挡等干扰信息。对于特定的类别标签,如果与原图中位置对应,就能提取正确的语义特征,如果由干扰等原因导致类别标签与原位置不能对应,就会造成错误的学习,混淆正确的语义特征,导致分类困难15。同时,在基于卷积神经网络的语义分割中,下采样会导致小尺寸目标的特征信息进一步缩小甚至消失,致使特征信息在上采样过程中较难恢复,从而造成辨识困难14。注意力机制类似于人观察环境,通过对特征图加权处理给予局部重要信息更多的关注,有助于增强特征的表达能力,降低噪声干扰,加强模型对特征信息的解析18。xiX=x1,x
11、m mg针对遥感图像小尺寸目标和目标边界较难准确分割的情况,采用空间组增强注意力15提升局部信息的特征表达能力。空间组增强注意力将特征图根据通道数量 C 均分为多组子特征图,各组子特征图在空间的每个位置都有特征,则各组包含的特征为(为特征图的宽和高的乘积),组语义信息 可通过空间平均函数衡量,空间平均函数定义为g=F(X)=1mmi=1xiX=x1,xm(1)XmxiF(X)式中:为每组在空间中个位置特征信息的合集;为空间平均函数。第7期宝音图,等:遥感图像语义分割的空间增强注意力 U 型网络1829xigci将位置特征信息与该组语义信息 相乘可得到位置特征信息的加权系数:ci=gxi=gxi
12、cosi(2)ixigxigixici式中:为位置特征信息与语义信息 之间的夹角。显然位置特征信息越大,更接近 的方向(即更小),该位置特征信息越重要,因此,可以有效衡量各位置特征信息的贡献情况。cici为弱化加权系数 的数值影响,需对 进行归一化处理:c=1mmj=1cj(3)c=1mmj=1(cjc)2(4)ci=cicc(5)ccci ci式中:和分别为所有加权系数 的均值和标准差;为经过归一化处理的加权系数。cixi xi将 与对应的位置特征信息相乘,即可得到加权的位置特征信息:xi=xi ci(6)X=x1,xm组内所有的位置特征信息进行加权处理后,即可获得增强后的组特征。因各组关注
13、的区域都是独立的,最终将增强的组特征融合,即可更有效地关注目标区域。空间增强注意力在充分利用全局信息的基础上,根据语义信息的贡献程度赋予各组对应空间位置权重,增强关注区域的语义特征学习,更有利于在局部区域建立上下文联系,从而更好地指导训练模型。1.3中值频率平衡交叉熵损失函数可以评估模型预测值与样本真实值之间的差异度,是指导模型学习的重要因素,根据不同的任务需求选择合适的损失函数,更有助于训练出性能更好的模型19。对于遥感图像语义分割任务,像素级的类别标签会造成较大的类别分布不均衡。例如,在国际摄影测量和遥感学会(Interna-tionalSocietyforPhotogrammetryan
14、dRemoteSensing,ISPRS)发布的 Vaihingen 语义分割数据集20中,不透水表面类别的像素数量超过车类别像素数量20 倍。中值频率平衡交叉熵损失函数可以减弱类别分布不均衡的影响21,其可定义为L=1NNn=1Mc=1lnclg(pnc)wc(7)wc=median(fc|c M)fc(8)lnc=0样本n的真实值标签不为c类1样本n的真实值标签为c类(9)NMwcc pncncfcclnc式中:为预测的样本数量;为类别数量;为类别 的权重;样本 预测为类别 的概率;为类别的像素频率;median 为取所有类别像素频率的中位数;为符号函数。wc由式(8)可知,权重以类别的像
15、素频率作分子,频率越高则权重越小,从而平衡了类别分布不均衡的问题。2实验及结果分析2.1数据集及数据预处理选用 ISPRS 发布的 Vaihingen 语义分割数据集20和 Potsdam 语义分割数据集20进行实验来验证本文网络模型的有效性。Vaihingen 数据集用数字航拍方式采集自德国的 Vaihingen,包含 33 张带有语义标签的遥感图像,空间分辨率为 0.09m,图像尺寸分别为 1000 像素4000 像素和 4000 像素1000 像素,遥感图像包含近红外(IR)、红(R)和绿(G)3 个波段。Potsdam 数据集用数字航拍方式采集自德国的 Potsdam,包含38 张带有
16、语义标签的遥感图像,空间分辨率为0.05m,图像尺寸为 6000 像素6000 像素,遥感图像包含红(R)、绿(G)和蓝(B)3 个波段。每个数据集均被标注为不透水表面(如道路,RGB:255,255,255)、建 筑(RGB:0,0,255)、树(RGB:0,255,255)、低值被(RGB:225,0,225)、车(RGB:255,255,0)和背景(不属于前 5 类的其他地物类别,RGB:255,0,0)共 6 种地物类别。这 2 个数据集都以城市场景为主,Vaihingen 数据集中有许多独立的建筑,且与植被交错分布,Potsdam 数据集则有大量建筑群和狭窄的街道,分布相对分散。实验
17、过程中,参考文献 22、23 的数据集配置方式,将数据集按表 1 进行分配,表中数字为图像编号。因选用数据集的遥感图像尺寸较大,难以直接输入网络模型,需先将遥感图像裁剪为多幅小尺寸子图像,再分别输入网络模型进行预测,而后拼接得到最终分割结果。如不采取任何措施,有可能产生如图 2 所示的拼接痕迹。产生拼接痕迹的主要原因是:原始遥感图像经过裁剪操作,小尺寸子图像边缘的地物信息不完整,导致在小尺寸子图像中丢失部分上下文信息。1830北 京 航 空 航 天 大 学 学 报2023年遥感图像语义标签分割结果图2拼接痕迹示意图Fig.2Seamaftersplicing为消除拼接痕迹,采取一种拼接策略11
18、。如图 3所示,对遥感图像以滑窗重叠24的方式裁剪成小尺寸子图像,将小尺寸子图像经网络模型得到预测结果,随后按顺序进行拼接。需要注意的是,在拼接时忽略小尺寸子图像预测结果的边缘区域。图 3中虚线区域是裁剪的尺寸,即输入网络模型的尺寸,实线区域是得到预测结果后保留的区域,b 为滑窗重叠的步幅。经实验对比分析,b 仅需要大于最小目标尺寸即可较好消除拼接痕迹。b图3拼接策略Fig.3Splicingmethod实验中,将 2 个数据集按滑窗重叠步长取 50 像素的方式裁剪为 512 像素512 像素的子图像,同时对训练集的图像通过旋转、缩放、翻转、颜色变换、添加噪声、随机擦除等方式扩充数据以提升模型
19、的泛化能力。2.2评价标准F1为了评估本文网络模型的性能,使用整体准确率 OA、平均交并比 mIoU、分数和 Kappa 系数等评价指标进行分析。OA 表示预测正确像素占全部像素比例,mIoU 是各类 IoU 的平均,IoU 即预测结F1果与真值标签的交集与并集之比,用于评价分割区域的完整性,分数则结合了精准率和召回率,Kappa 系数用于评价预测结果和标签真值的近似程度。这些评价指标侧重点不同,综合各评价指标能更准确全面了解模型性能。相应计算公式为OA=ni=1piini=1nj=1pij(10)IoU(k)=pkknj=1(pkj+pjk)pkk(11)mIoU=1nni=1IoU(i)(
20、12)P(k)=pkknj=1pkj(13)R(k)=pkknj=1pjk(14)F(k)1=2P(k)R(k)P(k)+R(k)(15)F1=1nni=1F(i)1(16)Kappa=(ni=1nj=1pij)ni=1piini=1(nj=1pijnj=1pji)(ni=1nj=1pij)2ni=1(nj=1pijnj=1pji)(17)nkkpijijpiipjiPR式中:为类别数量;表示第 类;表示真值为类,而预测值为 类的像素,即假反例,相应的为真正例,为假正例;为精准率,表示预测为正例的结果中预测对的比例;为召回率,表示真值为正例的结果中预测对的比例。2.3实验参数设置实验平台环境为
21、Windows10操作系统搭建PyTorch1.7 框架,CPU 型号为 12 核 IntelXeonGold6226表1数据集分配Table1Allocationofdataset类别VaihingenPotsdam训练集1,3,11,13,15,17,21,26,28,32,34,372_12,3_10,3_11,3_12,4_11,4_12,5_10,5_12,6_7,6_8,6_9,6_10,6_12,7_7,7_9,7_10,7_11,7_12验证集5,7,23,302_11,4_10,5_11,7_8测试集2,4,6,8,10,12,14,16,20,22,24,27,29,31,
22、33,35,382_10,2_13,2_14,3_13,3_14,4_13,4_14,4_15,5_13,5_14,5_15,6_13,6_14,6_15,7_13第7期宝音图,等:遥感图像语义分割的空间增强注意力 U 型网络18312.70GHz,配置 64GB 内存,搭载 2 块 NVIDIA 公司的 RTX5000 显卡,显存为 216GB,使用 11.0 版本的 CUDA 及 8.2.0 版本的 cudnn 加速训练。在训练过程中,使用 Adam 优化器25,初始学习率为 0.001,权重衰减为 0.0005,损失函数使用中值频率平衡交叉熵,学习率衰减策略采用 Poly 衰减策略26,
23、即用式(18)调整学习率:lrepoch=lreopch1(1epochmax_epoch)0.9(18)lrepochlrepoch1max_epoch式中:为当前 epoch 的学习率;为前一次epoch 的学习率;为设置的最大 epoch。max_epoch实验中,设为 200,每个 epoch 后用验证集进行评估,如果连续 10 个 epoch 的评价指标没有提升,则终止训练。2.4结果分析SGE-Unet 网络模型的全局分割结果如图 4 所示,图 4(a)遥感图像的第 1 行和第 2 行分别选自 Vai-hingen 数据集和 Potsdam 数据集。观察图 4 可知,SGE-Une
24、t 在 2 个数据集上的分割结果较好,分割的目标边界清晰、可辨识性高,没有明显的拼接痕迹。交错分布的树和建筑能准确分割,对于大尺寸目标建筑和小尺寸目标车的分割效果都比较好,易混淆的低植被和树分割结果也与标签相近,甚至密集分布的车都能逐个区分。但也存在部分误检情况,主要出现于目标边界分布情况复杂及阴影、遮挡等干扰因素较多区域。说明 SGE-Unet 的分割性能较好,能准确地分割小尺寸目标和目标边界。F1表 2 为 SGE-Unet 与当前遥感图像语义分割的主流模型 FCN5、SegNet21、DeepLabV326、SCAtt-NetV227和 UNet+17在 Vaihingen 数据集上的语
25、义分割结果。如表 2 所示,SGE-Unet 在 OA、mIoU、分数和 Kappa系数这 4 项综合评价指标上都达到(a)遥感图像(b)标签图像建筑车树低植被不透水表面背景(c)SGE-Unet图4SGE-Unet 全局分割结果Fig.4GlobalsegmentationresultsofSGE-Unet表2Vaihingen 数据集上的语义分割结果Table2SemanticsegmentationresultonVaihingendataset模型IOUF1OAmIoUF1Kappa不透水表面建筑低植被树车不透水表面建筑低植被树车FCN50.6690.7610.5060.6970.63
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 遥感 图像 语义 分割 空间 增强 注意力 网络 宝音图
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。