轻量级自注意力机制为主干的自然土地覆被分割研究.pdf
《轻量级自注意力机制为主干的自然土地覆被分割研究.pdf》由会员分享,可在线阅读,更多相关《轻量级自注意力机制为主干的自然土地覆被分割研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 22卷 第 9期2023年 9月Vol.22 No.9Sept.2023软 件 导 刊Software Guide轻量级自注意力机制为主干的自然土地覆被分割研究安昭先,魏霖静(甘肃农业大学 信息科学技术学院,甘肃 兰州 730070)摘要:以陕西省延安市志丹县中西部地区16级卫星遥感图像为研究对象,提出一种作用于土地植被低分辨率遥感卫星图像的语义分割方法GFormer。GFormer以MixTransFormer为主干编码器,并使用一种全新设计的具备递进式特征融合结构的解码器。在研究对象数据集上,GFormer表现出极强的分割能力和分割稳定性。与以卷积为主干的DeepLabV3+、Unet
2、相比,GFormer表现出了以注意力机制为主干的语义分割算法极强的鲁棒性;与同样使用以MixTransFormer为主干编码器的SegFormer相比,GFormer全新设计的递进式融合结构编码器在遥感图像分割中具有更强的解码能力。相较于SegFormer上表现最好的模型B5,在模型规模更小的情况下,MIoU、Kappa分别提高了3.25%、3.04%;相较于使用相同规模 MixTransFormer 编码器的 SegFormer-B4,GFormer 得益于全新设计的递进式解码器,MIoU、Kappa分别提高了5.01%、4.81%。实验结果证明了GFormer在地被覆盖遥感图像分割上具备有
3、效性和鲁棒性。关键词:计算机视觉;深度学习;语义分割;自注意力机制DOI:10.11907/rjdk.222100开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP751.1 文献标识码:A文章编号:1672-7800(2023)009-0174-08Research on Lightweight Self-Attention Mechanism as Backbone for Natural Land Cover SegmentationAN Zhaoxian,WEI Linjing(School of Information Science and Technolog
4、y,Gansu Agricultural University,Lanzhou 730070,China)Abstract:Taking the 16-level satellite remote sensing images in the central and western regions of Zhidan County,Yanan City,Shaanxi Province as the research object,a semantic segmentation method GFormer,which acts on low-resolution remote sensing
5、satellite images of land and vegetation,is proposed.GFormer uses MixTransFormer as the backbone encoder and uses a newly designed decoder with progressive feature fusion structure.On this dataset,GFormer shows strong segmentation stability and segmentation ability.Compared with DeepLabV3+and Unet wi
6、th convolution as the backbone,GFormer shows the strong robustness of the semantic segmentation algorithm with attention mechanism as the backbone;compared with SegFormer which also uses MixTransFormer as the backbone encoder,GFormers newly designed full progressive fusion structure encoder has stro
7、nger decoding ability in remote sensing image segmentation.Compared with the model B5 with the best phenotype on SegFormer,MIoU and Kappa are increased by 3.25%and 3.04%respectively when the model scale is smaller;compared with SegFormer-B4 using the same scale MixTransFormer encoder,GFormer benefit
8、s The MIoU and Kappa of the newly designed progressive decoder are increased by 5.01%and 4.81%respectively.The experimental results demonstrate the effectiveness and robustness of GFormer in the segmentation of ground cover remote sensing images.Key Words:computer vision;deep learning;semantic segme
9、ntation;self-attention mechanism0 引言目前针对自然土地覆被的分割手段一直采用传统图像分割方法,不同于城市建筑分割任务,自然土地覆被分布广、土地覆被对象形状不规则。将现有的深度学习图像分割方法直接应用于自然土地覆被分割任务上效果不理想,因为这些方法过于追求图像语义,忽视了有限感受野收稿日期:2022-09-19基金项目:教育部产学研合作协同育人项目(202102326036);兰州市人才创新创业项目(2021-RC-47);甘肃农业大学研究生教育研究项目(2020-19)作者简介:安昭先(1998-),男,甘肃农业大学信息科学技术学院硕士研究生,研究方向为遥感图
10、像处理;魏霖静(1977-),女,博士,甘肃农业大学信息科学技术学院教授,研究方向为农业信息化。本文通讯作者:魏霖静。第 9 期安昭先,魏霖静:轻量级自注意力机制为主干的自然土地覆被分割研究下的局部特征。因此,本文提出作用于自然土地覆被遥感图像的语义分割方法GFormer,一个在自然土地覆被任务中具有极强分割能力与分割稳定性的深度学习分割方法。本文创新点如下:提出一个应用于自然土地覆被分割任务的数据集处理手段;改进了MixTransFormer1的结构,使该结构更适应遥感图像的特征提取;设计一个具备递进式特征融合结构的解码器,迫使解码需按序提取编码器输出的层次性特征。通过与 DeepLabV3
11、+2、Unet3以及 SegFormer等进行对比,证明GFormer在地物覆盖遥感图像分割中具备有效性和鲁棒性。1 相关工作国内外针对自然土地覆被的遥感图像分割研究已经有几十年历史,学者们针对不同的场景、数据集提出了众多方法,这些方法根据解决手段可大致分为传统方法和深度学习方法4。传 统 方 法 大 多 数 是 基 于 阈 值5-8、边 缘9-13、区域14-16、聚类17-20、图论21-23等的图像分割方法,根据人为定义的特征提取函数作用于遥感图像,对地面覆盖物的颜色、形状、纹理、结构、分部等特征进行数量化描述,再进行分割。传统方法计算量小、分割效果好,且不依赖于学习数据。但传统方法具有
12、处理手段单一、对图像颜色的宽容度低、分割类型少等缺点。深度学习方法将图像分割任务转化为像素点分类任务,在图像分类工作中表现突出,因此众多学者尝试将深度学习方法应用于图像语义分割任务中。全卷积网络24(Fully Convolutional Networks,FCN)的编码器由经典的卷积层组成,解码器采用反卷积对卷积层最后一个输出的特征图进行上采样,最后直接在上采样的特征图上进行像素分类,从而解决了语义级别的像素分割问题。FCN的提出也基本确定了语义分割包含编码器和解码器两部分的基本结构。Unet3证明了退化现象在语义分割领域的存在,可使用快捷连接的手段解决模型性能与有效感受野25之间的矛盾,并
13、且通过特征融合帮助找回反卷积层上更大尺寸特征图上的特征边缘。DeepLab2提出一个新的卷积计算方式空洞卷积,空洞卷积解决了内部数据结构丢失和空间层级化丢失的问题,并且增加了卷积感受野的大小,降低了重建特征信息的难度,还将条件随机场26(Conditional Random Field,CRF)引入到整个网络的末端,利用标签的关联信息,进一步提高了语义分割精度。Transformer 模型的问世带来了一种全新的结构自注意力机制(self-attention),该结构完全不同于CNN或RNN,其能自动捕获序列不同位置的相对关联,正是这种特性使得Transformer在NLP任务中大放异彩。部分学
14、者随后将其迁移到计算机视觉领域,并取得了不错的成绩,ViT就是其中一个著名的例子28。ViT引入基于计算机视觉设计的位置编码,将图像转化为序列,一个计算机视觉任务就转化为一个纯seq2seq的任务。紧接着众多研究人员尝试将ViT引入语义分割模型,其中一个比较成功的方法是复旦和腾讯联合提出的SETR29,其在ADE20K30排行上获得第一,证明了自注意力机制在语义分割任务中的可行性。但SETR仍具有一定局限性,其应用在大尺寸图像上的模型参数量过于庞大,也没有像U-Net一样输出不同层次的特征块进行特征融合。SegFormer1设计了一种具有新的层次结构的自注意力机制编码器MixTransForm
15、er,可以输出不同尺寸的特征,且不需要位置编码。2 数据集及其预处理研究选取陕西省延安市志丹县中西部地区的卫星遥感图像,此地区植被属于草原化森林草原区,在历史上这里曾有过植被葳蕤的时期,后经历战争破坏和长期的乱砍滥伐,使天然植被一蹶不振、分布不均,从而为自然土地覆被分割提供了先决条件。本文在此地区截取一张16级的卫星全彩遥感图像,截取窗口大小为X轴方向24 459.85 m,Y 轴方向 17 121.89 m,栅格图像左上角世界坐标为(X:12 067 878.03,Y:4 386 873.93)。此栅格图像分辨率为10 240*7 168,由截取窗口大小求得空间分辨率为2.388 7 m/像
16、素,如图1所示。根据此地区的植被覆盖情况和地貌特性,本文设置了3个自然土地覆被研究对象:森林植被、低矮植被、农田。语义对象分类示例如图2所示。Fig.1Original image图1原始图像(a)Forest vegetation(a)森林植被(b)Low vegetation(b)低矮植被(c)Farmland(c)农田Fig.2Semantic object classification example图2语义对象分类示例 1752023 年软 件 导 刊2.1数据标注EISeg(Efficient Interactive Segmentation)31是 以RITM32与EdgeFlo
17、w31算法为基础,基于飞桨开发的一个高效、智能的交互式分割标注软件。本文采用适用于遥感建筑物标注的轻量化模型 HRNet18s_OCR48,该模型以HRNet18s33为基础,在 OCR48遥感影像建筑分割数据集上达到拟合。尽管本文采用的数据集主体并非建筑物,但其仍然对本文遥感影像数据中的纹理、空间信息、相邻关系等特征敏感,可进行分割和标注。为了方便训练集和测试集的划分,并考虑了原始图像的像素尺寸,本文首先将原始图像分割为 70 张 1 024 1 024像素的区块,再单独标注每个区块。区块分割示意图如图3所示,其中浅色标注的是用于训练的区块(49个,70%),深色标注的是用于测试的区块(21
18、个,30%)。考虑到标注人员对土地覆盖类的认知标准存在差异,因此3位研究人员分别只针对一种自然土地覆被类进行标注。标注图是与遥感图像分辨率一致的单通道图像,然后以农田森林植被低矮植被的优先级顺序对标注图进行合并。合并后的标注值如表1所示,遥感原图与合并后的标注图如图4所示。2.2数据增强卫星遥感图像相较于其他图像,采集环境稳定、光学特征单一,且具有连续性的特点。本研究考虑到模型对卫星图像的纹理、大小敏感,因此没有针对卫星遥感图像作任何颜色变换,只针对遥感图像进行随机旋转、切分和翻转。在数据增强方面,首先将遥感图像与标注图在通道维度上进行连接,组成一张具有4个通道的混合图像,接着将混合图像进行随
19、机旋转、切分和翻转,最后将切分好的混合图像在色彩通道维度上进行拆分。本文在数据增强过程中保证了图像没有被缩放或拉伸,且切分后的图像不存在黑域。数据增强手段如图5所示。上文分割好的区块为 70 个,由于区块尺寸大小为 1 024*1 024,再分割后的遥感图像及对应的标注图尺寸大小为 256*256,所以包含有效像素点的理论图像数量为 1 120张。本文分别在49个训练区块和21个测试区块上进行再分割和数据增强,得到具有98 000张图像的训练数据集和42 000张图像的测试数据集。需要注意的是,由于MixTransFormer 输出的特征块尺寸为 2的负指数次方,所以需使用图像尺寸为2的指数次
20、方,而不是传统的7的指数次方。3 遥感图像语义分割模型针对卫星遥感图像中自然土地覆盖语义提取的问题,本文对 SegFormer进行了设计改进,提出了新的遥感语义分割模型 GFormer。GFormer架构设计如图 6所示。网络中OPE、Block属于模型的编码器,包含一个具有新层次结构的 Transformer 编码器,输出多层次、多尺度特征;M1、M2、M3属于模型的解码器,是一种递进式特征融合解码器,能够将解码器输出的多层次、多尺度特征进行融合,生成最终的语义分割掩码。在卫星遥感图像分割任务中,MixTransFormer编码器以其输出多尺度特征和具有稳定分级结构的优势,在性能Fig.3B
21、lock division diagram图3区块分割示意图Table 1Labeled pixel value表1标注像素值标注类别农田森林植被低矮植被无标注标注值3210(a)Remote sensing image(a)遥感影像(b)Pseudo color annotated image(b)伪彩色标注图Fig.4Labeled example图4标注示例随机裁剪及随机切分增强后的遥感影像增强后的标注图Fig.5Data augmentation diagram图5数据增强示意图 176第 9 期安昭先,魏霖静:轻量级自注意力机制为主干的自然土地覆被分割研究上具备很大的潜力。然而,卫星
22、遥感图像分割不同于多场景分割,其是一个连续、单场景的分割识别任务。此外,卫星遥感图像分割的目标对象通常呈现出不规则形状、复杂背景和单一纹理等特点。针对这些自然土地覆盖的特征,MixTransFormer对于低分辨率细节的全局关注,可能会导致在此项任务中影响性能并损害分割能力。因此,本文通过增加高分辨率层编码器(MVT)的深度,同时降低分辨率层编码器(MVT)的深度,迫使MixTransFormer减弱对低分辨率细节的全局特征提取能力,并提升对高分辨率细节的局部特征提取能力。3.1Gformer编码器MixTransFormer 编码器由 OPE 和 Block 两部分组成。OPE用来结合非重叠
23、的图像块或特征块,Block中包含一个高效的自注意力网络和一个轻量化的FNN网络,用来生成图像块的特征图。其中,Block是MixTransFormer编码器性能优劣的关键,也是模型一个主要的计算瓶颈。OPE中仅包含一层卷积层,用于将重叠的块合并,以产生与非重叠过程大小相同的特征。OPE将给定图像块的层次特征 I=CH/aW/a 收缩为 I=CH/2aW/2a。本文部署的OPE部分卷积参数如表2所示。ViT已经证明了自注意力机制在语义分割网络中作为编码器的可行性。在自注意力机制中,Q(查询向量)、K(键向量)、V(值向量)的维度为d=CHW,计算方式为:Attention(Q,K,V)=Sof
24、tmax(QKTdhead)VT (1)MixTransFormer通过缩减K序列的长度来降低自注意力 的 复 杂 性,复 杂 性 由O()H W2L)改 变 为O()H W2L R)。其中,L为常数1,R为缩减比。本文所设置的缩减比序列为 64,32,16,1。FNN为自注意力网络提供位置信息,FNN直接由FC网络和33的卷积驱动。激活函数选取GELU,许多方法都证明了GELU在语义分割中具有优异的性能。FNN可写为:FNNout=MLP(GELU(Conv3 3(MLP(Attentionout)+Attentionout (2)相比于具有最佳性能的SegFormer编码器MiT-B5,本
25、文通过增加浅层Block层数并减少深层Block层数,以增强模型对纹理特征的响应。层数信息如表3所示。3.2GFormer解码器GFormer解码器包括3个步骤:MixTransFormer输出的多级特征X首先通过再编码器M1进行再编码,接着将再编码后的特征使用M2进行递进式融合,最后将融合后的特征通过预测网络M3生成预测掩膜。语义信息在 MixTransFormer 输出的特征块上达到饱和,本文使用4个融合模块M1对MixTransFormer输出的特 OPE Block M1 upsample M2 M3Fig.6GFormer architecture图6GFormer架构Table 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 轻量级 注意力 机制 为主 自然 土地 覆被 分割 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。