一种改进的可解释SAR图像识别网络.pdf
《一种改进的可解释SAR图像识别网络.pdf》由会员分享,可在线阅读,更多相关《一种改进的可解释SAR图像识别网络.pdf(7页珍藏版)》请在咨信网上搜索。
1、第2 4卷 第4期空 军 工 程 大 学 学 报V o l.2 4 N o.42 0 2 3年8月J OURNA L O F A I R F O R C E E NG I N E E R I NG UN I V E R S I T YA u g.2 0 2 3收稿日期:2 0 2 2-1 2-2 9基金项目:陕西省自然科学基础研究计划(2 0 2 3-J C-Y B-4 9 1)作者简介:李 鹏(1 9 9 8-),男,河南驻马店人,博士生,研究方向为S A R图像识别。E-m a i l:l i p e n g 9 8 0 4 0 41 6 3.c o m通信作者:冯存前(1 9 7 5-)
2、,男,陕西富平人,教授,博士生导师,研究方向为目标探测与识别。E-m a i l:f e n g c u n q i a n s i n a.c o m引用格式:李鹏,冯存前,胡晓伟.一种改进的可解释S A R图像识别网络J.空军工程大学学报,2 0 2 3,2 4(4):4 9-5 5.L I P e n g,F E N G C u n-q i a n,HU X i a o w e i.A n I m p r o v e d I n t e r p r e t a b l e S A R I m a g e R e c o g n i t i o n N e t w o r kJ.J o u
3、 r n a l o f A i r F o r c e E n g i n e e r i n g U n i v e r s i t y,2 0 2 3,2 4(4):4 9-5 5.一种改进的可解释S A R图像识别网络李 鹏,冯存前*,胡晓伟(空军工程大学防空反导学院,西安,7 1 0 0 5 1)摘要 S A R-B a g N e t模型是一种应用于合成孔径雷达(S A R)图像识别的可解释深度学习模型。为了使S A R-B a g N e t模型在具有可解释性的同时具有较高的识别精度,以S A R-B a g N e t模型为基础,在模型框架中加入了空间注意力和坐标注意力机制,并
4、在M S T A R实测数据集上进行了实验。实验结果表明,空间注意力和坐标注意力机制增强了S A R-B a g N e t模型的全局信息获取能力,能够在不降低其可解释性的基础上,有效提高模型的识别精度和决策合理性。关键词 深度学习;S A R图像识别;模型可解释性;注意力机制D O I 1 0.3 9 6 9/j.i s s n.2 0 9 7-1 9 1 5.2 0 2 3.0 4.0 0 8中图分类号 T N 9 5 7 文献标志码 A 文章编号 2 0 9 7-1 9 1 5(2 0 2 3)0 4-0 0 4 9-0 7A n I m p r o v e d I n t e r p
5、r e t a b l e S A R I m a g e R e c o g n i t i o n N e t w o r kL I P e n g,F E NG C u n q i a n*,HU X i a o w e i(A i r D e f e n s e a n d A n t i m i s s i l e S c h o o l,A i r F o r c e E n g i n e e r i n g U n i v e r s i t y,X ia n,7 1 0 0 5 1,C h i n a)A b s t r a c t T h e S A R-B a g N e
6、 t m o d e l i s a n i n t e r p r e t a b l e d e e p l e a r n i n g m o d e l u s e d f o r S y n t h e t i c A p e r t u r e R a-d a r(S A R)i m a g e r e c o g n i t i o n.I n o r d e r t o m a i n t a i n t h e i n t e r p r e t a b i l i t y o f t h e S A R-B a g N e t m o d e l w h i l e a l
7、-s o a c h i e v i n g h i g h r e c o g n i t i o n a c c u r a c y,t h i s p a p e r u s e s t h e S A R-B a g N e t m o d e l a s a f o u n d a t i o n a n d i n c o r-p o r a t e s s p a t i a l a t t e n t i o n a n d c o o r d i n a t e a t t e n t i o n m e c h a n i s m s i n t o t h e m o d
8、 e l f r a m e w o r k.E x p e r i m e n t a l r e-s u l t s o n t h e M S T A R d a t a s e t d e m o n s t r a t e t h a t t h e s p a t i a l a t t e n t i o n a n d c o o r d i n a t e a t t e n t i o n m e c h a n i s m s e n h a n c e t h e S A R-B a g N e t m o d e l s a b i l i t y t o a c q
9、 u i r e g l o b a l i n f o r m a t i o n.T h i s e n h a n c e m e n t e f f e c t i v e l y i m-p r o v e s t h e m o d e l s r e c o g n i t i o n a c c u r a c y a n d d e c i s i o n r a t i o n a l i t y w i t h o u t c o m p r o m i s i n g i t s i n t e r p r e t a b i l i t y.K e y w o r d
10、 s d e e p l e a r n i n g;S A R i m a g e r e c o g n i t i o n;m o d e l i n t e r p r e t a b i l i t y;a t t e n t i o n m e c h a n i s m 合成孔径雷达(S A R)成像是一种通过雷达与成像目标之间的相对位移产生等效合成天线阵列的成像技术1。S A R成像技术受外界天气影响较小,具有一定的地表穿透能力,在军事目标识别2、城市规划3、环境监测4、自然灾害评估5等方面得到了广泛应用,因此,对S A R图像的准确解译也越来越重要。S A R图像解译通常包括
11、图像分割、目标检测和识别,其中S A R图像目标识别被认为是最具挑战性的任务6。合成孔径雷达自动目标识别(S A R-AT R)技术是近年来研究的广泛应用于S A R图像识别的技术7。传统的S A R-AT R方法大多是基于丰富的理论模型和专家知识设计的。这些方法具有较强的可解释性,但人工设计特征需要较高的专业领域知识,设计过程耗时费力且不能充分利用S A R图像的特征8。传统的S A R-AT R算法包括基于散射中 心 模 型(S CM)的 方 法9、基 于 主 成 分 分 析(P C A)的方法1 0、稀疏表示方法1 1以及多特征融合方法1 2。近年来,随着人工智能技术的快速发展,基于深度
12、学习(D L)的S A R-A T R逐渐成为该领域的主要方法。在S A R图像目标识别中,C N N也取得了许多显著的成就。文献2 在M S T A R数据集上使用C N N进行目标识别,获得了比支持向量机(S VM)更好的精度。文献1 3 提出了一种结合C N N和S VM的S A R目标自动识别方法。文献1 4 设计了一种用于地面车辆S A R目标识别的大尺度批量归一化C N N(L M-B N-C N N),与传统C N N结构相比具有更好的收敛速度和更高的识别精度。上述基于C NN的模型虽然在S A R图像识别中能够实现较高的识别性能和计算效率,但这些模型通常被视为“黑盒子”,其固有
13、的识别机制缺乏逻辑分析和数学解释1 5。在这种情况下,识别结果不像传统的S A R图像目标识别方法那样可靠且具有说服力,这限制了C NN模型在实际中的应用,特别是在军事领域和重大灾害预测等一些需要高可靠性的特殊场景下。近年来,为了更好地解释C NN的机制,人们提出了几种本身具有可解释性的C NN模型框架。自解释神经网络1 6通过正则化分别获得分类中至关重要的两个概念和每个概念的相关性,然后将它们结合起来进行预测。基于案例的可解释模型1 7学习代表类别的原型,并通过将给定图像的特征与所学习原型的相似性进行比较来做出决策。B a g N e t模型1 8将C NN的高性能和灵活性与词袋模型(B o
14、 F)的可解释性结合起来,根据局部特征出现的次数而不是图像特征的空间关系对图像进行分类。然而,上述可解释模型都是基于光学图像,在S A R图像的分类中并不能取得令人满意的结果。基于以上分析,在之前的工作中,为了使基于C NN的S A R图像分类模型具有更好的可解释性,我们根据S A R图像的特点,提出了用于S A R图像分类且具有可解释的S A R-B a g N e t模型1 9。但是由于其感受野较小,导致了全局信息的丢失,因此在识别精度上还达不到传统的卷积神经网络(如R e s-N e t-1 8)的水平。本文基于注意力机制对S A R-B a g N e t网络做出改进,在不降低其可解释
15、性的基础上通过注意力机制来让模型获得全局信息。实验结果表明,增加注意力机制的S A R-B a g N e t在识别精度和决策合理性上优于原来的S A R-B a g N e t网络。1 S A R-B a g N e t网络原理S A R-B a g N e t使用全局平均池化层(GA P)和全连接层作为线性分类器连接在最后一层卷积层之后来生成特定类别的热图。GA P的作用是将最后一层卷积层的特征图的每个通道都压缩成一个单像素值Pk,然后连接到全连接层,得到最终的分类分数Sc。此时,单像素值Pk可以表示为:Pk=ijxki j(1)式中:xki j表示最后一层卷积层的第k个通道特征层在坐标(
16、i,j)处的值。最后每一类的分类分数可以表示为:Sc=kkcPk(2)式中:kc为全连接层的权值,表示从第k个通道特征层所对应的单像素值Pk在类别c的权重。然后,将全连接层的权值与最后一个卷积层的特征图相乘得到热图。类别c所对应的热图在坐标(i,j)处的像素值Hci j可以表示为:Hci j=kckxki j(3)从式(3)可以看出,热图的分辨率与最后一层卷积层的特征图的分辨率一致,想要获得一张清晰的热图,这就需要增大特征图的尺寸。而特征图的大小受到感受野和全局步长的影响。感受野和全局步长是卷积神经网络中的基本概念。C NN的特征图中每个单元值取决于卷积网络输入的一个区域,这个区域的大小就是C
17、 NN模型的感受野大小,如图1所示。假设一个C NN有n个卷积层,且卷积层之间没有池化层,则最后一层卷积层的特征图中,每个单元对应的输入图像上的感受野的计算公式为2 0:Rn=Rn-1+(fn-1)n-1i=1si (R0=1)(4)式中:Rn表示第n层感受野的大小;fn表示第n个卷积核的大小;si代表第i个卷积层对应的步长。全局步长表示卷积神经网络在输入图像上的等效步长,见图1。卷积神经网络的全局步长Sg等于所有卷积层的步幅的乘积:Sg=ni=1si(5)从式(3)可以看出,热图的分辨率与最后一个卷积层的特征图的分辨率相同。第n个卷积层的特征图大小Qn的计算公式为:05空军工程大学学报2 0
18、 2 3年Qn=W-R Fn+2PSg+1(6)式中:W表示输入图像的大小;P表示卷积神经网络对图像的填充数;符号 表示向下取整。图1 S A R-B a g N e t原理示意图在S A R-B a g N e t模型中,为了能够得到清晰的热图,设置每一层卷积层的参数P=0,si=1,同时控制感受野的大小。这样设置参数不仅保证了生成的热图具有较高的分辨率,同时又能准确判断输入S A R图像中每一小块区域对决策结果的影响,如图1所示。在图1中,对于一个输入大小为66的S A R图像,设置感受野为22,全局步长为1,则可以得到大小为55的精细热图。图中白色、橙色和粉色方块显示不同的激活强度,按顺
19、序增加,热图中的每一个像素值,都能在S A R图像中找到一块与之对应的区域,如图1中的虚线方框所示。S A R-B a g-N e t在决策过程中,可以生成每个类别所对应的热图,之后将每个热图的像素值相加来表示输入图像与不同类别的匹配值(即分类分数Sc)1 9。与事后解释的方法不同,S A R-B a g N e t模型在决策之前就已经生成了对应的热图,然后根据热图进行决策。因此,S A R-B a g N e t属于事前可解释模型,且可视化的热图是忠于决策结果的。然而,虽然S A R-B a g N e t得到了精细的热图,增强了模型的可解释性,但是由于感受野较小,损失了输入图像的全局信息,
20、导致了分类准确性的下降。在文献1 9 中,S A R-B a g N e t对于M S T A R数据集1 0类车辆目标的识别精度为9 8.2 5%,而传统的C NN网络如R e s N e t-1 8,其识别精度为9 9.0 5%。这主要是由于R e s N e t-1 8具有较大的感受野,可以有效提取输入图像的局部和全局信息,信息获取能力强。由于在S A R-B a g N e t中,较大的感受野会导致其可解释性变差,因为无法准确判定输入图像中的某 个 区 域 对 识 别 结 果 的 影 响 大 小。为 了 缓 解S A R-B a g N e t模型的识别精度和可解释性之间的矛盾,本文引
21、入了注意力机制,在不降低其可解释性的基础上增加模型的全局信息获取能力。2 模型结构和注意力机制2.1 模型的总体框架本文改进的模型结构总体框架如图2所示。图2 本文的模型结构 在图2中,浅蓝色模块为初始的S A R-B a g N e t模型,C A(c o o r d i n a t e a t t e n t i o n)和S A(s p a t i a l a t-t e n t i o n)分别表示本文添加的坐标注意力模块和空间注意力模块。模型的输入部分为2个卷积层,每个卷积层后分别有1个归一化层(B N)和R e l u激活层。在每一个模块后面的数字为输出通道数。在所有的卷积层中,为
22、了控制感受野的大小,都只使用了1 1和3 3的小卷积核,且步长都设置为1。模型的线性分类器是由全局平均池化层(G A P)、全连接层(F C)和S o f t m a x层构成。对于一个S A R图像大小为1 0 01 0 0的输入,由式(6)可知,最后一层卷积层输出的特征图大小为2 5 68 28 2。G A P层可将2 5 6 8 28 2的特征图降维为2 5 611维的向量,然后将此向量与全连接层的2 5 6 1 0的权值矩阵相乘得到分类向量,其中全连接层的偏置矩阵设置为0,这样得到结果的过程只涉及乘法和加法运算。15第4期 李鹏,等:一种改进的可解释S A R图像识别网络虽然s o f
23、 t m a x函数为非线性函数,但是分类结果已经由G A P层和F C层决定,因此分类器是线性的。在得到每一种类别对应热图的过程中,只需要将F C层每种类别对应的权值与每个通道的特征图相乘,之后将每个通道的特征图相加求和,即可得到每个类别对应的热图,如式(3)所示。S A R-B a g N e t模型的总体架构与R e s N e t-1 8相似,都采用了1 8层的卷积层以及残差连接。残差连接结构可以减缓深度学习模型训练过程中的退化问题,有利于梯度的反向传播。此外,由于S A R图像数据难获取,因此S A R图像分类数据集一般都是小数据集,采用1 8层的卷积层的小型神经网络可以缓解训练过程
24、中的过拟合问题。2.2 坐标注意力侯齐斌等人在文献2 1 中提出了坐标注意力模块,坐标注意力通过精确的位置信息对通道关系和空间位置关系进行编码,它不仅捕获跨通道信息,还捕获方向感知和位置敏感信息,这有助于模型更准确地定位和识别感兴趣的对象。具体操作可以分为坐标信息嵌入和坐标注意力生成2个步骤。在坐标信息嵌入的过程中,全局平均池化方法通常用于通道注意编码空间信息的全局编码。然而,由于它将全局空间信息压缩到一个单元中,导致难以保存位置信息。因此,坐标注意力分别沿高度H和宽度W方向对特征图进行一维的池化操作。具体来说,给定输入的CHW的特征图X,首先使用尺寸为(H,1)或(1,W)的平均池化核分别沿
25、着水平坐标x和垂直坐标y对每个通道进行编码。因此,高度为h的第c通道的输出可以表示为:zhc(h)=1W0iWxc(h,i)(7)同样,宽度为w的第c通道的输出可以写成:zwc(w)=1H0jHxc(j,w)(8)式(7)和式(8)分别沿2个空间方向聚合特征,得到1对方向感知的特征图,这2种变换可以使坐标注意力模块捕捉到沿着一个空间方向的长期依赖关系,并保存沿着另一个空间方向的精确位置信息,这有助于模型捕捉到感兴趣的区域。在坐标注意力生成的过程中,首先对式(7)和式(8)的结果进行连接(C o n c a t)操作,得到C1(H+W)维的特征图,然后经过卷积核大小为11,通道数为C/r的卷积层
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 改进 可解释 SAR 图像 识别 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。