基于中层细微特征提取与多尺度特征融合细粒度图像识别.pdf
《基于中层细微特征提取与多尺度特征融合细粒度图像识别.pdf》由会员分享,可在线阅读,更多相关《基于中层细微特征提取与多尺度特征融合细粒度图像识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2556-2563ISSN 10019081CODEN JYIIDUhttp:/基于中层细微特征提取与多尺度特征融合细粒度图像识别齐爱玲,王宣淋*(西安科技大学 计算机科学与技术学院,西安 710600)(通信作者电子邮箱)摘要:在细粒度视觉识别领域,由于高度近似的类别之间差异细微,图像细微特征的精确提取对识别的准确率有着至关重要的影响。现有的相关热点研究算法中使用注意力机制提取类别特征已经成为一种趋势,然而这些算法忽略了不明显但可区分的细微部分特征,并且孤立了对象不同判别性区
2、域之间的特征关系。针对这些问题,提出了基于中层细微特征提取与多尺度特征融合的图像细粒度识别算法。首先,利用通道与位置信息融合中层特征的权重方差度量提取图像显著特征,之后通过通道平均池化获得掩码矩阵抑制显著特征,并增强其他判别性区域细微特征的提取;然后,通过通道权重信息与像素互补信息获得通道与像素多尺度融合特征,以增强不同判别性区域特征的多样性与丰富性。实验结果表明,所提算法在数据集CUB-200-2011上达到89.52%的Top-1准确率、98.46%的Top-5准确率;在Stanford Cars数据集上达到94.64%的Top-1准确率、98.62%的Top-5准确率;在飞行器细粒度分类
3、(FGVC-Aircraft)数据集上达到93.20%的Top-1准确率、97.98%的Top-5准确率。与循环协同注意力特征学习网络PCA-Net(Progressive Co-Attention Network)算法相比,所提算法的Top-1准确率分别提升了1.22、0.34和0.80个百分点,Top-5准确率分别提升了1.03、0.88和1.12个百分点。关键词:细粒度图像识别;注意力机制;权重方差;掩码矩阵;多尺度融合;中层特征中图分类号:TP391.4 文献标志码:AFine-grained image recognition based on mid-level subtle fe
4、ature extraction and multi-scale feature fusionQI Ailing,WANG Xuanlin*(College of Computer Science and Technology,Xi an University of Science and Technology,Xi an Shaanxi 710600,China)Abstract:In the field of fine-grained visual recognition,due to subtle differences between highly similar categories
5、,precise extraction of subtle image features has a crucial impact on recognition accuracy.It has become a trend for the existing related hot research algorithms to use attention mechanism to extract categorical features,however,these algorithms ignore the subtle but distinguishable features,and isol
6、ate the feature relationships between different discriminative regions of objects.Aiming at these problems,a fine-grained image recognition algorithm based on mid-level subtle feature extraction and multi-scale feature fusion was proposed.First,the salient features of image were extracted by using t
7、he weight variance measures of channel and position information fused mid-level features.Then,the mask matrix was obtained through the channel average pooling to suppress salient features and enhance the extraction of subtle features in other discriminative regions.Finally,channel weight information
8、 and pixel complementary information were used to obtain multi-scale fusion features of channels and pixels to enhance the diversity and richness of different discriminative regional features.Experimental results show that the proposed algorithm achieves 89.52%Top-1 accuracy and 98.46%Top-5 accuracy
9、 on dataset CUB-200-211,and 94.64%Top-1 accuracy and 98.62%Top-5 accuracy on dataset Stanford Cars,and 93.20%Top-1 accuracy and 97.98%Top-5 accuracy on dataset Fine-Grained Visual Classification of Aircraft(FGVC-Aircraft).Compared with recurrent collaborative attention feature learning network PCA-N
10、et(Progressive Co-Attention Network)algorithm,the proposed algorithm has the Top-1 accuracy increased by 1.22,0.34 and 0.80 percentage points respectively,and the Top-5 accuracy increased by 1.03,0.88 and 1.12 percentage points respectively.Key words:fine-grained image recognition;attention mechanis
11、m;weight variance;mask matrix;multi-scale fusion;mid-level feature0 引言 近年,细粒度图像识别任务在计算机视觉、模式识别、人工智能等众多领域掀起了一阵热潮,在农业界和工业界也都获得了极大的关注度。细粒度图像识别对高度近似的类别之间实现更精细的类别划分,例如不同种类的鸟、汽车、飞机等。由于存在光照、目标对象姿态以及背景干扰等不确定因素,通常细粒度图像识别的难点在于类别内部仅存在细微差异,并文章编号:1001-9081(2023)08-2556-08DOI:10.11772/j.issn.1001-9081.2022071090收
12、稿日期:20220727;修回日期:20221103;录用日期:20221107。基金项目:国家自然科学基金资助项目(61674121)。作者简介:齐爱玲(1972),女,陕西西安人,副教授,博士,主要研究方向:人工智能、数字图像处理;王宣淋(1997),男,河南洛阳人,硕士研究生,主要研究方向:图像处理、人工智能。第 8 期齐爱玲等:基于中层细微特征提取与多尺度特征融合细粒度图像识别且传统的卷积神经网络(Convolutional Neural Network,CNN)难以捕获图像间具有判别性区域的细微特征容易导致识别错误。因此,研究如何有效提取细粒度图像中具有判别性区域的细微特征是解决细粒
13、度识别问题的关键。现有的细粒度识别算法主要分为两类1:第一类是基于强监督细粒度图像识别的研究算法,首先在辨别对象区域定位并标注信息,然后依据可辨别区域进行分类。例如 Wei等2提出的Mask-CNN算法以端到端的方式将深度CNN应用到细粒度图像识别任务中,利用画图框、标注等方法定位特定目标的头部、羽毛和躯干等具有判别性的部位后进行局部与整体融合提取判别性区域特征,通过支持向量机(Support Vector Machine,SVM)分类器得到最终的分类结果;Zhang等3提 出 的 Part R-CNN(Region-based Convolutional Neural Network)算法利
14、用自动检测功能选择关键的具有判别性部位的候选框,通过目标检测算法对候选框部位进行检测识别,从中挑选得分较高且特征区域较明显的部分送入卷积网络中用于训练SVM分类器。强监督算法在识别精度和模型泛化性能上均有显著提升,但该类算法需要图片标签信息、物体的标注框和部件位置等特征信息,对于识别任务来说操作步骤非常复杂,容易出现错误,极大降低了图像细粒度识别的效率。综上所述,强监督算法极大限制了在实际场景中的应用4。因此,一些学者提出了细粒度图像分类的弱监督识别算法。第二类弱监督算法优点在于不使用局部语义标注,仅仅利用图像真实类别标签就能定位局部关键区域,其中主要通过注意力机制,以弱监督的方式自动定位判别
15、性区域,不需要额外的注释。通常设计具有注意力模块的子网络以定位具有判别性区域,而后用于分类网络进行识别,但是这些算法的注意力模块与损失函数很难进行优化。此外,过于关注显著判别区域容易忽略其他具有判别性区域的细微特征。例如 Chen等5提 出 DCL-Net(Destruction and Construction Learning Network)算法对输入图像通过区域混淆注意模块进行破坏,再通过区域对齐网络重建图像以提取局部判别性区域特征。DCL-Net算法有效提高了细粒度识别的准确率,但破坏了图像的整体结构,破坏了类间其他具有判别性区域的细微特征,从而制约判别性区域细微特征的有效利用。Ya
16、n等6提出了一种渐进式定位注意力网络(Progressive Patch Localization Network,PPL-Net),更加准确、快速地定位具有判别性的区域。PPL-Net算法利用分类模块找到最具判别性的目标对象区域,将显著部分区域送入特征提取网络中进行分类识别,然后擦除最显著的区域,以帮助定位下一个最具判别性的区域。此外,PPL-Net算法利用全局信息选择性地突出判别性特征并抑制无用信息,帮助识别网络获得更高的识别正确率。Zhang等7提出了一种循环协同注意力特征学习网络 PCA-Net(Progressive Co-Attention Network),其中的协同注意力模块通
17、过对比图像对学习具有判别性区域,注意力删除模块通过删除最显著区域部分特征学习目标图像的潜在细微特征。Zhao等8提出了一种基于拓扑图关系算法建立对高阶细粒度图像信息关系的上下文理解,通过一种有效的依赖关系察觉模块来学习位置和语义特征信息,从而获得细粒度对象关键的上下文潜在细微特征,提高了识别效率。Wei等9提出两级渐进式 注 意 力 卷 积 神 经 网 络(Two-level Progressive Attention Convolutional Network,TPA-CNN),不但可以获取具有判别性的区域,还可以随机选择辨别性区域的个数。TPA-CNN算法由多通道注意力融合(Multi-C
18、hannel Attention-Fusion,MCAF)和跨层元素注意力(Cross-layer Element Attention,CEA)两个模块组成:MCAF模块学习显著特定区域特征图的通道信息;CEA模块为特定特征像素分配权重值。两个模块共同作用可以达到较高的识别率。杨绿溪等10提出一种基于多尺度特征融合的图像细粒度识别算法,首先利用特征金字塔方式融合多尺度特征,通过特征提取网络获得各层特征图;其次根据金字塔方式相加融合各层特征;最后对融合后的各层特征语义信息进行双线性操作获得预测结果。然而,使用特征相加作为融合操作使得深层语义特征表述不完整且容易造成空间特征冗余。Ji 等11提出了
19、注意力卷积二叉神经树(Attention Convolutional Binary Neural tree,ACB-Net)特征学习算法,该算法将注意力模块与树型结构相结合,实现从粗到细分层结构下细粒度图像细微判别区域特征学习,树型结构描述由粗到细分层特征学习过程,最终通过对叶节点的预测进行决策。上述研究表明,弱监督算法中使用各种注意力模块的确能够定位到目标对象判别性区域12-14,减少目标图像背景的干扰,提升细粒度图像识别准确率;然而,对于得到的判别性区域,虽然包含了目标对象的部分细微特征,但是类内判别性差异甚微并且没有注意到目标对象判别性区域显著信息与其他具有判别性区显著信息的关系,造成多
20、个特定判别区域显著特征信息孤立不相关,导致目标对象细微特征有效信息提取易出错,影响最终识别结果。此外,通过文献 6-7 可知,擦除最具判别性部分特征信息对于细粒度识别任务中捕获全局其他判别性区域是有效的。因此,本文使用ResNet(Residual Network)15作为特征提取网络。首先,提出通道与位置信息融合中层细微特征提取网络(Channel Position Fusion Detail Extraction Network,CPFDEN),通过从特征提取网络中间层中得到特征映射表示,而后提取判别性区域显著特征同时抑制目标对象显著特征,以帮助下一阶段特征提取网络定位更加细微的判别性区域
21、;其次,提出通道与多尺度信息融合网络(Channel Similarity Multi-scale Fusion Network,CSMFN),对得到的相同目标对象不同判别性区域显著特征进行通道语义信息与像素信息互补融合,使对象局部与整体间特征信息具有丰富性与多样性;最后,同时融合具有多个不同判别性区域特征信息,送入支持向量机分类器进行识别。本文算法易于训练,没有增加过多的损耗,在3个公开的细粒度图像数据集上进行识别验证,均有效地提升了识别准确率。1 中层细微特征提取与多尺度特征融合 本文提出了基于中层细微特征提取与多尺度特征融合图像细粒度识别算法。如图1所示,中层细微特征提取与多尺度特征融合
22、算法由两种网络组成,分为通道与位置信息融合的中层细微特征提取网络(CPFDEN)和通道权重信息与像素互补信息多尺度融合网络(CSMFN)。本文使用ResNet作为图像特征提取网络。在通道与位置信息融合中层细微特征提取网络中,为了有效提取类内具有判别性区域细微差异,首先利用ResNet特征提取阶段中间层得到中层特征图,捕捉其局部丰富的具有判别性特征信息,以突出特征图像素权值来得到判别性区域显著特征;其次,利用通道平均池获得自注意力图,最后对自注意力图进行阈值化处理获得掩码矩阵以抑制显著特征,有利于下一个ResNet特征语义信息提取阶段定位2557第 43 卷计算机应用其他具有判别性区域并获取潜在
23、细微特征。通道权重信息与像素互补信息多尺度融合网络是为了将中层细微特征提取阶段获得的多个不同判别性区域的显著特征进行特征通道信息与像素信息互补融合,增强各个判别性区域特征信息间的相关性,使局部与整体对象特征之间的上下文关系更紧密,从而使局部特征信息表示更具有丰富性与完整性。1.1通道与位置信息融合中层细微特征提取网络CPFDEN不仅考虑了通道注意力信息和位置信息,还能获取具有判别性区域显著特征信息,同时利用输入中层特征通道的平均语义信息得到掩码矩阵以抑制显著特征。注意力网络SE-Net(Squeeze and Excitation Network)16只考虑了通道信息而忽略了位置信息的重要性,
24、但位置信息对于细粒度图像识别任务中捕获对象结构很重要。CBAM(Convolutional Block Attention Module)17使用自注意力图提高网络识别的准确率,通过加入空间注意力利用目标对象位置信息,然而卷积只能捕获局部信息,无法建立细粒度识别任务所需要的长期依赖关系。两者都是在通道与空间信息的基础上获得特征权重影响大的特征信息,并未对较显著特征进行抑制,在下阶段网络学习中仍继续关注区域显著特征,不利于细粒度识别任务上学习细微特征。在细粒度图像识别任务中,目标对象位置信息与长距离依赖信息都至关重要,是获取具有判别性区域的关键。深度卷积网络虽然具有很强的局部表达能力,但当网络较
25、深时位置信息与长距离依赖信息较模糊并不能得到完整表示。全局平均池化有助于网络捕获全局信息,因此,通过使用全局池化分别对特征提取网络中层特征图以水平和垂直两个方向进行特征向量编码,同时在两个空间方向上融合,通过1 1卷积进行降维使两个空间方向上通道信息充分交互,最终获得两个具有嵌入方向特定信息的特征图。这两个特征图被分别编码为两个注意力图,每个注意力图沿两个空间方向捕获中层特征图的通道与位置融合语义特征信息。位置信息可以被保存在生成的注意力特征图中,通过乘法将两个注意力特征图应用于中层特征图,以强调细粒度图像具有判别性区域特征图表示。通过突出具有判别性区域的特征图权值来得到显著特征。随后,利用通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 中层 细微 特征 提取 尺度 融合 细粒度 图像 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。