基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf
《基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf》由会员分享,可在线阅读,更多相关《基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf(11页珍藏版)》请在咨信网上搜索。
1、基于 Mask R-CNN 卷积神经网络的虹膜分割敬红燕,彭静,吴锡,李孝杰(成都信息工程大学计算机学院,成都610225)通信作者:彭静,E-mail:摘要:针对虹膜图像中存在眼镜遮挡、模糊、角度偏差等不同噪声因素,我们设计了一种基于 MaskR-CNN 的卷积神经网络(convolutionalneuralnetwork,CNN),命名为 Mask-INet,用于虹膜分割.该网络在特征提取阶段为特征金字塔添加了一条自底向上的路径,既提高了底层到顶层特征的定位信息,增强语义信息融合,又进一步加快了底层到顶层的传播效率,有效提升对虹膜特征提取的准确性.为了进一步挖掘特征图中的特征信息,在掩模预
2、测分支阶段,我们引入上采样和 CBAM 网络(convolutionalblockattentionmodule),利用上采样提高特征图的空间分辨率,利用CBAM 网络让特征图中的显著信息更加显著,增强对特征的判别性.该方法在 NIR-ISL2021 比赛提供的虹膜数据集进行了验证.在相同实验条件下与该赛事的冠军相比,该方法的各项指标均优于其网络.与基线 MaskR-CNN 相比,该方法的 Dice 相似系数、平均交并比、召回率分别提升了 8.53%、11.97%、8.88%,提升了虹膜分割效果.关键词:虹膜分割;特征金字塔;MaskR-CNN;残差网络;CBAM;图像分割引用格式:敬红燕,彭
3、静,吴锡,李孝杰.基于 MaskR-CNN 卷积神经网络的虹膜分割.计算机系统应用,2023,32(2):8393.http:/www.c-s- R-CNN-embedded Convolutional Neural Network for Iris SegmentationJINGHong-Yan,PENGJing,WUXi,LIXiao-Jie(SchoolofComputerScience,ChengduUniversityofInformationTechnology,Chengdu610225,China)Abstract:Inresponsetodifferentnoisesini
4、risimages,suchasocclusionbyglasses,blur,andangledeviation,thisstudydesignsaconvolutionalneuralnetwork(CNN)embeddedwithMaskR-CNN,namedMask-INet,foririssegmentation.Thenetworkaddsabottom-uppathtothefeaturepyramidinthefeatureextractionstage,whichnotonlyimprovesthelocalizationinformationofbottom-to-topf
5、eaturesandenhancessemanticinformationfusionbutalsofurtheracceleratesbottom-to-toppropagationefficiencyandeffectivelyimprovestheaccuracyofirisfeatureextraction.Tofurtherexplorethefeatureinformationinthefeaturemap,thestudyintroducesupsamplingandaconvolutionalblockattentionmodule(CBAM)networkinthemaskp
6、redictionbranchingstage.Upsamplingisusedtoimprovethespatialresolutionofthefeaturemap,andtheCBAMnetworkhelpsmakethesalientinformationinthefeaturemapmoresignificantsoastoenhancethediscriminationcapacityforthefeatures.ThemethodisvalidatedontheirisdatasetprovidedbytheNIR-ISL2021competition.Themethodoutp
7、erformsthenetworkofthechampionoftheeventintermsofallindicatorsunderthesameexperimentalconditions.ComparedwiththebaselineMaskR-CNN,theproposedmethodhastheDicesimilaritycoefficient,meanintersectionoverunion(mIoU),andrecallimprovedby8.53%,11.97%,and8.88%,respectively,whichboostsirissegmentationperforma
8、nce.Key words:irissegmentation;featurepyramid;MaskR-CNN;residualnetwork(ResNet);convolutionalblockattentionmodule(CBAM);imagesegmentation计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):8393doi:10.15888/ki.csa.008971http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国
9、家重点研发计划(2020YFA0608001);国家自然科学基金面上项目(42075142);四川省科技厅科技计划(2022YFG0026,2021YFG0018,2020JDTD0020,2019ZDZX0007)收稿时间:2022-06-28;修改时间:2022-07-25,2022-09-01;采用时间:2022-09-04;csa 在线出版时间:2022-12-06CNKI 网络首发时间:2022-12-07SystemConstruction系统建设831引言虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分,这个圆环部分里面包含了许多相互交错的细节特征,而在生物特征中,虹膜的这些细节特征
10、并不会随着年龄的增长而发生任何改变,因此虹膜可以作为识别生物身份的一种方法.虹膜特征也因其独特性、稳定性以及不可更改性在国防和安全方面均发挥着十分重要的作用1,2.虹膜识别因此也被认为是 21 世纪最有前途的生物识别技术3,被广泛应用于各种生物特征识别应用,包括智能解锁4、边境控制5、取证等.一个完整的虹膜识别系统流程通常包括以下 4 个步骤:虹膜图像采集、虹膜预处理、特征提取和匹配6.作为虹膜预处理的一部分,虹膜分割定义了用于特征提取和匹配的图像区域,因此直接影响虹膜整体识别性能7.由此可见虹膜分割在虹膜识别中占有重要意义,分割算法的鲁棒性和准确性直接决定了后续虹膜特征提取、验证和识别8.近
11、年来,基于深度学习的图像处理研究越来越深入,取得的成就也非常可观.相较于传统的虹膜分割方法,基于深度学习的虹膜分割方法更加具有鲁棒性和识别性.2015 年,Long 等人提出全卷积神经网络(fullyconvolutionalnetwork,FCN)9开创了语义级别的图像分割先河,随后各种语义分割网络如雨后春笋,纷纷涌现.如 UNet10、SegNet11、PsPNet12以及 DeepLab 系列.其中 DeepLab 系列作为语义分割的经典模型,取得了非常不错的分割成果.DeepLabv113针对池化降低分辨率问题,提出了空洞卷积来扩展视野,以便获取更多的上下文信息.DeepLabv214
12、主要贡献在于提出了空洞空间金字塔池化(atrousspatialpyramidpooling,ASPP),其使用不同采样率的空洞卷积并行采样生成多尺度特征图,用于处理尺度可变性问题.DeepLabv315基于图像层次将全局背景进行编码得到图像级特征,增强了 ASPP,进一步提升了分割精度.2017 年 Trans-former 横空出世,随着 Transformer 在自然语言领域的应用和普及,其也逐渐被应用到计算机视觉领域中.Valanarasu 等人16提出的 MedT 基于 Transformer 的编码器架构来分割医学图像,取得了很好的性能.最早将深度学习方法应用到虹膜分割领域是 Ja
13、lilian 等人17提出的全卷积编码解码网络(FCEDNs),实验表明FCEDMNs 的分割结果优于传统的算法.Lian 等人18提出了 ATT-UNet,将 UNet 与注意力结合,取得了不错的分割效果.Wang 等人19基于转移学习提出一种新的训练方法,该方法是以 ResNet34 为骨干的经典UNet 架构,采用两个基于 UNet 的独立模型来执行虹膜的分割和定位任务,提高了模型的泛化能力.最终获得了 NIR-ISL2021 虹膜比赛的冠军.由于语义分割只根据不同语义像素进行分割,不能区分不同实体,因此出现了实例分割,即在检测到目标以后再对其进行分割.He 等人20提出的 MaskR-
14、CNN 在 FasterR-CNN21的基础上增加了一个分支用于语义分割,即对检测到的目标框进行目标分割.从而实现实例分割并且通过大量实验证明该网络模型达到了较高的分割精度.上述基于深度学习的分割算法网络被广泛应用于图像分割领域,在虹膜分割任务中也取得了不错的成果.但是对于存在各种噪声因素的困难样本分割效果不是很好,存在分割边缘不够圆滑、漏分、错分等情况.针对这一问题,本文提出了基于 MaskR-CNN 神经网络的 Mask-INet 模型.该模型以 MaskR-CNN 为基本框架,结合了特征金字塔和混合注意力机制.MaskR-CNN 网络在语义分割的基础上对同类的物体能够进行更加精细的分割,
15、能进一步减少虹膜错分的情况.我们利用特征金字塔高层特征进行上采样与底层特征自下而上的连接结构来提取虹膜图像特征.特征金字塔这种连接结构融合了低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图,加深了对虹膜特征信息的挖掘.特征金字塔在提取虹膜特征信息过程中虽然容易获取高层语义信息但是对于底层的定位信息却难以获取,会导致检测精度不高.为了提升虹膜最终的分割精度,给特征金字塔添加了一条自下而上的路径,这条路径不仅充分利用高层语义信息同时也充分利用了底层定位信息来挖掘虹膜特征,极大提高了检测精度.为了进一步挖掘虹膜特征,我们在掩模预测分支引入两个上采样层将虹膜特征图的空间分辨率放
16、大 4 倍.再将注意力机制引入改进的掩模预测分支中,注意机制能加强虹膜特征区域的权重信息,抑制无关信息对模型的打扰,能有效提升模型的分割精度和灵敏度.2准备工作 2.1 残差网络卷积神经网络是目前计算机视觉领域中主要的特征提取技术22.传统的卷积神经网络在信息传递计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第2期84系统建设SystemConstruction过程中总是存在着信息丢失、梯度消失或梯度爆炸的问题,因此不能训练很深的网络.理论上,越深的网络输入表示能力越强的特征,但随着网络的加深,参数量和计算力也会增加,从而影响网络的训练效果造成网络退化.He 等人22
17、提出的残差网络很好地解决了这个问题.残差网络由一个个残差单元模块叠加组成,一个残差单元的输入与输出可以用式(1)表示:yl=h(xl)+F(xl,Wl)xl+1=f(yl)(1)其中,xl和 xl+1分别代表当前这个残差单元的信号输入和输出,l 代表层,h(xl)代表当前残差单元的恒等映射即 identitymapping,F()是残差部分,一般由 2 个或者 3 个卷积操作构成,Wl表示为该部分卷积的权重,f()为 ReLU 激活函数.残差单元的残差式跳跃结构打破了传统 n1 层的输出只能传给 n 层的惯例,使得随意某层的输出可以跳跃多层作为后层的输入,这样做的好处在于虽然增加了网络结构的深
18、度但网络并未退化且训练效果非常好,为以后在模型叠加上提供了新的方向.2.2 特征金字塔识别不同尺寸的目标是计算机视觉的一个基本挑战23.在目标检测任务中,许多网络如 YOLO124,利用卷积层提取特征,经过多个池化层输出小尺度的特征图,利用这个单个特征图进行后续的分类和边界框的回归,但是对于目标大小不同的物体来说存在一定的缺陷.因此文献 23 提出了特征金字塔网络.传统的特征提取使用人工,在图像金字塔上构建特征金字塔(简称特征化图像金字塔)25,其任务是提取不同尺度图片的特征.但是这样做增加计算量的同时还会消耗大量内存.随后人们使用深度卷积网络(ConvNets)提取特征,其做法是直接取高层语
19、义特征进行预测,但是由于感受野的问题,对于小特征的物体可能存在检测不到的情况.为了改善上述问题,SSD26提出输出不同尺度的特征图预测.但底层特征图的语义信息薄弱导致出现虽然框选出小物体但很容易将小物体错分类的情况.针对上述 3 种问题,FPN 提出基于自底向上提取各层语义特征,进行自顶向下的连接中融合自底向上的特征图,再输出各个尺度特征图的预测.FPN 的结构图如图 1 所示,自底向上的过程中利用 ResNet 每级最后一个残差块的输出作为预测特征的输入,其分别对应输入图片的下采样倍数为4,8,16,32.自顶向下的过程中通过上采样的方式将顶层的小特征图放大到同上一个 stage 的特征图尺
20、度相同,再同经过 11 卷积的残差块最后一层的特征图作逐元素相加操作.C1(BN+ReLU)C2C3C4C5P5P4P2P3P6Conv2D(11)MaxPool(11)Conv2D(33)2UpSampleElement-wise sum图 1特征金字塔结构 2.3 CBAM近年来,为了提升网络的性能,研究人员不仅将研究重心放在了如何利用网络的宽度、深度和基数这几个因素来提升网络的性能.同时对注意力的研究也不断加深.Googlemind 团队在文献 27 中将注意力机制引入 RNN 模型中进行图像分类,注意力才正式进入计算机视觉领域.在掩模预测分支进行特征提取时,一些分布在特征图某些通道中的
21、无效信息会被保留下来影响虹膜的分割精度.因此,我们引入 CBAM 强调所需分割的目标.相较于 SE-Net28只关注通道的注意力机制而言,CBAM 结合了空间注意力机制和通道注意力机制29,不仅考虑到不同通道像素的重要性,还考虑到同一通道的不同位置的像素重要性.CBAM 是基于注意力机制的轻量级通用模型,能融入到各种常规的卷积层中.对上采样后的特征图,CBAM 从通道和空间两个维度计算该特征图的注意力图,增强对目标物体的识别.结构如图 2 所示,CBAM 由通道注意力机制和空间注意力机制串行组成,通道子模块在共享网络中分别使用最大池化和平均池化聚合特征图的空间信息,生成两个不同上下文的描述符,
22、对得到的两个特征做相2023年第32卷第2期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设85加和 Sigmoid 处理得到通道注意力图 Mc.空间子模块利用沿通道轴汇聚的相似的两个输出,并将它们转发到卷积层,再做 Sigmoid 处理得到空间注意力图 Ms.CBAM 将得到的 Mc同输入的 feature 按元组进行乘法操作再经过空间注意力机制得到 Ms与通道注意力机制得到的特征同样按元素进行乘法操作.可用如下公式表示:F=Mc(F)F(2)F=Ms(F)F(3)其中,F 表示输入特征,Mc(F)表示经过通道注意力机制所获取的特征.表示按元
23、素相乘.Ms(F)表示将通道注意力机制所得到的特征经过空间注意力机制得到的特征,F表示 CBAM 最终获取的特征.McMsChannel attention moduleSpatial attention moduleConv2dRefined featureInput featureMaxPool,AvgPoolMaxPool featureReLU functionElement-wise productChannel attention mapElement-wise sumSigmoid functionAvgPool featureMaxPoolAvgPoolSpatial atte
24、ntion map图 2CBAM 网络结构3Mask-INet 算法本文使用 ImageNet30预训练的残差网络作为主干网络,结合改进后的特征金字塔,在掩模预测阶段利用上采样层来增大特征图的空间分辨率,进一步挖掘虹膜特征的空间信息.随后引入第 2.3 节介绍的 CBAM 机制激励重要特征信息,抑制无用信息.再同未经过 CBAM 网络的特征图进行逐元素相加,从而提升虹膜的分割精度.Mask-INet 是一种端到端的网络,以处理成 coco 格式的虹膜图像为输入,经多次训练后输出虹膜的掩码和定位.该网络总体结构如图 3所示.Mask-INet 模型使用残差结构有效避免了因网络加深而造成的模型退化
25、问题.同 FPN23相比,改进后的 FPN 不仅保留了 FPN 模块融合后浅层高分辨率的特征如高层的语义信息和底层的边缘信息同时也充分利用了底层的边缘信息来获取定位信息,使得每层特征既具有高层语义信息又具有底层的定位信息.由于本文数据属于红外图像,而在红外图像中,背景和目标的对比度较低,不同实例的辨别主要依靠轮廓特征信息,因此在掩模预测分支中添加注意力机制来提升对有效特征提取的能力.3.1 PA-FPN在 MaskR-CNN 中引入特征金字塔网络结构能较好地检测不同尺度的物体,但是在实验过程中仍存在检测精度较差的情况,容易造成虹膜漏分.这是由于FPN 是自顶向下的模式,只将相邻的特征进行直接融
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Mask_R CNN 卷积 神经网络 虹膜 分割 敬红燕
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。