分销赏收藏举报申诉 / 11

立即下载 VIP下载

当前位置：首页 > 学术论文 > 自然科学论文 > 基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf

基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf

上传人：自信****多点

文档编号：244865

上传时间：2023-05-06

格式：PDF

页数：11

大小：2.14MB

《基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf》由会员分享，可在线阅读，更多相关《基于Mask_R-CNN卷积神经网络的虹膜分割_敬红燕.pdf（11页珍藏版）》请在咨信网上搜索。

1、基于 Mask R-CNN 卷积神经网络的虹膜分割敬红燕,彭静,吴锡,李孝杰(成都信息工程大学计算机学院,成都610225)通信作者:彭静,E-mail:摘要:针对虹膜图像中存在眼镜遮挡、模糊、角度偏差等不同噪声因素,我们设计了一种基于 MaskR-CNN 的卷积神经网络(convolutionalneuralnetwork,CNN),命名为 Mask-INet,用于虹膜分割.该网络在特征提取阶段为特征金字塔添加了一条自底向上的路径,既提高了底层到顶层特征的定位信息,增强语义信息融合,又进一步加快了底层到顶层的传播效率,有效提升对虹膜特征提取的准确性.为了进一步挖掘特征图中的特征信息,在掩模预

2、测分支阶段,我们引入上采样和 CBAM 网络(convolutionalblockattentionmodule),利用上采样提高特征图的空间分辨率,利用CBAM 网络让特征图中的显著信息更加显著,增强对特征的判别性.该方法在 NIR-ISL2021 比赛提供的虹膜数据集进行了验证.在相同实验条件下与该赛事的冠军相比,该方法的各项指标均优于其网络.与基线 MaskR-CNN 相比,该方法的 Dice 相似系数、平均交并比、召回率分别提升了 8.53%、11.97%、8.88%,提升了虹膜分割效果.关键词:虹膜分割;特征金字塔;MaskR-CNN;残差网络;CBAM;图像分割引用格式:敬红燕,彭

3、静,吴锡,李孝杰.基于 MaskR-CNN 卷积神经网络的虹膜分割.计算机系统应用,2023,32(2):8393.http:/www.c-s- R-CNN-embedded Convolutional Neural Network for Iris SegmentationJINGHong-Yan,PENGJing,WUXi,LIXiao-Jie(SchoolofComputerScience,ChengduUniversityofInformationTechnology,Chengdu610225,China)Abstract:Inresponsetodifferentnoisesini

4、risimages,suchasocclusionbyglasses,blur,andangledeviation,thisstudydesignsaconvolutionalneuralnetwork(CNN)embeddedwithMaskR-CNN,namedMask-INet,foririssegmentation.Thenetworkaddsabottom-uppathtothefeaturepyramidinthefeatureextractionstage,whichnotonlyimprovesthelocalizationinformationofbottom-to-topf

5、eaturesandenhancessemanticinformationfusionbutalsofurtheracceleratesbottom-to-toppropagationefficiencyandeffectivelyimprovestheaccuracyofirisfeatureextraction.Tofurtherexplorethefeatureinformationinthefeaturemap,thestudyintroducesupsamplingandaconvolutionalblockattentionmodule(CBAM)networkinthemaskp

6、redictionbranchingstage.Upsamplingisusedtoimprovethespatialresolutionofthefeaturemap,andtheCBAMnetworkhelpsmakethesalientinformationinthefeaturemapmoresignificantsoastoenhancethediscriminationcapacityforthefeatures.ThemethodisvalidatedontheirisdatasetprovidedbytheNIR-ISL2021competition.Themethodoutp

7、erformsthenetworkofthechampionoftheeventintermsofallindicatorsunderthesameexperimentalconditions.ComparedwiththebaselineMaskR-CNN,theproposedmethodhastheDicesimilaritycoefficient,meanintersectionoverunion(mIoU),andrecallimprovedby8.53%,11.97%,and8.88%,respectively,whichboostsirissegmentationperforma

8、nce.Key words:irissegmentation;featurepyramid;MaskR-CNN;residualnetwork(ResNet);convolutionalblockattentionmodule(CBAM);imagesegmentation计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):8393doi:10.15888/ki.csa.008971http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国

9、家重点研发计划(2020YFA0608001);国家自然科学基金面上项目(42075142);四川省科技厅科技计划(2022YFG0026,2021YFG0018,2020JDTD0020,2019ZDZX0007)收稿时间:2022-06-28;修改时间:2022-07-25,2022-09-01;采用时间:2022-09-04;csa 在线出版时间:2022-12-06CNKI 网络首发时间:2022-12-07SystemConstruction系统建设831引言虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分,这个圆环部分里面包含了许多相互交错的细节特征,而在生物特征中,虹膜的这些细节特征

10、并不会随着年龄的增长而发生任何改变,因此虹膜可以作为识别生物身份的一种方法.虹膜特征也因其独特性、稳定性以及不可更改性在国防和安全方面均发挥着十分重要的作用1,2.虹膜识别因此也被认为是 21 世纪最有前途的生物识别技术3,被广泛应用于各种生物特征识别应用,包括智能解锁4、边境控制5、取证等.一个完整的虹膜识别系统流程通常包括以下 4 个步骤:虹膜图像采集、虹膜预处理、特征提取和匹配6.作为虹膜预处理的一部分,虹膜分割定义了用于特征提取和匹配的图像区域,因此直接影响虹膜整体识别性能7.由此可见虹膜分割在虹膜识别中占有重要意义,分割算法的鲁棒性和准确性直接决定了后续虹膜特征提取、验证和识别8.近

11、年来,基于深度学习的图像处理研究越来越深入,取得的成就也非常可观.相较于传统的虹膜分割方法,基于深度学习的虹膜分割方法更加具有鲁棒性和识别性.2015 年,Long 等人提出全卷积神经网络(fullyconvolutionalnetwork,FCN)9开创了语义级别的图像分割先河,随后各种语义分割网络如雨后春笋,纷纷涌现.如 UNet10、SegNet11、PsPNet12以及 DeepLab 系列.其中 DeepLab 系列作为语义分割的经典模型,取得了非常不错的分割成果.DeepLabv113针对池化降低分辨率问题,提出了空洞卷积来扩展视野,以便获取更多的上下文信息.DeepLabv214

12、主要贡献在于提出了空洞空间金字塔池化(atrousspatialpyramidpooling,ASPP),其使用不同采样率的空洞卷积并行采样生成多尺度特征图,用于处理尺度可变性问题.DeepLabv315基于图像层次将全局背景进行编码得到图像级特征,增强了 ASPP,进一步提升了分割精度.2017 年 Trans-former 横空出世,随着 Transformer 在自然语言领域的应用和普及,其也逐渐被应用到计算机视觉领域中.Valanarasu 等人16提出的 MedT 基于 Transformer 的编码器架构来分割医学图像,取得了很好的性能.最早将深度学习方法应用到虹膜分割领域是 Ja

13、lilian 等人17提出的全卷积编码解码网络(FCEDNs),实验表明FCEDMNs 的分割结果优于传统的算法.Lian 等人18提出了 ATT-UNet,将 UNet 与注意力结合,取得了不错的分割效果.Wang 等人19基于转移学习提出一种新的训练方法,该方法是以 ResNet34 为骨干的经典UNet 架构,采用两个基于 UNet 的独立模型来执行虹膜的分割和定位任务,提高了模型的泛化能力.最终获得了 NIR-ISL2021 虹膜比赛的冠军.由于语义分割只根据不同语义像素进行分割,不能区分不同实体,因此出现了实例分割,即在检测到目标以后再对其进行分割.He 等人20提出的 MaskR-

14、CNN 在 FasterR-CNN21的基础上增加了一个分支用于语义分割,即对检测到的目标框进行目标分割.从而实现实例分割并且通过大量实验证明该网络模型达到了较高的分割精度.上述基于深度学习的分割算法网络被广泛应用于图像分割领域,在虹膜分割任务中也取得了不错的成果.但是对于存在各种噪声因素的困难样本分割效果不是很好,存在分割边缘不够圆滑、漏分、错分等情况.针对这一问题,本文提出了基于 MaskR-CNN 神经网络的 Mask-INet 模型.该模型以 MaskR-CNN 为基本框架,结合了特征金字塔和混合注意力机制.MaskR-CNN 网络在语义分割的基础上对同类的物体能够进行更加精细的分割,

15、能进一步减少虹膜错分的情况.我们利用特征金字塔高层特征进行上采样与底层特征自下而上的连接结构来提取虹膜图像特征.特征金字塔这种连接结构融合了低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图,加深了对虹膜特征信息的挖掘.特征金字塔在提取虹膜特征信息过程中虽然容易获取高层语义信息但是对于底层的定位信息却难以获取,会导致检测精度不高.为了提升虹膜最终的分割精度,给特征金字塔添加了一条自下而上的路径,这条路径不仅充分利用高层语义信息同时也充分利用了底层定位信息来挖掘虹膜特征,极大提高了检测精度.为了进一步挖掘虹膜特征,我们在掩模预测分支引入两个上采样层将虹膜特征图的空间分辨率放

16、大 4 倍.再将注意力机制引入改进的掩模预测分支中,注意机制能加强虹膜特征区域的权重信息,抑制无关信息对模型的打扰,能有效提升模型的分割精度和灵敏度.2准备工作 2.1 残差网络卷积神经网络是目前计算机视觉领域中主要的特征提取技术22.传统的卷积神经网络在信息传递计算机系统应用http:/www.c-s-2023年第32卷第2期84系统建设SystemConstruction过程中总是存在着信息丢失、梯度消失或梯度爆炸的问题,因此不能训练很深的网络.理论上,越深的网络输入表示能力越强的特征,但随着网络的加深,参数量和计算力也会增加,从而影响网络的训练效果造成网络退化.He 等人22

17、提出的残差网络很好地解决了这个问题.残差网络由一个个残差单元模块叠加组成,一个残差单元的输入与输出可以用式(1)表示:yl=h(xl)+F(xl,Wl)xl+1=f(yl)(1)其中,xl和 xl+1分别代表当前这个残差单元的信号输入和输出,l 代表层,h(xl)代表当前残差单元的恒等映射即 identitymapping,F()是残差部分,一般由 2 个或者 3 个卷积操作构成,Wl表示为该部分卷积的权重,f()为 ReLU 激活函数.残差单元的残差式跳跃结构打破了传统 n1 层的输出只能传给 n 层的惯例,使得随意某层的输出可以跳跃多层作为后层的输入,这样做的好处在于虽然增加了网络结构的深

18、度但网络并未退化且训练效果非常好,为以后在模型叠加上提供了新的方向.2.2 特征金字塔识别不同尺寸的目标是计算机视觉的一个基本挑战23.在目标检测任务中,许多网络如 YOLO124,利用卷积层提取特征,经过多个池化层输出小尺度的特征图,利用这个单个特征图进行后续的分类和边界框的回归,但是对于目标大小不同的物体来说存在一定的缺陷.因此文献 23 提出了特征金字塔网络.传统的特征提取使用人工,在图像金字塔上构建特征金字塔(简称特征化图像金字塔)25,其任务是提取不同尺度图片的特征.但是这样做增加计算量的同时还会消耗大量内存.随后人们使用深度卷积网络(ConvNets)提取特征,其做法是直接取高层语

19、义特征进行预测,但是由于感受野的问题,对于小特征的物体可能存在检测不到的情况.为了改善上述问题,SSD26提出输出不同尺度的特征图预测.但底层特征图的语义信息薄弱导致出现虽然框选出小物体但很容易将小物体错分类的情况.针对上述 3 种问题,FPN 提出基于自底向上提取各层语义特征,进行自顶向下的连接中融合自底向上的特征图,再输出各个尺度特征图的预测.FPN 的结构图如图 1 所示,自底向上的过程中利用 ResNet 每级最后一个残差块的输出作为预测特征的输入,其分别对应输入图片的下采样倍数为4,8,16,32.自顶向下的过程中通过上采样的方式将顶层的小特征图放大到同上一个 stage 的特征图尺

20、度相同,再同经过 11 卷积的残差块最后一层的特征图作逐元素相加操作.C1(BN+ReLU)C2C3C4C5P5P4P2P3P6Conv2D(11)MaxPool(11)Conv2D(33)2UpSampleElement-wise sum图 1特征金字塔结构 2.3 CBAM近年来,为了提升网络的性能,研究人员不仅将研究重心放在了如何利用网络的宽度、深度和基数这几个因素来提升网络的性能.同时对注意力的研究也不断加深.Googlemind 团队在文献 27 中将注意力机制引入 RNN 模型中进行图像分类,注意力才正式进入计算机视觉领域.在掩模预测分支进行特征提取时,一些分布在特征图某些通道中的

21、无效信息会被保留下来影响虹膜的分割精度.因此,我们引入 CBAM 强调所需分割的目标.相较于 SE-Net28只关注通道的注意力机制而言,CBAM 结合了空间注意力机制和通道注意力机制29,不仅考虑到不同通道像素的重要性,还考虑到同一通道的不同位置的像素重要性.CBAM 是基于注意力机制的轻量级通用模型,能融入到各种常规的卷积层中.对上采样后的特征图,CBAM 从通道和空间两个维度计算该特征图的注意力图,增强对目标物体的识别.结构如图 2 所示,CBAM 由通道注意力机制和空间注意力机制串行组成,通道子模块在共享网络中分别使用最大池化和平均池化聚合特征图的空间信息,生成两个不同上下文的描述符,

22、对得到的两个特征做相2023年第32卷第2期http:/www.c-s-计算机系统应用SystemConstruction系统建设85加和 Sigmoid 处理得到通道注意力图 Mc.空间子模块利用沿通道轴汇聚的相似的两个输出,并将它们转发到卷积层,再做 Sigmoid 处理得到空间注意力图 Ms.CBAM 将得到的 Mc同输入的 feature 按元组进行乘法操作再经过空间注意力机制得到 Ms与通道注意力机制得到的特征同样按元素进行乘法操作.可用如下公式表示:F=Mc(F)F(2)F=Ms(F)F(3)其中,F 表示输入特征,Mc(F)表示经过通道注意力机制所获取的特征.表示按元

23、素相乘.Ms(F)表示将通道注意力机制所得到的特征经过空间注意力机制得到的特征,F表示 CBAM 最终获取的特征.McMsChannel attention moduleSpatial attention moduleConv2dRefined featureInput featureMaxPool,AvgPoolMaxPool featureReLU functionElement-wise productChannel attention mapElement-wise sumSigmoid functionAvgPool featureMaxPoolAvgPoolSpatial atte

24、ntion map图 2CBAM 网络结构3Mask-INet 算法本文使用 ImageNet30预训练的残差网络作为主干网络,结合改进后的特征金字塔,在掩模预测阶段利用上采样层来增大特征图的空间分辨率,进一步挖掘虹膜特征的空间信息.随后引入第 2.3 节介绍的 CBAM 机制激励重要特征信息,抑制无用信息.再同未经过 CBAM 网络的特征图进行逐元素相加,从而提升虹膜的分割精度.Mask-INet 是一种端到端的网络,以处理成 coco 格式的虹膜图像为输入,经多次训练后输出虹膜的掩码和定位.该网络总体结构如图 3所示.Mask-INet 模型使用残差结构有效避免了因网络加深而造成的模型退化

25、问题.同 FPN23相比,改进后的 FPN 不仅保留了 FPN 模块融合后浅层高分辨率的特征如高层的语义信息和底层的边缘信息同时也充分利用了底层的边缘信息来获取定位信息,使得每层特征既具有高层语义信息又具有底层的定位信息.由于本文数据属于红外图像,而在红外图像中,背景和目标的对比度较低,不同实例的辨别主要依靠轮廓特征信息,因此在掩模预测分支中添加注意力机制来提升对有效特征提取的能力.3.1 PA-FPN在 MaskR-CNN 中引入特征金字塔网络结构能较好地检测不同尺度的物体,但是在实验过程中仍存在检测精度较差的情况,容易造成虹膜漏分.这是由于FPN 是自顶向下的模式,只将相邻的特征进行直接融

26、合,而底层特征却无法影响高层特征,也就是说高层特征难以获取底层特征的定位信息,因此导致难以对目标进行精确定位31.为了充分利用底层定位信息,提高对目标的检测精度,为 FPN 添加了一条自底向上的路径,如图 4,该结构使得低层信息更容易传递到高层顶部,有效利用底层的定位信息,提高了检测精度.之前底层特征只能通过特征金字塔,现在能直接通过该结构传播到顶层,进一步提高了传播效率.为了方便后续使用,将其简称为 PA-FPN.计算机系统应用http:/www.c-s-2023年第32卷第2期86系统建设SystemConstructionInput imagesBackboneFeature

27、 mapRPNHead77C1414CFCFast R-CNNpredictorOutput imagesDeConv2D(22)ProposalsConv2D(33)Conv2D(11)ROI alignSpatial attentionmoduleMaskClassBbox regressionResNetCBAMSoftmax functionImproved mask headPAFPNElement-wise sum图 3Mask-INet 模型的网络架构概述C1(BN+ReLU)P2N2C2C3C4C5N6N3P3P4P5P6N4N5N2Input2D SubSample2D Up

28、SampleConv 2D(11)Conv 2D(33)MaxPool(11)Element-wise sums=2s=2图 4PA-FPN 结构图图中输入为残差网络模块输出的权重向量.具体如表 1 所示,输入图片大小为 5125123,C2 到 C5 通道数列表为64,128,256,512分别对应表 1 中 P2 到P5 的输入尺寸.为了使每个特征图在融合时保持一致,需要对每个特征层得到的特征图进行一个 11 卷积操作,再将高层特征图进行一次 2 倍上采样与同尺度特征图进行融合,最后经过一个 33 的卷积得到 P2 到P5,通道数均为 256.得到的特征金字塔特征图列表为2023年第32卷

29、第2期http:/www.c-s-计算机系统应用SystemConstruction系统建设87P2,P3,P4,P5,P6,如图 3 红色虚线框部分,令P2=N2,对 N2 进行 stride=2,kernel=33 的卷积操作,然后再进行下采样,得到为原来的一半的特征图记为N2,将 N2与 P3 进行逐元素融合,为了消除上采样带来的混叠效果,再通过一个 33 的卷积层,最后生成特征图 N3,在这过程中通道数均为 256.重复此操作,最后输出特征图记为N2,N3,N4,N5,N6,其中 N6 是N5 通过一个大小为 11,步距为 2 的最大池化层实现下采样得到的.N2,N3,N4

30、,N5的空间分辨率与横向连接传递的P2,P3,P4,P5互相对应.我们将最终得到的金字塔特征图N2,N3,N4,N5,N6用于后续RPN 网络的输入.3.2 Improved-MaskHead(I-MH)MaskR-CNN 中有 3 个分支,一个用于预测分类、一个用于预测边界框回归、一个用于预测分割掩码,这 3 个分支并行处理,为每一个检测类别独立预测出掩码从而消除跨类别的竞争.尽管 MaskR-CNN 相较其他算法有一定的优越性,但是在掩模分支处理虹膜特征图的过程中发现空间分辨率较低,导致信息损失较多,所以本文在原始的掩码分支中加入了上采样层,将原始特征图的分辨率增大了 4 倍.预测虹膜图像

31、掩模的本质问题是语义分割,而语义分割对特征图的空间分辨率更为敏感,分辨率更高的特征图,更接近原的分辨率,信息损失更少,更有助于分割语义信息.本文使用带有参数的反卷积层来进行上采样操作,因为带有参数的反卷积层比不带参数的反卷积层更能适应不同的任务,更具泛化能力.Mask 分支模块的结构图如图 5 所示,输入为经过RoIAlign 得到的特征,通道大小为 256,最终输出特征图大小为 56562.具体参数如表 2 所示,其中 numcls代表类别数这里为 2.表 1PA-FPN 结构LayernameInputsizeOutputsizePA-FPNlayerP56464512646425611,

32、33,stride1P4(6464512128128256)12812825611,33,stride2P3(128128256256256128)25625625611,33,stride2P2(25625612851251264)51251225611,33,stride2N251251225651251225633,stride1N3(512512256256256256)256256256332,stride2N4(256256256128128256)128128256332,stride2N5(1281282566464256)6464256332,stride2N66464256

33、323225611,stride2RoI align1414256141425614142562828256282825628282565656256ConvDeconv图 5Mask 分支结构图改进后的 mask 分支是由 4 个 33 的卷积层,两个 22 的反卷积层和一个全连接层组成.表 2 中 RoIAlign 输入尺寸为 hw256 的特征图,其中 hw 是指输入任意的空间分辨率.在这过程中通道数始终保持为 256.RoIAlign 输入的特征图利用表中 mask_fcn1、mask_fcn2、mask_fcn3、mask_fcn4 等 4 个卷积层对特征进行空间信息挖掘,同时利用

34、mask_deconv1、mask_deconv2 两个反卷积层将特征图的分辨率增大,增强特征的空间信息,便于生成质量更好的虹膜图像掩码.最后通过一个 11 的卷积,卷积核个数为分类个数,得到预测后的每个类别的 mask 且大小均为5656.表 2添加了上采样层的掩模预测分支结构LayernameInputsizeOutputsizeMaskbranchlayerRoIAlignhw2561414256Maxpoolmask_fcn11414256141425633,256,stride1mask_fcn21414256141425633,256,stride1mask_deconv11414

35、256282825622,256,stride2mask_fcn32828256282825633,256,stride1mask_fcn42828256282825633,256,stride1mask_deconv22828256565625622,256,stride2mask_fcn556562565656numcls11,numcls,stride1计算机系统应用http:/www.c-s-2023年第32卷第2期88系统建设SystemConstruction 3.3 损失函数在训练模型的过程中,需要通过损失函数来定义该模型预测的好坏及优化的目标.损失函数越小表明模型的

36、鲁棒性越好.总的损失函数为式(4),L 是 3 个损失函数的总和.L=Lcls+Lbox+Lmask(4)其中,Lcls为分类损失函数,表示如式(6):Si=eaiTk=1eak(5)Lcls=Ti=1yilogSi(6)本文基于 Softmax 函数来计算 RPN 网络的交叉熵损失.式(5)中符号 ai表示类别 i 经过网络前向传播后所得分,T 为分类的类别个数,Si表示类别 i 经 Softmax函数计算得到的概率.式(6)中 yi表示真实标签,Si表示所得概率.式(4)中 Lbox为回归损失函数,表示如式(7):Lbox=0.5x2,if|x|1|x|0.5,otherwise(7)x=

37、f(xi)yi其中,为真实值与预测值之间的数值差值.式(4)中 Lmask为分割损失函数,表示如式（8）:Lmask=nk=1?yklogyk+(1?yk)log(1?yk)(8)?ykyk输入掩模预测分支的图像会经过一系列的卷积层、反卷积层之后输出总的类别的特征图,这一分支的损失函数定义为平均二值交叉熵损失函数.式(8)中 n 代表 n 种类别,代表模型预测样本为正的概率,代表样本真实标签,如果样本为正,取值 1,否则取值 0.4数据集 4.1 实验数据及数据增强本文借助 2021 年举办的 NIR-ISL2021 比赛一项与 IJCB2021 联合举办的基准测试挑战比赛中所提供的数据集,包

38、括 CASIA-Iris-Asia、CASIA-Iris-M1和 CASIA-Iris-Africa19.CASIA-Iris-Asia 包含了亚洲人在非合作环境的各种近红外虹膜图像19.该数据集是由 CASIA-Iris-Distance 和 CASIA-Iris-Complex 所组成.这些数据集使用不同的移动设备从不同场景和环境下获得.该比赛提供的 CASIA-Iris-Complex 数据集共 1000 张,其中包括遮挡虹膜图像 500 张和虹膜角度偏离图像 500 张.CASIA-Iris-Distance 数据集 400 张.本文从这 3 部分数据集随机平等的抽取共 900 张虹膜

39、图像作为训练数据,剩余的图像作为测试数据.CASIA-Iris-M1 是一个大型的近红外移动虹膜数据集,包括 3 个子集:CASIA-Iris-M1-S1、CASIA-Iris-M1-S2 和 CASIA-Iris-M1-S3.从 3 个子集中随机且平等的选择共 1800 张图像作为训练数据,以同样的方式选择不相交的 600 张图像作为测试数据.CASIA-Iris-Africa 是非洲第一个大规模的黑人虹膜数据集.从中随机平等的选取 400 张不同噪声类型的虹膜图像作为训练数据,以同样的方式选择不相交的 250 张图像作为测试数据.我们从 3 个数据集中抽取不同类型的虹膜图像,组成我们的数据

40、集.比赛方提供的数据集为一般的分割数据集,本文将该数据集处理成 coco 数据集格式以便使用.所给原始数据如图 6(a)所示,虹膜的位置为标记区域,如图 6(b)所示.(a)Eye(b)Iris图 6眼睛数据一般而言,成功的神经网络需要大量的参数,而能使模型正常工作的大量参数是需要训练海量数据才能得到.在实际情况中,数据的获取非常困难,不仅消耗大量人力财力还浪费时间.所以对于数据量较小的数据集,一般会采用数据增强.本文虹膜数据集中的训练集图片数量较少,很容易导致训练过程出现过拟合的情况,因此使用数据增强来提高模型的泛化能力和鲁棒性.常用的数据增强方法包括图像旋转、翻转、裁剪、缩放、移动等,本文

41、所用到的数据增强方法包括水平翻转、垂直翻转、裁剪和缩放.最后将虹膜图像统一裁剪成 512512 的固定大小.5实验结果与分析 5.1 实验环境及细节本实验是在一台小型深度学习服务器上开展的,2023年第32卷第2期http:/www.c-s-计算机系统应用SystemConstruction系统建设89该服务器的具体配置参数如下:操作系统是 Ubuntu18.04LTS,CPU 型号为 I7-7700K 内存大小为 128GB,显存为 11GB 的 NvidiaGTX2080Ti 显卡.Python 版本为 3.6,PyTorch 版本为 1.6.该实验采用 Adamw 优化算法加

42、快收敛速度,设置 weight-decay 为 0.05,训练 epoch 总数为 100,每个epoch 迭代次数为 1000,BatchSize 设置为 8,初始的学习率为 0.0002,每 20 个 epoch 学习率衰减为原来的0.1.绘制的训练集损失值变化如图 7 所示,横坐标表示训练 epoch 次数,纵坐标表示损失值.当训练到 70 个epoch 后模型损失值趋于收敛.1020304050607080901002.42.22.01.81.61.41.21.00.80.60.40.20EpochLoss图 7损失值变化 5.2 评价指标为了验证所提出网络结构的有效性,本文与不同方法

43、作了对比实验.实验结果评价指标包括常用的分割指标召回率(Recall)、Dice 相似系数(Dice)、平均交并比(mIoU).Recall 是衡量被标注为正的样本占总样本比例的重要指标.如式(9)所示,其中 TP 表示被预测为正样本,真实值也为正样本;FN 表示被预测为负样本,但真实值为正样本.Recall=TPTP+FN(9)|XY|X|+|Y|Dice 是用于衡量真实掩码与分割结果相交集合相似性的度量指标,如式(10)所示,其中表示 X 和Y 两个集合之间的交集.分子系数设置为 2,是因为分母重复计算 X 和 Y 之间相同的元素,为了保证计算结果在0,1 之间.表示 X 和 Y 两个集合

44、的元素总数量.Dice=2|XY|X|+|Y|(10)mIoU 是衡量所有类别交集与并集之比的平均值的指标.如式(11)所示,其中 k 代表类别数,FP 表示被预测为正样本,真实值为负样本.mIoU=1kki=1TPFN+FP+TP(11)5.3 骨干网络选择实验本文分别将 ResNet18、ResNet50 和 ResNet101 作为 MaskR-CNN 的 Backbone,通过表 3 结果显示,在不同场景下的虹膜分割任务中,ResNet50 作为 backbone时,Dice、mIoU 和召回率均为最优.因此本文采用ResNet50 作为本文的 backbone.表 3MaskR-CN

45、N 在 3 种不同 backbone 下的评估对比结果(%)BackboneDicemIoURecallResNet1885.1177.5385.17ResNet5087.0980.8187.48ResNet10186.3478.7686.62 5.4 FPN 实验随着网络层数的加深,检测所需的位置信息越差,为了进一步增强特征图的语义信息以及目标物体的检测精度,在 FPN 中引入一条自底而上的路径(称为 PA-FPN).由表 4 可以知道,使用 PA-FPN 进行训练得到模型的 Dice 值达到了 92.43%,相较原始的 FPN 模型Dice 提升了 2.65%,mIoU 提升了 3.15%

46、,这说明 PAFPN能有效提升图像的分割精度.如图 8 所示是 PA-FPN 与原始 FPN 对比结果,可以看出原始 FPN 对斜视图像的分割效果较差,存在漏分的情况,且虹膜边界分割比较粗糙.相比之下 PA-FPN 分割出的虹膜内外边界更加平滑,分割的最终效果更接近真实标签.表 4PA-FPN 同原模型性能评估对比结果(%)MethodDicemIoURecallMaskR-CNN87.0980.8187.48FPN89.7885.8690.71PA-FPN92.4389.0193.96(c)PA-FPN(a)Original image(b)Label(d)FPN图 8FPN 与 PA-FP

47、N 的模型预测结果对比 5.5 掩码预测分支改进实验虹膜分割在虹膜识别中具有十分重要的作用,本质上是对虹膜进行语义分割.而在语义分割中,空间分辨率的大小会影响对特征空间信息的挖掘.本文利用上采样进一步提取空间信息,如表 5 所示,添加了上采计算机系统应用http:/www.c-s-2023年第32卷第2期90系统建设SystemConstruction样的 MaskR-CNN 在 Dice、mIoU 指标上分别提升了2.75%、2.91%.表 5I-MH 方法同原模型的对比结果(%)MethodDicemIoURecallMaskR-CNN87.0980.8187.48I-MH89

48、.8483.7290.27 5.6 不同注意力机制模块的横向对比实验为了进一步挖掘虹膜的特征信息,我们在第 3.2 节的 I-MH 中引入注意力机制,并同未加注意力以前的特征图作逐元素相加操作,进一步融合特征信息.注意力机制能够让模型更加关注实例区域,减少不相关的信息对目标检测性能的影响.CBAM 能同时兼顾空间和通道的特征信息,能获取更好的效果.本文同 SENet、ECA-Net32等不同的注意力机制作了对比.从表 6 可以看出,添加注意力机制能有效提升虹膜的分割精度.相比其他注意力机制而言,CBAM 的各项指标明显更好.同未加注意力机制的模型对比,Dice 值、mIoU 分别提升了 2.0

49、2%、3.11%.5.7 不同方法性能对比为了说明 Mask-INet 模型的有效性和准确性,我们在相同的数据集上,使用具有相同实验条件的各种模型进行了对比实验,实验结果采用相同的评价标准.不同算法的分割结果如图 9 所示,其中第 1 列为虹膜图像、第 2 列为虹膜的真实标签、第 3 列为 UNet10的分割掩码、第 4 列为 SegNet11的分割掩码、第5 列为 PSPNet12的分割掩码、第 6 列为 DeepLabv315的分割掩码、第 7 列为 T-UNet19方法的分割掩码,第列为文献 MedT16的分割掩码结果,最后一列是本文方法的分割掩码.实验结果表明,UNet、SegNet、

50、PSPNet、DeepLabv3、T-UNet、MedT 等方法对于包含斜视、模糊、眼镜遮挡、睫毛遮挡、瞳孔收缩等困难样本的分割效果较差,存在错分、漏分的情况,且虹膜边缘部分分割不够圆滑,而本文提出的方法虹膜分割结果依然精确,且边缘更加光滑,分割结果更接近真实标签,有效提升了分割精度.表 6不同注意力机制对本文测试数据集的评估对比结果(%)MaskR-CNNI-MH SENet ECA-Net CBAM Dice mIoU Recall89.84 83.72 90.2790.04 85.11 90.3090.97 85.95 90.7391.86 86.83 91.04(a)Original

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Mask_R CNN 卷积神经网络虹膜分割敬红燕

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。