基于改进EfficientDet的雪豹红外相机图像检测方法.pdf
《基于改进EfficientDet的雪豹红外相机图像检测方法.pdf》由会员分享,可在线阅读,更多相关《基于改进EfficientDet的雪豹红外相机图像检测方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 28 卷 第 2 期2023 年 4 月哈 尔 滨 理 工 大 学 学 报JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGYVol.28No.2Apr.2023 基于改进 EfficientDet 的雪豹红外相机图像检测方法戴天虹,刘 超(东北林业大学 机电工程学院,哈尔滨 150040)摘 要:针对红外相机图像中雪豹存在难检测、难辨认等问题,提出了一个基于域迁移和新型注意力机制的EfficientDet 雪豹检测算法。该算法首先采用图像增强来扩充训练样本提高模型的鲁棒性,并添加非雪豹图像优化数据集结构;其次,使用生成式对抗网络对夜
2、间红外灰度图像进行域迁移,融合图像迁移前后的预测结果解决夜间红外图像目标识别能力弱的问题;最后通过在主干特征提取网络中加入注意力机制细化特征图来提高 RGB 和红外图像中雪豹的视觉显著性,并且改进特征融合网络结构整合更多有效信息。分析对比实验和消融实验的结果表明,该方法相比 Faster-RCNN、YOLOv3 和 SSD 的检测速度和精度更好,改进后的算法平均精确度为 97.4%且检测速度可达 19 张/s,该检测模型更适合定位识别雪豹 RGB 与红外图像。关键词:雪豹红外相机图像;目标检测;图像增强;域迁移;注意力机制DOI:10.15938/j.jhust.2023.02.013中图分类
3、号:TP391.4文献标志码:A文章编号:1007-2683(2023)02-0108-09Snow Leopard Infrared Camera Image Detection Method Based onImproved EfficientDet ModelDAI Tianhong,LIU Chao(College of Mechanical and Electrical Engineering,Northeast Forestry University,Harbin 150040,China)Abstract:In view of the difficulty of snow leo
4、pard detection and recognition in infrared camera images,a snow leopard detectionalgorithm is proposed based on EfficientDet,which combines domain migration and new attention mechanism.Firstly,the algorithmadopts image enhancement to expand the training sample and adds non-snow leopard images to opt
5、imize the dataset structure to improvethe robustness of the model.Secondly,the Generative Adversarial Networks is used to transfer the domain of night infrared gray image,and the image prediction results before and after migration are fused to solve the problem of weak target recognition ability in
6、infraredimage.Finally,the attention mechanism is added to the backbone feature extraction network to refine the feature map to improve thevisual significance of snow leopard in RGB and infrared images,and the improved feature fusion network structure to integrate moreeffective information.The result
7、s of the contrast experiment and the ablation experiment show that the proposed method has betterdetection speed and accuracy than Faster-RCNN,YOLOv3 and SSD.The improved algorithm has an average accuracy of 97.4%anddetection speed of 19 images/s.This detection model is more suitable for locating an
8、d recognizing snow leopard RGB and infraredimages.Keywords:infrared camera image of snow leopard;object detection;image enhancement;domain migration;attention mechanism 收稿日期:2021-11-29基金项目:中央高校基本科研业务费专项资金(2572019CP17);黑龙江省自然科学基金(C201414);哈尔滨市科技创新人才项(2014RFXXJ086).作者简介:刘 超(1997),男,硕士研究生.通信作者:戴天虹(1963
9、),男,博士,教授,硕士研究生导师,E-mail:th_2000 .0 引 言雪豹被称为“雪山之王”,它们生活在寒冷、缺氧的高原地区,既是高山生态系统的旗舰物种和伞护物种,也是气候变化和水资源安全的指示物种。雪豹已被列入世界自然保护联盟濒危物种红色名录,随着全球气候变暖、猎物的减少、人兽冲突等因素对雪豹的生存构成日益严峻的威胁,对雪豹进行监测和保护目前刻不容缓,而科学高效的监测手段需建立在对基础数据的分析之上,因此精准、快速检测定位红外相机图像中的雪豹有助于生态学者进行种群评估和制定科学的保护应对方法。传统红外相机监测方法1目前仍面临诸多难题:监测影像大量冗余、人工检测识别负荷大、数据时效性差
10、、预测分析不智能等。但近些年随着计算机视觉技术和红外成像技术的快速发展,基于深度学习的目标检测与识别算法在野生动物多样性调查、种群监测跟踪、种群密度评估等科研和保护工作中有着广泛的应用2-3。刘文定等4利用回归算法检测分割图像中野生动物区域并构建基于 VGG16的全局-局部的双通道卷积神经网络模型自动识别马鹿、班羚等国家级陆生保护动物,该模型能有效减少复杂背景对动物识别的影响;Krschens 等5使用YOLO 自动定位识别大象的头部,来帮助生物学家识别野外遇到的大象;何嘉6对在大型数据集上预训练的 SSD 模型进一步使用小型数据集迁移训练,得到适合云南地区的亚洲象检测模型;Schindler
11、等7使用 Mask R-CNN 对夜间视频剪辑后的图像中的鹿等动物进行检测并识别其动作行为,该端到端模型可用于分析动物行为和统计种群数量;Yang等8在 RetinaNet 中添加时间和空间上下文信息模块检测视频中出现的大猩猩,此框架不仅可以检测受遮挡严重的目标还能同时处理多个视频帧。近期对大型猫科动物如东北虎和雪豹的自动检测识别成为红外相机监测领域的研究热点:宫一男等9使用微调(fine-tune)方法训练 YOLOv3 来检测识别昼(RGB)夜(灰度)红外相机图像包含的东北虎、东北豹等野生动物,但该算法对夜间红外图像的识别精度较低;史春姝等10运用 SSD 检测并截取图像中虎的两侧和脸部,
12、相比人工截取能节省大量时间;Kupyn 等11基于改进的轻量级 FD-MobileNet 检测自然场景图像中的东北虎,该算法满足实时检测并且易于嵌入到边缘设备;Miguel 等12应用鲁棒主成分分析方法、阈值化、二值形态学将红外相机图像分为雪豹图像和其他类或空图像,但该算法较端到端模型处理流程多且复杂、计算开销大。上述研究主要聚焦于如何处理复杂背景对检测性能的影响,但目前大型猫科动物保护领域仍缺少对夜间红外灰度图像检测识别的针对性研究。当前雪豹检测领域仍存在以下挑战:一方面,海量影像资料需要专业人员进行人工筛选和个体信息标注,传统人工标记方法耗费大量的时间和人力;另一方面,雪豹多在黄昏和夜间活
13、动的特性导致红外相机记录的多是夜间由红外光源曝光的单色灰度图像,夜间红外灰度图像与日间 RGB 彩色图像相比具有分辨率差、对比度底、视觉效果模糊、含特征信息少等特点,现有模型对夜间红外灰度图像中的目标检测能力较弱。针对以上问题,本研究利用生成式对抗网络改善夜间红外图像的质量,通过数据增强和注意力机制提高模型对复杂背景下红外图像的检测能力。1 本文算法针对夜间红外图像存在的视觉效果模糊问题,本文使用生成式对抗网络 CycleGAN13将夜间红外灰度域图像迁移到日间 RGB 彩色域;为增强雪豹在图像中的视觉显著性,本文提出了一种结合注意力机制的 EfficientDet14检测方法。如图 1 所示
14、,本文提出的模型主要包括域迁移、图像增强、坐标注意力机制模块、EfficientDet 检测模块 4 个部分。图 1 本文算法流程Fig.1 Algorithm flow of this paper1.1 数据集及图像增强本文雪豹的红外相机图像数据集来源于国际野生生 物 保 护 学 会(wildlife conservation society,WCS),该数据集由 35 只雪豹的 790 张夜间红外灰度图像和 468 张日间 RGB 图像组成。901第 2 期戴天虹等:基于改进 EfficientDet 的雪豹红外相机图像检测方法CNN 模型的预测能力受数据集的大小和丰富度影响,数据集越大越
15、丰富训练得到的 CNN 模型提取图像特征的能力就越强,但在野生动物领域的计算机视觉应用过程当中通常没有充分的数据从头训练 CNN 模型。目前通常的做法是利用迁移学习15把在大型数据集如 COCO 数据集上预训练的特征提取网络再使用自己的实验数据训练微调部分参数,由于 COCO 数据集和雪豹数据集的任务相似性较弱、域差异较大,单纯使用由雪豹组成的数据集直接进行迁移学习无法获得用于检测和识别的最佳网络模型,因此本文在纯雪豹数据集 S0 的基础上并入非雪豹数据集 D0 构建多元数据集 S1,用 S1 训练 Effi-cientDet 主干网络不仅能对雪豹进行准确的分类,还对图像中雪豹的高级语义特征具
16、有很强的感知能力。由于东北虎与雪豹在外观和体型上具有一定的相似性且同为大型猫科动物,本文构建的非雪豹数据集 D0 全部是由来自动物园和真实野外环境下的东北虎图像组成,各数据集的具体组成如表 1 所示。表 1 检测数据集的组成Tab.1 Composition of detection dataset数据集训练集测试集S01 006252D01 500375S12 506627 对纯雪豹数据集 S0 中的图像统计分析发现存在以下现象:背景环境高度杂乱、目标受其它物体遮挡、相机拖影现象产生高噪声、光照条件不受限制等,这些给雪豹检测带来了极大的困难,如图 2所示。图 2 难检测样本实例Fig.2 S
17、amples difficult to detect本文在 EfficientDet 训练阶段随机采用随机擦除、水平翻转、颜色噪音、放缩图片、HSV 色域扭曲等数据增强手段扩充训练样本,数据增强手段可以扩充复杂环境下的样本数量,增强模型的泛化能力和提高模型的鲁棒性,如图 3 所示。图 3 图像增强示意图Fig.3 Image enhancement examples图 4 CycleGAN 网络原理图Fig.4 CycleGAN network diagram1.2 夜间红外灰度图像域迁移现在常用具备双光模式的红外相机进行非侵入式的野外动物监测:在日间拍摄 RGB 彩色图像,在夜间拍摄红外灰度
18、图像。由于夜间红外灰度图像比日间 RGB 彩色图像的视觉效果差、辨识难度高、语义信息特征少,所以常规训练的检测模型从红外灰度图像中提取有用特征的难度更高。因此本文使用生成式对抗网络 CycleGAN 进行夜间红外灰度图像域迁移至日间 RGB 彩色域增加图像细节信息易于训练出更加健壮的检测模型。如图 4 所示,Cy-cleGAN 由镜像对称的生成器 G 和 F 构成一个环形网络,G 将 X 域映射到 Y 域,F 则将 Y 域映射回 X域。CycleGAN 与其他生成式对抗网络如相比无需成对图像训练即可进行源域到目标域图像的训练,因此适于野生动物监测领域的红外灰度图像域迁移。DX、DY为判别器,其
19、目标函数分别为:LGAN(G,DY,X,Y)=Ey pdata(y)logDY(y)+Ex pdata(x)log(1-DY(G(x)(1)LGAN(F,DX,Y,X)=Ex pdata(x)logDX(x)+011哈 尔 滨 理 工 大 学 学 报 第 28 卷Ey pdata(y)log(1-DX(F(y)(2)CycleGAN 利用重构图和原始图计算 L1 loss,生成器 G 和 F 的循环一致损失函数为Lcyc(G,F)=Ex pdata(x)F(G(x)-x1+Ey pdata(y)G(F(y)-y1(3)最终总体的目标函数为L(G,F,DX,DY)=LGAN(G,DY,X,Y)+
20、LGAN(F,DX,Y,X)+Lcyc(G,Y)(4)式中:代表 2 个目标域的相对重要性权重。CycleGAN 最终的优化目标为G,F=arg minG,FmaxDX,DYL(G,F,DX,DY)(5)本文使用源域为红外域和目标域为 RGB 域的图像训练 CycleGAN 后得到红外-RGB 图像生成器,本文把夜间红外灰度图像经红外-RGB 生成器产生的新图像称为“伪日间 RGB 图像”。图 5 所示为部分图像的红外-RGB 生成器进行域迁移前后的示例,很显然,夜间红外图像中的目标与背景的区分度得到改善,并且雪豹体征如斑点大小未受影响。图 5 域迁移示例图Fig.5 Examples of
21、domain migration本文在训练过程中将同一图像的夜间红外图像和其伪日间 RGB 图像分别输入后续检测模型获得预测结果,即夜间红外图像 X 经检测网络后输出目标检测框集合 TXi、类别 SXi和置信度 TSXi,伪日间RGB 图像 Y 输入检测网络后输出目标检测框合集TYi、类别 SYi和置信度 TSYi,为进一步提高预测精度,本文对两个预测结果进行融合,计算公式如下:m=argmaxi(TSXi),n=argmaxj(TSYj)(6)R=TSXm,TSXm TSYnTSYn,otherwise(7)图 6 EfficientDet 主干特征提取网络结构图Fig.6 Efficien
22、tDet feature extraction backbone1.3 EFFICIENTDET-D0 模型及改进目前基于深度学习的目标检测算法主要分为以R-CNN 系列为代表的两阶段算法和以 YOLO 系列、SSD 为代表的单阶段算法,单阶段算法检测速度快但精度上逊色于两阶段算法。一个检测算法的效率是衡量其能否应用到实际中重要指标之一,对此最近谷歌大脑团队专门提出一种基于回归的实时目标检测模型 EfficientDet,每秒浮点运算(FLOPS)约为同类单级网络的 1/28,轻量级的网络结构设计使其能准确高效地应用到边缘设备。EfficientDet-D0 以 EfficientNet-B0
23、16为主干特征提取网络。EfficientNet-B0 是由一个用于调整通道数的 Stem 卷积层和 16 个 MBConvBlock 堆叠而成,MBConvBlock 首先使用 1 1 的卷积对输入进行升维(代表卷积运算),然后使用深度可分离卷积(depthwise separable convolution)17替代标准卷积操作来提取高维的特征语义信息,深度可分离卷积能极大减少特征提取过程的参数数量进而降低计算开销,最后将 MBConvBlock 的输入与上一步的输出逐元素相乘作为该运算块的最终输出,如图 6 所示。引入特征金字塔是提升的多尺度图像识别精度的有效途径之一18,特征金字塔网络
24、目前也在目标检测、语义分割、行为识别任务中对提升模型性能有111第 2 期戴天虹等:基于改进 EfficientDet 的雪豹红外相机图像检测方法突出的表现。主干特征提取网络的底层特征图分辨率高包含较多的位置和细节信息,高层的特征图分辨率较低但具有更强的特征语义信息,因此融合不同层次的特征所得的特征图具有更多的细节信息和语义信息。如图 7 所示,经典的特征金字塔结构(feature pyramid networks,FPN)19自顶向下进行多尺度特征融合,PANet20(path aggregation network)在 FPN 的基础上加入自底向上的融合路径,由于不同输入特征层具有不同的语
25、义信息且对特征融合的最终输出贡献不同,所以 FPN 和 PANet 对处理输入特征平等处理的方式仍存在改进空间,因此 Effi-cientDet-D0 在其双向特征金字塔模块 Bi-FPN 中引入可学习的权值表示不同输入特征层的重要程度,本文为融合更多的特征且在保持很小计算开销的情况下添加了一个类似残差结构的跨层级连接,主干特征提取网络 EfficientDet-B0 产生的特征图经过 3次自顶向下和自底向上的多尺度特征融合,最终得到含多尺度信息的聚合特征图送入下个阶段的分类框预测网络和边界框回归网络获得预测结果。本文考虑到雪豹检测任务的特殊性在 Bi-FPN 结构上作出进一步地改进,如图 8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 EfficientDet 雪豹 红外 相机 图像 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。