融合重参数化和注意力机制的猪脸关键点检测方法.pdf
《融合重参数化和注意力机制的猪脸关键点检测方法.pdf》由会员分享,可在线阅读,更多相关《融合重参数化和注意力机制的猪脸关键点检测方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、融合重参数化和注意力机制的猪脸关键点检测方法黄志杰1,徐爱俊1,周素茵1,叶俊华2,翁晓星3,项云3(1.浙江农林大学数学与计算机科学学院,杭州311300;2.浙江农林大学环境与资源学院,杭州311300;3.浙江省农业机械研究院,金华321000)摘要:面部对齐是猪脸识别中至关重要的步骤,而实现面部对齐的必要前提是对面部关键点的精准检测。生猪易动且面部姿态多变,导致猪脸关键点提取不准确,且目前没有准确快捷的猪脸关键点检测方法。针对上述问题,该研究提出了生猪面部关键点精准检测模型 YOLO-MOB-DFC,将人脸关键点检测模型 YOLOv5Face 进行改进并用于猪脸关键点检测。首先,使用重
2、参数化的 MobileOne 作为骨干网络降低了模型参数量;然后,融合解耦全连接注意力模块捕捉远距离空间位置像素之间的依赖性,使模型能够更多地关注猪面部区域,提升模型的检测性能;最后,采用轻量级上采样算子CARAFE 充分感知邻域内聚合的上下文信息,使关键点提取更加准确。结合自建的猪脸数据集进行模型测试,结果表明,YOLO-MOB-DFC 的猪脸检测平均精度达到 99.0%,检测速度为 153 帧/s,关键点的标准化平均误差为 2.344%。相比RetinaFace 模型,平均精度提升了 5.43%,模型参数量降低了 78.59%,帧率提升了 91.25%,标准化平均误差降低了2.774%;相
3、较于 YOLOv5s-Face 模型,平均精度提高了 2.48%,模型参数量降低了 18.29%,标准化平均误差降低了0.567%。该文提出的 YOLO-MOB-DFC 模型参数量较少,连续帧间的标准化平均误差波动更加稳定,削弱了猪脸姿态多变对关键点检测准确性的影响,同时具有较高的检测精度和检测效率,能够满足猪脸数据准确、快速采集的需求,为高质量猪脸开集识别数据集的构建以及非侵入式生猪身份智能识别奠定基础。关键词:深度学习;猪脸关键点检测;重参数化;MobileOne;YOLOv5Face;注意力机制doi:10.11975/j.issn.1002-6819.202303201中图分类号:TP
4、391.41;S828文献标志码:A文章编号:1002-6819(2023)-12-0141-09黄志杰,徐爱俊,周素茵,等.融合重参数化和注意力机制的猪脸关键点检测方法J.农业工程学报,2023,39(12):141-149.doi:10.11975/j.issn.1002-6819.202303201http:/www.tcsae.orgHUANGZhijie,XUAijun,ZHOUSuyin,etal.KeypointdetectionmethodforpigfacefusingreparameterizationandattentionmechanismsJ.Transactions
5、oftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(12):141-149.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202303201http:/www.tcsae.org0引言随着生猪养殖业的快速发展,基于非侵入式身份智能识别的生猪智能饲喂、体尺测量、体重预估和行为分析等数字化的智慧养殖方式受到广泛关注1-5。目前,常见的生猪个体身份识别主要采用侵入式方式,如佩戴耳标、打耳缺、画标记等。这些方法均有一定的局限性,耳
6、标存在易污染、易损坏、射频信号距离有限等问题;耳缺会使生猪产生应激反应,造成伤口感染;背部标记符号容易褪色,且劳动力成本较高。近年来,基于猪脸识别的非侵入式生猪身份智能识别成为研究热点,其中闭集识别方法已经有着广泛深入的研究和探索。然而,在实际应用场景下,面对生猪个体数量增加和数据来源多样化带来的开放性挑战,需要将闭集识别转换为鲁棒性更高的开集识别。在开集识别过程中,必须进行精细、高效的猪脸对齐操作,而在猪脸对齐过程中,猪脸关键点检测是必要的预处理环节。随着计算机视觉技术与深度学习技术的发展,卷积神经网络在人脸识别和面部关键点检测领域得到较为广泛应用6-10,但在生猪面部关键点检测中的应用还较
7、少。李向宇等11提出一种通过构建猪脸人脸匹配数据集,训练形变卷积神经网络,使用形变猪脸数据集对人脸特征点检测神经网络模型进行微调,错误率为 5.60%,过程较为繁琐。蔡骋等12提出了自适应级联检测器定位牛脸位置,用统计迭代模型提取牛脸轮廓的方法,有效抑制了角度变化的误差,但算法的实时性欠佳。KHAN 等13构建了一个包含 350 种动物共 22400 余张图像构成的大规模动物面部数据集 AnimalWeb,每个面部有 9 个关键点,由于动物面部姿态变化较大,使用人脸对齐的方法检测关键点效果较差,还需要使用单独的算法来分析单一种类的动物面部关键点对齐方法。杨家林14在羊脸识别过程中,使用 G-R
8、etinaFace 模型,检测羊脸关键点,但并未对关键点的准确性进行评估。王荣等15提出了一种适应多变环境的生猪个体识别方法,设计了多尺度卷积结构,融合非对称卷积,在复杂场景下模型的识别率为 99.81%。谢秋菊等16将 CBAM 注意力模块嵌入到精收稿日期:2023-03-28修订日期:2023-05-12基金项目:浙江省“领雁”研发攻关计划项目(2022C02050);浙江省“三农九方”科技协作计划项目(2022SNJF057);金华市科技计划项目(2021-2-025)。作者简介:黄志杰,研究方向为农业信息化。Email:通信作者:徐爱俊,博士,教授,博士生导师,研究方向为计算机应用技术
9、和 GIS 在农业中的应用。Email:第39卷第12期农 业 工 程 学 报 Vol.39No.122023年6月TransactionsoftheChineseSocietyofAgriculturalEngineeringJune2023141简的 DenseNet 模型中,参数仅有 DenseNet 模型的 1/10,生猪个体识别准确率为 99.25%。张建龙等17探究了育肥猪生长过程中脸部变化对识别模型准确率的影响,但模型需要每天训练且训练数据必须提前 4d 获取,模型的准确率为 95.82%。何屿彤等18改进 YOLOv3 模型,提升了远距离猪脸检测的能力,达到了 90.18%的平
10、均精度。秦兴19选用 200 头猪的 2110 个样本,手动裁剪猪脸图像,并改进了双线性卷积神经网络,准确率达到了95.73%。WANG 等20使用 SphereFace 损失函数21度量学习方法,构建了基于残差连接和注意力机制的猪脸开集识别模型,其数据集使用 FasterRCNN 对猪脸进行裁剪,通过手动挑选无遮挡的图像,开集识别准确率为95.28%。WANG 等22将人体重识别领域的三元组损失应用到猪脸识别上,使用 EfficientDetd0 作为猪脸检测器,在复杂环境下,使用 KNN 对 28 头猪的分类准确率为 96%。YAN 等23提出了一种基于改进 CenterNet 的猪脸检测
11、方法,平均精度为 93.61%。综上,现有关于生猪及其他动物面部关键点检测的研究较少,且相关的面部关键点检测及个体识别研究中均未考虑动物姿态变化对模型产生的影响,而是直接将未对齐的动物面部图像送入分类器进行训练和测试,这种方法难以适用于开集动物个体识别。为快速准确地采集生猪面部关键点,本文采用YOLOv5Face 作为基础模型,将单阶段关键点回归的人脸关键点检测方法进行改进并用于猪脸关键点检测,构建了 YOLO-MOB-DFC 模型。模型首先设计了 MOB-DFC模块,利用重参数化和解耦全连接注意力机制(decoup-ledfullyconnectedattention,DFC)实现局部特征和
12、全局特征的融合,在降低模型参数量的同时提高其检测精度,再采用轻量级上采样算子 CARAFE 提升关键点检测的准确性,如期实现实际猪场环境下生猪面部关键点的高精度、快速检测,为后续生猪个体识别奠定良好基础。1材料与方法1.1数据集构建1.1.1数据采集本文数据采集于浙江省杭州市余杭区瓶窑镇浙江清渚农牧有限公司的配怀舍和育肥舍,配怀舍以养殖丹系母猪为主,育肥舍养殖品种为长白猪。为避免单一设备采集的图像使得检测器的稳定性和适应性较差的问题,本研究分别选择 iPhone11 和海康威视 800W 像素变焦摄像头作为猪脸数据采集设备,分辨率均为 19201080 像素,共采集后备母猪及怀孕母猪 100
13、头,面部视频250 段,每头猪的视频拍摄间隔大于 7d。由于母猪限位栏内采集到的图像仅包含单头生猪,数据较为单一,为增加数据多样性,本文另外从育肥舍使用高清摄像头采集 220 张复杂背景下多头猪的图像,并将其添加到数据集中,采集环境及设备搭建如图 1 所示,左侧摄像头位于饮水槽上方,吊装摄像头距地面约 1.5m。最终,形成了一个包含 1019 张生猪面部图像的数据集,其中训练集图像 719 张,验证集图像和测试集图像各 150 张。为避免由于采集的视频帧间相似度较高可能导致模型出现过拟合的问题,将图像采样时间间隔设置为 0.5s,采用结构相似性(structuresimilarityindex
14、measure,SSIM)判断前后两张图像的相似度,通过比较图像的亮度、对比度和结构过滤掉高相似度的图像。SSIM 计算式为:l(x,y)=2xy+C12x+2y+C1c(x,y)=2xy+C22x+2y+C2s(x,y)=xy+C3xy+C3(1)SSSIM(x,y)=l(x,y)c(x,y)s(x,y)(2)xyxyC1C2C3式中、为图像的平均灰度值;、为图像灰度标准差;、为常数,防止分母为 0;、分别代表了不同特征在 SSIM 衡量中的占比,当取值为1 时,将式(1)代入式(2)中得到式(3):SSSIM(x,y)=(2xy+C1)(2xy+C2)(u2x+2y+C1)(2x+2y+C
15、2)(3)a.育肥舍a.Fattening houseb.限位栏b.Crate摄像头Camera1.5 m摄像头Camera饮水槽Water trough限位栏Crate手机位姿Mobile phone posture图 1采集环境及设备Fig.1Acquisitionenvironmentandequipment根据多次试验结果,将 SSIM 阈值设置为整段视频的平均 SSIM,即两张图像的 SSIM 值大于平均 SSIM 时,即被认为是相同的图像,仅保留其中一张,反之保留两张。142农业工程学报(http:/www.tcsae.org)2023年1.1.2数据标注使用 Labelme 工具
16、对数据集进行目标框和关键点标注,其中目标框标注范围为生猪面部。生猪眼睛和额头部位存在较多特征点,但耳朵由于动作幅度较大不宜被选作特征点24,因此本文标注的生猪面部关键点包括双眼、两侧鼻翼尖端及鼻尖中心。猪脸关键点标注如图 2所示。图 2猪脸关键点标注Fig.2Pigfacekeypointslabeling1.1.3图像预处理为提高模型的泛化能力和对生猪面部关键点的检测能力,综合使用高斯模糊、椒盐噪声、位置平移、水平翻转、亮度调节、锐化等多种方式对图像进行增强。经过离线增强后的训练数据集图像由 719 张扩充到4302 张,使得数据具有更好的多样性,有助于网络学习到更多特征。数据增强结果如图
17、3 所示。a.原始图像a.Originalimageb.高斯模糊 b.Gaussianblurc.椒盐噪声c.Peppernoised.位置平移d.Positionpanninge.水平翻转e.Horizontalflipf.锐化f.Sharpeningg.亮度调节 g.Brightnessadjustmenth.椒盐噪声+位置平移h.Pepper noiseand positionpanning i.亮度调节+椒盐噪声i.Brightnessadjustment andpepper noisej.水平翻转+亮度调节 j.Horizontalflip andbrightnessadjustme
18、nt图 3生猪原始图像及增强图像Fig.3Processofpigoriginalimagesandtheimagedataenhancement1.2猪脸关键点检测方法YOLOv5Face 是基于 YOLOv5 的一种基于回归的人脸检测算法25。该算法在 YOLOv5 预测边界框基础上,添加 5 个关键点,由于 MTCNN 中 L2 损失函数对小误差不敏感,将 Wingloss 作为损失函数对关键点进行约束,使用分类损失、定位损失、置信度损失和关键点损失构成的损失函数为:Wing(x)=ln(1+|x|/)if|x|x|Cotherwise(4)Llm(s)=iWing(si si)(5)L
19、oss=1Lcls+2Lobj+3Lloc+4Llm(6)C=ln(1+/)si sisi siLclsLobjLlocLlm式(4)中,预测值的范围为 01,用于将非限制性部分的范围限制在-,区间内,用于约束非线性区域的曲率,为常数,用来平滑连接分段的线性和非线性部分。式(5)是 Wingloss 损失,为预测点的点向量,为真实点的点向量,表示两个点向量之间的差异。式(6)为损失函数整体,为损失权重,为分类损失,为置信度损失,为定位损失,为关键点损失。YOLOv5Face 的结构与 YOLOv5 基本保持一致,主要区别在于其网络结构进行了优化,将 YOLOv5 中Focus 模块替换为更加简
20、单的 Stem 模块,既降低了计算复杂度又保持了模型精度。同时,SPP 模块中使用更小的池化核,将池化核改为 3、5、7,提升了检测精度。本文基于 YOLOv5Face 进行改进,首先将原有的YOLOv5s-Face 骨干替换为 MobileOne 重参数化骨干网络,再将解耦全连接注意力机制和 MobileOneBlock 融合,构成 MOB-DFC(MobileOneBlock-DFC)模块,增强局部特征,捕捉远距离的空间信息扩大感受野;再将特征金字塔中的上采样替换为轻量化上采样算子 CA-RAFE(content-awarereassemblyoffeatures,CARAFE)充分利用特
21、征信息,使关键点检测更加准确;最后利用预测头对图像进行预测,生成目标的类别和边界框的坐标、5 个关键点的位置信息以及置信度。改进后的模型网络 YOLO-MOB-DFC 如图 4 所示,其中红色部分为改进之处,MOB 代表 MobileOneBlock。1.2.1引入重参数化骨干网络 MobileOne在实际检测环境下,由于计算资源的有限性,需要降低模型的复杂度,即对骨干网络 Backbone 进行轻量化设计26。MobileOne 模型基于 MobileNetV1 设计,由大量 MobileOneBlock 构成,在 MobileOneBlock 结构中使用了深度可分离卷积(depthwise
22、convolution)和点卷积(pointwiseconvolution),吸收了 RepVGG 重参数的思想27-28。MobileOneBlock 结构如图 5 所示,该结构使用重参数化的方法,先将 k 个卷积层和 BN 层合并为 k 个分组数为 d 的 33 卷积,再将这 k 个 33 卷积融合为一个卷积层,最后将多个分支结构相加,进入到激活函数。在模型训练阶段,尽可能让网络模型复杂以提取到更多有效的语义特征。在模型推理阶段,将多分支结构进行重参数化为单分支结构,使模型更加简单,参数量减少,推理速度更快。第12期黄志杰等:融合重参数化和注意力机制的猪脸关键点检测方法143Input 6
23、406403StemMOBCBSMOB-DFCCONCATSPPCARAFECBSMOB-DFCCBSMOBCBSC3CBSCARAFECONCATC3CBSCONCATC3CBSCONCATC3CBSCONVCONVCONVDetectDetectDetectCBS=CONVBNSiLUStemCBSCBSCBSMaxPoolCONCATCBSCONCATC3CBSBottleNeckCONVCONVCBSSPPCBSMaxPool(k=3)MaxPool(k=5)MaxPool(k=7)0.950CONCATCBS16016064808012840402562020512P3808016P
24、2404016P1202016*NYOLO-MOB-DFC注:Stem 为切片操作;CONV 为卷积操作;BN 为批量标准化;SiLU 为激活函数;SPP 为 C3 为空间金字塔池化结构;BottleNeck 是 11 的卷积后接一个33 的卷积,其中 11 的卷积将通道减半,33 的卷积将通道翻倍;CONCAT 为特征融合函数;MaxPool 为最大池化,k 为池化核的尺寸;MOB 是MobileOneBlock 结构;MOB-DFC 是融合了 MobileOneBlock 和 DFC 注意力机制的模块;CARAFE 为轻量上采用算子。Note:Stemistheslicingoperati
25、on;CONVistheconvolutionoperation;BNisthebatchnormalization;SiLUistheactivationfunction;SPPistheC3isthespatialpyramidpoolingstructure;Bottleneckis11convolutionfollowedbya33convolution,where11convolutionhalves;CONCATisthefeaturefusionfunction;MaxPoolisthemaximumpooling,andkrepresentsthesizeofthepoolin
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 参数 注意力 机制 关键 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。