分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 融合重参数化和注意力机制的猪脸关键点检测方法.pdf

融合重参数化和注意力机制的猪脸关键点检测方法.pdf

上传人：自信****多点

文档编号：582308

上传时间：2024-01-02

格式：PDF

页数：9

大小：5.31MB

《融合重参数化和注意力机制的猪脸关键点检测方法.pdf》由会员分享，可在线阅读，更多相关《融合重参数化和注意力机制的猪脸关键点检测方法.pdf（9页珍藏版）》请在咨信网上搜索。

1、融合重参数化和注意力机制的猪脸关键点检测方法黄志杰1，徐爱俊1，周素茵1，叶俊华2，翁晓星3，项云3（1.浙江农林大学数学与计算机科学学院，杭州311300；2.浙江农林大学环境与资源学院，杭州311300；3.浙江省农业机械研究院，金华321000）摘要：面部对齐是猪脸识别中至关重要的步骤，而实现面部对齐的必要前提是对面部关键点的精准检测。生猪易动且面部姿态多变，导致猪脸关键点提取不准确，且目前没有准确快捷的猪脸关键点检测方法。针对上述问题，该研究提出了生猪面部关键点精准检测模型 YOLO-MOB-DFC，将人脸关键点检测模型 YOLOv5Face 进行改进并用于猪脸关键点检测。首先，使用重

2、参数化的 MobileOne 作为骨干网络降低了模型参数量；然后，融合解耦全连接注意力模块捕捉远距离空间位置像素之间的依赖性，使模型能够更多地关注猪面部区域，提升模型的检测性能；最后，采用轻量级上采样算子CARAFE 充分感知邻域内聚合的上下文信息，使关键点提取更加准确。结合自建的猪脸数据集进行模型测试，结果表明，YOLO-MOB-DFC 的猪脸检测平均精度达到 99.0%，检测速度为 153 帧/s，关键点的标准化平均误差为 2.344%。相比RetinaFace 模型，平均精度提升了 5.43%，模型参数量降低了 78.59%，帧率提升了 91.25%，标准化平均误差降低了2.774%；相

3、较于 YOLOv5s-Face 模型，平均精度提高了 2.48%，模型参数量降低了 18.29%，标准化平均误差降低了0.567%。该文提出的 YOLO-MOB-DFC 模型参数量较少，连续帧间的标准化平均误差波动更加稳定，削弱了猪脸姿态多变对关键点检测准确性的影响，同时具有较高的检测精度和检测效率，能够满足猪脸数据准确、快速采集的需求，为高质量猪脸开集识别数据集的构建以及非侵入式生猪身份智能识别奠定基础。关键词：深度学习；猪脸关键点检测；重参数化；MobileOne；YOLOv5Face；注意力机制doi：10.11975/j.issn.1002-6819.202303201中图分类号：TP

4、391.41；S828文献标志码：A文章编号：1002-6819(2023)-12-0141-09黄志杰，徐爱俊，周素茵，等.融合重参数化和注意力机制的猪脸关键点检测方法J.农业工程学报，2023，39（12）：141-149.doi:10.11975/j.issn.1002-6819.202303201http:/www.tcsae.orgHUANGZhijie,XUAijun,ZHOUSuyin,etal.KeypointdetectionmethodforpigfacefusingreparameterizationandattentionmechanismsJ.Transactions

5、oftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(12):141-149.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202303201http:/www.tcsae.org0引言随着生猪养殖业的快速发展，基于非侵入式身份智能识别的生猪智能饲喂、体尺测量、体重预估和行为分析等数字化的智慧养殖方式受到广泛关注1-5。目前，常见的生猪个体身份识别主要采用侵入式方式，如佩戴耳标、打耳缺、画标记等。这些方法均有一定的局限性，耳

6、标存在易污染、易损坏、射频信号距离有限等问题；耳缺会使生猪产生应激反应，造成伤口感染；背部标记符号容易褪色，且劳动力成本较高。近年来，基于猪脸识别的非侵入式生猪身份智能识别成为研究热点，其中闭集识别方法已经有着广泛深入的研究和探索。然而，在实际应用场景下，面对生猪个体数量增加和数据来源多样化带来的开放性挑战，需要将闭集识别转换为鲁棒性更高的开集识别。在开集识别过程中，必须进行精细、高效的猪脸对齐操作，而在猪脸对齐过程中，猪脸关键点检测是必要的预处理环节。随着计算机视觉技术与深度学习技术的发展，卷积神经网络在人脸识别和面部关键点检测领域得到较为广泛应用6-10，但在生猪面部关键点检测中的应用还较

7、少。李向宇等11提出一种通过构建猪脸人脸匹配数据集，训练形变卷积神经网络，使用形变猪脸数据集对人脸特征点检测神经网络模型进行微调，错误率为 5.60%，过程较为繁琐。蔡骋等12提出了自适应级联检测器定位牛脸位置，用统计迭代模型提取牛脸轮廓的方法，有效抑制了角度变化的误差，但算法的实时性欠佳。KHAN 等13构建了一个包含 350 种动物共 22400 余张图像构成的大规模动物面部数据集 AnimalWeb，每个面部有 9 个关键点，由于动物面部姿态变化较大，使用人脸对齐的方法检测关键点效果较差，还需要使用单独的算法来分析单一种类的动物面部关键点对齐方法。杨家林14在羊脸识别过程中，使用 G-R

8、etinaFace 模型，检测羊脸关键点，但并未对关键点的准确性进行评估。王荣等15提出了一种适应多变环境的生猪个体识别方法，设计了多尺度卷积结构，融合非对称卷积，在复杂场景下模型的识别率为 99.81%。谢秋菊等16将 CBAM 注意力模块嵌入到精收稿日期：2023-03-28修订日期：2023-05-12基金项目：浙江省“领雁”研发攻关计划项目（2022C02050）；浙江省“三农九方”科技协作计划项目（2022SNJF057）；金华市科技计划项目（2021-2-025）。作者简介：黄志杰，研究方向为农业信息化。Email：通信作者：徐爱俊，博士，教授，博士生导师，研究方向为计算机应用技术

9、和 GIS 在农业中的应用。Email：第39卷第12期农业工程学报 Vol.39No.122023年6月TransactionsoftheChineseSocietyofAgriculturalEngineeringJune2023141简的 DenseNet 模型中，参数仅有 DenseNet 模型的 1/10，生猪个体识别准确率为 99.25%。张建龙等17探究了育肥猪生长过程中脸部变化对识别模型准确率的影响，但模型需要每天训练且训练数据必须提前 4d 获取，模型的准确率为 95.82%。何屿彤等18改进 YOLOv3 模型，提升了远距离猪脸检测的能力，达到了 90.18%的平

10、均精度。秦兴19选用 200 头猪的 2110 个样本，手动裁剪猪脸图像，并改进了双线性卷积神经网络，准确率达到了95.73%。WANG 等20使用 SphereFace 损失函数21度量学习方法，构建了基于残差连接和注意力机制的猪脸开集识别模型，其数据集使用 FasterRCNN 对猪脸进行裁剪，通过手动挑选无遮挡的图像，开集识别准确率为95.28%。WANG 等22将人体重识别领域的三元组损失应用到猪脸识别上，使用 EfficientDetd0 作为猪脸检测器，在复杂环境下，使用 KNN 对 28 头猪的分类准确率为 96%。YAN 等23提出了一种基于改进 CenterNet 的猪脸检测

11、方法，平均精度为 93.61%。综上，现有关于生猪及其他动物面部关键点检测的研究较少，且相关的面部关键点检测及个体识别研究中均未考虑动物姿态变化对模型产生的影响，而是直接将未对齐的动物面部图像送入分类器进行训练和测试，这种方法难以适用于开集动物个体识别。为快速准确地采集生猪面部关键点，本文采用YOLOv5Face 作为基础模型，将单阶段关键点回归的人脸关键点检测方法进行改进并用于猪脸关键点检测，构建了 YOLO-MOB-DFC 模型。模型首先设计了 MOB-DFC模块，利用重参数化和解耦全连接注意力机制（decoup-ledfullyconnectedattention，DFC）实现局部特征和

12、全局特征的融合，在降低模型参数量的同时提高其检测精度，再采用轻量级上采样算子 CARAFE 提升关键点检测的准确性，如期实现实际猪场环境下生猪面部关键点的高精度、快速检测，为后续生猪个体识别奠定良好基础。1材料与方法1.1数据集构建1.1.1数据采集本文数据采集于浙江省杭州市余杭区瓶窑镇浙江清渚农牧有限公司的配怀舍和育肥舍，配怀舍以养殖丹系母猪为主，育肥舍养殖品种为长白猪。为避免单一设备采集的图像使得检测器的稳定性和适应性较差的问题，本研究分别选择 iPhone11 和海康威视 800W 像素变焦摄像头作为猪脸数据采集设备，分辨率均为 19201080 像素，共采集后备母猪及怀孕母猪 100

13、头，面部视频250 段，每头猪的视频拍摄间隔大于 7d。由于母猪限位栏内采集到的图像仅包含单头生猪，数据较为单一，为增加数据多样性，本文另外从育肥舍使用高清摄像头采集 220 张复杂背景下多头猪的图像，并将其添加到数据集中，采集环境及设备搭建如图 1 所示，左侧摄像头位于饮水槽上方，吊装摄像头距地面约 1.5m。最终，形成了一个包含 1019 张生猪面部图像的数据集，其中训练集图像 719 张，验证集图像和测试集图像各 150 张。为避免由于采集的视频帧间相似度较高可能导致模型出现过拟合的问题，将图像采样时间间隔设置为 0.5s，采用结构相似性(structuresimilarityindex

14、measure，SSIM)判断前后两张图像的相似度，通过比较图像的亮度、对比度和结构过滤掉高相似度的图像。SSIM 计算式为：l(x,y)=2xy+C12x+2y+C1c(x,y)=2xy+C22x+2y+C2s(x,y)=xy+C3xy+C3（1）SSSIM(x,y)=l(x,y)c(x,y)s(x,y)（2）xyxyC1C2C3式中、为图像的平均灰度值；、为图像灰度标准差；、为常数，防止分母为 0；、分别代表了不同特征在 SSIM 衡量中的占比，当取值为1 时，将式（1）代入式（2）中得到式（3）：SSSIM(x,y)=（2xy+C1）(2xy+C2)(u2x+2y+C1)(2x+2y+C

15、2)（3）a.育肥舍a.Fattening houseb.限位栏b.Crate摄像头Camera1.5 m摄像头Camera饮水槽Water trough限位栏Crate手机位姿Mobile phone posture图 1采集环境及设备Fig.1Acquisitionenvironmentandequipment根据多次试验结果，将 SSIM 阈值设置为整段视频的平均 SSIM，即两张图像的 SSIM 值大于平均 SSIM 时，即被认为是相同的图像，仅保留其中一张，反之保留两张。142农业工程学报（http:/www.tcsae.org）2023年1.1.2数据标注使用 Labelme 工具

16、对数据集进行目标框和关键点标注，其中目标框标注范围为生猪面部。生猪眼睛和额头部位存在较多特征点，但耳朵由于动作幅度较大不宜被选作特征点24，因此本文标注的生猪面部关键点包括双眼、两侧鼻翼尖端及鼻尖中心。猪脸关键点标注如图 2所示。图 2猪脸关键点标注Fig.2Pigfacekeypointslabeling1.1.3图像预处理为提高模型的泛化能力和对生猪面部关键点的检测能力，综合使用高斯模糊、椒盐噪声、位置平移、水平翻转、亮度调节、锐化等多种方式对图像进行增强。经过离线增强后的训练数据集图像由 719 张扩充到4302 张，使得数据具有更好的多样性，有助于网络学习到更多特征。数据增强结果如图

17、3 所示。a.原始图像a.Originalimageb.高斯模糊 b.Gaussianblurc.椒盐噪声c.Peppernoised.位置平移d.Positionpanninge.水平翻转e.Horizontalflipf.锐化f.Sharpeningg.亮度调节 g.Brightnessadjustmenth.椒盐噪声+位置平移h.Pepper noiseand positionpanning i.亮度调节+椒盐噪声i.Brightnessadjustment andpepper noisej.水平翻转+亮度调节 j.Horizontalflip andbrightnessadjustme

18、nt图 3生猪原始图像及增强图像Fig.3Processofpigoriginalimagesandtheimagedataenhancement1.2猪脸关键点检测方法YOLOv5Face 是基于 YOLOv5 的一种基于回归的人脸检测算法25。该算法在 YOLOv5 预测边界框基础上，添加 5 个关键点，由于 MTCNN 中 L2 损失函数对小误差不敏感，将 Wingloss 作为损失函数对关键点进行约束，使用分类损失、定位损失、置信度损失和关键点损失构成的损失函数为：Wing(x)=ln(1+|x|/)if|x|x|Cotherwise（4）Llm(s)=iWing(si si)（5）L

19、oss=1Lcls+2Lobj+3Lloc+4Llm（6）C=ln(1+/)si sisi siLclsLobjLlocLlm式（4）中，预测值的范围为 01，用于将非限制性部分的范围限制在-,区间内，用于约束非线性区域的曲率，为常数，用来平滑连接分段的线性和非线性部分。式（5）是 Wingloss 损失，为预测点的点向量，为真实点的点向量，表示两个点向量之间的差异。式（6）为损失函数整体，为损失权重，为分类损失，为置信度损失，为定位损失，为关键点损失。YOLOv5Face 的结构与 YOLOv5 基本保持一致，主要区别在于其网络结构进行了优化，将 YOLOv5 中Focus 模块替换为更加简

20、单的 Stem 模块，既降低了计算复杂度又保持了模型精度。同时，SPP 模块中使用更小的池化核，将池化核改为 3、5、7，提升了检测精度。本文基于 YOLOv5Face 进行改进，首先将原有的YOLOv5s-Face 骨干替换为 MobileOne 重参数化骨干网络，再将解耦全连接注意力机制和 MobileOneBlock 融合，构成 MOB-DFC（MobileOneBlock-DFC）模块，增强局部特征，捕捉远距离的空间信息扩大感受野；再将特征金字塔中的上采样替换为轻量化上采样算子 CA-RAFE（content-awarereassemblyoffeatures，CARAFE）充分利用特

21、征信息，使关键点检测更加准确；最后利用预测头对图像进行预测，生成目标的类别和边界框的坐标、5 个关键点的位置信息以及置信度。改进后的模型网络 YOLO-MOB-DFC 如图 4 所示，其中红色部分为改进之处，MOB 代表 MobileOneBlock。1.2.1引入重参数化骨干网络 MobileOne在实际检测环境下，由于计算资源的有限性，需要降低模型的复杂度，即对骨干网络 Backbone 进行轻量化设计26。MobileOne 模型基于 MobileNetV1 设计，由大量 MobileOneBlock 构成，在 MobileOneBlock 结构中使用了深度可分离卷积（depthwise

22、convolution）和点卷积（pointwiseconvolution），吸收了 RepVGG 重参数的思想27-28。MobileOneBlock 结构如图 5 所示，该结构使用重参数化的方法，先将 k 个卷积层和 BN 层合并为 k 个分组数为 d 的 33 卷积，再将这 k 个 33 卷积融合为一个卷积层，最后将多个分支结构相加，进入到激活函数。在模型训练阶段，尽可能让网络模型复杂以提取到更多有效的语义特征。在模型推理阶段，将多分支结构进行重参数化为单分支结构，使模型更加简单，参数量减少，推理速度更快。第12期黄志杰等：融合重参数化和注意力机制的猪脸关键点检测方法143Input 6

23、406403StemMOBCBSMOB-DFCCONCATSPPCARAFECBSMOB-DFCCBSMOBCBSC3CBSCARAFECONCATC3CBSCONCATC3CBSCONCATC3CBSCONVCONVCONVDetectDetectDetectCBS=CONVBNSiLUStemCBSCBSCBSMaxPoolCONCATCBSCONCATC3CBSBottleNeckCONVCONVCBSSPPCBSMaxPool(k=3)MaxPool(k=5)MaxPool(k=7)0.950CONCATCBS16016064808012840402562020512P3808016P

24、2404016P1202016*NYOLO-MOB-DFC注：Stem 为切片操作；CONV 为卷积操作；BN 为批量标准化；SiLU 为激活函数；SPP 为 C3 为空间金字塔池化结构；BottleNeck 是 11 的卷积后接一个33 的卷积，其中 11 的卷积将通道减半，33 的卷积将通道翻倍；CONCAT 为特征融合函数；MaxPool 为最大池化，k 为池化核的尺寸；MOB 是MobileOneBlock 结构；MOB-DFC 是融合了 MobileOneBlock 和 DFC 注意力机制的模块；CARAFE 为轻量上采用算子。Note:Stemistheslicingoperati

25、on;CONVistheconvolutionoperation;BNisthebatchnormalization;SiLUistheactivationfunction;SPPistheC3isthespatialpyramidpoolingstructure;Bottleneckis11convolutionfollowedbya33convolution,where11convolutionhalves;CONCATisthefeaturefusionfunction;MaxPoolisthemaximumpooling,andkrepresentsthesizeofthepoolin

26、gkernel;MOBistheMobileOneBlockstructure;MOB-DFCisamodulethatincorporatestheMobileOneBlockandDFCattentionmechanisms;CARAFEisthelightweightonadoptionoperator.图 4YOLO-MOB-DFC 模型总体结构图Fig.4GeneralstructureofYOLO-MOB-DFCmodelReparamterizeReparamterize11dCONVBN33dCONVk BlocksBNBNSiLU11CONVk BlocksBNBNSiLU3

27、3dCONVBNSiLU11CONVBNSiLU训练Training推理Inference注：1dCONV 是 11 的深度可分离卷积；3dCONV 是 33 的深度可分离卷积；Reparamterize 是重参数化操作。Note:1dCONVisa11depth-separableconvolution;3dCONVisa33depth-separableconvolution;Reparamterizeisareparameterizationoperation.图 5MobileOneBlock 结构图Fig.5MobileOneBlockstructurediagram1.2.2融合解

28、耦全连接注意力机制MobileOne 骨干模型在局部特征提取方面表现良好，但其全局特征提取能力不足。自注意力机制虽拥有长距离建模的能力，但其计算复杂度与输入分辨率大小呈二次方增长，使得其无法有效处理高分辨率输入图像29。为解决此问题，设计了 MOB-DFC 模块，该模块由 MobileOneBlock 和解耦全连接注意力机制构成，前者用于提取局部特征，后者用于捕捉远处空间信息，通过特征图与注意力地图对应元素乘积的方式增强局部特征的表达能力。由于直接引入解耦全连接注意力机制和 MobileOneBlock 并行的方式会增加计算成本，因此通过下采样将特征图的大小缩小，再通过 15 和 51 非对称

29、卷积提取特征，使用双线性插值上采样还原特征图，以匹配MobileOneBlock 分支特征的分辨率大小，再经过 Sig-moid，将特征值范围映射到（0,1）之间的概率值。MOB-DFC 模块的结构如图 6 所示，图 6a 所示结构用于输入图像和输出大小相同的图像，能够更好学习局部信息。图 6b 所示结构将输入通过步长为 2 的深度可分离卷积，使得模型特征图缩小一半，降低计算复杂度加快处理速度。图 6c 所示的解耦全连接注意力机制中，沿着水平和垂直两个方向解耦全连接层，分别使用两个全连接层聚合两个方向的长距离信息，从而省去推理过程中张量维度变换和矩阵转置等操作，进一步提升了推理速度。ahw=h

30、,wFhw,hwzhw（7）ahw=Hh=1FHh,hwzhw,h=1,2,H,w=1,2,W（8）ahw=Ww=1FWw,hwahw,h=1,2,H,w=1,2,W（9）ahw式（7）是使用全连接层实现注意力图的方式，式中元素乘法符号表示两个矩阵对应元素相乘的操作，表144农业工程学报（http:/www.tcsae.org）2023年hwFhw,hwhwhwHWahwhwzhwhwFHh,hwhh示注意力图输出的第行，第列的元素，为可学习的权重，其中和为注意力图的索引，和为输入特征的空间位置索引。为了避免全连接层的计算复杂度过高，需将其分解成两个方向的卷积操作，并分别表示为式（8）

31、和式（9），其中和分别表示卷积核的高度和宽度。利用式（8）和式（9）分别对输入特征图进行垂直和水平方向的卷积操作，生成特征图，从而提取局部特征并捕捉远处的空间信息。式（8）和式（9）中，表示经过垂直方向卷积后输出特征图中的第行列的像素值，表示第行列的输入特征图像素值，代表卷积核在和行之间的权重值。因此，通过分解全连接层，可以在保持计算效率的同时，提高局部特征的表达能力，并提升模型的检测速度。DFCattentionInputMobileOneBlockMultiplyMobileoneBlockAddOutputBN ReLUBNDFCattentionInputMobileOne

32、BlockMultiplyMobileoneBlockAddOutputa.MOB-DFC s=1b.MOB-DFC s=2c.DFC attentionDWCONVs=2BN ReLUBNBNDownSample11CONV15CONV51CONVSigmoidBNBN注：ReLU 为激活函数；DWCONVs=2 为步长为 2 的深度可分离卷积；Multiply 为对应通道矩阵相乘；DownSample 为下采样操作；Add 为对应特征图相加；15CONV 是进行 1 行 5 列的非对称卷积操作；51CONV 是进行 5 行 1 列的非对称卷积操作。Sigmoid 将特征图映射成概率值。No

33、te:ReLUistheactivationfunction;DWCONVs=2isadepthwiseseparableconvolution with stride 2;Multiply is the corresponding channel matrixmultiplication;DownSample is the downsampling operation;Add is thecorrespondingfeaturemapsumming;15CONVistheasymmetricconvolutionoperationwith1rowand5columns;51CONVisthe

34、asymmetricconvolutionoperationwith5rowsand1column;Sigmoidmapsfeaturemapsintoprobabilityvalues.图 6MOB-DFC 模块结构Fig.6MOB-DFCModulestructure为更加直观地体现 DFC 注意力机制的有效性，使用不同模型的骨干网络生成了注意力热图，并对其使用XGrad-CAM30进行可视化分析，对比结果如图 7 所示。a.原图a.Original imageb.YOLOv5s-Face注意力热图 b.Heat map ofYOLOv5s-Face c.YOLO-MobileOne注意力

35、热图c.Heat map ofYOLO-MobileOne d.YOLO-MOB-DFC注意力热图d.Heat map ofYOLO-MOB-DFC pig 0.97pig 0.96pig 0.97图 7不同模型骨干网络的注意力热图Fig.7Attentionheatmapofbackbonenetworkswithdifferentmodels由图 7 可知，在 YOLOv5s-Face 和 MobileOne 的骨干网络之后生成的热图，生猪面部的关注区域相对较小，不能包含生猪完整的面部，并且在图像的其他部分也存在注意力区域，而 YOLO-MOB-DFC 模型骨干网络生成的热图中，注意力区域

36、较完整地包含了生猪面部，提高了特征提取的有效性。1.2.3融合轻量上采样算子 CARAFE特征金字塔中，上采样操作尤为重要。最近邻差值和双线性插值这两种常用的上采样方法仅考虑了相邻的亚像素空间，缺乏语义信息并且感受野较小。反卷积虽然也可以进行上采样，但因采用了单一的卷积核，限制了对局部变化的差异感知能力，参数量较大。而感知特征重组上采样算子 CARAFE 可以弥补上述方法的缺陷，能在每个位置都有不同的上采样卷积核以及在全面感知邻域内聚合上下文信息，从而提升模型检测能力。CARAFE 算子由上采样模块和特征重组模块组成，首先利用上采样预测模块生成上采样核，再将特征重组模块与上采样核进行重组31。

37、1.2.4替换 EIoU 损失函数为使目标框检测更为精准，将 YOLOv5Face 中的CIoU 损失函数替换为 EIoU 损失函数，EIoU 在 CIoU 的基础上，考虑了目标框的重叠面积和中心点距离，分别计算了检测框宽和高的差异值，取代了横纵比，同时引入了 FocalLoss 解决了难易样本不平衡的问题，使得目标框回归过程更专注于锚框的质量32。EIoU 计算式为：LEIoU=1IoU+2(bp,bgt)c2+2(wp,wgt)c2w+2(hp,hgt)c2h（10）IoU2(bp,bgt)wphpwgthgtc式中，为真实边界框与预测边界框之间的交并比，是预测边界框中心与真实边界框中心的

38、欧式距离，和分别为预测边界框的宽和高，和分别为真实边界框的宽和高，为真实框和预测框的最小外接矩形的对角线距离。2检测试验和结果分析2.1试验环境试验均在操作系统为 Ubuntu22.04、IntelCorei7-12700KF CPU、显卡为 Nvidia GeForce RTX3090Ti 的Ubuntu 服务器上进行。训练过程使用 CUDA11.7 加速，训练 300Epoch，批量大小（batchsize）根据不同模型占用显存进行调节，共 2n个，初始学习率为 0.01，使用一阶 Adam 优化器对模型进行优化，采用余弦退火算法调节学习率。2.2评价指标设定ENME为客观评价猪脸关键

39、点检测模型的性能，同时对预测框和预测关键点进行评估，采用的评价指标包括精确度（precision，P）、召回率（recall，R）、平均精度（averageprecision，AP）、计算参数量（parameters）、标准化平均误差（normalizedmeanerror，NME，计为）和帧率（framepersecond，FPS），各指标计算第12期黄志杰等：融合重参数化和注意力机制的猪脸关键点检测方法145式如下：P=TPTP+FP（11）R=TPTP+FN（12）AP=w10P(R)dR（13）ENME=Ni=1|xixi|2Nd100%（14）TPFPFN式（11）和（12）中，、和

40、分别表示正确预测的生猪面部图像的数量、非生猪面部图像预测为生猪面部图像的数量和错误地将生猪面部图像预测为非生猪面部图像的数量。将精确度和召回率构成的 PR 曲线下方的APxiixiid面积定义为，即平均精度。式（14）中，为预测的第个坐标，为第个坐标的 ground-truth，为两眼间距离，即关键点欧氏距离之和与关键点的个数及两眼之间距离的乘积之积，该值代表关键点预测的错误率，值越小表示关键点预测的准确度越高。检测速度即一秒之内处理的图像帧数，单位为帧/s。2.3试验结果与分析为验证模型 YOLO-MOB-DFC 的性能，使用自建猪脸测试数据集，首先与分别采用 Resnet50 和 Mo

41、bileNet骨干网络的两种主流人脸关键点检测模型 RetinaFace 进行对比，再与分别采用YOLOv5s-Face、MobileOne 和RepVGG 骨干网络的三种 YOLOv5s-Face 模型进行对比，结果如表 1 所示。表1不同模型试验结果Table1Experimentalresultsofdifferentmodels模型Models精确度PrecisionP/%召回率RecallR/%平均精度AverageprecisionAP/%标准化平均误差NormalizedmeanerrorNME/%帧率FramepersecondFPS/(帧s1)参数量Parameters/MR

42、etinaFace-MobileNet-0.2583.987.088.95.9671670.426RetinaFace-Resnet5085.990.593.95.1188027.936YOLOv5s-Face86.197.196.63.0801727.074YOLOv5s-MobileOne84.997.197.82.9081048.014YOLOv5s-MobileOne(Rep)84.997.197.82.9112045.833YOLOv5-RepVGG86.998.099.14.5061738.596YOLOv5-RepVGG(Rep)86.998.099.14.5052096.276

43、YOLO-MOB-DFC88.6100.099.02.347877.674YOLO-MOB-DFC(Rep)88.6100.099.02.3441535.980注：Rep 为推理阶段经过重参数化的模型；YOLOv5s-RepVGG 为 YOLOv5s-Face 基础上更换了 RepVGG 骨干的模型；YOLOv5s-MobileOne 为 YOLOv5s-Face 基础上更换了 MobileOne 骨干的模型。Note:Repisthemodelthathasbeenreparameterizedintheinferencephase;YOLOv5s-RepVGGisthemodelwitht

44、heRepVGGbackbonereplacedontopofYOLOv5s-Face;YOLOv5s-MobileOneisthemodelwiththeMobileOnebackbonereplacedontopofYOLOv5s-Face.由表 1 可知，YOLOv5-Face 结构的模型相比RetinaFace 各模型的效果更优，AP均超过 96.6%。相比RetinaFace-Resnet50 模型，YOLO-MOB-DFC 的 AP提升了 5.43%，参数量降低了 78.59%，帧率提升了 91.25%，NME 降低了2.774%；相比YOLOv5s-Face，YOL

45、O-MOB-DFC 在 GPU 上推理速度相近，但参数量降低了 18.29%，AP提升了 2.48%；相比 MobileOne 骨干，YOLO-MOB-DFC 的 P、R 和 AP分别提升了 4.35%、2.98%、1.22%，NME 降低了 0.567%；相比 RepVGG 骨干，YOLO-MOB-DFC 的 AP值略有降低，但 NME 更小。由于添加了CARAFE 算子，YOLO-MOB-DFC 的推理速度有所下降，但 NME 最低，这表明其关键点预测位置更为精准，且速度和性能有着较好的平衡。为验证模型所添加模块的有效性，本研究进行了消融试验，以 YOLOv5s-Face 作为基本结构，分

46、别将特征提取骨干网络更换为含有 DFC 注意力的 MobileOne 骨干、EIoU 损失函数和 CARAFE 算子，消融对比试验结果如表 2 所示。表2消融对比试验结果Table2AblationcomparisonexperimentresultsMOB-DFC EIoU CARAFE精确度PrecisionP/%召回率RecallR/%平均精度AverageprecisionAP/%标准化平均误差NormalizedmeanerrorNME/%帧率FramepersecondFPS/(帧s1)参数量Parameters/M86.197.196.63.0801727.07484.698.6

47、98.43.3271655.84682.398.097.93.9161787.07487.598.296.21.6061627.24188.6100.099.02.3441535.980由表 2 可知，将 YOLOv5s-Face 的骨干网络中替换了 MOB-DFC 模块后，参数量相比改进前降低了 21%，AP提升了 1.8 个百分点。将 CIoU 替换为 EIoU 后，AP值和 FPS 变化较小，但 NME 提升了 0.836%。将原有的最近邻插值上采样替换为 CARAFE 算子后，参数量有所提升，推理速度略有下降，NME 仅为 1.606%，猪脸关键点预测位置最精准。与 YOLOv5s-F

48、ace 相比，改进后模型的 AP提升了 2.48%，参数量下降了 18.29%，NME 为2.344%，略低于仅含有 CARAFE 算子的 YOLOv5s-Face模型。由于改进后的模型结构更加复杂，DFC 注意力机制和 CARAFE 算子增加了计算复杂度，导致检测速度略有降低。在实际环境中，生猪的面部姿态变化多端，因此本研究对运动中生猪面部关键点进行持续检测。为了评估模型的稳定性和准确性，选取了一段视频并截取其中连续的480 帧进行了猪脸关键点检测，检测精度曲线如图 8 所示。146农业工程学报（http:/www.tcsae.org）2023年00.51.01.52.02.53.03.54

49、.04.55.00100200300400标准化平均误差Normalized mean errorNME/%帧数Frame numberYOLO-MOB-DFCYOLOv5s-Face图 8连续帧间标准化平均误差曲线Fig.8Normalizedmeanerrorcurvesbetweenconsecutiveframes在图 8 中出现的波峰，是因为猪脸姿态多变，出现了大角度侧脸，从而降低了关键点的准确性。对比改进后的模型和 YOLOv5s-Face 模型在这段视频中的表现可知，YOLOv5s-Face 模型的帧间 NME 波动较大，改进后的模型连续帧间的 NME 波动更加稳定，说明该模型能

50、够削弱猪脸姿态多变对关键点提取准确性的影响。为直观展示目标框及关键点的检测效果，将 Reti-naFace、YOLOv5s-Face 和 YOLO-MOB-DFC 进行对比，结果如图 9 所示。由图 9a9d 可知，RetinaFace 模型检测到的生猪双眼关键点及鼻尖存在着较大误差；从图 9c中可以看出，第二头猪的鼻尖关键点误差较大；图 9f9g 所示大角度侧脸和近距离图像中，由于生猪鼻翼两侧边缘不明显，出现了关键点漂移的情况，但图 9h 表明本文模型能够降低鼻翼边缘不明显对关键点检测准确性的影响，且模型预测框的置信度均高于其他模型。上述分析表明，本文模型检测关键点的准确度更高。a.多头猪原

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 融合参数注意力机制关键检测方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。