改进YOLOv5在电力生产违规穿戴检测中的应用.pdf
《改进YOLOv5在电力生产违规穿戴检测中的应用.pdf》由会员分享,可在线阅读,更多相关《改进YOLOv5在电力生产违规穿戴检测中的应用.pdf(9页珍藏版)》请在咨信网上搜索。
1、第51 卷 第14 期 电力系统保护与控制电力系统保护与控制 Vol.51 No.14 2023年7 月16 日 Power System Protection and Control Jul.16,2023 DOI:10.19783/ki.pspc.221785 改进 YOLOv5 在电力生产违规穿戴检测中的应用 杨 乐1,郭一鸣1,霍勇博1,任晓龙1,林平远2,张志宏2(1.国网陕西省信息通信有限公司,陕西 西安 710065;2.厦门大学信息学院,福建 厦门 361000)摘要:为了解决现有目标检测系统在电力现场识别中存在的环境复杂、检测物体形状方差过大以及视觉特征辨识性不佳等问题,提出
2、了一种适用于电力现场穿戴识别的目标检测模型。首先,通过在 YOLOv5 特征提取网络中嵌入非对称卷积模块,从而得到更加具备辨识性及鲁棒性的视觉特征。其次,为了能够在全局背景噪声的影响下自适应地关注与检测物体特征相关性更强的区域,采用全局注意力机制进行上下文信息的建模,改进了视觉信息处理的效率与准确性。最后,通过对比现有的目标检测算法,证明了所提针对 YOLOv5 改进算法的有效性和优越性。同时,通过消融实验证明了所改进的模块在目标检测模型中的有效性。关键词:非对称卷积网络;注意力机制;目标检测;违规穿戴检测;YOLOv5 Application of improved YOLOv5 for i
3、llegal wearing detection in electric power construction YANG Le1,GUO Yiming1,HUO Yongbo1,REN Xiaolong1,LIN Pingyuan2,ZHANG Zhihong2(1.State Grid Shaanxi Electric Power Company Information and Communication Co.,Ltd.,Xian 710065,China;2.School of Informatics,Xiamen University,Xiamen 361000,China)Abstr
4、act:There are problems in existing object detection systems caused by the complicated detection environment of electric power construction,large variance of detected object shape and poor recognition of visual features.This paper proposes an object detection model for illegal wearing detection in el
5、ectric power construction.First,an asymmetric convolutional group is added to the feature extraction backbone network of YOLOv5 to obtain more discriminative and robust visual features.Second,in order to be able to adaptively focus on feature regions that are more relevant to the detected object und
6、er the influence of visual noise,a transformer-based global attention mechanism for modeling contextual information is used to improve the efficiency and accuracy of visual information processing.Finally,the effectiveness and superiority of the improved YOLOv5 algorithm in this paper are demonstrate
7、d by comparing with existing object detection algorithms.Meanwhile,the effectiveness of the improved modules in the target detection model is demonstrated by ablation experiments.This work is supported by the National Natural Science Foundation of China(No.62176227 and No.U2066213).Key words:asymmet
8、ric convolutional network;attention mechanism;object detection;illegal wearing detection;YOLOv5 0 引言 随着智慧电网项目的全面推进,如何保证电力现场的施工安全成为了备受关注的问题。由于施工人员常在高危环境下进行作业,因此存在大量的安 基金项目:国家自然科学基金资助项目资助(62176227,U2066213);中央高校基本科研业务费资助(20720210047);国家电网陕西省电力公司科技项目资助(SGSNXT00GCJS2200106)全隐患。在此背景下国家电网提出了多种施工规范,通过要求施工人
9、员规范穿戴安全保障设备来降低安全隐患。然而,许多施工人员由于安全意识薄弱而未穿戴安全防护器具,这个现象成为了电力施工现场发生事故的重大导火索。因此,研究如何展开智能化监管,从而提高施工人员安全意识并减少施工事故,对于电力公司的可持续发展具有重要意义1。目前绝大多数违规行为的发现依赖于现场安全员以及远程的实时监测,而人力监管一方面会造成杨 乐,等 改进 YOLOv5 在电力生产违规穿戴检测中的应用 -161-人力资源的浪费,增大企业成本;另一方面长时间工作容易视觉疲劳导致遗漏。因此,为了尽可能降低人为干扰因素,提高监管响应的速度以及准确率,急需引入人工智能技术以实现智能自动化监控与响应,其中涉及
10、到多种计算机视觉算法,如图像识别2与目标检测3方法。与现有的电力现场视频监控系统结合,无需额外改造成本就可以降低企业人力成本,提高企业效益。目标检测方法是解决电力现场违规穿戴简单且有效的工具,按照特征提取方法的不同可分为两类。1)基于数字图像处理的方法。这类方法通过设计手工特征对头部、面部和肤色等区域进行特征提取,进而利用分类算法对特征进行识别。文献4利用 Harris 检测和方向梯度直方图特征描述图像,然后利用支持向量机对目标进行检测。文献5选取尺度不变性特征、变换角点特征和颜色统计特征的方法对目标物体进行检测。虽然这些方法能够初步应用于简单背景下的目标检测,但随着应用场景的变化其准确度也会
11、有相应的波动,泛化能力较差。随着电力公司规模迅速扩大,这类方法已无法适应电网发展与数字化变革的要求。2)基于深度学习的方法。近年来,随着人工智能技术的高速发展,采用深度学习方法进行目标检测取得了阶段性的成果。文献6利用在线困难实例挖掘方法对目标检测模型进行优化,实现了边缘终端的实时运算。文献7利用人体关键点检测模型提取人员图像,此后YOLO8(you only look once)能够实现电力现场保障设备的实时佩戴检测。文献9基于 Faster R-CNN10算法,融合多尺度特征提取方案与特征增强模块,通过剔除无关背景区域来提高检测精度。然而,由于实际场景中要检测的物体种类以及数量的快速增长,
12、尤其是针对密集及不规则形状物体的检测难以取得令人满意的效果。为了实现电力现场违规穿戴的准确检测,本文以 YOLOv5 算法作为基线模型进行改进,提出了一种改进 YOLOv5(improved YOLO,IYOLOv5)算法。该方法引入非对称卷积网络11(asymmetric convolutional network,ACNet)中的非对称卷积结构(asymmetric convolutional block,ACB),利用中心增强机制提高视觉特征在不规则物体上的表现力与鲁棒性。为了降低电力现场中环境背景噪声的影响,该方法将自注意力机制12嵌入到模型检测中,通过获取图像的全局依赖信息,进而改进
13、视觉信息处理的效率与精准程度。通过上述改进,本文所提出的方法泛化能力与检测精度均得到有效提升。1 相关工作与技术背景 1.1 目标检测 目标检测可以根据是否包含兴趣区域搜索分为一阶段方法和二阶段方法。二阶段方法将目标检测任务分解为两个不同的阶段,其中第一个阶段主要是对图片中的候选区域进行筛选,随后的第二阶段则是对筛选出的兴趣区域物体进行分类。作为二阶段目标检测的开创性工作,R-CNN13通过选择性搜索14获得区域建议,然后通过提取卷积神经网络的机器特征对结果进行细化。为了提高 R-CNN 的速度,Fast R-CNN15从整幅图像中提取特征,然后分别通过空间金字塔池和兴趣区域池生成区域特征,最
14、后根据区域特征对预测结果进行细化。Faster R-CNN10可以完全端到端训练,它通过区域建议网络给出预测结果。Cascade R-CNN16通过多级细化改进 Faster R-CNN,可以帮助网络实现更加准确的预测。与二阶段检测方法相比,一阶段方法效率更高,但精确度较低。SSD17在多尺度特征上扩展锚盒,采用 CNN 直接预测类概率和锚偏移量。EfficientDet18使用网络架构搜索算法自适应构建最优模型。而上文提及的 YOLO8是第一个将目标检测重新定义为一个简单的回归问题的,它可以直接从图像像素中获得边界框坐标和类概率。1.2 注意力机制 注意力机制的本质是根据不同的输入自适应对特
15、征的权重进行更新,将与检测物体更加相关的特征权重加强,而忽略一些相关性较低的区域特征。该机制来自于人类注意力视觉系统的启发,通过相关性对视觉特征建立动态权重参数组合,可以有效地帮助模型理解复杂的场景12。注意力机制已广泛用于目标检测,DERT19能够有效地建模图像中的远程依赖关系,并使得目标检测算法完全摒弃了以往算法中依赖人工先验的后处理步骤,构造了一个完全端到端的检测框架。文献20构建的方法与本文方法类似,区别之处在于文献20所使用的空间注意力21与本文所引入的基于 Transformer 的自注意力机制有所不同。2 建模方法 2.1 YOLOv5 概述 YOLOv5主要包括特征提取主干网络
16、BackBone、特征聚合网络 Neck 以及检测头 Head。其中采用CSPDarknet5322作为特征提取主干网络,深度为 53层,在主干网络输入阶段的数据操作与 YOLOv3 相-162-电力系统保护与控制电力系统保护与控制 同,都利用了 Focus 层来对输入数据进行维度上的切片,从而对通道进行扩充,相较于 YOLOv3 所采用 DarkNet53,其采用的 CSP 结构通过 ResNet23残差模块的叠加来扩大局部特征的感受野,同时采用 SiLU 激活函数来替代 YOLOv3 所使用的 Leaky ReLU,增加了梯度的平滑程度,使其效果更好。同时在主干网络的最后使用空间金字塔池化
17、层24来获取不同特征尺度下的空间语义信息,进而提升模型的鲁棒性。然而,在电力现场中普遍存在的拍摄角度、环境影响、检测对象不规则等不利因素,使得 YOLOv5的表现结果并不理想。本文针对性地引入两个结构,以挖掘更具有辨识性的语义特征信息来提高模型的识别能力。2.2 非对称卷积网络 卷积神经网络(convolutional neural network,CNN)由于其局部感受野和权值共享的特性,具有较好的平移不变性,在计算机视觉领域倍受欢迎。然而,在面对图像背景复杂且目标物体不规则的情况下,普通卷积提取的视觉特征鲁棒性不佳。文献25尝试将标准方形卷积核dd分解为1 d和1d 两个非对称卷积核,在保
18、证模型性能不剧烈降低的同时减少了1/3的参数。其结果间接地说明了,在标准卷积神经网络中,起最主要作用的是其方形卷积核中间骨架的权重。与此同时,本文发现标准卷积在面对电力现场情况下,其学习的视觉特征辨识度不足,鲁棒性不佳。为了解决这个问题,本文在视觉特征主干网络中引入了ACNet11中的ACB结构,即在标准卷积核()dd中额外添加水平(1)d和垂直(1)d 两个非对称卷积组,显式地增强了方形卷积核中心骨架位置的权重,在目标检测中能使矩形框中与物体相关性更高的中心十字区域得到了更多的关注,加强了视觉特征的辨识力与鲁棒性。图 1 以3 3的卷积核为例,在训练阶段分别经过所构建的 3 组不同的卷积核后
19、,再将 3 组计算后的视觉特征融合,可表示为(1)(2)(3)IKIKIK (1)式中:I 表示输入卷积的图像特征;(1)K、(2)K和(3)K分别表示dd、1 d和1d 卷积核组;表示卷积操作。在训练阶段利用不同形式的额外卷积操作扩充特征空间,自适应地学习不同长宽比目标。相反地,添加额外卷积操作不可避免地增加了额外的参数量。但是根据卷积运算的可加性,利用重参数技巧,可以将这 3 组卷积操作融合为原始标准卷积大小,降低推理阶段的计算开销,3 3非对称卷积操作的推理阶段如图 2 所示。其通用形式可以表示为 (1)(2)(3)(1)(2)(3)()IKKKIKIKIK(2)式中,(1)(2)(3)
20、()KKK表示将卷积核中对应位置的权重相加。这意味着,在推理阶段非对称卷积组被归一成了一个标准卷积,在不额外增加计算量和参数量的同时,提高了检测模型的效果。图 1 ACB 训练阶段示意图 Fig.1 Schematic diagram of ACB module in the training stage 图 2 ACB 推理阶段示意图 Fig.2 Schematic diagram of ACB module in the inference stage 2.3 自注意力Transformer结构 Transformer结构最早在自然语言处理(natural language process
21、ing,NLP)领域中被提出12。该结构利用全局自注意力机制自适应地捕获全局上下文消息,在多项NLP任务中取得卓越成果。而在计算机视觉领域中,视觉Transformer模型成为近年来学者们的热门研究对象26-27。本文在YOLOv5模型中添加了文献27中的视觉Transformer模块,增强了模型在电力现场检测任务下的长距离上下文建模能力,进而缓解由物体远近不一致、场景复杂度等噪声干扰所带来的影响。视觉Transformer模块架构如图3所示,针对下采样阶段输出的阶段性特征,采取与VIT中相同的数据处理,对输入特征进行Patch Embedding操作,即采取图像切分的方式将语义图片从二维结构
22、信息转化为一维序列信息,以降低计算的复杂度,同时通过添加位置信息编码以保留图像中各个切片像素的相对位置,本文在具体实现中将图像特征划分为1414的Patch大小。后续的结构包含多头注意力层(multi-head self attention,MSA),标准化层(layer norm,LN),多层感知机层(multi-layer perceptron,杨 乐,等 改进 YOLOv5 在电力生产违规穿戴检测中的应用 -163-MLP)以及残差恒等映射,并在训练过程中添加Dropout正则化层来防止网络过拟合。图 3 Transformer 模块架构 Fig.3 Architecture of th
23、e Transformer module 多头注意力模块是视觉Transformer的核心结构,由多个自注意力机制组成,各个注意力分别关注不同粒度的上下文信息,聚合得到多尺度的注意力信息。自注意力机制由3个关键矩阵 Q、K 和 V组成,其获得方式可表示为(1)lqFQW (3)(1)lkFKW (4)(1)lvFVW (5)式中:l为网络深度;(1)lF为前一层的特征输出结果;qW、kW 和vW 为可学习的权重矩阵,其目的为对1lF进行仿射变换得到 Q、K 和 V。后续利用Q 和 K 的相关性得到注意力信息,公式可表示为 T(,)()GdQKQ K VV (6)式中:()G 为自注意力机制函数
24、;()为非线性激活函数Softmax;d为通道维度,1/d为缩放操作以防止梯度消失。上述介绍了自注意力机制的过程,而多头注意力机制聚合若干个注意力的结果,每个自注意力头可表示为 111(,)lllqkviiiihG FFFWWW (7)式中,下标i表示自注意力头的序号。多头注意力可表示为 12()onOhhh W (8)式中:为特征聚合操作;oW为输出层;O代表输出的特征;下标n表示注意力头的总数,本文将n设置为2。MLP层由两个全连接层组成,LN层能够调整输入分布,残差恒等映射构建输入输出的链接关系,防止网络层数过深、梯度消失导致的模型退化。正如文献26提及的,Transformer具有优秀
25、的特征建模能力。本文希望利用Transformer的全局注意力与卷积建模领域像素的局部能力相结合互补,将Transformer作为卷积网络的补充,以提高整体网络的特征建模关注能力28。2.4 IYOLOv5 IYOLOv5的整体模型结构如图4所示。本文针对复杂电力施工场景中可能存在的不规则物体检测以及背景噪声影响,基于YOLOv5的网络结构做出了以下两方面的改进。首先,本文将特征提取主干网络中的标准卷积模块替换为ACB结构。通过ACB的中心增强机制将权重进行倾斜,针对不规则物体得到更具有辨识性和鲁棒性的视觉特征。该机制能够在推理阶段不额外增加计算开销的情况下,更好地服务于后续的下游任务,以构建
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 YOLOv5 电力 生产 违规 穿戴 检测 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。