改进YOLOv5m的密集人群检测.pdf
《改进YOLOv5m的密集人群检测.pdf》由会员分享,可在线阅读,更多相关《改进YOLOv5m的密集人群检测.pdf(5页珍藏版)》请在咨信网上搜索。
1、 2023 年第 8 期203智能技术信息技术与信息化7 王通,于洁,马文会,等.电池管理系统 SOC 估算方法研究进展 J.电源技术,2018,42(2):312-315.8 郑 永 飞,文 怀 兴,韩 昉,等.基 于 LSTM 神 经 网 络的动力电池 SOC 估算研究 J.计算机应用与软件,2020,37(2):77-81.9 耿攀,许梦华,薛士龙.基于 LSTM 循环神经网络的电池SOC预测方法J.上海海事大学学报,2019,40(3):120-126.10 刘晓悦,魏宇册.优化神经网络的锂电池 SOC 估算 J.机械设计与制造,2021,11:83-86.11 李占英,时应虎,张海传
2、,等.基于 RBF-BSA 的锂离子电池 SOC 混合估算算法 J.华中科技大学学报(自然科学版),2019,47(12):67-72.12RIVERA-BARRERA J P,MUOZ-GALEANO N,SARMIENTO-MALDONADO H O.SoC estimation for lithium-ion batteries:review and future challengesJ.Electronics,2017,6(4):102-13513PAN HAIHONG,LU ZHIQIANG,WANG HUIMIN,et al.Novel battery state-of-healt
3、h online estimation method using multiple health indicators and an extreme learning machineJ.Energy,2018,160:466-47714 牛鑫强,田晶京,赵峰,等.不同环境温度下的锂离子电池 SOC 估计 J.电池,2021,51(4):342-345.【作者简介】苏磊(1987),男,江苏南京人,硕士,工程师,研究方向:神经网络与深度学习在电力系统中的应用。柯海山(1993),男,江苏南京人,硕士,工程师,研究方向:能量管理系统。(收稿日期:2023-02-20 修回日期:2023-04-19
4、)改进 YOLOv5m 的密集人群检测徐克圣 李欢欢 崔效魁 刘丹丹XU Kesheng LI Huanhuan CUI Xiaokui LIU Dandan 摘要 对密集人群进行检测时,由于存在遮挡物及光线分布不均匀,导致检测精度低、速度慢,同时由于参数量大使其无法部署在算力有限的移动设备上。针对以上问题,提出了改进 YOLOv5m 的密集人群检测算法,旨在检测密集人群中人体头部及身体可见区域。改进方法为首先将 CSPDarknet53 主干特征提取网络替换为更加高效且轻量化的 MobileNetV3 网络,再增加 ECA 注意机制,同时将 SiLU 激活函数替换为 ACON-C,以实现网络
5、模型的轻量化,平衡速度和精度。实验结果表明,改进后的算法在CrowedHuman 数据集上 mAP 达到 80.91%的同时相比 YOLOv5m 算法提高了 0.32%,参数量减少了约1.77 M 且实时检测速率提高了约 1.02 倍,在小型移动设备上表现出不错的检测效果。关键词 YOLOv5m;目标检测;MobileNetV3;深度学习;密集人群doi:10.3969/j.issn.1672-9528.2023.08.0451.大连交通大学软件学院 辽宁大连 116028 基金项目 辽宁省教育厅科学研究项目(LJKZ0486)0 引言近年来因人员聚集导致的伤亡事件不断发生,但有一些活动势必会
6、将观众聚集起来,比如听音乐会、观看足球比赛。因人员众多,仅依靠人力发现问题是低效的,因此本文提出一种基于改进 YOLOv5m 的密集人群检测方法,对观众席的观众进行实时检测,将深度学习应用到密集人群监控领域,实现智慧检测。目标检测方法可以分为三大类:1)采用滑动窗口对特征进行提取,再使用支持向量机(support vector machine,SVM)分类,最后对其进行分类器预测的传统方法。2)通过提取候选区域,对相应区域进行分类的双流(Two-Stage)算法,如R-CNN(regions with CNN features,R-CNN)1、Fast R-CNN(the Fast regio
7、n-based convolutional network,fast R-CNN)2等方法。3)基于深度学习的回归方法,如 YOLO(you only look once,YOLO)3-6系列、SSD(single shot multiBox detector,SSD)7、DenseBox 等方法。Two-Stage 算法相较于 One-Stages 算法检测精度高,2023 年第 8 期204智能技术信息技术与信息化但是检测速度比较慢,不适用于对检测速度要求比较高的场所。本文采用单流算法中的 YOLOv5m 模型作为基准模型,融入 ECA 注意力机制,过滤掉冗余特征信息,保留重要特征,提高检
8、测精度。将 CSPDarknet53 主干特征提取网络替换为更加高效且轻量化的 MobileNetV3 网络,减小模型体积、提高检测速度。将激活函数 Sigmoid 替换为ACON-C,以增强语义的特征提取。通过改进的网络模型,本文测试了相关数据集并验证了本文提出模型对现有模型mAP 的改进。本次研究中,考虑到密集人群检测相较于传统公共场所的技术难点主要在于观众席存在较多遮挡问题,因此本文只检测人体的可见区域,使得检测结果更加精准。卷积神经网络的参数量和计算量也是需要考虑的重点,本文通过更换轻量化网络结构,降低网络复杂度,节约计算资源,有利于在资源算力不足的小型移动设备上完成模型部署。1 YO
9、LOv5 网络模型介绍2020 年 6 月份,Ultralyti 团队在 YOLOv48-9 的基础上提出 YOLOv5 模型,网络结构如图 1 所示。YOLOv5 相较于 YOLOv4,速度更快,灵活性更好,适合模型的快速部署。YOLOv5 算法根据网络宽度与深度分为 4 种模型,依次为 YOLOv5s、YOLOv5m、YOLOv5x 和 YOLOv5l,精度逐渐提高,但检测速度逐渐降低。YOLOv5 网络结构由输入端、骨干网络、颈部和预测层四个部分组成。图 1 YOLOv5 结构图输入端由自适应锚框计算、Mosaic 数据增强、自适应图片缩放三部分组成。首先 Mosaic 数据增强将四张图
10、像通过随机缩放、随机裁剪、随机排布的方式拼接成一张图像,达到减少 GPU 使用、扩充数据集目的。其次由自适应锚框模块通过不断迭代参数,计算最佳的锚框值。最后再根据图片的长宽比进行缩放,通过减少图像上的边界填充加快推理速度。Backbone 由 Focus、CSP(cross stage partial network)、SPPF 三个模块构成,实现对输入图像的特征提取。Focus 模块通过对图片进行切片操作,将输入通道扩充为原来的 4 倍,再通过卷积得到下采样特征图,达到实现下采样的同时减少计算量并提升速度目的。CSP 将梯度信息集成到特征图中,减少模型的参数量,在保证推理速度以及准确率的提升
11、,还能使模型具有更小的尺寸。SPPF 在 SPP10上进行改进,二者输出结果相同,但SPPF 的速度是 SPP 速度的两倍。因此本实验将 SPP 结构更换为 SPPF 结构,如图 2 所示。SPPF(fast fpatial pyramid pooling,快速空间金字塔池化),解决了卷积神经网络对相关重复特征提取的问题,使得任意大小的特征图都能够转换成固定大小的特征向量。SPPF 指定一个卷积核,将输入的特征图依次输入到 3 个 55 大小的最大的池化层,每次池化后的输出作为下一个池化的输入,保证在进入到 Neck 层之前,图片尺度是统一的。图 2 SPPF 结构图Neck 区域采用FPN1
12、1+PAN12(Path Aggregation Network)结合的结构作为特征融合部分,首先将自底向上的特征金字塔与常规的 FPN 层结合,再将位置特征与提取的语义特征进行融合,最后将检测层与主干层进行特征融合,丰富模型的特征信息,并发送到预测层部分。Prediction 模块包括边界框预测、非极大抑制、损失函数计算,其损失函数由完全交并比13(complete intersection over union,CIoU)损失改进为广义交并比(generalized intersection over union,GIoU)损失。输出端由 3 个尺度的特征图组成,分别用于检测小、中、大目标
13、。2 改进 YOLOv5 目标检测算法YOLOv5 v6.1 采用 SiLU14激活函数,SiLU 具备无上界有下界、平滑、非单调的特性,在深层模型上的效果优于 ReLU15,但是计算量较大,导致检测速度较慢。本文用ACON-C16替换 SiLU 激活函数,使其动态的学习(自适应)激活函数的线性/非线性,控制网络每一层的非线性程度,显著提高了表现。2.1 ACON-CSwish 激活函数和 ReLU 激活函数的公式出发,挖掘其中的平滑近似原理(smooth approximation),并且将这个原理应用到 Maxout family 激活函数,提出了一种新型的激活函数:ACON family
14、激活函数,它明确地学习优化非线性(激活)和线性(非激活)之间的参数切换。在图像分类,目标检测以及语义分割的任务上,都使得深度模型有显著的提升效果。ACON-C 是在标准最大函数的光滑性和可微性近似公式的基础上,结合常见激活函数和 PReLu 的近似,采用双自变量函数,使用超参数使其在功能上进行缩放,得到ACON-C公式。标准最大函数的光滑性和可微性的近似公式,常见激活函数、PReLu近似公式,ACON-C分别如式(1),式(2),式(3),式(4)所示。2023 年第 8 期205智能技术信息技术与信息化在对 ACON-C 公式求导得到可以发现在一阶导中,控制着其渐进上下界的速度,p1,p2控
15、制着上下界的值,这是优于 Swish 激活函数的。111(,.,)iinxiinnxixeSxxe=(1)max(),()abxx (2)()max(,)f xx px=(3)(4)2.2 ECA 注意力机制在传统的卷积池化过程中,默认特征图中的每个通道是同等重要的,但在实际问题中,各种通道的意义是有区别的。本实验在 backbone 的最后一层,加入 ECA17注意力机制,达到加强整体通道特征,有效地提升模型精度的目的。如图 3 所示,ECA 在 SE 模块的基础上,把 SE 中使用全连接层学习通道注意信息改为 1*1 卷积学习通道注意信息,减小通道维度,降低参数量。图 3 EAC 结构图E
16、AC 模型流程主要为,首先输入 HWC 维度的特征图,使用全局平均池化 GAP,对输入特征图进行空间特征压缩,得到 11C 的特征图。再进行卷积核大小为 k 的 1 维卷积操作,并经过 Sigmoid 激活函数,得到各个通道的权重w,如公式(5)所示。最后将通道注意力的特征图 11C、原始输入特征图 HWC,进行逐通道乘,最终输出具有通道注意力的特征图。=(1()kC Dy (5)3 YOLOv5-MobileNetv3 网络3.1 特征提取网络改进YOLOv5 算法是一个目标回归技术,检测过程中将像素分割成相应位置的方格,遍历该区域一次,在方格中探测到信息后,按照当前方格的上一帧绘制一个检测
17、框,从而直接检测结果。但对于观众席人群密集的特殊性,设计算法需满足在尽量达到精度的前提下,还需要满足识别速度快的特点。因此本文在 YOLOv5m 架构的基础上,将 CSPDarknet53 骨干网络替换为轻量型网络 MobileNetv3,特征融合网络仍使用 SPPF 和 PANet 组合,预测网络使用 3 个不同尺度的网络,分别对应 8080、4040 和 2020 特征图,检测大、中、小目标,实现在能有效提取图像的深层特征以保证识别精度的前提下,降低网络的权重参数量,缩小其体积。3.2 MobileNetv3 网络Mobilenet 系列有三种网络结构,分别是 v1、v2、v3,其中 v3
18、 是 Howard 等18于 2019 年提出的最新的一代,网络结构如图 4 所示。Mobilenetv3 首先继承了 v1 的深度可分离卷积(depthwise separable convolutions)和 v2 的线性瓶颈的逆残差结构(the inverted residual with linear bottleneck),又将 SE-Net 作为搜索空间的一部分,在 Bottlenet 结构中加入 SE 结构,最后利用h-swish激活函数代替swish激活函数,最终实现模型的轻量化。3.2.1 激活函数swish激活函数具有无上界、有下界、平滑、非单调的特点,因此在深层模型上优于
19、 ReLU 函数。但由于 sigmoid 函数计算和求导比较复杂,会产生大量的计算成本,因此 V3 改用近似函数 ReLU6 逼近 swish,最终得到 h-swish 函数。ReLU6能在特定模式下消除由于近似 sigmoid 的不同实现而带来的潜在的数值精度损失并且适用于大部分的软硬件框架。swish函数和 h-swish 函数公式分别用变量 s、h 表示。公式如式(6)、式(7)所示。(6)H=xR(x+3)/6 (7)式中:R 表示 ReLU6 激活函数。3.2.2 SE 注意力机制MobileNetV3 使用 SE(squeeze-and-excitation)注意力机制,通过神经网
20、络架构搜索进行最优位置选择。如图 5 所示,SE结构主要由压缩和激励两个模块组成,主要目的是解决在卷积池化过程中不同通道所占的重要性不同带来的损失问题。图 5 SE 结构图首先通过全局池化对输入特征图进行处理,减小特征图的维数,再增加两个全连接层,最后通过 sigmoid 激活函数获得相应的权重。经过全局平均池化,获得全局的感受野,在第一次全连接时通过减少特征图的维度,减少了参数和计算量,经过非线性激活函数后再通过一个全连接恢复到原来的通道数,完成了通道间相关性的建立。MobileNetV3 利用两种 AutoML(自动机器学习)技术,为给定的问题找到最佳的神经网络架构,分别是 MnasNet
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 YOLOv5m 密集 人群 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。