优化YOLO网络的人体异常行为检测方法_张红民.pdf
《优化YOLO网络的人体异常行为检测方法_张红民.pdf》由会员分享,可在线阅读,更多相关《优化YOLO网络的人体异常行为检测方法_张红民.pdf(8页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(7)目前,视频监控系统普遍应用于公共场所,在社会治安管理、打击犯罪、城市管理、服务人民生活等领域发挥着重要作用1-2。然而现实生活中人体异常行为类型复杂、数量众多,且不同的情况下非正常行为的界定标准也不一样3。大多数情况下异常行为样本仅在测试的时候可用,因此原YOLO网络不适合直接应用于人体异常行为检测。部分研究人员把目光投向了其他技术上,如基于重建的方法4-5、字典学习方法6-7等。重建方法的一个显著特征就是子类别依赖于预测掩蔽信息,利用相对于掩蔽优化YOLO网络的人体异常行为检测方法张
2、红民1,2,庄旭1,郑敬添1,房晓冰11.重庆理工大学 电气与电子工程学院,重庆 4000542.重庆理工大学 两江国际学院,重庆 401135摘要:鉴于公共场合监测视频信息中周围环境背景信息干扰大以及人体异常行为目标的尺度不同,目前人体异常行为检测的准确性难以进一步提高。针对上述问题,设计了通过改进YOLOv5网络的异常行为检测方法。该方法在原YOLOv5主干网络添加屏蔽卷积注意力模型,该模块从一个屏蔽卷积层开始,感受野的中心区域被遮掩,通过预测屏蔽信息并利用与屏蔽信息相关的误差作为异常得分。在检测网络中嵌入Swin-CA模块。通过对相邻层特征的学习,使得模型能够更好地掌握全局信息,从而减小
3、了背景信息对检测结果的影响,通过提取不同背景中人体异常行为尺度特征,降低了整个模型计算的复杂度,提高了模型对人体异常行为目标定位的精度。在UCSD-ped1、KTH和Shanghai Tech数据集上的实验结果表明,提出方法的检测精度分别达到了98.2%、96.4%和95.8%。关键词:人体异常行为;YOLOv5;屏蔽卷积;注意力机制;Swin-CA模块文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2208-0061Optimizing Human Abnormal Behavior Detection Method of YOLO Networ
4、kZHANG Hongmin1,2,ZHAUNG Xu1,ZHENG Jingtian1,FANG Xiaobing11.School of Electrical and Electronic Engineering,Chongqing University of Technology,Chongqing 400054,China2.Liangjiang International College,Chongqing University of Technology,Chongqing 401135,ChinaAbstract:Because of the large interference
5、 of environmental background information in public surveillance videos andthe different scale of abnormal human behavior goals,at present,it is difficult to improve the precision of human abnormalbehavior detection.For the above issues,this paper designs the abnormal behavior detection method by imp
6、rovingthe YOLOv5 module.In this method,a shielded convolutional attention model is added to the original YOLOv5 backbonenetwork.The module starts from a shielded convolutional layer,and the central region of the receptive field is covered.The shielding information is predicted and the errors related
7、 to the shielding information are used as abnormal scores.Atthe same time,Swin-CA module is embedded in the detection network.Through the study of characteristics of adjacentlayers,enables the module to get stronger grasp the overall situation information,thus reducing the affect of backdropmessage
8、on the detection results,by extracting the scale characteristics of human behavior abnormalities in differentbackgrounds,it decreases the order of complex of the whole model calculation and improves the precision of the moduleto locate the target of abnormal human behavior.Experimental results on th
9、e UCSD-PED1,KTH and Shanghai Tech datasetsshow that the precision of the proposed method reaches 98.2%,96.4%and 95.8%,respectively.Key words:abnormal human behavior;YOLOv5;mask convolution;attentional mechanism;Swin-CA module基金项目:重庆市自然科学基金面上项目(cstc2021 jcyj-msxmX0525)。作者简介:张红民(1970),通信作者,男,博士,教授,主要研
10、究方向为图像处理与模式识别,E-mail:;庄旭(1999),男,硕士研究生,主要研究方向为信号与信息处理;郑敬添(2000),男,硕士研究生,主要研究方向为信号与信息处理;房晓冰(1995),男,硕士研究生,主要研究方向为信号与信息处理。收稿日期:2022-08-04修回日期:2022-11-10文章编号:1002-8331(2023)07-0242-082422023,59(7)信息的重建误差作为异常得分。同时,目前公共场合监控视频数据中人体目标的尺度不同为当前人体异常行为检测的准确率以及检测速度带来了难题。为了解决目标的尺度不同这个问题,Lin等8于2017年首次公开地给出了FPN特征金
11、字塔网络来处理目标分类中的多尺度问题,该技术通过利用最简单的网络连接改变,从而使得对于小对象的检测和分析性能较大提高,但是,通过特征提取和将不同层次的特征加以融合的做法并不能将更多的特征集合在一起。为了能够更好地提取多尺度特征并将其融合,研究人员对特征金字塔网络进行改进,并于2018年提出了PAN网络结构9,PAN网络虽然有效地解决了特征融合的问题,但是对人体目标的检测及计算速率十分缓慢。文献10提出了YOLOv4。YOLOv4采用了FPN和PAN相结合的网络结构,使图像的视觉范围得到了最大程度的提高,同时也能迅速地分割出更加重要的特征信息。YOLOv511沿用了 v4 版本的网络结构,继续采
12、用FPN+PAN结构,但是经过实验发现FPN+PAN结构并不能很好地提取人体异常行为目标的特征,同时在上采样的过程中还会产生重叠效应。为此,本文对YOLOv5的网络结构进行改进,提出了一种人体异常检测方法(MCS-YOLO)。1优化YOLO网络的人体异常行为检测方法1.1MCS-YOLO方法改进思路YOLOv5模型在目标检测领域中取得了很好的效果,但对于具有复杂背景的人体异常行为的图片,YOLOv5很难得到比较精确的特征,容易产生误检或者漏检。此外,YOLOv5模型无法检测各种尺度的行为对象。针对上述问题,本文对 YOLOv5 网络结构进行分析,对YOLOv5模型优化得到新的人体异常行为检测模
13、型:MCS-YOLO。本文利用重建方法的思想,通过在主干网络中添加屏蔽卷积注意力模块MC,该模块由一个屏蔽卷积层12和注意力机制组成,屏蔽卷积层基于一个自定义的感受野,在那里图片的中心区域被屏蔽。产生的卷积激活图随后通过注意模块传递。注意模块用来确保网络不会简单地学习基于线性插值上下文信息的屏蔽区域,对网络的性能带来极大的改进。在YOLOv5网络的FPN+PAN结构中嵌入Swin-CA模块。Swin-CA模块由Swin transformer模块与坐标注意力结合而成,利用Swin transformer模块来引导特征聚合以改进多尺度特征学习的方式,借助坐标注意力机制的特点来获取特征图片的精确的
14、位置信息。Swin transformer可以从各种尺度中提取出异常的人类行为13,能够提高模型的目标识别能力。坐标注意力机制14能够精准地定位检测目标的位置。因此在本文中,将Swin transformer模块与坐标注意力机制结合,让模型能够得到更加丰富的图片的特征信息。该方法对原YOLOv5网络的主要改进有以下几点:首先,在YOLOv5主干网络中添加屏蔽卷积注意力模块MC,提高网络的特征学习能力,优化网络的检测性能;然后,在YOLOv5中的检测网络中嵌入Swin-CA模块,提取人体目标多尺度特征,利用坐标注意力机制,可以准确地保存人类行为对象的位置信息。优化后的MCS-YOLO网络如图1所
15、示。1.2屏蔽卷积注意力模块本文介绍了一种屏蔽卷积,如图2所示。利用该卷积进行上下文信息学习从而预测隐藏信息。同时将该卷积应用到注意力机制中,即屏蔽卷积注意力模块MC。图1改进后整体模型结构图Fig.1Improved overall model structure diagram输入端BackboneConvCBL CMC CBL CMCCMCCBLCMCCBLSPPCBLNeck上采样Concat上采样CBL Swin-CAConvSwin-CAConcatConvSwin-CACBLConcatCBLConvSwin-CAConcatCBLConvBNSiLUResunitCBLCBLa
16、ddCBLCSPResunitCSPCBLCMCConcatCBLMConv图2屏蔽卷积Fig.2Masked convolutionalK2K1K4K3DDDD张红民,等:优化YOLO网络的人体异常行为检测方法243Computer Engineering and Applications计算机工程与应用2023,59(7)屏蔽卷积注意力模块的作用是利用上下文信息学习重建隐藏信息。为了实现这一结果,本文将模块设计为一个带有扩展的屏蔽卷积层,然后是通道注意模块。在屏蔽卷积注意力模块中设计了关于预测信息的损失函数,其目的是最小化被屏蔽输入和预测输出之间的重建误差。1.2.1屏蔽卷积屏蔽卷积的感受
17、野如图2所示。该卷积的可学习参数位于感受野的角落KiRkkc,i1,2,3,4表示感受野4个角落的卷积核,其中kN+是定义子内核大小的超参数,c是通道数。每个核Ki位于距离感受野中心的掩蔽区域DN+的距离,用MR11c表示感受野中心的掩蔽区域。因此,感受野的空间大小k计算如下:k=2k+2D+1(1)XRhwc是屏蔽卷积层的输入张量,h和w分别是高度和宽度。在输入X的某个位置使用自定义核执行的卷积运算只考虑子核Ki所在位置的输入值,而忽略其他信息。每个Ki和相应输入之间的卷积运算结果被求和为一个数字。结果值表示与位于M相同位置的预测。一个屏蔽卷积产生单个激活图,为了预测M中每个信道的值,引入c
18、个屏蔽卷积,每个卷积预测来自不同信道的屏蔽信息。由于该模块的目标是学习和预测输入的每个空间位置的重建,本文在输入周围添加了k+D像素的零填充,并将步幅设置为1,这样输入中的每个像素都被用作屏蔽信息。因此,输出张量Z的空间尺度与输入张量X的空间尺度一致。最后,输出张量通过ReLU激活。1.2.2通道注意模块接下来,屏蔽卷积的输出由通道注意模块处理,该模块计算每个通道的注意分数。输出张量Z中的每个激活图都是在存在掩蔽信息的情况下由单独的屏蔽卷积预测的,由此可以推断屏蔽卷积最终会生成包含有不成比例的跨通道值的激活图,即会得到通道之间的关系。利用文献15所提供的通道注意机制对通道的特性响应可以进行自适
19、应校正,而利用这个机制,系统在特征提取时就能够提前使用全局图像信息,在必要时还能选择性强调或抑制重建信息。而使用注意力的另一原因是用于对屏蔽卷积注意力模块的输入和输出关系的非线性处理。通道注意模块通过在每个通道上执行全局池化将张量Z减少为向量zRc。然后,计算比例因子sRc,计算如下:s=(W2(W1z)(2)其中是Sigmoid激活,是ReLU激活,W1R(c/r)c和W2Rc(c/r)分别表示两个连续的完全连接层(FC)的权重矩阵。第一个FC层由c/r个神经元组成,以r的还原率压缩信息。然后,在空间维度中复制向量s,生成与Z大小相同的张量S。最后一步是S和Z之间的元素相乘,生成最终包含重新
20、校准特征图的信息的张量XRhwc。1.3添加Swin-CA模块的检测网络目前人体异常行为检测面临检测图像的尺寸变化大和系统运算复杂度高的挑战。为使检测网络具备较高检测速率的同时,进一步提高检测准确度,更好地使用在检测网络中的特征信息,在YOLOv5的检测网络中引进了由Swin transformer模型与坐标注意力机制相结合的新模型,即Swin-CA。1.3.1坐标注意力机制本文在对注意力机制的研究中发现一般的注意力模型会忽略对人体异常行为至关重要的位置信息。为此本文采用了一种基于坐标的注意力机制,它在一定的空间方位上捕捉目标的位置知觉依赖关系,然后在其他的具体目标的空间方位上,保留了更完整、
21、更精确的目标的空间定位信息,从而产生了具有空间方位感知相关特征的特征图,通过补充和有效地利用要输入此特征的特征图,以增强感兴趣的目标特征的表示。通过引入坐标注意力机制,在YOLOv5模型的检测过程中能够有效的捕获通道之间的关系,保留目标的确切位置,使网络能够更准确地识别目标并提高检测精度,同时在计算方面避免了大量的计算开销。1.3.2Swin-CA模块为了降低注意力机制的计算复杂度,同时提取多尺度特征,本文将Swin transformer模块与坐标注意力机制相结合,组成Swin-CA模块,并将其嵌入到YOLOv5的检测网络中。Swin transformer采用了分组运算的思想,通过采用CN
22、N结构中常见的分层构造方法来实现各特征矢量的融合,使模块可以掌握全局信息,而在特征图中引入坐标注意力机制,则可以更好地利用特征图中的异常行为对象的位置信息。Swin-CA模块结构如图3所示。图3Swin-CA模块Fig.3Swin-CA module坐标注意力机制多层感知器AddLNda+1dnAddW-MSA坐标注意力机制LNda坐标注意力机制坐标注意力机制da+2da+1多层感知器AddLNdn+1AddSW-MSALN2442023,59(7)Swin transformer模块主要由窗口多头自我注意层模块和移位窗口多头自我注意层模块分别组成。将屏蔽卷积注意力模块计算出的张量XRhwc(
23、图中表示为da)输入到窗口多头自注意层模块中,通过W-MSA模块进行特征学习并进行残差运算,同时将输入da送入坐标注意力机制并将两者的值相加得到输出特征dn。输出特征dn再分别经过坐标注意力机制和一个LN层和 MLP层,最后进行残差运算,得到输出da+1。公式如式(3),(4)所示。dn=W-MSA(LN(da)+CA(da)(3)da+1=MLP(LN(dn)+CA(dn)(4)移位窗口多头自我注意层的结构与窗口多头自我注意层的结构类似,唯一不同的是该层是利用SW-MSA模块来计算图片的特征部分。将Swin-CA模块嵌入到YOLOv5的检测网络中,可以让模型更好地掌握全局信息,借鉴CNN网络
24、分层构造方法,将所抽取的特征进行多尺度的划分,从而极大地减少了计算过程的复杂性。1.4损失函数为了充分利用屏蔽卷积注意力模块的特性,本文在对人体异常行为检测之外添加了一个监督任务,该任务包括屏蔽卷积感受野在内的每个屏蔽卷积的位置重建屏蔽区域。为此,屏蔽卷积注意力模块为每一个屏蔽区域提供相应的重建作为输出X。令F表示MC模块,将监督任务的重建损失定义为输入和输出之间的均方误差,如下所示:LMC=(X-X)2(5)将该损失函数的值简单地添加到YOLOv5网络的原损失数值中,从而产生一个新的损失函数,该函数包含两个项:Ltotal=LY+LMC(6)式中R+是一个超参数,它用来控制F对于整体损失函数
25、的重要性,而LY是原YOLOv5网络的损失函数。2实验结果与数据分析2.1实验数据集与参数设置实验在 UCSD-ped116、KTH17和 Shanghai Tech183个公共的人体异常行为数据集上进行。UCSD-ped1数据集包含70个人类行为的视频,视频来自室外场景,使用静态摄像头以每秒10帧的速度录制。在这些视频场景中的主要移动对象是行人,即正常行为。因此,所有其他物体(如汽车、滑板、轮椅或自行车)都被视为异常行为。Shanghai Tech数据集包含了13台高清摄像机拍摄的330个正常的动作和107个不正常的动作,该数据集中包含11种不同的人体行为,比如骑自行车、溜冰、打架、抢劫、摔
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 优化 YOLO 网络 人体 异常 行为 检测 方法 张红民
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。