基于全局-局部自注意力网络的视频异常检测方法.pdf
《基于全局-局部自注意力网络的视频异常检测方法.pdf》由会员分享,可在线阅读,更多相关《基于全局-局部自注意力网络的视频异常检测方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 Journal on Communications August 2023 第 44 卷第 8 期 通 信 学 报 Vol.44 No.8基于全局局部自注意力网络的视频异常检测方法 杨静1,2,吴成茂3,周流平1(1.广州铁路职业技术学院信息工程学院,广东 广州 510430;2.菲律宾圣保罗大学,土格加劳 3500;3.西安邮电大学电子工程学院,陕西 西安 710121)摘 要:为提升视频异常检测精度,提出一种基于全局局部自注意力网络的视频异常检测方法。首先,融合视频序列与其对应的 RGB 序列凸显物体的运动变化;其次,通过膨胀卷积层捕获视频序列在局部区域的时序相关性,
2、并利用自注意力网络计算视频全局时序的依赖性,同时,依靠增加基础网络 U-Net 的深度并结合相关运动和表征约束对网络模型进行端到端的训练学习,从而提升模型的检测精度和鲁棒性;最后,对公开数据集 UCSD Ped2、CUHK Avenue 和 ShanghaiTech 进行测试并对所得结果进行可视化分析。实验结果表明,所提方法的检测精度 AUC 值分别达到了 97.4%、86.8%和 73.2%,其性能明显优于对比方法。关键词:视频异常检测;自注意力;预测;重构 中图分类号:TP391.41 文献标志码:A DOI:10.11959/j.issn.1000436x.2023151 Novel v
3、ideo anomaly detection method based on global-local self-attention network YANG Jing1,2,WU Chengmao3,ZHOU Liuping1 1.School of Information Engineering,Guang Zhou Railway Ploytechnic,Guangzhou 510430,China 2.St.Paul University Phillippines,Tuguegarao 3500,Philippines 3.School of Electronic Engineerin
4、g,Xian University of Posts and Telecommunications,Xian 710121,China Abstract:In order to improve the accuracy of video anomaly detection,a novel video anomaly detection method based on global-local self-attention network was proposed.Firstly,the video sequence and the corresponding RGB sequence were
5、 fused to highlight the motion change of the object.Secondly,the temporal correlation of the video sequence in the local area was captured by the expansion convolution layer,along with the self-attention network was utilized to compute the global temporal dependencies of the video sequence.Meanwhile
6、,by deepening the basic network U-Net and combining the relevant motion and representation constraints,the network model was trained end-to-end to improve the detection accuracy and robustness of the model.Finally,experiments were carried out on the public data sets UCSD Ped2,CUHK Avenue and Shangha
7、iTech,as well as the test results were visually analyzed.The experimental results show that the detection accuracy AUC of the proposed method reaches 97.4%,86.8%and 73.2%respectively,which is obviously better than that of the compared methods.Keywords:video anomaly detection,self-attention,predictio
8、n,reconstruction 0 引言 视频异常检测中的“异常”与“正常”通常是相对立的。一般而言,相比于正常事件,异常事件的类型是不可穷举的,并且不频繁发生,难以收集。因此,视频异常检测不仅在学术界具有非常重要的收稿日期:20230515;修回日期:20230719 基金项目:广东省高校青年创新人才基金资助项目(No.2020KQNCX198);广州市基础研究计划基础与应用基础研究基金资助项目(No.104267483017)Foundation Items:The Young Innovative Talents Project of Guangdong Province(No.202
9、0KQNCX198),Basic and Applied BasicResearch Project of Guangzhou Basic Research Program(No.104267483017)242 通 信 学 报 第 44 卷 研究价值,在工业界也拥有广阔的应用前景1-2。近年来,随着视频监控、故障检测系统、智慧交通及智慧城市等的快速发展,视频异常检测变得尤为重要,视频异常检测的问题得到了国内外学者的广泛关注。在视频异常检测中由于场景和任务属性不同,对异常的定义也不尽相同,Saligrama 等3对视频异常检测进行了较准确的定义:视频异常可认为是异常外观或异常运动的属性,或是在
10、异常位置或时间出现正常外观或正常运动属性。在异常检测中,正常数据一般遵循目标类分布,异常数据则是分布外或难以获取的样本。视频异常检测的主要任务是检测出不符合预期规律的罕见样本或从未发生过的突发性事件,而对于这些事件的划分并没有明确的界限和标准。具体而言,根据异常检测应用场景的不同,异常类型的界定和划分也会随之改变,如果用分类的方法解决所有异常事件,则工作量将非常大,难以达到良好的性能。因此,对异常事件的准确检测面临各种挑战,具体表现如下。1)异常事件的划分因场景而异4-5,同一行为在一种任务场景中是正常的,但在另一种任务场景中可能会被判定为异常。2)异常事件的类型是不可穷举的,对异常事件进行人
11、工标注的工作量非常巨大。3)一些正常事件与异常事件非常接近,使其区分具有很大的难度。随着深度学习在动作识别6-8、跟踪9、轨迹预测10、目标检测11-13等领域取得成功,视频异常检测得到了大力实践与发展14-19。近几年关于视频异常检测的研究主要集中于无监督学习,即在训练模型时仅使用正常样本。首先,通过一分类,进行图像重建/预测,或使用其他自监督学习方式对正常样本进行建模;其次,通过识别不同于训练模型的分布来检测异常。在异常检测中,由于异常数据和正常数据分布不均,呈现长尾分布的特点。因此,相比于有监督学习,无监督学习对视频或图像的异常检测更加合理和有效。基于无监督的深度学习方法不仅易于获取训练
12、的正常样本,而且不需要使用真实的异常样本;无监督的学习范式克服了有监督学习中无法预知异常的问题,因此,拥有更强且有效的特征表达能力。重构误差作为模型重构能力的评估指标,已被广泛应用于异常检测技术领域20-22。重构误差的基本假设如下:一方面,由于正常样本更接近正常训练的数据分布,因此重构误差较异常样本会更低;另一方面,对于非正态分布样本,其假设或预期重构误差会更高15。通常基于自动编码器的方法使用重构误差作为识别异常的指标。在传统方法中,为了在卷积神经网络中处理视频序列,将每个图像帧视为具有灰度通道的 2D 图像23;然后,将这些灰度帧按照时间顺序堆叠在一起,形成一个新的 2D图像,其中第三维
13、度由这些堆叠的灰度帧组成。通过这样的堆叠方式,模型可以同时对空间和时间信息进行编码并实现重构。由于长短期记忆(LSTM,long short term memory)网络能够学习数据的长期依赖关系,Medel等24利用卷积长短期记忆网络进行异常检测,并将该问题定义为重构类型。尽管不是完全的自动编码器,但他们的方法使用了编码器解码器结构,即给定视频帧的输入序列,卷积长短期记忆网络沿着空间和时间维度提取相关特征;最后,经过解码器并计算重构误差。Hasan 等25在第三维度通过堆叠视频帧形成时间立方体,保留必要的时间信息,但这样保留下来的时间信息非常有限。为了解决这个问题,Zhao 等26提出通过
14、3D 卷积保留时间信息,并增加数据来改善样本密度,进而提高检测性能。基于以上工作,Gong 等15通过实验测试发现,一些异常事件的重构误差和正常事件的重构误差非常接近,主要是因为自动编码器中卷积神经网络较强的泛化能力,使接近正常的异常事件也被重构出来。为了解决这个问题,Gong 等15引入了一种能够将编码特征存储到内存中的自动编码器,即编码器不直接将编码反馈到解码器,而是将编码视为查询,该查询预期返回内存中最接近的正常模式,将该模式用于解码。这样,在重构异常的情况下,由于内存中只含有正常的内存项,因此其重构误差会很高。近年来,注意力模型被广泛应用于自然语言处理、图像和语音等领域,神经网络的可解
15、释性也被引入无监督的异常检测中。Liu 等27使用了类似grad-CAM(gradient-weighted class activation map-ping)28的方法将基于梯度的注意力机制推广到变分自动编码器(VAE,variational autoencoder)模型。Venkataramanan等29提出了一种带有注意力引导的卷积对抗变分自动编码器,利用隐空间变量保留的空间信息进行异常定位,并且根据文献27的思想生成注意力图,期望在训练时,注意力图可覆盖整个正常区域。Kimura 等30利用生成对抗网络(GAN,generative adversarial network)中判别器的
16、注意力图来抑制图像背景造成的异常检测干扰,有效提升了第 8 期 杨静等:基于全局局部自注意力网络的视频异常检测方法 243 异常检测模型的鲁棒性。在数据特征提取的过程中,通常使用卷积来对图像的高维特征信息进行提取,然而卷积操作无论在时间还是空间上均为局部操作。若要获取全局的特征关联性和建立长距离的依赖关系就要构建深层的网络卷积,随着网络深度的增加与卷积块的增多,网络训练的难度增大。因此,单纯的卷积操作对图像的全局信息提取存在一定的局限性。而全局局部自注意力不仅关注图像局部特征的关联性,还关注特征之间长时间的依赖关系。本文拟采用一种编码器解码器结构的 U-Net,将 RGB 图像与视频序列 2
17、种模态信息进行混合编码以突显物体的运动变化,两者共享解码器,得到的特征图通过全局局部注意力网络处理后再反馈给解码器,从而进行视频异常检测。若解码得到的图像与真实图像差异较大,则表明有异常事件发生,反之则为正常。本文主要工作如下。1)采用“双编码器单解码器”的编解码混合结构,充分利用原始视频的多维信息,并通过自注意力模块实现有效的解码,从而使模型能够准确表示和理解视频数据。2)使用多源数据作为输入,充分利用运动和外观信息的互补,并综合考虑不同信息源以全面分析视频数据,从而更加准确地识别异常行为。3)提出一种基于全局局部自注意力机制的视频异常检测方法,通过全局局部自注意力机制综合考虑整体和局部的时
18、序相关性,能够更好地理解视频序列中不同时间尺度的连续性,并保持局部上下文信息的一致性。4)对UCSD Ped2、CUHK Avenue和ShanghaiTech数据集进行测试,实验结果表明,本文方法的检测精度分别达到 97.4%、86.8%和 73.2%,而且与现有方法相比,本文方法明显提升了视频异常检测的能力和鲁棒性,为视频异常检测的深入研究和实际应用提供了一定支撑。1 相关工作 1.1 异常检测 许多现有工作将异常检测表述为无监督学习问题,在训练时使用正常数据,并通过重构或判别的方式描述模型的正态性。其中,重构模型将正常数据作为输入映射到某个特征空间,再从特征空间将正常数据映射回输入空间,
19、如自动编码器(AE,autoencoder)31、稀疏字典32和生成模型33。判别模型表征正态样本的统计分布并获得正态实例周围的决策边界,例如,马尔可夫随机场(MRF,Markov random field)20、动态纹理混合(MDT,mixture of dynamic texture)34、高斯回归35和一分类问题36-37。然而,这些方法对具有复杂分布的高维数据,如图像、视频等的检测效果欠佳。本文拟采用无监督的深度学习方法进行视频异常检测。1.2 注意力机制 在深度学习中,模型的参数越多所含信息量越丰富,表达能力也越强,但这也会导致信息量过大的问题。通过引入注意力机制,可快速高效地筛选出
20、高价值的特征信息,使检测模型能更准确地聚焦于关键信息,避免无用信息对模型的干扰,从而克服信息量过大的问题,并提高模型对任务处理的效率和准确性。Purwanto 等38在低分辨率视频中利用双向自注意力捕捉长期的时间依赖关系,以此进行视频动作识别。Zhou 等39通过注意力图来解决异常检测中前景与背景不平衡的问题,通过对前景和背景赋予不同的权重,使模型更注重前景,并对训练数据中的背景进行有效抑制来提升异常检测性能。Hu 等40在自动编码器中引入循环注意力机制,并将其构建为一个循环注意力单元,使模型能够在新场景中具有快速适应能力。Yang 等41通过将Swin Transformer设计为具有双向跳
21、跃连接的 U型结构的网络,并在跨注意力和时序上采用残差跳跃连接来进一步辅助还原视频中复杂的静态和动态运动目标特征。1.3 基于重构和预测的方法 预测模型的目的是将未来的输出帧建模为基于过去若干视频帧的函数,如 GAN 生成未来帧。GAN 主要由两部分组成,一是生成器,模拟原始数据分布;二是判别器,给出来自生成器输入的概率。基于U-Net在图像到图像转换方面的出色表现,Luo等42利用类似 GAN 的生成器判别器结构,将其作为网络的生成器来预测未来帧,并通过网络末端的判别器确定预测帧是否异常。通常假设正常事件是可以预测的,而异常事件则无法预测。Park 等16提出了一种在 U-Net 结构下,通
22、过编码器解码器间的记忆模块所记录的各种正常模式,对未来帧进行预测的方法。同时,Yu 等43受到在语言学习中完形填空形式的启发,通过时间维度的上下文和模态信息来建立多个模型,分别预测视频中的视频帧244 通 信 学 报 第 44 卷 或视频流。鉴于在实际场景中异常的复杂性,Liu等44提出了一个集成光流重构和视频帧预测的混合框架来进行视频异常检测。首先,在自动编码器中使用多层级记忆模块存储光流重构的正常模式,以便在光流重构误差较大时准确地识别异常事件。其次,在重构光流条件下,通过条件变分自动编码器(CVAE,conditional variational au-toencoder)捕捉视频帧和光
23、流之间的高相关性,以便预测未来帧。在目前主流的异常检测工作中,对正常数据的特征进行重构是较常用且直观的方法。Nguyen等17提出了重构和光流预测共享编码器的网络模型,虽然模型充分学习了物体外观和运动信息的对应关系,但由于光流的计算对资源要求高,整个模型的计算成本较高。在无监督深度学习方法中,AE31作为异常检测的常用方法,其对高维数据(如图像、视频等)具有很强的建模能力。基于 AE 的方法通常假设能够重构正常样本,而不能重构异常样本。但由于 AE 的泛化能力过于强大,以至于异常样本也能被很好地重构,因此为了降低 AE 中卷积神经网络(CNN,convolutional neural netw
24、ork)的泛化能力,Chang 等45构建了一种将空间和时间信息解耦为 2 个子模块的自动编码器结构,两者同时学习时空特征信息,以提高检测性能。Le 等46提出了一种基于残差注意力的自动编码器进行视频异常检测,通过在解码器内引入通道注意力机制对未来帧进行有效预测。由于自动编码器在重构时,缺少对图像某些重点区域编码信息的动态掌握,造成重构时视频帧内容的上下文信息缺失,进而导致模型性能下降。为了解决上述问题,本文基于预测的方法进行异常检测,其主要思想是根据先前若干帧的特征变化来预测当前帧,并在测试阶段将预测出的当前帧与对应的真实帧进行对比,如果两者的预测误差较大,则表明存在异常。这样既充分考虑了正
25、常样本的多样性,又抑制了CNN 强大的泛化能力。2 视频异常检测 2.1 基本原理 本文通过对未来帧的预测进行无监督的视频异常检测。受到重构方法的启发15-16,47,将预测视为使用之前的若干帧或连续视频序列来进行未来视频帧的重构,因此,本文以一种预测的视角对未来帧进行重构,并采用 U-Net48为基础网络框架,进行视频异常检测。全局局部自注意力网络主要由三部分组成:双编码器、全局局部自注意力模块、解码器。整个网络均采用端到端的方式进行训练,网络的整体框架如图 1 所示。在输入之前,需要进行简单的数据预处理,即生成与原始图像相对应的 RGB 图像。首先,输入t帧的视频序列和对应的 RGB 图像
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 全局 局部 注意力 网络 视频 异常 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。