基于混合注意力机制的视频人体动作识别.pdf
《基于混合注意力机制的视频人体动作识别.pdf》由会员分享,可在线阅读,更多相关《基于混合注意力机制的视频人体动作识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、C3D 作为一种典型的三维卷积神经网络被应用于视频动作识别任务。针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的 C3D 三维卷积网络模型。在原 C3D 网络插入由 GCNet通道注意力模块和 3D-Crisscross 空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能。将所提方法在 UCF-101 和 HMDB-51 两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对
2、更高的准确率,在 UCF-101 和 HMDB-51 数据集上的识别准确率可以达到 96.7%和 63.3%,而且与原 C3D 方法相比在效果上有明显提升。关键词:人体动作识别;三维卷积神经网络;全局上下文建模;远程依赖;注意力机制中图分类号:TP391.41摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇摇 摇 摇 文章编号:1673-629X(2023)09-0105-08doi:10.3969/j.issn.1673-629X.2023.09.016Video Human Action Recognition Based on Hybrid Attention MechanismZHU Li
3、an-xiang,NIU Wen-yu,TONG Wen-dong,SHAO Hao-jie(School of Computer Science,Xi爷an Shiyou University,Xi爷an 710065,China)Abstract:As a typical three-dimensional convolutional neural network,C3D has been used in video action recognition tasks widely.Toaddress the issues coming with existing C3D based act
4、ion recognition methods,such as insufficient feature extraction,prone to overfitting,low recognition accuracy,etc.,a new C3D based network model with the introducing of hybrid attention mechanism fusion is pro鄄posed.A hybrid attention module constructed by GCNet channel attention module and 3D-Criss
5、cross spatial attention module is insertedinto the original C3D network.These two attention networks have global context modeling operations,can establish remote dependencieson 3D features,strengthen the network爷s ability to extract video features in channel and space,and improve the classification
6、performanceof the model.The performance of proposed method has been tested on two large video datasets,i.e.UCF-101 and HMDB-51,with thecomparison to other deep learning models.Experimental results show the proposed method has a higher recognition accuracy than that ofother deep learning models.The r
7、ecognition accuracy of UCF-101 and HMDB-51 data sets can reach 96.7%and 63.3%,with asignificant improvement in vision effect compare to original C3D method.Key words:human action recognition;three-dimensional convolutional neural network;global context modeling;long-rangedependence;attention mechani
8、sm0摇 引摇 言随着数字技术的发展和视频设备的普及,互联网上的视频信息在飞速增长,视频已成为重要的信息载体。为应对视频信息爆发性的增长,理解和分析视频以从中挖掘出所需要的信息就变得愈来愈重要。识别和理解视频中人物的行为和意图是人机交互、机器人技术、视频监控、视频检索等领域的重要内容,近年来已发展成为计算机视觉领域的一个重要研究方向。视频人体动作识别作为其中的一个重要课题,研究的是如何通过预先分割好的时域序列进行时空信息建模,从而学习到视频中所包含的人体动作与动作类别之间的映射关系1。在过去的几十年,研究人员已提出大量的视频人体动作识别方法,在较大程度上解决了不同层次的问题。目前人体动作识别的
9、方法主要分为两类2-3:第一类是手工表示法,即首先使用手工方法设计并提取第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023特征,再采用传统的机器学习方法对其进行分类,如基于方向梯度直方图(Histogram of Oriented Gradient,HOG)、光流梯度方向直方图(Histogram of OpticalFlow,HOF)、运动边界直方图(Motion of Boun
10、daryHistory,MBH)等特征描述符的方法;第二类则是基于深度学习的方法,即使用神经网络进行特征的提取与识别。动作识别本身的研究始于 20 世纪 80 年代的基于整体特征表示法4,如轮廓特征和光流特征等。自从2003 年以来,局部表示法开始应用于动作识别,如改进密集轨迹(Improved Dense Trajectory,IDT),其在手工表示法中取得了非常好的效果。从 2012 年以来,AlexNet5在图像分类上的成功掀起了人们对深度学习研究的高潮,随后卷积神经网络被广泛应用于图像领域的各类任务,其在图像分类、图像识别、场景分割等任务中都有很好的性能。卷积神经网络在图像处理领域的成
11、功激起了基于卷积神经网络的方法在视频领域的研究。2014 年 Simonyan 等人6提出了双流卷积网络结构,该网络通过将动作识别任务分为空间和时间两个流,其中空间流从视频帧中提取空间信息,时间流从密集光流中提取运动信息,最后通过双流特征的融合来进行动作的分类与识别。该网络使得二维卷积神经网络能够用于视频动作识别任务,但却需要研究者提前从视频帧中提取出光流信息。2015 年 Du Tran 等人7构建的 C3D 卷积神经网络模型是一种简单高效的时空特征学习方法,可以直接从视频帧中提取空间和时间特征。但三维卷积与二维卷积类似,只能在局部邻域进行操作,因此在空间中不能提取到全局特征,在时间维度也不
12、能提取到长时序特征,从而无法充分利用视频帧中的空间和时间信息。此外,以往的研究一般都只是通过增加网络深度来近似达到全局特征提取的目的,但这些方法会带来很多问题,如容易产生过拟合现象、梯度传播困难,以及网络参数量增加显著等。针对上述存在的问题,该文提出一种基于 C3D 卷积神经网络的改进模型,通过在原 C3D 网络中引入注意力机制,并对其注意力机制添加全局上下文建模操作,使得改进后的网络能够利用到全局特征,从而建立起三维特征中每个位置与其他位置之间的关系,而不是仅仅局限于局部的邻域,实现了网络性能的提升。1摇 基于三维卷积网络的视频动作识别研究与进展近年来,随着深度学习的蓬勃发展,许多研究学者将
13、基于深度学习的方法应用于视频人体动作的识别任务,其中应用卷积神经网络进行动作识别更是取得了长足进步。Ji 等人8通过将二维卷积扩展到三维卷积,使得卷积能够从相邻的视频帧中提取空间和时间两个维度的信息,从而拥有了时空和空域的综合建模能力,更加有助于视频特征的学习。Du Tran 等人7提出的 C3D 卷积神经网络则是一种简单高效的时空特征学习方法,可以直接从视频数据中提取时域和空域特征。吕淑平等人9在 C3D 基础上引入时空分离卷积和 BN 层,使得网络更具表示复杂性的功能,并且解决 了 网 络 结 构 加 深 使 梯 度 消 失 的 问 题。JoaoCarreira10提出将在 ImageNe
14、t 中预训练的权重扩展到视频动作的识别,并在视频动作数据集上进行微调的思路,据此设计了一种将二维卷积网络扩展到三维的I3D 模型。由于视频三维信息高度的复杂性,Sun Lin等人11提出了分解时空卷积神经网络,将原有的三维卷积分解为在空间层进行二维空间卷积,在时间层进行一维时间卷积,减少了网络的参数量。进一步,Yang Hao 等人12将三维卷积核分解为非对称单向三维卷积来逼近传统的三维卷积,通过引入多尺度三维卷积分支,构建了局部三维卷积网络。卷积神经网络定义了一个非常强大的特征提取模型,卷积计算通过融合局部区域中的空间和通道信息来构建特征。为了提高卷积神经网络的性能,目前的研究主要从深度、宽
15、度和基数三个方面来提升卷积神经网络的表征能力。从 LeNet 网络开始到深度残差网络13,网络的深度逐渐加深,通过增加网络的深度增强网络对于特征的表征能力是一种直观简单的扩展方法。GoogleNet14则是通过在模型的每一层采用不同大小的卷积核,以增加模型宽度的方式来增强模型的表征能力。Chollet F15和 Xie Saining16采用分组卷积的思想,卷积层的每一组卷积操作都可看作是一个“基数冶,通过将每一层的卷积操作组数(基数)增加的方式对网络性能进行提升。然而除了深度、宽度和基数这三个因素以外,还可以使用注意力机制来增加网络的表征能力,以使其更加关注重要的特征,而抑制掉不必要特征。注
16、意力机制源于人类视觉系统。当人类在观察外部环境时,不同的事物会对人们的认知产生不同程度的影响,而人类则可以通过仅关注所需要注意的事物来获取对外界的认知。在计算机视觉领域,不同的任务使得图像的不同区域对最终任务产生不同的影响。注意力机制正是通过网络学习权重系数,并以加权的方法对图像的不同区域进行不同程度的强调,同时抑制不相关区域的一种方法。目前计算机视觉领域的注意力机制可以分为三类,即通道注意力、空间注意力和自注意力。2017 年,Jie Hu 等 人17提 出 的 SE-Net(Squeeze-and-601摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计
17、算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷Excitation)网 络,是 通 过 构 造“Squeeze-and-Excitation冶(SE)模块来建模通道间的相关性。但该方法只是通过对输入特征进行空间上的全局最大池化操作来压缩其空间维度,因而不能建立起特征在空间维度上每个位置与其他位置的远距离依赖关系。2015年,Max Jaderberg 等 人18提 出 的 空 间 变 换 网 络(Spatial Transformer)则可在保留关键输入信息的同时,将信息输入变换到另一个空间,以定位图片的关键信息及其位置,实现了对图像空间通道
18、信息的提取。CBAM19注意力机制则是在 SE-Net 上的进一步扩展,增加了空间注意力模块,使得网络能够对空间域的信息进行强调。王飞等人20通过将二维的 CBAM 注意力机制进行膨胀,扩展为三维注意力机制,并采用shortcut 结构的方式融合到三维卷积神经网络中,加强神经网络对视频的通道和空间特征提取。此外,由于卷积 运 算 只 能 用 于 处 理 局 部 的 依 赖 关 系,WangXiaolong 等人21构造的非局部 Non-Local 网络可用来捕获远程的依赖关系。对于拥有时序的数据,如语言、视频、语音等,远程依赖关系是其建模的关键。卷积运算在空间和时间上都只是处理局部的邻域,只在
19、局部区域内建立起像素间的关联,因而只有通过网络深度的增加,重复地使用卷积操作,才能建立起对图像全局的理解。这无疑增加了计算的开销,效率低下且很难优化。而通过使用 Non-Local 操作,则可以在不增加网络深度的前提下提取到远程的依赖关系。然而由于其实际上建立起的是特征中每一位置与其他所有位置间的关系,因而计算量会很大。而Huang Zilong 等人22提出的 criss-cross 操作,则只计算特征中每个位置与其同行同列位置间的关系,通过两次的 criss-cross 操作,便可间接计算出每对位置间的关系,从而使得网络参数量大大减少。Cao Yue 等人23通过将 Non Local 和
20、 SE-Net 结合起来,构建了一种全局上下文模块,使得 SE-Net 通道注意力机制具有了全局上下文建模的能力。在以上研究进展的基础上,该文提出的模型将C3D 与注意力机制相结合,通过在通道注意力机制和空间注意力机制中使用全局操作,使得网络具有了全局建模的能力,对视频的三维特征可以在时域和空域均可建立其远程的依赖关系,提高网络的表征能力。2摇 基于混合注意力机制融合 C3D 网络的视频动作识别模型2.1摇 整体模型结构图 1 所示为基于混合注意力机制融合 C3D 网络视频人体动作识别模型的整体结构。由于三维卷积神经网络可直接作用于视频帧序列,从而从多个相邻帧中提取出时空特征,因此采用 C3D
21、 卷积神经网络作为其特征提取网络。首先,对视频数据按照间隔 N(如文中的取值为 4)进行抽取以实现预处理,然后输入到C3D 网络进行空域和时域特征的提取。对于提取到的特征,分别通过空间和通道注意力机制建立其空间和通道信息通路,进而通过两种特征的融合处理来实现动作目标的识别与分类。C3DAttentionModuleOutput FeatureF”FC LayerSoftmax LayerAction classInput FeatureF图 1摇 基于混合注意力机制的三维卷积神经网络模型2.2摇 C3D 网络模型C3D 的模型结构如图 2 所示,一共由 8 个卷积层,5 个最大池化层,2 个全
22、连接层和 1 个 Softmax 输出层组成。输入数据大小为 3 伊 16 伊 112 伊 112,其中 3 为通道数,分别代表 R、G、B 视频帧,16 为每次输入的视频帧数,这些视频帧是按照间隔 N=4 对视频片段进行抽取得到。112 伊 112 是对抽取的视频帧进行随机的crop 之后得到的输入视频帧大小。所有卷积层采用的都是 3 伊 3 伊 3 大小的卷积核,步长为1 伊 1 伊 1。除了Pool1 层池化核大小为 1 伊 2 伊 2,步长为 2 伊 2 伊 2 之外,其余池化核大小均为 2 伊 2 伊 2,步长为 1 伊 2 伊 2。在完成最后一次池化操作后,将输出的三维特征进行Re
23、shape 操作展开为一维,然后将其送入到全连接层,每个全连接层都有 4 096 个输出单元,激活函数采用ReLu 函数。最终的特征分类使用 Softmax。C3D 采用三维卷积和三维池化,对视频帧序列提取得到的是三维特征,该文在网络最后池化层 Pool5后插入注意力模块,将输出的三维特征送入注意力网络中得到特征的注意力图,然后将带有注意力的特征图与原输入特征相加得到最终的带有注意力的特征,最后将该特征输入到全连接网络进行动作的最终分类与识别。701摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 朱联祥等:基于混合注意力机制的视频人体动作识别图 2摇 C3D 网络结构2.3摇 混合注
24、意力机制CBAM 注意力机制是在 SE-Net 上的进一步扩展,并且增加了空间注意力模块。笔者发现,将通道注意力模块和空间注意力模块以先后顺序排列比并行排列有更好的效果。因此,在网络中先后使用通道注意力机制和空间注意力机制构建混合注意力机制模块。与二维卷积神经网络相比,因为采用 C3D 三维卷积神经网络对视频动作进行识别增加了一个时间维度,所以在设计其注意力机制时需要考虑到维度的变化。由于原通道注意力机制是用于二维图像数据,采用的是二维卷积,但视频数据是三维数据需要考虑时间维度,所以需要对其进行三维化扩展,将原注意力机制的卷积和池化操作替换为三维卷积,使之能够适用于三维卷积神经网络。具体注意力
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 混合 注意力 机制 视频 人体 动作 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。