欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于混合注意力机制的视频人体动作识别.pdf

    • 资源ID:638384       资源大小:1.33MB        全文页数:8页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于混合注意力机制的视频人体动作识别.pdf

    1、C3D 作为一种典型的三维卷积神经网络被应用于视频动作识别任务。针对其存在的特征提取不足、易出现过拟合以及识别准确率较低等问题,提出一种融合混合注意力机制的 C3D 三维卷积网络模型。在原 C3D 网络插入由 GCNet通道注意力模块和 3D-Crisscross 空间注意力模块构建的混合注意力模块,这两种注意力网络具有全局上下文建模操作,能够对三维特征建立远程依赖关系,加强网络对视频特征在通道和空间上的特征提取能力,提高模型的分类性能。将所提方法在 UCF-101 和 HMDB-51 两个大型视频数据集上进行测试,并与深度学习的其他模型进行比较,结果表明,该方法相对于其他深度学习模型具有相对

    2、更高的准确率,在 UCF-101 和 HMDB-51 数据集上的识别准确率可以达到 96.7%和 63.3%,而且与原 C3D 方法相比在效果上有明显提升。关键词:人体动作识别;三维卷积神经网络;全局上下文建模;远程依赖;注意力机制中图分类号:TP391.41摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇摇 摇 摇 文章编号:1673-629X(2023)09-0105-08doi:10.3969/j.issn.1673-629X.2023.09.016Video Human Action Recognition Based on Hybrid Attention MechanismZHU Li

    3、an-xiang,NIU Wen-yu,TONG Wen-dong,SHAO Hao-jie(School of Computer Science,Xi爷an Shiyou University,Xi爷an 710065,China)Abstract:As a typical three-dimensional convolutional neural network,C3D has been used in video action recognition tasks widely.Toaddress the issues coming with existing C3D based act

    4、ion recognition methods,such as insufficient feature extraction,prone to overfitting,low recognition accuracy,etc.,a new C3D based network model with the introducing of hybrid attention mechanism fusion is pro鄄posed.A hybrid attention module constructed by GCNet channel attention module and 3D-Criss

    5、cross spatial attention module is insertedinto the original C3D network.These two attention networks have global context modeling operations,can establish remote dependencieson 3D features,strengthen the network爷s ability to extract video features in channel and space,and improve the classification

    6、performanceof the model.The performance of proposed method has been tested on two large video datasets,i.e.UCF-101 and HMDB-51,with thecomparison to other deep learning models.Experimental results show the proposed method has a higher recognition accuracy than that ofother deep learning models.The r

    7、ecognition accuracy of UCF-101 and HMDB-51 data sets can reach 96.7%and 63.3%,with asignificant improvement in vision effect compare to original C3D method.Key words:human action recognition;three-dimensional convolutional neural network;global context modeling;long-rangedependence;attention mechani

    8、sm0摇 引摇 言随着数字技术的发展和视频设备的普及,互联网上的视频信息在飞速增长,视频已成为重要的信息载体。为应对视频信息爆发性的增长,理解和分析视频以从中挖掘出所需要的信息就变得愈来愈重要。识别和理解视频中人物的行为和意图是人机交互、机器人技术、视频监控、视频检索等领域的重要内容,近年来已发展成为计算机视觉领域的一个重要研究方向。视频人体动作识别作为其中的一个重要课题,研究的是如何通过预先分割好的时域序列进行时空信息建模,从而学习到视频中所包含的人体动作与动作类别之间的映射关系1。在过去的几十年,研究人员已提出大量的视频人体动作识别方法,在较大程度上解决了不同层次的问题。目前人体动作识别的

    9、方法主要分为两类2-3:第一类是手工表示法,即首先使用手工方法设计并提取第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023特征,再采用传统的机器学习方法对其进行分类,如基于方向梯度直方图(Histogram of Oriented Gradient,HOG)、光流梯度方向直方图(Histogram of OpticalFlow,HOF)、运动边界直方图(Motion of Boun

    10、daryHistory,MBH)等特征描述符的方法;第二类则是基于深度学习的方法,即使用神经网络进行特征的提取与识别。动作识别本身的研究始于 20 世纪 80 年代的基于整体特征表示法4,如轮廓特征和光流特征等。自从2003 年以来,局部表示法开始应用于动作识别,如改进密集轨迹(Improved Dense Trajectory,IDT),其在手工表示法中取得了非常好的效果。从 2012 年以来,AlexNet5在图像分类上的成功掀起了人们对深度学习研究的高潮,随后卷积神经网络被广泛应用于图像领域的各类任务,其在图像分类、图像识别、场景分割等任务中都有很好的性能。卷积神经网络在图像处理领域的成

    11、功激起了基于卷积神经网络的方法在视频领域的研究。2014 年 Simonyan 等人6提出了双流卷积网络结构,该网络通过将动作识别任务分为空间和时间两个流,其中空间流从视频帧中提取空间信息,时间流从密集光流中提取运动信息,最后通过双流特征的融合来进行动作的分类与识别。该网络使得二维卷积神经网络能够用于视频动作识别任务,但却需要研究者提前从视频帧中提取出光流信息。2015 年 Du Tran 等人7构建的 C3D 卷积神经网络模型是一种简单高效的时空特征学习方法,可以直接从视频帧中提取空间和时间特征。但三维卷积与二维卷积类似,只能在局部邻域进行操作,因此在空间中不能提取到全局特征,在时间维度也不

    12、能提取到长时序特征,从而无法充分利用视频帧中的空间和时间信息。此外,以往的研究一般都只是通过增加网络深度来近似达到全局特征提取的目的,但这些方法会带来很多问题,如容易产生过拟合现象、梯度传播困难,以及网络参数量增加显著等。针对上述存在的问题,该文提出一种基于 C3D 卷积神经网络的改进模型,通过在原 C3D 网络中引入注意力机制,并对其注意力机制添加全局上下文建模操作,使得改进后的网络能够利用到全局特征,从而建立起三维特征中每个位置与其他位置之间的关系,而不是仅仅局限于局部的邻域,实现了网络性能的提升。1摇 基于三维卷积网络的视频动作识别研究与进展近年来,随着深度学习的蓬勃发展,许多研究学者将

    13、基于深度学习的方法应用于视频人体动作的识别任务,其中应用卷积神经网络进行动作识别更是取得了长足进步。Ji 等人8通过将二维卷积扩展到三维卷积,使得卷积能够从相邻的视频帧中提取空间和时间两个维度的信息,从而拥有了时空和空域的综合建模能力,更加有助于视频特征的学习。Du Tran 等人7提出的 C3D 卷积神经网络则是一种简单高效的时空特征学习方法,可以直接从视频数据中提取时域和空域特征。吕淑平等人9在 C3D 基础上引入时空分离卷积和 BN 层,使得网络更具表示复杂性的功能,并且解决 了 网 络 结 构 加 深 使 梯 度 消 失 的 问 题。JoaoCarreira10提出将在 ImageNe

    14、t 中预训练的权重扩展到视频动作的识别,并在视频动作数据集上进行微调的思路,据此设计了一种将二维卷积网络扩展到三维的I3D 模型。由于视频三维信息高度的复杂性,Sun Lin等人11提出了分解时空卷积神经网络,将原有的三维卷积分解为在空间层进行二维空间卷积,在时间层进行一维时间卷积,减少了网络的参数量。进一步,Yang Hao 等人12将三维卷积核分解为非对称单向三维卷积来逼近传统的三维卷积,通过引入多尺度三维卷积分支,构建了局部三维卷积网络。卷积神经网络定义了一个非常强大的特征提取模型,卷积计算通过融合局部区域中的空间和通道信息来构建特征。为了提高卷积神经网络的性能,目前的研究主要从深度、宽

    15、度和基数三个方面来提升卷积神经网络的表征能力。从 LeNet 网络开始到深度残差网络13,网络的深度逐渐加深,通过增加网络的深度增强网络对于特征的表征能力是一种直观简单的扩展方法。GoogleNet14则是通过在模型的每一层采用不同大小的卷积核,以增加模型宽度的方式来增强模型的表征能力。Chollet F15和 Xie Saining16采用分组卷积的思想,卷积层的每一组卷积操作都可看作是一个“基数冶,通过将每一层的卷积操作组数(基数)增加的方式对网络性能进行提升。然而除了深度、宽度和基数这三个因素以外,还可以使用注意力机制来增加网络的表征能力,以使其更加关注重要的特征,而抑制掉不必要特征。注

    16、意力机制源于人类视觉系统。当人类在观察外部环境时,不同的事物会对人们的认知产生不同程度的影响,而人类则可以通过仅关注所需要注意的事物来获取对外界的认知。在计算机视觉领域,不同的任务使得图像的不同区域对最终任务产生不同的影响。注意力机制正是通过网络学习权重系数,并以加权的方法对图像的不同区域进行不同程度的强调,同时抑制不相关区域的一种方法。目前计算机视觉领域的注意力机制可以分为三类,即通道注意力、空间注意力和自注意力。2017 年,Jie Hu 等 人17提 出 的 SE-Net(Squeeze-and-601摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计

    17、算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷Excitation)网 络,是 通 过 构 造“Squeeze-and-Excitation冶(SE)模块来建模通道间的相关性。但该方法只是通过对输入特征进行空间上的全局最大池化操作来压缩其空间维度,因而不能建立起特征在空间维度上每个位置与其他位置的远距离依赖关系。2015年,Max Jaderberg 等 人18提 出 的 空 间 变 换 网 络(Spatial Transformer)则可在保留关键输入信息的同时,将信息输入变换到另一个空间,以定位图片的关键信息及其位置,实现了对图像空间通道

    18、信息的提取。CBAM19注意力机制则是在 SE-Net 上的进一步扩展,增加了空间注意力模块,使得网络能够对空间域的信息进行强调。王飞等人20通过将二维的 CBAM 注意力机制进行膨胀,扩展为三维注意力机制,并采用shortcut 结构的方式融合到三维卷积神经网络中,加强神经网络对视频的通道和空间特征提取。此外,由于卷积 运 算 只 能 用 于 处 理 局 部 的 依 赖 关 系,WangXiaolong 等人21构造的非局部 Non-Local 网络可用来捕获远程的依赖关系。对于拥有时序的数据,如语言、视频、语音等,远程依赖关系是其建模的关键。卷积运算在空间和时间上都只是处理局部的邻域,只在

    19、局部区域内建立起像素间的关联,因而只有通过网络深度的增加,重复地使用卷积操作,才能建立起对图像全局的理解。这无疑增加了计算的开销,效率低下且很难优化。而通过使用 Non-Local 操作,则可以在不增加网络深度的前提下提取到远程的依赖关系。然而由于其实际上建立起的是特征中每一位置与其他所有位置间的关系,因而计算量会很大。而Huang Zilong 等人22提出的 criss-cross 操作,则只计算特征中每个位置与其同行同列位置间的关系,通过两次的 criss-cross 操作,便可间接计算出每对位置间的关系,从而使得网络参数量大大减少。Cao Yue 等人23通过将 Non Local 和

    20、 SE-Net 结合起来,构建了一种全局上下文模块,使得 SE-Net 通道注意力机制具有了全局上下文建模的能力。在以上研究进展的基础上,该文提出的模型将C3D 与注意力机制相结合,通过在通道注意力机制和空间注意力机制中使用全局操作,使得网络具有了全局建模的能力,对视频的三维特征可以在时域和空域均可建立其远程的依赖关系,提高网络的表征能力。2摇 基于混合注意力机制融合 C3D 网络的视频动作识别模型2.1摇 整体模型结构图 1 所示为基于混合注意力机制融合 C3D 网络视频人体动作识别模型的整体结构。由于三维卷积神经网络可直接作用于视频帧序列,从而从多个相邻帧中提取出时空特征,因此采用 C3D

    21、 卷积神经网络作为其特征提取网络。首先,对视频数据按照间隔 N(如文中的取值为 4)进行抽取以实现预处理,然后输入到C3D 网络进行空域和时域特征的提取。对于提取到的特征,分别通过空间和通道注意力机制建立其空间和通道信息通路,进而通过两种特征的融合处理来实现动作目标的识别与分类。C3DAttentionModuleOutput FeatureF”FC LayerSoftmax LayerAction classInput FeatureF图 1摇 基于混合注意力机制的三维卷积神经网络模型2.2摇 C3D 网络模型C3D 的模型结构如图 2 所示,一共由 8 个卷积层,5 个最大池化层,2 个全

    22、连接层和 1 个 Softmax 输出层组成。输入数据大小为 3 伊 16 伊 112 伊 112,其中 3 为通道数,分别代表 R、G、B 视频帧,16 为每次输入的视频帧数,这些视频帧是按照间隔 N=4 对视频片段进行抽取得到。112 伊 112 是对抽取的视频帧进行随机的crop 之后得到的输入视频帧大小。所有卷积层采用的都是 3 伊 3 伊 3 大小的卷积核,步长为1 伊 1 伊 1。除了Pool1 层池化核大小为 1 伊 2 伊 2,步长为 2 伊 2 伊 2 之外,其余池化核大小均为 2 伊 2 伊 2,步长为 1 伊 2 伊 2。在完成最后一次池化操作后,将输出的三维特征进行Re

    23、shape 操作展开为一维,然后将其送入到全连接层,每个全连接层都有 4 096 个输出单元,激活函数采用ReLu 函数。最终的特征分类使用 Softmax。C3D 采用三维卷积和三维池化,对视频帧序列提取得到的是三维特征,该文在网络最后池化层 Pool5后插入注意力模块,将输出的三维特征送入注意力网络中得到特征的注意力图,然后将带有注意力的特征图与原输入特征相加得到最终的带有注意力的特征,最后将该特征输入到全连接网络进行动作的最终分类与识别。701摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 朱联祥等:基于混合注意力机制的视频人体动作识别图 2摇 C3D 网络结构2.3摇 混合注

    24、意力机制CBAM 注意力机制是在 SE-Net 上的进一步扩展,并且增加了空间注意力模块。笔者发现,将通道注意力模块和空间注意力模块以先后顺序排列比并行排列有更好的效果。因此,在网络中先后使用通道注意力机制和空间注意力机制构建混合注意力机制模块。与二维卷积神经网络相比,因为采用 C3D 三维卷积神经网络对视频动作进行识别增加了一个时间维度,所以在设计其注意力机制时需要考虑到维度的变化。由于原通道注意力机制是用于二维图像数据,采用的是二维卷积,但视频数据是三维数据需要考虑时间维度,所以需要对其进行三维化扩展,将原注意力机制的卷积和池化操作替换为三维卷积,使之能够适用于三维卷积神经网络。具体注意力

    25、机制在模型中的使用方式如图 3 所示。ChannelAttentionModuleSpatialAttentionModuleInputFeatureFAttention ModuleOutputFeatureF”FPreviousC3DNextModule图 3摇 注意力机制结构摇 摇 视频数据相比于图像数据多了一个时间维度,在使用三维卷积网络对其进行特征提取后的输出特征会多出一个时间维度 T。对于一个三维卷积的特征图 F沂 RC伊T伊H伊W,这里的 C、T、H、W 分别为 C3D 网络最后一层池化输出的三维特征的大小。注意力机制会先计算出通道注意力特征图 MC沂RC伊1伊1伊1,然后将特征

    26、图 MC对输入特征 F 进行加权得到特征 F沂 RC伊T伊H伊W,再将特征 F输入到空间注意力模块,生成空间注意力特征图 Ms沂 R1伊T伊H伊W。由于这里是直接将空间注意力模块由二维直接扩展到三维,所以 Ms在计算过程中包含有时间维度的信息,即时域和空域两个维度的信息,最后将 Ms对 F进行加权得到最终的注意力图 F沂RC伊T伊H伊W。整个过程可以表示为:F=MC(F)茚 FF=MC(F)茚 F摇 摇(1)式中,茚 表示元素乘法,F是最终得到的注意力图,每个注意力模块的具体细节在下文会进行具体介绍。2.3.1摇 通道注意力模块通道注意力机制利用通道之间的关系来生成通道注意力图,通过加权来强调

    27、不同通道的重要性。在 SE-Net 中只使用了最大池化来压缩空间维度,然后计算各通道的权重。CBAM 注意力机制在其基础上又增加了平均池化来压缩空间维度,但也造成了很多信息损失。在 GCNet 中,笔者通过将 Non-Local 网络和 SE-Net 网络相结合,构建了全局上下文模块,使得网络能够建立长距离的依赖关系。网络首先对输入数据在空间维度上进行上下文建模,然后计算各个通道的权重,充分结合了 Non-Local 全局上下文建模和 SE-Net 轻量的优点。原注意力机制是二维注意力机制,只需要考虑空间上 H、W 两个维度信息。所以在应用于视频数据时需要对其进行三维化扩展,首先需要将其中的二

    28、维卷积替换为三维卷积,在进行 Reshape 操作时,需要考虑到时间维度,T、H、W 将作为包含时空信息三个最基础的维 度。对于 输 入 的 三 维 视 频 数 据 F 沂RC伊T伊H伊W,首先使用一个卷积核大小为 1 伊 1 伊 1 卷积操作,将输入特征 F 合并为一个通道,然后对其使用Reshape 操作置为大小为 THW 伊 1 的张量,另外将输入特征 Reshape 为 C 伊 THW 后通过 Softmax 函数得到一个特征张量,然后将两者做内积运算后输入到一个MPL 中获取通道之间的依赖关系,使用 Sigmoid 激活得到通道注意力特征图 MC(F),用公式表示为:Mc=滓(MLP

    29、(R1(F)茚 R2(conv(F)摇(2)式中,滓 表示 Sigmoid 函数,conv 表示1 伊 1 伊 1 卷积操作,R1表示将维度为 C 伊 T 伊 H 伊 W 的输入特征置为801摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷C 伊 THW 的 Reshape 操作,R2表示将经过1 伊 1 伊 1 卷积操作后的维度为 1 伊 T 伊 H 伊 W 的特征置为 THW 伊 1的 Reshape 操作。该通道注意力模块增加了上下文建模操作,首先通过

    30、Reshape 操作将输入特征按照不同通道进行展开,然后再将输入特征经过 1 伊 1 伊 1 卷积进行通道压缩后,再按照通道进行 Reshape 操作展开,将两者进行内积运算可以获得不同通道特征元素之间的关系,即不同通道元素之间的远程关系。最后将其输入一个 MLP 中通过学习调整不同通道的权重。该网络采用自注意力机制的思想对特征建模特征中元素间的关系,能够对每一个通道建立该通道上所有元素之间的依赖关系,使得网络相比于卷积操作更能建立起远程依赖关系。3D Global Context 通道注意力模块如图 4 所示。SChannel AttentionMcInput Feature F3DConv

    31、ReshapeReshapeMLPCTHWGlobal Context Modeling1THWTHW1C11CTHWSoftmax图 4摇 3D Global Context 通道注意力模块2.3.2摇 空间注意力模块空间注意力机制结构如图 5 所示。首先,将经过通道注意力机制加权后的特征图 F沂 RC伊T伊H伊W分别经过两个 1 伊 1 伊 1 卷积核的卷积层,分别生成两个特征Q 和 K,其中 Q,K 沂 RC伊T伊H伊W,这里 C表示经过卷积后的 Q,K 的通道数,文中 C取 C/8,再将二者经过 Affinity 操作生成特征图 A沂R(T+H+W-2)伊T伊H伊W。对于特征 Q 的每

    32、一个位置 u,包含三个坐标值(t,x,y),在特征 K 中提取和位置 u 处于同行同列的特征向量,即特征 K 中以 u 为中心在 T、H、W 方向的特征向量的集合 赘u。设 赘i,u沂RC是 赘u中的第 i 个元素,Affinity 操作的定义如下:di,u=Qu赘Ti,u(3)其中,di,u沂 D,D 沂 R(T+H+W-2)伊T伊H伊W,表示特征 Qu和赘i,u,i=1,(T+H+W-2)的相关度。对经过Affinity 操作后的特征使用 Softmax 函数计算得到特征图 A。然后,在 F沂 RC伊T伊H伊W上又使用一个 1伊1伊1 的卷积操作生成一个特征 V 沂 RC伊T伊H伊W。对与

    33、 Vu沂 Rc中的每一个位置 u,可得到 椎u沂 R(T+H+W-2)伊c,表示特征 V 中以 u 为中心在 T、H、W 方向特征向量的集合。Aggregation 操作如下:Fu=滓(Ai,u椎i,u)(4)其中,滓 是 Sigmoid 函数,Fu是空间注意力图 F沂RC伊T伊H伊W位于 u 的特征向量,Ai,u是 A 中位于 u 位置特征向量的第 i 个元素,椎i,u表示特征 V 中位于 u 位置特征向量的第 i 个元素。Conv1 1 1Conv1 1 1Conv1 1 1AffinitySoftmaxAggregationQKVSInput Feature FCTHWAOutput F

    34、eatureF”图 5摇 3D Criss-Cross 空间注意力模块3摇 实验结果与分析3.1摇 数据集和评价指标3.1.1摇 数据集为验证改进模型的有效性,在 UCF-101 和 HMDB-51 两个大型视频数据集上进行了对比实验。UCF-101 数据集包含 101 种人体动作类别,归属于五种类型:人与物体交互、仅身体运动、人与人交互、乐器演奏、运动等。一共有 13 320 个视频片段,累计时长超过 27 小时。视频从 YouTube 下载,所有视频片段都有25 FPS 的固定帧率和 320 伊 240 的分辨率。数据集中的视频片段具有背景杂乱、光照条件差,以及很多低质901摇 第 9 期

    35、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 朱联祥等:基于混合注意力机制的视频人体动作识别量帧等特点。HMDB-51 包含 51 个动作类别,每个类别至少包含 101 个视频片段,一共包含了从数字化电影到YouTube 等各种来源提取的 6 766 个含有手动注释的视频片段。这些动作可以分为五种类型:一般面部动作、面部动作配合物体操作、一般身体动作、与物体互动身体动作、人类互动肢体动作。视频帧率均为 25FPS,分辨率为 320 伊 240。该数据集由于视频片段来源复杂,视频帧中包含噪声信息较多,加上摄像机运动,不同拍摄角度等因素,其动作识别与分类相较于UCF-101 更加具有挑战性,一般来说

    36、在分类上的效果相较于 UCF-101 也更低。3.1.2摇 评价指标实验将视频数据集划分为训练集、验证集、测试集三个部分,占比分别为 60%、20%、20%。每完成 1 次训练就对模型进行 1 次验证,每完成 5 次训练对模型进行 1 次测试。实验一共进行 100 次训练,最终通过Softmax 函数对特征进行分类。将最后的识别准确率Acc 作为评价指标,公式如下:Acc=TP+TNTP+TN+FP+FN(5)其中,TP(True Positive)表示实例是正例被判定成正例的个数;FN(False Negative)表示将正例判定为负例的个数;FP(False Positive)表示负例被判

    37、定为正例的个数;TN(True Negative)表示负例被判定成负例的个数。3.2摇 数据处理及训练过程由于三维卷积神经网络不能直接处理视频信息,必须将视频中的帧抽取出来,将部分帧作为网络的输入。实验中采用间隔抽帧的方式,对于每一个视频片段,每隔 4 帧抽取 1 帧,一共抽取 16 帧作为网络输入。如果视频时长较短,以 4 帧间隔不能抽取到 16 帧,则可将抽取间隔缩小直至可以抽取到 16 帧为止。原数据集视频分辨率为 320 伊 240,在抽取的同时需要将每一帧大小调整为 128 伊 171,在将数据输入到网络之前还需要对每一帧进行大小为 112 伊 112 的随机 crop操作。在 Li

    38、nux 操作系统的 PyTorch 环境下进行实验,所有数据集的训练轮数均为 50。考虑到训练所用 GPU显存的限制,benchsize 设为 6。采用随机梯度下降法进行优化,学习率为 0.001,损失函数采用交叉熵损失。为避免模型过拟合,在全连接层采用值为 0.5 的dropout。模型使用在 Sport1M 数据集上预训练的权重进行训练,该数据集包含了 100 万个 YouTube 视频,一共有 487 个类别,每个类别有 1 000 到 3 000 个视频片段,这是比 UCF-101 和 HMDB-51 更大的视频动作数据集,通过在 Sport1M 数据集上进行预训练然后在UCF-101

    39、 和 HMDB-51 数据集上进行参数调整,可以获得更快的收敛速度和较高的准确率。3.3摇 结果分析3.3.1摇 混合注意力机制使用的对比为了证明该文混合注意力机制在融合模型中的有效性,分别对 C3D 网络使用 3D-CBAM、单独使用通道注意力机制、单独使用空间注意力机制和使用混合注意力机制进行对比。表 1 展示了使用不同注意力机制对融合模型的动作识别准确率的结果。由表 1 可以看出,注意力机制的添加使得 C3D 网络对动作识别的准确率得到了明显的提升。与 3D-CBAM 注意力机制相比,构建的混合注意力机制对网络识别准确率的提升更高。混合注意力机制与单独使用通道或空间注意力相比,识别准确率

    40、更高。实验表明该文构建的混合注意力机制对融合模型识别精度提高是有效的。表 1摇 不同注意力机制的对比摇%注意力机制UCF-101HMDB-51C3D791.656.73D-CBAM93.961.23D Global Context92.160.33D Criss-Cross91.459.7文中方法96.763.33.3.2摇 不同模型对比分别对 C3D 网络和文中改进模型以及当前比较典型的方法进行实验对比,结果如表 2 所示。其中I3D 和 C3D 是基于三维卷积网络的方法,Aymmetric3D-CNN 和文献9是基于时空分离(2+1)D 卷积,文献20和文中方法是基于三维卷积网络融合注意力

    41、机制的方法。可以看出,文中方法相较于三维卷积和时空分离(2+1)D 卷积具有更高的准确率。与文献20的 3D-CBAM 注意力相比,该文的混合注意力机制对于网络识别准确率的提升更高。表 2摇 不同方法的对比摇%方法UCF-101HMDB-51I3D1084.757.2C3D791.656.7文献989.257.4文献2091.560.7Aymmetric 3D-CNN1292.665.4文中方法96.763.3摇 摇但是对于 HMDB-51 的识别,相比于 Aymmetric3D-CNN 方法,文中方法的分类准确率较低,因为在该网络中采用的是(2+1)D 卷积方式,它将三维卷积分011摇 摇

    42、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷解为时间的一维和空间的二维。在文献9中作者经过实验说明这种采用时空分离(2+1)D 卷积的网络结构更易于优化器寻优。而且该网络在训练中使用了光流图作为输入特征,该特征包含运动信息,对识别效果有一定的提升。3.3.3摇 UCF-101 实验可视化及结果分析图 6 展示了文中方法和原 C3D 方法在 UCF-101数据集上的准确率变化曲线。可以看出,在使用注意力机制后,文中方法识别准确率更慢收敛。在 20 轮后原 C3D 方

    43、法已基本收敛,而文中方法的识别准确率仍继续上升,直到 25 次左右才基本处于收敛状态。自始至终文中方法的识别准确率都高于原 C3D 方法。图 6摇 UCF-101 准确率变化曲线与准确率曲线相互印证,图 7 展示了使用原 C3D网络和文中方法的损失变化曲线。文中方法的损失函数值更低,也是在迭代 25 次左右才达到收敛状态。然而原 C3D 网络的参数总量为78.41 伊 106,文中模型的参数总量为 92.60 伊 106,二者相比文中方法的参数量有明显增加,相应地也就需要更多的训练时间。图 7摇 UCF-101 损失变化曲线3.3.4摇 HMDB-51 实验可视化及结果分析在 HMDB-51

    44、数据集上进行了同样的训练,图 8展示了文中方法和原 C3D 方法的准确率变化曲线。可以看出,在使用注意力机制后,迭代进行到 30 次左右基本上达到收敛,准确率也有了明显提升。图 9 是损失变化曲线的对比,可以看出文中方法的损失值更低。表明注意力机制的引入对于 HMDB-51 数据集同样有效。此外由于 HMDB-51 数据集有更多的相机位移、视点变化等,因此分类效果相对更低。图 8摇 HMDB-51 准确率变化曲线图 9摇 HMDB-51 损失变化曲线4摇 结束语针对三维卷积神经网络用于视频动作识别的优缺点,提出了基于 C3D 卷积神经网络的模型改进:在原网络中引入注意力机制,分别通过通道注意力

    45、机制和空间注意力机制对特征的通道和空间相对重要位置进行加权。实验在 UCF-101 和 HMDB-51 大型视频数据集上进行,结果表明,引入的通道注意力模块和空间注意力模块对最终的识别效果均有明显提升。但所提模型需要在其他大型数据集上进行预训练才会取得较好的结果,且注意力机制的引入带来了计算量的增加,网络的参数总量从 78.41 伊 106增加到 92.60 伊 106。如何在提升识别效果的同时缩减网络的计算量将是未来研究需要解决的问题。参考文献:1摇 钱慧芳,易剑平,付云虎.基于深度学习的人体动作识别综述J.计算机科学与探索,2021,15(3):438-455.2摇 杨摇 刚,张宇姝,宋摇

    46、震.人体动作识别与评价 区别、联系及研究进展J.计算机科学与探索,2022,16(5):991-1007.3摇 YAO G,LEI T,ZHONG J.A review of convolutional-neural-network-based action recognition J.Pattern RecognitionLetters,2018,118:14-22.4摇 田摇 元,李方迪.基于深度信息的人体姿态识别研究综述J.计算机工程与应用,2020,56(4):1-8.111摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 朱联祥等:基于混合注意力机制的视频人体动作识别5摇 K

    47、RIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet clas鄄sification with deep convolutional neural networks J.Ad鄄vances in Neural Information Processing Systems,2012,25(2):1097-1105.6摇SIMONYAN K,ZISSERMAN A.Two-stream convolutionalnetworks for action recognition in videosJ.arXiv:1406.2199,2014.7摇 TRAN D,BOURD

    48、EV L,FERGUS R,et al.Learning spatio鄄temporal features with 3D convolutional networksC/IEEEinternational conference on computer vision(ICCV).Santia鄄go:IEEE,2015:4489-4497.8摇 JI S,XU W,YANG M,et al.3D convolutional neural networksfor human action recognitionJ.IEEE Transactions on Pat鄄tern Analysis&

    49、;Machine Intelligence,2013,35(1):221-231.9摇吕淑平,黄摇毅,王莹莹.基于 C3D 卷积神经网络人体动作识别方法改进J.实验技术与管理,2021,38(10):168-171.10 CARREIRA J,ZISSERMAN A.Quo vadis,action recognition?a new model and the kinetics datasetC/IEEE conferenceon computer vision and pattern recognition(CVPR).Santia鄄go:IEEE,2017:6299-6308.11 SUN L,JIA K,YEUNG D Y,et al.Human action recognitionusing factorized spatio-temp


    注意事项

    本文(基于混合注意力机制的视频人体动作识别.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png