MSIANet:多尺度交互注意力人群计数网络.pdf
《MSIANet:多尺度交互注意力人群计数网络.pdf》由会员分享,可在线阅读,更多相关《MSIANet:多尺度交互注意力人群计数网络.pdf(10页珍藏版)》请在咨信网上搜索。
1、MSIANet:多尺度交互注意力人群计数网络张世辉赵维勃*王磊王威李群鹏(燕山大学信息科学与工程学院秦皇岛066004)(河北省计算机虚拟技术与系统集成重点实验室秦皇岛066004)摘要:尺度变化、遮挡和复杂背景等因素使得拥挤场景下的人群数量估计成为一项具有挑战性的任务。为了应对人群图像中的尺度变化和现有多列网络中规模限制及特征相似性问题,该文提出一种多尺度交互注意力人群计数网络(Multi-ScaleInteractiveAttentioncrowdcountingNetwork,MSIANet)。首先,设计了一个多尺度注意力模块,该模块使用4个具有不同感受野的分支提取不同尺度的特征,并将各
2、分支提取的尺度特征进行交互,同时,使用注意力机制来限制多列网络的特征相似性问题。其次,在多尺度注意力模块的基础上设计了一个语义信息融合模块,该模块将主干网络的不同层次的语义信息进行交互,并将多尺度注意力模块分层堆叠,以充分利用多层语义信息。最后,基于多尺度注意力模块和语义信息融合模块构建了多尺度交互注意力人群计数网络,该网络充分利用多层次语义信息和多尺度信息生成高质量人群密度图。实验结果表明,与现有代表性的人群计数方法相比,该文提出的MSIANet可有效提升人群计数任务的准确性和鲁棒性。关键词:人群计数;估计密度图;注意力机制;多尺度特征中图分类号:TN911.73;TP391.41文献标识码
3、:A文章编号:1009-5896(2023)06-2236-10DOI:10.11999/JEIT220644MSIANet:Multi-scale Interactive Attention Crowd Counting NetworkZHANGShihuiZHAOWeiboWANGLeiWANGWeiLIQunpeng(School of Information Science and Engineering,Yanshan University,Qinhuangdao 066004,China)(The Key Laboratory for Computer Virtual Techno
4、logy and System Integration of Hebei Province,Qinhuangdao 066004,China)Abstract:Factorssuchasscalevariation,occlusionandcomplexbackgroundsmakecrowdnumberestimationincrowdedscenesachallengingtask.Tocopewiththescalevariationincrowdimagesandthescopelimitationandthefeaturesimilarityprobleminexistingmult
5、i-columnnetworks,aMulti-ScaleInteractiveAttentioncrowdcountingNetwork(MSIANet)isproposedinthispaper.Firstly,amulti-scaleattentionmoduleisdesigned,whichusesfourbrancheswithdifferentperceptualfieldstoextractfeaturesatdifferentscalesandinteractsthescalefeaturesextractedfromeachbranch.Atthesametime,anat
6、tentionmechanismisusedtolimitthefeaturesimilarityproblemofthemulti-columnnetwork.Secondly,asemanticinformationfusionmoduleisdesignedbasedonthemulti-scaleattentionmodule,whichinteractsdifferentlevelsofsemanticinformationofthebackbonenetworkandstacksthemulti-scaleattentionmoduleinlayerstomakefulluseof
7、themulti-layersemanticinformation.Finally,amulti-scaleinteractiveattentioncrowdcountingnetworkisconstructedbasedonthemulti-scaleattentionmoduleandthesemanticinformationfusionmodule,whichmakesfulluseofmulti-levelsemanticinformationandmulti-scaleinformationtogeneratehigh-qualitycrowddensitymaps.Theexp
8、erimentalresultsshowthatcomparedwiththeexistingrepresentativecrowdcountingmethods,theproposedMSIANetcaneffectivelyimprovetheaccuracyandrobustnessofthecrowdcountingtask.Key words:Crowdcounting;Estimateddensitymap;Attentionmechanism;Multi-scalefeatures收稿日期:2022-05-19;改回日期:2022-07-29;网络出版:2022-08-22*通信
9、作者:赵维勃基金项目:中央引导地方科技发展资金项目(216Z0301G),河北省自然科学基金(F2019203285),河北省创新能力提升计划项目(22567626H)FoundationItems:TheCentralGovernmentGuidedLocalFundsforScienceandTechnologyDevelopment(216Z0301G),TheNaturalScienceFoundationofHebeiProvinceinChina(F2019203285),InnovationCapabilityImprovementPlanProjectofHebeiProvin
10、ce(22567626H)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.20231 引言人群计数是计算机视觉和智能监控领域的重要研究内容,其目的是估计图像或视频场景中的人数。它在安全监测、交通管理、城市规划等领域有着广泛应用。例如:在疫情期间,控制人群密度可以降低出现聚集性传播的概率;在景区、体育场和广场等人群高度聚集的区域,通过发出预警信息可以防止出现踩踏事故等。近年来,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的人群计数方法1,2已经成为人群计数
11、的主流方法,其基本思想是使用CNN生成估计密度图,给每个像素赋予密度值,密度图的密度值总和记为场景中的总人数。目前,由于拍摄距离和角度差异导致的尺度变化问题严重影响了计数结果的准确性。为了应对人群图像的尺度变化问题,研究人员引入了多列网络。然而,现有的多列网络存在诸多问题,如:网络规模的限制导致只能提取特定的尺度信息、各列提取的特征具有相似性、网络规模复杂导致计算量增加等。为了解决上述问题,本文提出了一种新颖的多尺度交互注意力人群计数网络(Multi-ScaleInter-activeAttentioncrowdcountingNetwork,MSI-ANet)。MSIANet使用交互结构和注
12、意力机制应对多列网络的规模限制及特征相似性问题,并使用主干网络的多层语义信息提供更为丰富的细节特征。具体而言,本文的主要贡献如下:(1)设计了一个多尺度注意力模块(Multi-ScaleAttentionModule,MSAM)以提取丰富的多尺度信息。该模块利用交互结构和注意力机制提升了提取多尺度信息的能力和对有价值信息的敏感度,克服了传统多列网络中的规模限制及特征相似性问题。(2)在MSAM的基础上,设计了一个语义信息融合模块(SemanticInformationFusionModule,SIFM)对主干网络的不同层次的语义信息进行交互和融合。SIFM使用多层语义信息能够比仅使用高层的语义
13、信息提供更为丰富的细节特征,增强网络的特征聚合能力,提升了对主干网络的利用效率。(3)以MASM和SIFM为基础,提出了一个多尺度交互注意力人群计数网络(MSIANet)。不同于现有多列网络各分支独立工作的方式,本文网络在使用多列结构的同时,将各分支提取的不同尺度特征进行交互,使有限的网络规模能够提取更为丰富的尺度信息,提升了网络对全局尺度特征的处理能力。在3个公开数据集上的大量实验结果表明,与现有代表性的人群计数方法相比,MSIANet取得了更好的性能。2 相关工作随着智慧城市和平安社会建设步伐的加快,人群计数越来越受到学者的关注。传统的人群计数方法主要分为两类:基于检测的方法3,4和基于回
14、归的方法5,6。近年来,CNN在特征提取方面取得了令人满意的效果,使其成为很多任务的主流方法。2.1 基于CNN的人群计数方法基于CNN的人群计数方法主要分为两类:基于单列网络的人群计数方法和基于多列网络的人群计数方法。2.1.1 基于单列网络的人群计数方法Li等人7提出的CSRNet是最具代表性的基于单列网络的人群计数方法,其使用膨胀卷积神经网络作为后端网络,在增大了感受野的同时保持了特征图像的分辨率。Oh等人8提出的DUBNet是一个用于人群计数的可扩展单列网络框架,使用点估计的不确定性量化提高计数性能。Xu等人9提出了一种利用部分注释进行监督学习的单列网络人群计数方法,以降低标注的成本。
15、Xu等人10提出的Auto-Scale则通过缩放图片以获得不同尺度的特征提升计数效果。Ma等人11提出的FusionCount是一种用于人群计数的编码器-解码器单列网络,利用编码特征的自适应融合来获得多尺度特征。单列网络模型虽然容易训练且参数量少,但是由于对多尺度特征不够敏感,因此计数性能受到限制。2.1.2 基于多列网络的人群计数方法由于人群图像中普遍存在尺度变化的问题,严重影响CNN模型计数的准确性。为了解决图像中人群尺度变化对计数性能的影响,研究人员开发了多列网络。Zhang等人12提出的MCNN是最早使用多列网络应对人群计数任务中尺度变化的方法之一,该模型使用3个具有不同感受野的网络分
16、支提取多尺度特征,在一定程度上缓解了多尺度问题对计数精度的影响。Cao等人13提出SANet,该网络堆叠多个多尺度模块作为编码器提取多尺度特征,然后使用一组转置卷积作为解码器生成高分辨率密度图。Sam等人14提出Swich-CNN,该网络单独训练了一个分类器赋予图像块不同的密度等级,然后让不同密度等级的图像块通过对应的子网络,所有图像块的估计结果构成了原图的估计结果。Jiang等人15提出的TEDNet是一种网格状的编码器-解码器人群计数网络,其内部使用具有4个分支的多尺度编码块获取多尺度特征。Yang等人16提出了一种有效的多列网络,将透视分析嵌入到具有循环连接的多列框架中以提高计数性能。L
17、ian等人17提出了一种双路径引导检测网络DPDNet,该模型使用第6期张世辉等:MSIANet:多尺度交互注意力人群计数网络2237两个引导分支引导密度图的生成,提升了对小尺寸头部的检测能力。Zand等人18提出使用3个不同深度的网络分支获取多尺度信息,并结合检测任务以提升计数性能。总体而言,多列网络大都通过使用不同感受野的网络分支提取不同的尺度信息。然而受限于网络的规模,离散的感受野并不能适应尺度的连续性变化,因此目前的多列结构并不能完全解决人群图像中的多尺度问题。除此之外,多列网络虽然在一定程度上缓解了尺度变化对人群计数任务精度的影响,但是在提取多尺度信息的同时,也带来了特征相似性的问题
18、。2.2 人群计数中的注意力机制注意力机制是应对特征相似性问题的一种有效手段。Liu等人19提出ADCrowdNet,使用注意力图生成器为密度图估计器提供区域和拥挤度,有效提升了计数性能。Tian等人20提出一种使用多级注意力的人群计数方法MLAttnCNN,该网络使用多级注意力模块丰富不同层级的特征,以实现更有效的多尺度特征融合。在本文中,我们通过将多层次和多尺度的特征进行交互,应对尺度连续性变化的问题,并使用注意力机制应对多列网络结构的特征相似性问题。3 多尺度交互注意力人群计数网络本节首先介绍多尺度交互注意力人群计数网络的总体结构,然后详细介绍该网络的主体构成部分:多尺度注意力模块和语义
19、信息融合模块。3.1 网络总体结构鉴于以往多列网络的局限性,本文提出了一种全新的多层次多列结构网络以应对尺度变化问题,称为多尺度交互注意力人群计数网络(Multi-ScaleInteractiveAttentioncrowdcountingNetwork,MSIANet),网络结构如图1所示。由图1可知,MSIANet使用去除全连接层和最后1个池化层的VGG-16作为主干网络提取特征信息,使用语义信息融合模块(SIFM)融合多层语义信息,SIFM内部使用3个多尺度注意力模块(MSAM)提取多尺度特征。后端网络则由两个卷积层组成,用于最终的密度图回归。具体而言,对于一幅给定的人群图像,首先经过M
20、SIANet的主干网络提取特征信息。MSIANet的主干网络分为5个层次,本文表示为Conv1Conv5,且使用Conv3,Conv4和Conv5层提取的特征图作为SIFM的输入。其次,为了能够更加充分地利用多层次语义信息,在各层语义信息输入MSAM之前,使用语义交互结构(SemanticInteractionStructure,SIS)将各层次语义信息进行融合,融合后的语义信息为MSAM的输入。最后,特征信息被送入后端网络得到最终的人群密度图。将所得人群密度图中的像素累加,得到最终的计数结果。3.2 多尺度注意力模块(MSAM)3.2.1 多尺度注意力模块概述多尺度注意力模块(MSAM)使用
21、注意力机制和多列结构应对人群图像的尺度变化问题。前文提到多列结构网络在应对尺度变化问题中存在网络规模限制及特征相似性问题。多列结构网络的各尺度分支只能提取特定的尺度信息,并且各尺度分支都是独立工作的,而尺度的变化却是连续的,因此目前大多数多列结构网络只能处理离散的尺度变化。这种情况限制了多列结构网络在处理人群计数任务时的性能,鉴于此,本文通过设计多尺度交互结构(Multi-ScaleInteractionStructure,MSIS)将各尺度分支进行交互,从而处理连续的尺度变化问题。除此之外,受文献21中保留跨维度特征思想的启发,本文结合人群计数任务中多尺度问题的特图1多尺度交互注意力人群计数
22、网络2238电子与信息学报第45卷点设计了全局空间注意力机制(GlobalSpatialAt-tentionMechanism,GSAM)和全局通道注意力机制(GlobalChannelAttentionMechanism,GCAM)解决特征相似性问题。基于上述结构和机制构建的多尺度注意力模块(MSAM)的结构如图2所示。3 3r 1,2,3,41 1Fin RCHW Fin RC/4HWS1,S2,S3,S4SiF1,F2,F3,F4Fi3 3Fout由图2可知,MSAM由4个具有不同感受野的分支和一个额外的GCAM组成。具有不同感受野的4个分支用来提取多尺度特征,其核心是4个卷积核大小为的
23、膨胀卷积,膨胀率。为了减少多列结构的计算消耗,本文在每个分支之前都设置了一个卷积将特征图的通道数减少为原来的1/4,即,C,H和W分别表示输入特征图的通道、高度和宽度。由4个膨胀卷积提取的多尺度特征表示为,然后将作为MSIS的输入,由MSIS生成的各级尺度特征表示为。将分别送入各尺度分支对应的GSAM中赋予全新的特征权重以缓解特征相似性的问题。最终,4个尺度分支生成的特征图在通道维度进行连接,并使用一个的卷积进行特征融合后与GCAM得到的特征信息相乘得到MSAM的输出。此过程可表示为Fout=FC Conv(cat(FS1,FS2,FS3,FS4)(1)FCFSiConv()cat()其中,表
24、示由GCAM输出的特征图,表示各尺度分支输出的特征图,为卷积操作,为特征连接操作。3.2.2 多尺度交互结构(MSIS)S1F1F1S2为了使MSAM能够提取更具代表性的尺度感知信息,本文设计了MSIS进行多尺度特征的交互。如图3所示,在MSIS中以为,先将与进行F2F23 3F2F2S3F1,F2,F3,F4通道上的连接得到中间特征,然后使用1个卷积进行特征融合后得到,和将作为MSIS下一阶段的输入,此操作迭代进行,得到。其单次过程可表示为Fi+1=Conv(cat(Fi,Si+1)(2)Conv()cat()其中,为卷积操作,为特征连接操作。传统的多列网络结构每个分支通常只能提取特定的尺度
25、特征,MSIS使得多列网络结构的各尺度分支不再独立工作,每个分支都包含多个尺度的特征信息。3.2.3 全局空间注意力机制(GSAM)Fi多尺度特征 中仍包含大量的冗余信息,GSAM通过赋予特征全新的权重,强调有用的空间信息,抑制冗余的空间信息。GSAM结构如图4所示。FiRCHWFiFi RCHW Fi RC/4HWFiFi RC/4HW Fi RCHW3 3rrFSi由 图 4 可 知,以 给 定 的 中 间 特 征 图为输入,先使用1个卷积将的通道数缩减为原来的1/4,即;接着使用1个卷积将的通道数调整为与原特征图相同,即。与文献21不同的是,本文设计的GSAM不再使用固定尺寸的卷积进行信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MSIANet 尺度 交互 注意力 人群 计数 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。