换一换

咨信网 > 资源分类 > PDF文档下载

预览

自信AI助手

自信AI导航

MSIANet：多尺度交互注意力人群计数网络.pdf

资源ID：321347 资源大小：13.56MB 全文页数：10页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

开通VIP

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

声明 | 会员权益获赠5币写作

1、填表： 下载求助索取发票退款申请

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

MSIANet：多尺度交互注意力人群计数网络.pdf

1、MSIANet：多尺度交互注意力人群计数网络张世辉赵维勃*王磊王威李群鹏(燕山大学信息科学与工程学院秦皇岛066004)(河北省计算机虚拟技术与系统集成重点实验室秦皇岛066004)摘要：尺度变化、遮挡和复杂背景等因素使得拥挤场景下的人群数量估计成为一项具有挑战性的任务。为了应对人群图像中的尺度变化和现有多列网络中规模限制及特征相似性问题，该文提出一种多尺度交互注意力人群计数网络(Multi-ScaleInteractiveAttentioncrowdcountingNetwork,MSIANet)。首先，设计了一个多尺度注意力模块，该模块使用4个具有不同感受野的分支提取不同尺度的特征，并将各

2、分支提取的尺度特征进行交互，同时，使用注意力机制来限制多列网络的特征相似性问题。其次，在多尺度注意力模块的基础上设计了一个语义信息融合模块，该模块将主干网络的不同层次的语义信息进行交互，并将多尺度注意力模块分层堆叠，以充分利用多层语义信息。最后，基于多尺度注意力模块和语义信息融合模块构建了多尺度交互注意力人群计数网络，该网络充分利用多层次语义信息和多尺度信息生成高质量人群密度图。实验结果表明，与现有代表性的人群计数方法相比，该文提出的MSIANet可有效提升人群计数任务的准确性和鲁棒性。关键词：人群计数；估计密度图；注意力机制；多尺度特征中图分类号：TN911.73;TP391.41文献标识码

3、：A文章编号：1009-5896(2023)06-2236-10DOI:10.11999/JEIT220644MSIANet:Multi-scale Interactive Attention Crowd Counting NetworkZHANGShihuiZHAOWeiboWANGLeiWANGWeiLIQunpeng(School of Information Science and Engineering,Yanshan University,Qinhuangdao 066004,China)(The Key Laboratory for Computer Virtual Techno

4、logy and System Integration of Hebei Province,Qinhuangdao 066004,China)Abstract:Factorssuchasscalevariation,occlusionandcomplexbackgroundsmakecrowdnumberestimationincrowdedscenesachallengingtask.Tocopewiththescalevariationincrowdimagesandthescopelimitationandthefeaturesimilarityprobleminexistingmult

5、i-columnnetworks,aMulti-ScaleInteractiveAttentioncrowdcountingNetwork(MSIANet)isproposedinthispaper.Firstly,amulti-scaleattentionmoduleisdesigned,whichusesfourbrancheswithdifferentperceptualfieldstoextractfeaturesatdifferentscalesandinteractsthescalefeaturesextractedfromeachbranch.Atthesametime,anat

6、tentionmechanismisusedtolimitthefeaturesimilarityproblemofthemulti-columnnetwork.Secondly,asemanticinformationfusionmoduleisdesignedbasedonthemulti-scaleattentionmodule,whichinteractsdifferentlevelsofsemanticinformationofthebackbonenetworkandstacksthemulti-scaleattentionmoduleinlayerstomakefulluseof

7、themulti-layersemanticinformation.Finally,amulti-scaleinteractiveattentioncrowdcountingnetworkisconstructedbasedonthemulti-scaleattentionmoduleandthesemanticinformationfusionmodule,whichmakesfulluseofmulti-levelsemanticinformationandmulti-scaleinformationtogeneratehigh-qualitycrowddensitymaps.Theexp

8、erimentalresultsshowthatcomparedwiththeexistingrepresentativecrowdcountingmethods,theproposedMSIANetcaneffectivelyimprovetheaccuracyandrobustnessofthecrowdcountingtask.Key words:Crowdcounting;Estimateddensitymap;Attentionmechanism;Multi-scalefeatures收稿日期：2022-05-19；改回日期：2022-07-29；网络出版：2022-08-22*通信

9、作者：赵维勃基金项目：中央引导地方科技发展资金项目(216Z0301G)，河北省自然科学基金(F2019203285)，河北省创新能力提升计划项目(22567626H)FoundationItems:TheCentralGovernmentGuidedLocalFundsforScienceandTechnologyDevelopment(216Z0301G),TheNaturalScienceFoundationofHebeiProvinceinChina(F2019203285),InnovationCapabilityImprovementPlanProjectofHebeiProvin

10、ce(22567626H)第45卷第6期电子与信息学报Vol.45No.62023年6月JournalofElectronics&InformationTechnologyJun.20231 引言人群计数是计算机视觉和智能监控领域的重要研究内容，其目的是估计图像或视频场景中的人数。它在安全监测、交通管理、城市规划等领域有着广泛应用。例如：在疫情期间，控制人群密度可以降低出现聚集性传播的概率；在景区、体育场和广场等人群高度聚集的区域，通过发出预警信息可以防止出现踩踏事故等。近年来，基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的人群计数方法1,2已经成为人群计数

11、的主流方法，其基本思想是使用CNN生成估计密度图，给每个像素赋予密度值，密度图的密度值总和记为场景中的总人数。目前，由于拍摄距离和角度差异导致的尺度变化问题严重影响了计数结果的准确性。为了应对人群图像的尺度变化问题，研究人员引入了多列网络。然而，现有的多列网络存在诸多问题，如：网络规模的限制导致只能提取特定的尺度信息、各列提取的特征具有相似性、网络规模复杂导致计算量增加等。为了解决上述问题，本文提出了一种新颖的多尺度交互注意力人群计数网络(Multi-ScaleInter-activeAttentioncrowdcountingNetwork,MSI-ANet)。MSIANet使用交互结构和注

12、意力机制应对多列网络的规模限制及特征相似性问题，并使用主干网络的多层语义信息提供更为丰富的细节特征。具体而言，本文的主要贡献如下：(1)设计了一个多尺度注意力模块(Multi-ScaleAttentionModule,MSAM)以提取丰富的多尺度信息。该模块利用交互结构和注意力机制提升了提取多尺度信息的能力和对有价值信息的敏感度，克服了传统多列网络中的规模限制及特征相似性问题。(2)在MSAM的基础上，设计了一个语义信息融合模块(SemanticInformationFusionModule,SIFM)对主干网络的不同层次的语义信息进行交互和融合。SIFM使用多层语义信息能够比仅使用高层的语义

13、信息提供更为丰富的细节特征，增强网络的特征聚合能力，提升了对主干网络的利用效率。(3)以MASM和SIFM为基础，提出了一个多尺度交互注意力人群计数网络(MSIANet)。不同于现有多列网络各分支独立工作的方式，本文网络在使用多列结构的同时，将各分支提取的不同尺度特征进行交互，使有限的网络规模能够提取更为丰富的尺度信息，提升了网络对全局尺度特征的处理能力。在3个公开数据集上的大量实验结果表明，与现有代表性的人群计数方法相比，MSIANet取得了更好的性能。2 相关工作随着智慧城市和平安社会建设步伐的加快，人群计数越来越受到学者的关注。传统的人群计数方法主要分为两类：基于检测的方法3,4和基于回

14、归的方法5,6。近年来，CNN在特征提取方面取得了令人满意的效果，使其成为很多任务的主流方法。2.1 基于CNN的人群计数方法基于CNN的人群计数方法主要分为两类：基于单列网络的人群计数方法和基于多列网络的人群计数方法。2.1.1 基于单列网络的人群计数方法Li等人7提出的CSRNet是最具代表性的基于单列网络的人群计数方法，其使用膨胀卷积神经网络作为后端网络，在增大了感受野的同时保持了特征图像的分辨率。Oh等人8提出的DUBNet是一个用于人群计数的可扩展单列网络框架，使用点估计的不确定性量化提高计数性能。Xu等人9提出了一种利用部分注释进行监督学习的单列网络人群计数方法，以降低标注的成本。

15、Xu等人10提出的Auto-Scale则通过缩放图片以获得不同尺度的特征提升计数效果。Ma等人11提出的FusionCount是一种用于人群计数的编码器-解码器单列网络，利用编码特征的自适应融合来获得多尺度特征。单列网络模型虽然容易训练且参数量少，但是由于对多尺度特征不够敏感，因此计数性能受到限制。2.1.2 基于多列网络的人群计数方法由于人群图像中普遍存在尺度变化的问题，严重影响CNN模型计数的准确性。为了解决图像中人群尺度变化对计数性能的影响，研究人员开发了多列网络。Zhang等人12提出的MCNN是最早使用多列网络应对人群计数任务中尺度变化的方法之一，该模型使用3个具有不同感受野的网络分

16、支提取多尺度特征，在一定程度上缓解了多尺度问题对计数精度的影响。Cao等人13提出SANet，该网络堆叠多个多尺度模块作为编码器提取多尺度特征，然后使用一组转置卷积作为解码器生成高分辨率密度图。Sam等人14提出Swich-CNN，该网络单独训练了一个分类器赋予图像块不同的密度等级，然后让不同密度等级的图像块通过对应的子网络，所有图像块的估计结果构成了原图的估计结果。Jiang等人15提出的TEDNet是一种网格状的编码器-解码器人群计数网络，其内部使用具有4个分支的多尺度编码块获取多尺度特征。Yang等人16提出了一种有效的多列网络，将透视分析嵌入到具有循环连接的多列框架中以提高计数性能。L

17、ian等人17提出了一种双路径引导检测网络DPDNet，该模型使用第6期张世辉等：MSIANet：多尺度交互注意力人群计数网络2237两个引导分支引导密度图的生成，提升了对小尺寸头部的检测能力。Zand等人18提出使用3个不同深度的网络分支获取多尺度信息，并结合检测任务以提升计数性能。总体而言，多列网络大都通过使用不同感受野的网络分支提取不同的尺度信息。然而受限于网络的规模，离散的感受野并不能适应尺度的连续性变化，因此目前的多列结构并不能完全解决人群图像中的多尺度问题。除此之外，多列网络虽然在一定程度上缓解了尺度变化对人群计数任务精度的影响，但是在提取多尺度信息的同时，也带来了特征相似性的问题

18、。2.2 人群计数中的注意力机制注意力机制是应对特征相似性问题的一种有效手段。Liu等人19提出ADCrowdNet，使用注意力图生成器为密度图估计器提供区域和拥挤度，有效提升了计数性能。Tian等人20提出一种使用多级注意力的人群计数方法MLAttnCNN，该网络使用多级注意力模块丰富不同层级的特征，以实现更有效的多尺度特征融合。在本文中，我们通过将多层次和多尺度的特征进行交互，应对尺度连续性变化的问题，并使用注意力机制应对多列网络结构的特征相似性问题。3 多尺度交互注意力人群计数网络本节首先介绍多尺度交互注意力人群计数网络的总体结构，然后详细介绍该网络的主体构成部分：多尺度注意力模块和语义

19、信息融合模块。3.1 网络总体结构鉴于以往多列网络的局限性，本文提出了一种全新的多层次多列结构网络以应对尺度变化问题，称为多尺度交互注意力人群计数网络(Multi-ScaleInteractiveAttentioncrowdcountingNetwork,MSIANet)，网络结构如图1所示。由图1可知，MSIANet使用去除全连接层和最后1个池化层的VGG-16作为主干网络提取特征信息，使用语义信息融合模块(SIFM)融合多层语义信息，SIFM内部使用3个多尺度注意力模块(MSAM)提取多尺度特征。后端网络则由两个卷积层组成，用于最终的密度图回归。具体而言，对于一幅给定的人群图像，首先经过M

20、SIANet的主干网络提取特征信息。MSIANet的主干网络分为5个层次，本文表示为Conv1Conv5，且使用Conv3,Conv4和Conv5层提取的特征图作为SIFM的输入。其次，为了能够更加充分地利用多层次语义信息，在各层语义信息输入MSAM之前，使用语义交互结构(SemanticInteractionStructure,SIS)将各层次语义信息进行融合，融合后的语义信息为MSAM的输入。最后，特征信息被送入后端网络得到最终的人群密度图。将所得人群密度图中的像素累加，得到最终的计数结果。3.2 多尺度注意力模块(MSAM)3.2.1 多尺度注意力模块概述多尺度注意力模块(MSAM)使用

21、注意力机制和多列结构应对人群图像的尺度变化问题。前文提到多列结构网络在应对尺度变化问题中存在网络规模限制及特征相似性问题。多列结构网络的各尺度分支只能提取特定的尺度信息，并且各尺度分支都是独立工作的，而尺度的变化却是连续的，因此目前大多数多列结构网络只能处理离散的尺度变化。这种情况限制了多列结构网络在处理人群计数任务时的性能,鉴于此，本文通过设计多尺度交互结构(Multi-ScaleInteractionStructure,MSIS)将各尺度分支进行交互，从而处理连续的尺度变化问题。除此之外，受文献21中保留跨维度特征思想的启发，本文结合人群计数任务中多尺度问题的特图1多尺度交互注意力人群计数

22、网络2238电子与信息学报第45卷点设计了全局空间注意力机制(GlobalSpatialAt-tentionMechanism,GSAM)和全局通道注意力机制(GlobalChannelAttentionMechanism,GCAM)解决特征相似性问题。基于上述结构和机制构建的多尺度注意力模块(MSAM)的结构如图2所示。3 3r 1,2,3,41 1Fin RCHW Fin RC/4HWS1,S2,S3,S4SiF1,F2,F3,F4Fi3 3Fout由图2可知，MSAM由4个具有不同感受野的分支和一个额外的GCAM组成。具有不同感受野的4个分支用来提取多尺度特征，其核心是4个卷积核大小为的

23、膨胀卷积，膨胀率。为了减少多列结构的计算消耗，本文在每个分支之前都设置了一个卷积将特征图的通道数减少为原来的1/4，即，C,H和W分别表示输入特征图的通道、高度和宽度。由4个膨胀卷积提取的多尺度特征表示为，然后将作为MSIS的输入，由MSIS生成的各级尺度特征表示为。将分别送入各尺度分支对应的GSAM中赋予全新的特征权重以缓解特征相似性的问题。最终，4个尺度分支生成的特征图在通道维度进行连接，并使用一个的卷积进行特征融合后与GCAM得到的特征信息相乘得到MSAM的输出。此过程可表示为Fout=FC Conv(cat(FS1,FS2,FS3,FS4)(1)FCFSiConv()cat()其中，表

24、示由GCAM输出的特征图，表示各尺度分支输出的特征图，为卷积操作，为特征连接操作。3.2.2 多尺度交互结构(MSIS)S1F1F1S2为了使MSAM能够提取更具代表性的尺度感知信息，本文设计了MSIS进行多尺度特征的交互。如图3所示，在MSIS中以为，先将与进行F2F23 3F2F2S3F1,F2,F3,F4通道上的连接得到中间特征，然后使用1个卷积进行特征融合后得到，和将作为MSIS下一阶段的输入，此操作迭代进行，得到。其单次过程可表示为Fi+1=Conv(cat(Fi,Si+1)(2)Conv()cat()其中，为卷积操作，为特征连接操作。传统的多列网络结构每个分支通常只能提取特定的尺度

25、特征，MSIS使得多列网络结构的各尺度分支不再独立工作，每个分支都包含多个尺度的特征信息。3.2.3 全局空间注意力机制(GSAM)Fi多尺度特征中仍包含大量的冗余信息，GSAM通过赋予特征全新的权重，强调有用的空间信息，抑制冗余的空间信息。GSAM结构如图4所示。FiRCHWFiFi RCHW Fi RC/4HWFiFi RC/4HW Fi RCHW3 3rrFSi由图 4 可知，以给定的中间特征图为输入，先使用1个卷积将的通道数缩减为原来的1/4，即；接着使用1个卷积将的通道数调整为与原特征图相同，即。与文献21不同的是，本文设计的GSAM不再使用固定尺寸的卷积进行信

26、息融合，而是使用两个卷积核为的膨胀卷积进行空间信息融合，膨胀卷积的膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同，这样能够最大限度地保留相应分支的尺度特征。经过空间注意力后生成的特征图可以表示为FSi=Fi (fC1(fC(Fi)(3)fCFi1/4fC1其中，表示用膨胀卷积将的通道数缩减为原来的，表示使用膨胀卷积将通道数调整为与原特征图相同，表示Sigmoid函数。图2多尺度注意力模块图3多尺度交互结构第6期张世辉等：MSIANet：多尺度交互注意力人群计数网络22393.2.4 全局通道注意力机制(GCAM)在特征图融合过程中，大多数以往的工作都是直接组合来自不同分支的特征图

27、，没有考虑到各尺度分支信息的权重。本文设计的GCAM提供了各尺度分支之间的注意力信息，以衡量各尺度特征的重要性，指导多尺度特征的生成。Fin RCHWFin RCHWFin R(HW)CFMLP R(HW)CFMLPR(HW)C FMLP RCHWFin RCHWGCAM的具体结构如图5所示，对于给定的输入，先将通道、高度和宽度3个维度进行空间上的变换及平铺操作，即；接着使用包含一个隐藏层的MLP(多层感知机)放大跨维度特征对通道维度的依赖性，经MLP处理后的特征图再次进行维度上的变换操作及重塑操作，即；最后经过通道注意力后生成的特征图可表示为Fin=Fin (fT(MLP(fT(Fin)=F

28、in (fT(W1(W0(fT(Fin)(4)fTfTW0W1W0W1其中，表示Sigmoid函数，表示对特征图进行通道、高度和宽度3个维度上的空间转换及平铺操作，表示对特征图进行通道、高度和宽度3个维度上的空间转换及重塑操作，表示使用线性变换将特征图的通道维度降为原来的1/4，表示使用线性变换将通道维度变为与原特征图相同，和之间使用ReLU激活函数进行非线性变换。3.3 语义信息融合模块(SIFM)在卷积神经网络中，深层的网络层生成的特征图通常包含更多的语义信息，然而这些拥有高度抽象语义信息的特征图却包含较少的细节信息，如人头部的大小、位置信息等。与此相反，浅层网络层生成的特征图通常包含更多

29、细节信息，但缺乏高度抽象的语义信息。由于深层语义信息和浅层语义信息之间存在互补性，本文基于MSAM设计了语义信息融合模块(SIFM)整合深层和浅层语义信息，以便从不同层次的特征图中挖掘出更多的尺度信息。V1,V2,V3V1,V2,V3P1,P2,P3V1,V2,V3P3V23 3P2P2V1P1如图1所示，本文使用MSIANet主干网络中Conv3,Conv4和Conv5生成的特征图作为SIFM的输入。首先，被送入语义交互结构(SIS)中进行深层语义信息和浅层语义信息的交互得到MSAM的输入，SIS的作用和执行过程与MSAM中MSIS相似，由于池化层的存在，的大小分别为原始输入图像的1/4,1

30、/8和1/16，因此使用双线性插值对进行上采样与进行通道上的连接得到中间特征，然后中间特征经过两个卷积进行特征融合得到，和重复上述过程得到。单次过程可表示为Pi1=Conv(Conv(cat(Vi1,fup(Pi)(5)Conv()cat()fup其中，表示卷积操作，表示特征连接操作，表示上采样操作。Pi1 1然后，将SIS输出的输入到相应层次的MSAM中进行多尺度特征提取。最后使用双线性插值上采样，经卷积调整通道后对位元素相加融合，得到SIFM的最终输出，并送入后端网络生成密度图。从上述过程可知，SIFM融合了不同层次的语义特征，得到了具有多层语义信息和多尺度信息的高质量特征图，这对于后端网

31、络生成高质量密度图起到了关键的作用。综上所述，SIFM有效地提高了网络的多尺度特征感知能力，最大限度地保留了有用信息。4 实验及分析4.1 实验细节MSIANet使用主干网络的Conv3,Conv4和Conv5生成的特征图作为SIFM的输入。SIFM的输出经过后端网络的处理生成最终的密度图，后端网络由两个卷积构成，其具体设置为：后端网络=in_channel,out_channel)|(128,64),(64,1)。本文图4全局空间注意力机制图5全局通道注意力机制2240电子与信息学报第45卷选用欧几里得损失作为损失函数，欧几里得损失函数的定义为L2=1NNi=1?G(Xi;)DGTi?2(6

32、)NXiG(Xi;)DGTi105其中，表示网络模型的参数，表示训练样本的数量，表示网络输入的原始图像，表示原始图像经过网络模型后得到的估计密度图，表示真值密度图。本文所提网络基于Pytorch神经网络框架实现，在模型训练中选用Adam优化器优化网络参数，初始学习率设置为。本文使用几何自适应高斯核生成真值密度图，其公式定义为F(x)=Si=1(x xi)Gi(x)(7)(x xi)SGi(x)ii=didi=1kkj=1dijxikk=4=0.3其中，为脉冲函数，图像中每个人头位置相应的脉冲函数表示为，为图像中的总人数，是方差为的高斯函数，方差，其中为距离人头最近的个人头的平均距离，本文设置

33、。根据文献12的经验，设置。4.2 评估指标不失一般性，本文使用平均绝对误差(MAE)和均方根误差(RMSE)两个评估指标评价人群计数网络的性能。MAE可以衡量模型计数的准确性，而RMSE可以反映模型计数的稳定性。两个指标的定义分别为MAE=1MMi=1?Ci CGTi?(8)RMSE=vuut1MMi=1(Ci CGTi)2(9)MCiCGTii其中，为测试图像的数量，和分别为第个图像估计的人群数量和真实人群数量。4.3 数据集本文基于ShanghaiTech12,UCF_QNRF22和UCF_CC_50233个被广泛使用的人群计数基准数据集进行实验评估。ShanghaiTech数据集由P

34、artA和PartB两部分组成，是一个场景复杂、人群尺度变化十分明显且人数众多的数据集。PartA由在互联网上抓取的482张图像构成。PartA中每张图像的平均人数达到了501人，最多的一张图像中有3 139人。PartB则由上海繁忙街道的摄像头获得的716张图像组成，平均人数为124人，最多的一张图像中有578人。与PartA相比，虽然PartB的人群密度较低，但是其图像中存在多视角和透视失真的问题。在PartA中，300张图像作为训练集，182张图像作为测试集。PartB中400张图像作为训练集，316张图像作为测试集。UCF_QNRF数据集是一个人群密度极高且人群尺度变化明显的数据集，它

35、拥有1 535张图像，有多达1 251 642个人头位置注释。其中训练集有1 201张图像，测试集有334张图像，并且UCF_QNRF数据集中都是高分辨图像，最大分辨率达到了2 0132 902。复杂的场景、尺度的显著变化、多变的视角再加上十分拥挤的人群数量，使得这是一个十分具有挑战性的数据集。UCF_CC_50数据集由50张不同视角和分辨率的灰度图像组成，图像中普遍存在尺度变化问题并且人群密度普遍较大，每张图像平均人数高达1280人，图像之间的人数差异也十分巨大，人数最少的图像有94人，最多的达到了4532人。4.4 不同方法的对比实验本文将MSIANet与人群计数领域的14种应对尺度变化问

36、题的代表性方法进行了对比。表1展示了不同方法基于3个基准数据集的对比结果。由表1可知，MSIANet在3个基准数据集上均达到了最低的MAE，RMSE指标也达到了前列水平，这说明该网络在3个基准数据集上均实现了较为准确的计数。下面对表1的实验结果进行分析：(1)在ShanghaiTech数据集PartA上，MSIANet与次优方法EPA相比，MAE降低了8.7%；与经典方法CSRNet相比MAE降低了18.5%，RMSE降低了13.7%。在此数据集上MSIANet的RMSE(反应稳定性)没有达到最优(第3名)，其主要原因是PartA中某些场景人群图像的样本较少，并且与其他样本的差距过大，导致MS

37、IANet在训练过程中出现了学习偏差。但是，MSIANet的MAE指标在此数据集上达到了最优，说明该网络在总体上实现了最好的计数效果。(2)在ShanghaiTech数据集PartB上，MSIANet与次优方法FusionCount相比，MAE降低了4.3%，RMSE降低了6.8%；与经典方法CSRNet相比MAE降低了37.7%，RMSE降低了31.3%。在此数据集上，MSIANet的所有指标均达到了最优。(3)在UCF_QNRF数据集上，MSIANet比次优方法MLAttnCNN的MAE降低了6.1%。在此数据集上MSIANet的RMSE指标没有达到最优(第4名)，其主要原因是UCF_QN

38、RF数据集中的图像分辨率过高，因此本文将UCF_QNRF数据集中图第6期张世辉等：MSIANet：多尺度交互注意力人群计数网络2241像的边长限制在1024个像素之内(据我们所知，在所有对比方法中，本文在UCF_QNRF数据集上具有最高的降采样率)，这样使得在下采样的过程中损失了很多的细节信息。即便如此，本文网络依然取得了最优的MAE，这也体现出本文网络具有很好的鲁棒性。(4)在UCF_CC_50数据集上，MSIANet也取得了所有方法中最优的MAE和RMSE，相比于次优的MLAttnCNN,MSIANet的MAE降低了3.1%，RMSE降低了0.18%；与经典方法CSRNet相比，MSIAN

39、et的MAE降低了26.9%，RMSE降低了31.2%。这充分说明MSIANet在少样本的数据集上也拥有很好的效果。4.5 可视化分析为了更直观地说明本文网络的有效性，图6至图9展示了MSIANet在3个基准数据集部分尺度变化明显的样本上生成的密度图。图6至图9中，第1列为原始图像，第2列为真值密度图，第3列为MSIANet生成的密度图。从图6至图9可以看出，MSIANet在不同密度的样本上生成的密度图和真值密度图之间都具有很高的相似性，说明本文网络可以很好地应对图像中人群的尺度变化问题。为了更客观地展示MSIANet在3个基准数据集上计数结果的准确性。本文从3个基准数据集中分别随机选取50张

40、样本图像进行定量分析，其结果如图10至图13所示。图10至图13中真实人数折线和估计人数折线的重合程度代表了MSIANet的计数准确程度。由图10图6ShanghaiTechPartA数据集密度图可视化结果图7ShanghaiTechPartB数据集密度图可视化结果表 1 在3个人群计数基准数据集上使用MAE和RMSE指标进行评估(加粗表示最好结果)方法ShanghaiTechAShanghaiTechBUCF_QNRFUCF_CC_50MAERMSEMAERMSEMAERMSEMAERMSEMCNN12(2016)110.2173.226.441.3277.0426.0377.6509.1S

41、ANet13(2018)67.0104.58.413.6258.4334.9CSRNet7(2018)68.2115.010.616.0266.1397.5Switch-CNN14(2017)90.4135.021.633.4228.0445.0318.1439.2ADCrowdNet19(2019)63.298.98.215.7266.4358.0TEDNet15(2019)64.2109.18.212.8113.0188.0249.4354.5EPA16(2020)60.991.67.911.6205.1342.1DUBNet8(2020)64.6106.87.712.5105.6180.

42、5243.8329.3DPDNet17(2021)66.6120.37.912.4126.8208.6MLAttnCNN20(2021)7.511.6101.0175.0200.8273.8URC9(2021)72.8111.612.018.7128.1218.0293.9443.0MPS18(2022)71.1110.79.615.0AutoScale10(2022)65.8112.18.613.9104.4174.2FusionCount11(2022)62.2101.26.911.8-MSIANet(本文)55.699.26.611.094.8184.6194.5273.32242电子与

43、信息学报第45卷至图13可知，在3个基准数据集上，真实人数折线和估计人数折线均具有较高的重合度，这说明了MSIANet计数的准确性。4.6 消融实验为了验证MSIANet中各模块的有效性，本文设计了5个变体模型，变体模型的网络结构如下：(1)MSIANet的主干网络+后端网络：使用MSIANet的主干网络(去除全连接层和最后1个池化层的VGG-16)和后端网络，即去除了SIFM后的剩余结构，但是由于主干网络输出特征图的通道数为512，因此使用一个11卷积调整通道数为128，最后使用MSIANet的后端网络生成估计密度图。(2)MSIANet的主干网络+MASM+后端网络：在变体模型的基础上增加

44、了1个MSAM。(3)MSIANetw/oMSAM：使用MSIANet的整体结构，但是去除了MSAM。(4)MSIANetw/oGCAM：使用MSIANet的整体结构，但是去除了GCAM。(5)MSIANetw/oGSAM：使用MSIANet的整体结构，但是去除了GSAM。考虑到ShanghaiTechPartA中的人群图像背景信息复杂多样且人群密度较高，同时普遍存在尺度变化情形，因此，为了更具代表性，本文在ShanghaiTechPartA上进行消融实验。表2展示了消融实验的对比结果。由表2可知，MSIANet的计数结果明显优于MSIANet的主干网络+后端网络的计数结果。与MSIANet的

45、主干网络+后端网络相比，MSIANet的MAE下降了12.3%，图10ShanghaiTechPartA上估计人数与真实人数比较图11ShanghaiTechPartB上估计人数与真实人数比较图12UCF_QNRF上估计人数与真实人数比较图13UCF_CC_50上估计人数与真实人数比较图8UCF_QNRF数据集密度图可视化结果图9UCF_CC_50数据集密度图可视化结果第6期张世辉等：MSIANet：多尺度交互注意力人群计数网络2243RMSE下降了5.7%，说明MSIANet可以很好地提升计数的准确性。与MSIANet的主干网络+MASM+后端网络相比，MSIANet的MAE和RMSE分别下

46、降了4.9%和2.5%，说明结合多层语义信息可以有效地提升计数精度。与MSIANetw/oMSAM相比，MSIANet的MAE下降了8.4%，RMSE下降了1.8%，说明本文设计的MSAM可以有效提升MSIANet的计数性能。MSIANet与MSIANetw/oGCAM和MSIANetw/oGSAM相比，其MAE和RMSE也都有所下降，验证了GCAM和GSAM在计数任务中都起到了积极作用。若将后4种变体模型分别与MSIANet的主干网络+后端网络相比，都有一定程度的性能提升，这进一步验证了各模块对整体模型的增益效果。上述消融实验结果说明，各模块对MSIANet的性能都有一定程度的提升效果，验证

47、了MSIANet各组成模块的有效性和合理性。5 结论本文提出了一种多尺度交互注意力人群计数网络，该网络基于多尺度注意力模块和语义信息融合模块构建而成。多尺度注意力模块使用具有不同膨胀率的膨胀卷积获取多尺度信息，通过各尺度分支之间的多尺度交互结构和注意力机制来应对网络规模的限制及特征相似性问题。语义信息融合模块通过使用主干网络的多层特征图获取丰富的语义信息，并使用语义交互结构提升语义信息的多样性。本文在3个公开数据集上与现有代表性的先进方法进行了对比分析，结果表明，MSIANet可有效解决人群计数任务中的尺度变化问题，有助于生成高质量的人群密度图，提升多列网络的计数性能。参考文献徐涛,段仪

48、浓,杜佳浩,等.基于多尺度增强网络的人群计数方法J.电子与信息学报,2021,43(6):17641771.doi:10.11999/JEIT200331.XUTao,DUANYinong,DUJiahao,et al.Crowdcountingmethodbasedonmulti-scaleenhancednetworkJ.Journal1of Electronics&Information Technology,2021,43(6):17641771.doi:10.11999/JEIT200331.万洪林,王晓敏,彭振伟,等.基于新型多尺度注意力机制的密集人群计数算法J.电子与信息学报,2

49、022,44(3):11291136.doi:10.11999/JEIT210163.WANHonglin,WANGXiaomin,PENGZhenwei,et al.Densecrowdcountingalgorithmbasedonnewmulti-scaleattention mechanismJ.Journal of Electronics&Information Technology,2022,44(3):11291136.doi:10.11999/JEIT210163.2TOPKAYAIS,ERDOGANH,andPORIKLIF.Countingpeoplebyclusterin

50、gpersondetectoroutputsC.Proceedingsofthe11thIEEEInternationalConferenceonAdvancedVideoandSignalBasedSurveillance(AVSS),Seoul,Korea(South),2014:313318.doi:10.1109/AVSS.2014.6918687.3LI Min,ZHANG Zhaoxiang,HUANG Kaiqi,et al.EstimatingthenumberofpeopleincrowdedscenesbyMIDbased foreground segmentation a

注意事项: 本文（MSIANet：多尺度交互注意力人群计数网络.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】