基于改进ResNet-CrowdDet的密集行人检测算法.pdf
《基于改进ResNet-CrowdDet的密集行人检测算法.pdf》由会员分享,可在线阅读,更多相关《基于改进ResNet-CrowdDet的密集行人检测算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(16)基于改进ResNet-CrowdDet的密集行人检测算法韩文静1,何宁1,刘圣杰2,于海港21.北京联合大学 智慧城市学院,北京 1001012.北京联合大学 北京市信息服务工程重点实验室,北京 100101摘要:行人检测在自动驾驶、客流量统计、智能监控等很多领域被应用。这些场景中行人大多是密集的,存在多尺度、多姿态和遮挡等问题,使得目前的密集行人检测算法存在检测精度较低、漏检率较高等问题。基于ResNet-50-FPN的CrowdDet算法可以解决密集遮挡问题,在CrowdHuma
2、n数据集上得到了很好的结果。以此为基线检测器,提出了改进算法。该算法包含两个模块,即 BoINet(bottleneck involution network)的骨干网络和 DHCDet(double-head CrowdDet)的稀疏检测头部。与只使用了具有局域性和学习到静态参数的卷积的基线ResNet不同,BoINet将能够远距离交互的Involution动态卷积纳入到提取特征的任务中,增强行人特征的表达能力;DHCDet使用了Double-Head结构改进CrowdDet算法,并将Double-Head中的自注意力机制NL(non-local)替换为SNL(spectral non-lo
3、cal),进一步提升检测器的分类与回归的性能。该改进方法在CrowdHuman数据集上AP为91.15%,MR-2为39.74%,同时JI为83.60%,取得了比基线检测器更好的检测精度和更低的漏检率。关键词:密集行人检测;增强特征表达;BoINet;提升分类回归性能;DHCDet文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2204-0225Dense Pedestrian Detection Algorithm Based on Improved ResNet-CrowdDetHAN Wenjing1,HE Ning1,LIU Shengji
4、e2,YU Haigang21.College of Smart City,Beijing Union University,Beijing 100101,China2.Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,ChinaAbstract:Pedestrian detection is used in many fields such as autonomous driving,passenger flow statistics,and in
5、telli-gent monitoring.Most of the pedestrians in these scenes are dense,and there are problems such as multi-scale,multi-poseand occlusion,which make the current dense pedestrian detection algorithms have problems such as low detection accuracyand high missed detection rate.Recently,the CrowdDet alg
6、orithm based on ResNet-50-FPN has been introduced to solvethe dense occlusion problem and obtained good results on the CrowdHuman dataset.In this paper,an improved algorithmis proposed based on this baseline detector.The algorithm consists of two modules,namely the backbone network of BoI-Net(bottle
7、neck involution network)and the sparse detection head of DHCDet(double-head CrowdDet).Unlike the base-line of ResNet,which only uses convolutions with locality and learns static parameters,BoINet incorporates Involutionthat can interact with each other from a long distance to extract features and le
8、arn dynamic parameters,which enhancesthe expression ability of pedestrian features.DHCDet uses the double-head structure to improve the CrowdDet algorithm,and replaces the self-attention mechanism non-local(NL)in double-head with SNL(spectral non-local)to further improvethe classification and regres
9、sion performance of the detector.The improved method in this paper achieves 91.15%AP,39.74%MR-2,and 83.60%JI on the CrowdHuman dataset,the higher detection accuracy and lower missed detectionrate compared with the baseline detector.Key words:dense pedestrian detection;enhanced feature representation
10、;BoINet;improved classification and regressionperformance;DHCDet基金项目:国家自然科学基金(61872042,61572077);北京市教委科技重点项目(KZ201911417048);北京联合大学人才强校优选计划(BPHR2020AZ01,BPHR2020EZ01);国家重点研发计划(2018AAA0100804);北京联合大学科研项目(ZK50202001)。作者简介:韩文静(1997),女,硕士研究生,研究方向为数字图像处理,E-mail:;何宁(1970),通信作者,女,博士,教授,研究方向为数字图像处理;刘圣杰(1997
11、),男,硕士研究生,研究方向为数字图像处理;于海港(1997),男,硕士研究生,研究方向为数字图像处理。收稿日期:2022-04-15修回日期:2022-06-27文章编号:1002-8331(2023)16-0196-091962023,59(16)行人检测是在图片或视频中准确识别出行人并用矩形框进行定位,是计算机视觉中的基本任务之一,在智能视频监控、自动驾驶、客流量统计、安防以及人机交互系统等很多领域广泛应用。然而在这些领域的很多场景下行人是密集的,因此对密集行人的检测是行人检测中的关键任务,并且密集场景下的行人存在尺度变化、遮挡、姿态多变等挑战性问题,使得行人检测方法对行人特征提取效果不
12、佳,导致检测精度较低和漏检率较高。随着深度学习的快速发展,目标检测的性能不断提升,基于深度学习的检测器成为密集行人检测的主流方法。现在通用的目标检测算法网络模型分为两大类:一类是基于区域建议的双阶段算法,如Girshick等人1-3提出的R-CNN(regions with convolutional neural networkfeatures)系列,另一大类是单阶段算法,比如Redmon等人4-6提出的YOLO(you only look once)系列、Liu等人7提出的SSD(single shot multibox detector)等算法。相比于双阶段算法,单阶段算法不包含区域建议
13、模块,虽然速度提升了,但是不利于网络学习,从而降低了整体的准确率。解决行人遮挡问题是行人检测的关键任务之一,已有的方法大致分为以下几种思路:一种是利用额外的行人部位、可见部分和头部的标注信息(PedHunter8、Bi-box9、PedJointNet10等),虽然提升了检测结果,但是无法适用于没有额外标注的数据集,并且通过双支或多支并行的结构分别预测部位和整体,使得计算量增加,时间复杂度提高。第二种是改进非极大抑制算法(non-maximum suppression,NMS),由于NMS会将IoU相对较低的高重叠行人舍去,改进 NMS可以降低漏检率。如Liu等人11提出的Adaptive N
14、MS根据预测的密度图自适应地为不同的锚框设计阈值;Zhou等人12提出的NOH-NMS使用了高斯分布指出每个预测附近的对象,动态地简化了对可能包含高可能性的其他对象的空间的抑制。第三种是改进损失函数,如Wang等人13提出的RepLoss在进行回归任务时不仅缩小与真实框的差距,而且也拉远与周围行人的差距。然而使用这些改进NMS和改进损失的方法在非常密集的行人中往往是无效的。Chu等人14提出的CrowdDet算法为每个提案框设计一组真实实例和一组预测实例,并提出相应的EMD Loss和Set NMS等方法,可以有效地检测到高度重叠的物体。为在密集行人检测中获得更高的检测精度和较低的漏检率,本文
15、采用基于 ResNet15-50-FPN16的双阶段的 CrowdDet 算法为基线网络。该方法在针对姿态多变、尺度变化和被遮挡的行人特征提取能力方面还有提升的空间,例如由于普通卷积ResNet自身的特点,提取到的行人特征具有局限性,可以使用增强特征提取的方法提升对行人的语义信息表达,以及改进检测头部CrowdDet算法使行人检测器更加有效地完成分类与回归任务。因此本文对基于ResNet的CrowdDet算法进行改进。改进包含两个模块,即BoINet(bottleneck involutionnetwork)的骨干网络和DHCDet(double-head CrowdDet)的稀疏检测头部。B
16、oINet将能够远距离交互的Involution17动态卷积纳入到提取特征的任务中,增强行人特征的表达能力;DHCDet使用了Double-Head18结构改进CrowdDet算法,并将Double-Head中的自注意力机制NL(non-local)19替换为SNL(spectral non-local)20进一步提升检测器的分类与回归的性能。改进算法在CrowdHuman数据集21上取得了比原方法更高的检测精度和更低的漏检率。1相关工作1.1特征提取卷积神经网络(convolutional neural networks,CNN)提取到的行人特征比传统人工设计的特征提取器(Haar22、LB
17、P23、SIFT24、HOG25)获得的行人特征更加丰富,因此在近十年内的行人检测领域具有广泛的应用。通常使用的骨干特征提取网络有He等人15提出的ResNet、Sun等人26提出的HRNet等,ResNet将输入的特征和学习到的残差特征作为输出特征,解决随着网络深度的增加带来的网络梯度消失或者爆炸的现象。HRNet并行连接高分辨率到低分辨率的卷积,并执行多尺度融合增强高分辨率表示。然而,由于标准卷积核具有空间不变性和局域性,并且学习到的参数都是静态的,提取到的特征仍具有局限性。已有一些研究提出增强特征提取的方法,比如注意力机制、更深和更宽的网络、动态卷积和多尺度特征融合等。探索有效的远距离依
18、赖关系能够弥补卷积局域性带来的提取特征不足。一种是使用注意力机制。Hu等人27提出SENet为通道注意力机制,该机制把二维空间信息压缩为一维信息,将只剩一维的通道信息进行全局处理得到对原特征图的注意权重。Woo 等人28提出CBAM(convolutional block attention module)方法,该方法混合了空间和通道注意力机制。Wang等人19提出NL自注意力机制是根据与其他所有位置的相关程度得到某个位置的权重。另一种是使用更深更宽的网络,堆叠更多层的卷积,扩大卷积的感受野,或者如Xie等人29提出的ResNeXt,使用分组卷积拓宽网络的宽度。探索提取特征能力更强的动态卷积是
19、提升性能的一种研究趋势,将参数动态化的动态卷积有两种思路:一种思路是直接生成整个卷积核。Zhou等人30提出DDF(decoupled dynamic filter)分别预测空间和通道的动态滤波器,将它们组合成每个像素的滤波器。Li等人17提出Involution新神经网络算子,具有不同于普通卷积的空间不可知和通道特定的对称反固有特性,即空间特定和通道不可知,具有两个优点,一是可以使用更大的卷韩文静,等:基于改进ResNet-CrowdDet的密集行人检测算法197Computer Engineering and Applications计算机工程与应用2023,59(16)积核,在更宽的空间
20、分布中总结上下文,克服了模型远距离交互作用的困难;二是可自适应分配不同位置的权重,能够提取更丰富的特征信息。另一种思路是参数化与每个卷积核相关的采样网络。Dai等人31提出的DCN(deformable convolutional networks)在卷积操作的作用区域上加入了一个可学习的偏移量参数,能更好地适应目标的几何变换。为解决多尺度问题,提升对不同尺度物体的特征提取性能,许多最先进的目标检测器采用了Lin等人16提出的特征金字塔(feature pyramid network,FPN)。该网络为自顶向下结构,合并高级和低级特征图进行检测,高级特征图具有更多的语义信息,低级特征图具有更高
21、的空间信息,融合可以保留两者的优点。但是FPN简单粗暴的融合方式给精度的提升带来了局限性。Liu等人32提出了PANet不仅保留了自顶向下的结构,还利用了自底向上的路径增强,促进了信息的流动。Tan 等人33提出BiFPN引入了可学习的权重来学习不同输入特征的重要性,同时反复应用自上而下和自下而上的多尺度特征融合。Huang等人34提出了FaPN增加了FAM模块根据自底向上的特征图提供的空间位置信息调整上采样后的特征图,以及增加了FSM模块对自底向上的特征图使用通道注意力机制抑制冗余特征映射,FAM和FSM共同提高了检测精度。1.2检测头部在双阶段的网络中包含密集检测头部和稀疏检测头部。密集检
22、测头部的目的是选取图像中可能包含的候选区域。Faster R-CNN3提出了区域建议网络(regionproposal network,RPN),取代了选择性搜索算法为每个图像提取提案框,使得区域建议开销接近于0,成为一种经典而有效的网络。He等人35提出了Mask R-CNN,改进了Faster R-CNN,采用RoI Align替代RoI Pooling,使用双线性插值填补非整数位置的像素实现像素级的对齐,提高了目标检测的精度。稀疏检测头是双阶段网络特有的模块,对密集检测头部生成的提案框进行分类与回归,得到最后的检测结果。稀疏检测头部常用的方法是使用两个全连接操作进行分类与回归,并且每个提
23、案区域只有一个对应的真实实例和预测实例进行损失运算。对稀疏检测头部的改进能够进一步提升分类与回归的精度。Cai等人36提出Cascade R-CNN,构建一系列通过增加IoU阈值进行训练的检测头。Jiang等人37提出IoU Net,引入了一个分支来计算预测框与其相应的真实框之间的IoUs。Wu等人18提出Double-Head,使用两个分支分别进行分类与回归。CrowdDet算法为每个提案框设计一组真实实例和一组预测实例,重新设计损失函数和NMS,可以有效检测到高度重叠的物体。2本文方法2.1基于ResNet的CrowDet的基线网络结构本文使用基于ResNet-50为骨干网络、FPN为颈部
24、、Mask R-CNN 为密集检测头部、CrowdDet为稀疏检测头部的检测器为基线检测器。如图1所示的基线网络的总体结构。骨干网络 ResNet-50 是常用的特征提取网络,它有五部分,分别是 conv1、conv2_x、conv3_x、conv4_x、conv5_x,每部分之间使用下采样,使特征图尺寸缩小一半并且通道数增加一倍。除第二部分使用最大池化进行下采样外,后面的四部分都是由33和11卷积组成的结构堆叠产生,堆叠个数分别为3、4、6、3。颈部FPN为自上向下结构,合并了高级和低级特征图,提升了多尺度检测精度。具体做法是将较高层特征骨干网络:ResNet-50conv5_xconv4_
25、x2 048H32W321 024H16W16512H8W8256H4W4conv3_xconv2_x64H2W2conv1颈部:FPNFPN blockFPN blockFPN block256H32W32256H16W16256H8W8256H4W4256H64W64密集检测头:Mask R-CNNRoI AlignRPN256771 0241 024稀疏检测头:CrowdDetpre1pre2EMD LossRefinementrefinedpre1pre2refined1 024EMDLossFPN block11 conv11 conv11 conv33 conv11 convn2u
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 ResNet CrowdDet 密集 行人 检测 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。