分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于改进ResNet-CrowdDet的密集行人检测算法.pdf

基于改进ResNet-CrowdDet的密集行人检测算法.pdf

上传人：自信****多点

文档编号：582325

上传时间：2024-01-02

格式：PDF

页数：9

大小：2.12MB

《基于改进ResNet-CrowdDet的密集行人检测算法.pdf》由会员分享，可在线阅读，更多相关《基于改进ResNet-CrowdDet的密集行人检测算法.pdf（9页珍藏版）》请在咨信网上搜索。

1、Computer Engineering and Applications计算机工程与应用2023，59（16）基于改进ResNet-CrowdDet的密集行人检测算法韩文静1，何宁1，刘圣杰2，于海港21.北京联合大学智慧城市学院，北京 1001012.北京联合大学北京市信息服务工程重点实验室，北京 100101摘要：行人检测在自动驾驶、客流量统计、智能监控等很多领域被应用。这些场景中行人大多是密集的，存在多尺度、多姿态和遮挡等问题，使得目前的密集行人检测算法存在检测精度较低、漏检率较高等问题。基于ResNet-50-FPN的CrowdDet算法可以解决密集遮挡问题，在CrowdHuma

2、n数据集上得到了很好的结果。以此为基线检测器，提出了改进算法。该算法包含两个模块，即 BoINet（bottleneck involution network）的骨干网络和 DHCDet（double-head CrowdDet）的稀疏检测头部。与只使用了具有局域性和学习到静态参数的卷积的基线ResNet不同，BoINet将能够远距离交互的Involution动态卷积纳入到提取特征的任务中，增强行人特征的表达能力；DHCDet使用了Double-Head结构改进CrowdDet算法，并将Double-Head中的自注意力机制NL（non-local）替换为SNL（spectral non-lo

3、cal），进一步提升检测器的分类与回归的性能。该改进方法在CrowdHuman数据集上AP为91.15%，MR-2为39.74%，同时JI为83.60%，取得了比基线检测器更好的检测精度和更低的漏检率。关键词：密集行人检测；增强特征表达；BoINet；提升分类回归性能；DHCDet文献标志码：A中图分类号：TP391doi：10.3778/j.issn.1002-8331.2204-0225Dense Pedestrian Detection Algorithm Based on Improved ResNet-CrowdDetHAN Wenjing1,HE Ning1,LIU Shengji

4、e2,YU Haigang21.College of Smart City,Beijing Union University,Beijing 100101,China2.Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,ChinaAbstract：Pedestrian detection is used in many fields such as autonomous driving,passenger flow statistics,and in

5、telli-gent monitoring.Most of the pedestrians in these scenes are dense,and there are problems such as multi-scale,multi-poseand occlusion,which make the current dense pedestrian detection algorithms have problems such as low detection accuracyand high missed detection rate.Recently,the CrowdDet alg

6、orithm based on ResNet-50-FPN has been introduced to solvethe dense occlusion problem and obtained good results on the CrowdHuman dataset.In this paper,an improved algorithmis proposed based on this baseline detector.The algorithm consists of two modules,namely the backbone network of BoI-Net（bottle

7、neck involution network）and the sparse detection head of DHCDet（double-head CrowdDet）.Unlike the base-line of ResNet,which only uses convolutions with locality and learns static parameters,BoINet incorporates Involutionthat can interact with each other from a long distance to extract features and le

8、arn dynamic parameters,which enhancesthe expression ability of pedestrian features.DHCDet uses the double-head structure to improve the CrowdDet algorithm,and replaces the self-attention mechanism non-local（NL）in double-head with SNL（spectral non-local）to further improvethe classification and regres

9、sion performance of the detector.The improved method in this paper achieves 91.15%AP,39.74%MR-2,and 83.60%JI on the CrowdHuman dataset,the higher detection accuracy and lower missed detectionrate compared with the baseline detector.Key words：dense pedestrian detection;enhanced feature representation

10、;BoINet;improved classification and regressionperformance;DHCDet基金项目：国家自然科学基金（61872042，61572077）；北京市教委科技重点项目（KZ201911417048）；北京联合大学人才强校优选计划（BPHR2020AZ01，BPHR2020EZ01）；国家重点研发计划（2018AAA0100804）；北京联合大学科研项目（ZK50202001）。作者简介：韩文静（1997），女，硕士研究生，研究方向为数字图像处理，E-mail：；何宁（1970），通信作者，女，博士，教授，研究方向为数字图像处理；刘圣杰（1997

11、），男，硕士研究生，研究方向为数字图像处理；于海港（1997），男，硕士研究生，研究方向为数字图像处理。收稿日期：2022-04-15修回日期：2022-06-27文章编号：1002-8331（2023）16-0196-091962023，59（16）行人检测是在图片或视频中准确识别出行人并用矩形框进行定位，是计算机视觉中的基本任务之一，在智能视频监控、自动驾驶、客流量统计、安防以及人机交互系统等很多领域广泛应用。然而在这些领域的很多场景下行人是密集的，因此对密集行人的检测是行人检测中的关键任务，并且密集场景下的行人存在尺度变化、遮挡、姿态多变等挑战性问题，使得行人检测方法对行人特征提取效果不

12、佳，导致检测精度较低和漏检率较高。随着深度学习的快速发展，目标检测的性能不断提升，基于深度学习的检测器成为密集行人检测的主流方法。现在通用的目标检测算法网络模型分为两大类：一类是基于区域建议的双阶段算法，如Girshick等人1-3提出的R-CNN（regions with convolutional neural networkfeatures）系列，另一大类是单阶段算法，比如Redmon等人4-6提出的YOLO（you only look once）系列、Liu等人7提出的SSD（single shot multibox detector）等算法。相比于双阶段算法，单阶段算法不包含区域建议

13、模块，虽然速度提升了，但是不利于网络学习，从而降低了整体的准确率。解决行人遮挡问题是行人检测的关键任务之一，已有的方法大致分为以下几种思路：一种是利用额外的行人部位、可见部分和头部的标注信息（PedHunter8、Bi-box9、PedJointNet10等），虽然提升了检测结果，但是无法适用于没有额外标注的数据集，并且通过双支或多支并行的结构分别预测部位和整体，使得计算量增加，时间复杂度提高。第二种是改进非极大抑制算法（non-maximum suppression，NMS），由于NMS会将IoU相对较低的高重叠行人舍去，改进 NMS可以降低漏检率。如Liu等人11提出的Adaptive N

14、MS根据预测的密度图自适应地为不同的锚框设计阈值；Zhou等人12提出的NOH-NMS使用了高斯分布指出每个预测附近的对象，动态地简化了对可能包含高可能性的其他对象的空间的抑制。第三种是改进损失函数，如Wang等人13提出的RepLoss在进行回归任务时不仅缩小与真实框的差距，而且也拉远与周围行人的差距。然而使用这些改进NMS和改进损失的方法在非常密集的行人中往往是无效的。Chu等人14提出的CrowdDet算法为每个提案框设计一组真实实例和一组预测实例，并提出相应的EMD Loss和Set NMS等方法，可以有效地检测到高度重叠的物体。为在密集行人检测中获得更高的检测精度和较低的漏检率，本文

15、采用基于 ResNet15-50-FPN16的双阶段的 CrowdDet 算法为基线网络。该方法在针对姿态多变、尺度变化和被遮挡的行人特征提取能力方面还有提升的空间，例如由于普通卷积ResNet自身的特点，提取到的行人特征具有局限性，可以使用增强特征提取的方法提升对行人的语义信息表达，以及改进检测头部CrowdDet算法使行人检测器更加有效地完成分类与回归任务。因此本文对基于ResNet的CrowdDet算法进行改进。改进包含两个模块，即BoINet（bottleneck involutionnetwork）的骨干网络和DHCDet（double-head CrowdDet）的稀疏检测头部。B

16、oINet将能够远距离交互的Involution17动态卷积纳入到提取特征的任务中，增强行人特征的表达能力；DHCDet使用了Double-Head18结构改进CrowdDet算法，并将Double-Head中的自注意力机制NL（non-local）19替换为SNL（spectral non-local）20进一步提升检测器的分类与回归的性能。改进算法在CrowdHuman数据集21上取得了比原方法更高的检测精度和更低的漏检率。1相关工作1.1特征提取卷积神经网络（convolutional neural networks，CNN）提取到的行人特征比传统人工设计的特征提取器（Haar22、LB

17、P23、SIFT24、HOG25）获得的行人特征更加丰富，因此在近十年内的行人检测领域具有广泛的应用。通常使用的骨干特征提取网络有He等人15提出的ResNet、Sun等人26提出的HRNet等，ResNet将输入的特征和学习到的残差特征作为输出特征，解决随着网络深度的增加带来的网络梯度消失或者爆炸的现象。HRNet并行连接高分辨率到低分辨率的卷积，并执行多尺度融合增强高分辨率表示。然而，由于标准卷积核具有空间不变性和局域性，并且学习到的参数都是静态的，提取到的特征仍具有局限性。已有一些研究提出增强特征提取的方法，比如注意力机制、更深和更宽的网络、动态卷积和多尺度特征融合等。探索有效的远距离依

18、赖关系能够弥补卷积局域性带来的提取特征不足。一种是使用注意力机制。Hu等人27提出SENet为通道注意力机制，该机制把二维空间信息压缩为一维信息，将只剩一维的通道信息进行全局处理得到对原特征图的注意权重。Woo 等人28提出CBAM（convolutional block attention module）方法，该方法混合了空间和通道注意力机制。Wang等人19提出NL自注意力机制是根据与其他所有位置的相关程度得到某个位置的权重。另一种是使用更深更宽的网络，堆叠更多层的卷积，扩大卷积的感受野，或者如Xie等人29提出的ResNeXt，使用分组卷积拓宽网络的宽度。探索提取特征能力更强的动态卷积是

19、提升性能的一种研究趋势，将参数动态化的动态卷积有两种思路：一种思路是直接生成整个卷积核。Zhou等人30提出DDF（decoupled dynamic filter）分别预测空间和通道的动态滤波器，将它们组合成每个像素的滤波器。Li等人17提出Involution新神经网络算子，具有不同于普通卷积的空间不可知和通道特定的对称反固有特性，即空间特定和通道不可知，具有两个优点，一是可以使用更大的卷韩文静，等：基于改进ResNet-CrowdDet的密集行人检测算法197Computer Engineering and Applications计算机工程与应用2023，59（16）积核，在更宽的空间

20、分布中总结上下文，克服了模型远距离交互作用的困难；二是可自适应分配不同位置的权重，能够提取更丰富的特征信息。另一种思路是参数化与每个卷积核相关的采样网络。Dai等人31提出的DCN（deformable convolutional networks）在卷积操作的作用区域上加入了一个可学习的偏移量参数，能更好地适应目标的几何变换。为解决多尺度问题，提升对不同尺度物体的特征提取性能，许多最先进的目标检测器采用了Lin等人16提出的特征金字塔（feature pyramid network，FPN）。该网络为自顶向下结构，合并高级和低级特征图进行检测，高级特征图具有更多的语义信息，低级特征图具有更高

21、的空间信息，融合可以保留两者的优点。但是FPN简单粗暴的融合方式给精度的提升带来了局限性。Liu等人32提出了PANet不仅保留了自顶向下的结构，还利用了自底向上的路径增强，促进了信息的流动。Tan 等人33提出BiFPN引入了可学习的权重来学习不同输入特征的重要性，同时反复应用自上而下和自下而上的多尺度特征融合。Huang等人34提出了FaPN增加了FAM模块根据自底向上的特征图提供的空间位置信息调整上采样后的特征图，以及增加了FSM模块对自底向上的特征图使用通道注意力机制抑制冗余特征映射，FAM和FSM共同提高了检测精度。1.2检测头部在双阶段的网络中包含密集检测头部和稀疏检测头部。密集检

22、测头部的目的是选取图像中可能包含的候选区域。Faster R-CNN3提出了区域建议网络（regionproposal network，RPN），取代了选择性搜索算法为每个图像提取提案框，使得区域建议开销接近于0，成为一种经典而有效的网络。He等人35提出了Mask R-CNN，改进了Faster R-CNN，采用RoI Align替代RoI Pooling，使用双线性插值填补非整数位置的像素实现像素级的对齐，提高了目标检测的精度。稀疏检测头是双阶段网络特有的模块，对密集检测头部生成的提案框进行分类与回归，得到最后的检测结果。稀疏检测头部常用的方法是使用两个全连接操作进行分类与回归，并且每个提

23、案区域只有一个对应的真实实例和预测实例进行损失运算。对稀疏检测头部的改进能够进一步提升分类与回归的精度。Cai等人36提出Cascade R-CNN，构建一系列通过增加IoU阈值进行训练的检测头。Jiang等人37提出IoU Net，引入了一个分支来计算预测框与其相应的真实框之间的IoUs。Wu等人18提出Double-Head，使用两个分支分别进行分类与回归。CrowdDet算法为每个提案框设计一组真实实例和一组预测实例，重新设计损失函数和NMS，可以有效检测到高度重叠的物体。2本文方法2.1基于ResNet的CrowDet的基线网络结构本文使用基于ResNet-50为骨干网络、FPN为颈部

24、、Mask R-CNN 为密集检测头部、CrowdDet为稀疏检测头部的检测器为基线检测器。如图1所示的基线网络的总体结构。骨干网络 ResNet-50 是常用的特征提取网络，它有五部分，分别是 conv1、conv2_x、conv3_x、conv4_x、conv5_x，每部分之间使用下采样，使特征图尺寸缩小一半并且通道数增加一倍。除第二部分使用最大池化进行下采样外，后面的四部分都是由33和11卷积组成的结构堆叠产生，堆叠个数分别为3、4、6、3。颈部FPN为自上向下结构，合并了高级和低级特征图，提升了多尺度检测精度。具体做法是将较高层特征骨干网络：ResNet-50conv5_xconv4_

25、x2 048H32W321 024H16W16512H8W8256H4W4conv3_xconv2_x64H2W2conv1颈部：FPNFPN blockFPN blockFPN block256H32W32256H16W16256H8W8256H4W4256H64W64密集检测头：Mask R-CNNRoI AlignRPN256771 0241 024稀疏检测头：CrowdDetpre1pre2EMD LossRefinementrefinedpre1pre2refined1 024EMDLossFPN block11 conv11 conv11 conv33 conv11 convn2u

26、p卷积操作m为第几层，n为堆叠个数convm_x图1基于ResNet的CrowdDet算法的网络结构Fig.1Network structure of CrowdDet algorithm based on ResNet1982023，59（16）图2倍上采样，较低层特征图通过11卷积改变通道数，然后把上采样和11卷积后的结果对应元素相加，最后将相加后的结果进行一次33卷积。密集检测头部同Mask R-CNN，使用RPN对特征图进行提案框推荐，然后在特征图上根据提案框选择对应的窗口，由于窗口大小不同，使用RoI Align进行统一，最终得到25677的提案框特征图。稀疏检测头 CrowdDet

27、算法利用 RoI Align生成的提案框特征图，采用两个全连接同时完成分类与回归两个任务。CrowdDet算法重新设计了提案框的一组实例集，并且为每个提议框预测了一组预测集，如图1所示，对每个提案框生成两个预测，并且设计了EMD损失最小化提案框的预测集和实例集。首先设计每个提案框bi的一组实例集而不是单个实例，如式（1）所示：G(bi)=giG|IoU(bi,gi)T（1）其中，G是所有的真实框，T是给定IoU的阈值。然后为每个提议框预测生成一组预测集，如式（2）所示：P(bi)=(c(1)i,I(1)i),(c(2)i,I(2)i),(c(k)i,I(k)i)（2）其中，k代表一组预测有k对

28、，c(k)i、I(k)i分别是bi第k个预测的类标签置信度和相对坐标。EMD损失如式（3）所示，最小化预测集P(bi)与实例集G(bi)之间的差距：L(bi)=mink=1KLcls(c(k)i,gk)+Lreg(I(k)i,gk)（3）其中，代表一个特定排列(1,2,K)，第k项为k，gk是k的真实框，Lcls()和Lreg()分别为分类损失和边界框回归损失。CrowdDet 算法还改进了 NMS 为 Set NMS。SetNMS是在一个边界框使用NMS抑制另一个边界框之前，插入一个额外的检测来判断这两个框是否来自同一个提案，如果是则跳过抑制。CrowdDet算法引入了一个可选的Refine

29、ment模块。该模块只是将预测作为输入，结合提议的特征，进行第二轮预测，能够纠正可能的错误预测，本文所有方法都使用Refinement模块。在密集的场景中，由于行人是非刚性物体，姿态具有多变性，而且存在小尺度和被遮挡的问题，检测器需要提取到更强的行人特征来降低漏检率并提升精度。而普通卷积由于自身的特点，提取到的行人特征具有局限性，可以借助动态卷积能够捕获远距离特征的操作，使其具有更强的表征学习能力，来提取更丰富的行人特征，以及使用更加有效的检测头部提升检测器分类与回归的性能。由此，搭建了本文改进的基于 ResNet的CrowdDet算法：（1）提出了BoINet的骨干网络，与只使用了具有局域性

30、和学习到静态参数的卷积的基线ResNet不同，将能够远距离交互的Involution动态卷积纳入到提取特征的任务中，增强行人特征的表达能力。（2）提出了DHCDet的稀疏检测头部，该头部使用了 Double-Head结构改进 CrowdDet算法，并将 Double-Head中的自注意力机制NL替换为SNL进一步提升检测器的分类与回归的性能。2.2改进的骨干网络BoINet修改 ResNet-50 的骨干网络，提出了 BoINet，将Involution纳入到提取特征的任务中，Involution能够使用更大的77的卷积核，从而捕获更远距离的特征，并且根据输入的特征图在不同的位置上动态生成核参

31、数，自适应提取到更多的特征。BoINet保持ResNet-50前四部分不变，将conv5_x替换为inv5_x，如图2所示的inv5_x结构，即conv5_x中所有的33卷积替换为77 inv。Involution的设计为首先对输入特征图的一个点上的11C特征向量进行两次全连接操作得到一个11K2G的向量，其中C为输入的通道数，K为核大小，G代表组数，每组分享相同的卷积核，全连接之间包含BN与ReLU激活。然后将得到的11K2G的向量进行形状变换，变为KKG的核形状，即得到了每个点对应的Involution核。最后将这个点的邻域特征向量与该Involution核进行Multiply-Add操作

32、得到最终的特征向量。Multiply-Add如式（4）所示：11K2reshapeKK1X:CHWY:CHWMultiply-AddFCFCinv11 conv11 conv77 inv11 conv3inv5_x图2inv5_x结构Fig.2inv5_x structure韩文静，等：基于改进ResNet-CrowdDet的密集行人检测算法199Computer Engineering and Applications计算机工程与应用2023，59（16）Yh,w,c=(u,v)KHh,w,u+K/2,v+K/2,cG/CXh+u,w+v,c（4）其中，Xh,w,c为位置在输入特征图上高为h

33、、宽为w、通道为c的一个点，Yh,w,c为Xh,w,c对应的输出特征点，Hh,w为Xh,w,c对应的Involution核。如图2展示的Involution操作中K为3，G为1，本文使用的77 inv中K为7，G为C/16。2.3改进的稀疏检测头部DHCDet在稀疏检测头部基于CrowdDet算法进行改进，提出了DHCDet，如图3所示。改进有两部分：一是使用了Double-Head结构进行分类与回归；二是使用SNL替换了Double-Head结构中的NL。不同于CrowdDet算法中使用两个全连接操作同时完成分类与回归预测，DHCDet算法使用了Double-Head结构进行结果预测分为两个

34、分支：一个分支使用与CrowdDet算法一致的两个全连接完成分类任务；另外一个分支使用全卷积完成回归任务。首先依次使用三个结构，分别为改变通道数的残差块ResBlock，普通的残差结构BottleNeck，以及一个SNL自注意力机制，然后使用全局平均池化后完成回归任务。全卷积进行回归时使用了自注意力机制，是由于普通卷积具有局域性，自注意力作为普通卷积的补充，根据与其他所有位置的相关程度得到某个位置权重，能够一次性地捕捉长距离关系。在Double-Head算法中常用的是NL自注意力机制，如图4所示为NL结构。首先对输入特征X进行三次11卷积改变通道数，得到三个新的特征图X1、X2、X3，接着将其

35、中X1和X2两个变形后矩阵相乘并经过softmax函数得到注意力权重，如式（5）：=softmax(XT1X2)（5）然后将权重应用到X3，再对其进行变形操作与11卷积得到同输入特征X相同维度的结果X4，该结果与输入的特征图X相加得到输出特征Y，如式（6）：Y=conv(reshape(X3)+X（6）SNL自注意力机制不同于以往使用的NL自注意力机制，SNL结构如图3所示。在SNL中，在得到X4后，将X4与X3使用 11 conv 改变通道后的结果进行相加，然后将相加的结果归一化后再与输入特征图X进行相加得到输出特征Y，如式（7）：Y=BN(conv(reshape(X3)+conv(X3)

36、+X（7）SNL原文中指出自注意力机制可以看成是对输入的特征构建成完全图，这个完全图包含了每对位置之间的相似性，然后使用可学习的图滤波器进行特征学习，1 024refined稀疏检测头：DHCDetRefinementEMD LossEMDLosspre1refinedpre2pre1pre21 0241 024box1box2cls1cls21 0241 02477FCResBlockBottleNeckSNL全局平均池化SNLResBlockBottleNeck11 conv11 conv11 conv33 conv33 conv11 conv11 conv11 conv11 conv11

37、 conv11 convBN1 024HW1 024HW256HW256HW1 024HW256HW256HW1 024HW512HW512HWHW512HW512Y:1 024HWX4:512HWX5:512HWX3:512HW:HWHWX1:512HW512HWX2:512HWX:1 024HW图3DHCDet结构Fig.3DHCDet structure2002023，59（16）经过一系列推导得出以往的自注意力机制都是不完整的切比雪夫图滤波器，然后针对该性质提出了SNL自注意力机制。本文使用SNL自注意力机制能够进一步提升网络回归的精度。3实验结果与分析本文实验中使用了常用的两个行人检

38、测数据集CrowdHuman 数据集和 CityPersons38数据集。因为CrowdHuman数据集主打非常密集的场景，所以本文使用基于ResNet的CrowdDet算法进行密集行人检测，主要测试了不同的改进方案在CrowdHuman验证集上的检测结果。其次在CityPersons数据集进行实验，表明该方法在行人检测上具有鲁棒性。3.1评估标准平均精度（average precision，AP）值。Precision 为预测为正样本中含有真正样本的比例，Recall为所有真正样本中被正确预测的比例，计算公式如式（8）所示：Precision=TPTP+FP,Recall=TPT

39、P+FN（8）其中，TP为真的正样本，FP为假的正样本，FN为假的负样本。AP为Precision-Recall曲线下的面积，AP值越大，模型精度越高性能越好。平均对数漏检率（log average miss rate，MR-2）。通过同时计算 MR（miss rate）和每张图误检个数 FPPI（false position per image）衡量行人检测指标，其中MR公式如式（9）所示：MR=1-TP/N（9）绘制 MR-FPPI曲线，MR-2为 9 个 FPPI值下的MR平均值，其中9个点的对数区间为0.01，100的均值采样。MR-2表示在指定误检率的情况下行人检测器的漏检率，其值越

40、低检测性能越好。Jaccard 相似系数 JI（Jaccard index）的计算公式如式（10）所示：JI(D,G)=|IoUMatch(D,G)|D+|G-|IoUMatch(D,G)（10）其中，D为一组检测框，G为一组真实框。JI更适合密集场景的检测任务，JI代表了预测框与真实框的重叠程度，其值越高检测性能越好。IoU计算公式如式（11）所示：IoU=TPTP+FP+FN（11）3.2实验参数设置实验基于单个 NVIDIA RTX 3090 GPU 进行，使用cuda11.1、pytorch1.10和python3.7的软件平台。实验使用 CrowdDet 算法官方提供的训练权重作为本

41、文的预训练权重，使用随机梯度下降法（stochastic gradientdescent，SGD）进行30 epochs的训练，动量值0.9，衰减因子为1E-4，初始学习率为1.25E-3，并分别在第24和第27 epoch时衰减为1.25E-4和1.25E-5，batch size设置为2。3.3在CrowdHuman上的实验结果CrowdHuman数据集包含有15 000张训练集图像、5 000 张测试集图像和 4 370 张验证集图像，每张图像有大约23个行人，具有不同密集遮挡场景和高度的多样性。本文为测试改进基于ResNet的CrowdDet算法在CrowdHuman数据集中的结果，设

42、计了4个实验，并与目前主流的方法进行了对比。值得注意的是，本文是对基于Pytorch版的基线网络进行改进，对齐了该基线网络的实验参数设置，为公平对比实验结果，文中展示的基线网络实验结果为基于Pytorch版的实现结果。实验 1 在骨干网络中将 Involution 替换 ResNet-50不同部分的卷积。由表1可知，当仅替换最后一阶段即第五部分的卷积时，提升效果明显，相比基线网络精度提升了0.70个百分点，漏检率降低了1.33个百分点，并且JI提升了0.64个百分点。因此Involution可以直接替代普通卷积，由于Involution在不同位置上动态生成不同的卷积核，产生了不一样的关注度，并

43、且通过使用77更大的感受野获得了更多的远距离信息，能够提升目标检测器的性能。实验得到将Involution放置在最后的阶段能够提取到的最好的性能。实验2在颈部对比了不同的特征融合方式。由表2可知，FaPN与PANet用在基线检测器中都能对性能带来方法CrowdDet14（基线）第三部分第四部分第五部分（BoINet）第四、五部分AP90.3090.2290.7591.0090.00MR-241.2841.7241.1339.9541.63JI82.6382.2582.0383.2781.82表1Involution替换不同部分卷积的对比实验Table 1Comparitive experime

44、nt of Involution replacingdifferent partial convolutions单位：%11 convX3:512HWX2:512HW512HWX1:512HWHW51211 conv11 convY:1 024HWX4:1 024HW:HWHWHW512512HWX:1 024HW11 convNL图4NL结构Fig.4NL structure韩文静，等：基于改进ResNet-CrowdDet的密集行人检测算法201Computer Engineering and Applications计算机工程与应用2023，59（16）微弱的提升，用到本文最终改进基于R

45、esNet的CrowdDet算法中，性能并没有明显的增益，因此本文选择使用速度更快的FPN特征融合方式。虽然使用了FPN，但是仍需要继续探索比FPN更有效的特征融合方式。实验 3 在稀疏检测头中对比了 Double-Head 使用SNL模块和使用NL时的实验结果。由表3实验结果可以看出，SNL对检测器的性能提升更加明显。实验中还测试了重复使用两次Double-Head模块的结果，可以看到使用一次跟使用两次有差不多的效果，在权衡参数量的情况下可以仅使用一次该模块。实验 4测试了本文使用的 BoINet和 DHCDet对检测结果的影响，通过消融实验对两个模块进行了验证。表4为实验结果，结果表明同时

46、使用两个模块能够取得最好的结果。表5展示了本文方法与其他主流方法在CrowdHuman验证集上的对比。这些主流方法均使用ResNet-50的骨干网络，结果表明本文改进的基于ResNet的CrowdDet算法比其他方法已经具有更好的实验结果，而本文方法的 AP为 91.15%，MR-2为 39.74%，同时 JI为 83.60%，比基线网络在AP、MR-2、JI评价指标上分别提升了0.85个百分点，1.54个百分点，0.97个百分点，在CrowdHuman数据集上获得了目前最佳的性能。值得注意的是MFPN42也使用了ResNet-CrowdDet算法，本文方法比该方法提升了更多的性能。图5为预测

47、效果对比，可视化对比了基线和本文方法对于密集行人的检测结果。左侧为基线网络预测结果，其中存在漏检、多检，以及在行人姿态变化时检测混乱等问题，可以看出右侧本文方法取得更好的检测效果。3.4在CityPersons上的实验结果CityPersons数据集包含5 000张图像，其中2 975张用于训练，500张用于验证，1 525张用于测试，每张图片大小都为1 0242 048。CityPersons数据集按照行人不同的可见度由高到低划分为不同的子集，本文使用的是最常关注的Reasonable子集。在该子集上进行训练，并在该子集验证集上进行测试，同时将图像分辨率放大1.3倍进行训练和测试，其他参数与

48、 CrowdHuman数据集相同。表6展示了本文方法与基线方法以及其他方方法CrowdDet14（基线）CrowdDet_FaPNCrowdDet_PANetOursOurs_FaPNOurs_PANetAP90.3090.6590.5591.1591.2590.81MR-241.2841.0641.0039.7439.8940.99JI82.6383.5283.1183.6083.4683.34单位：%表2不同特征融合方式的对比实验Table 2Comparative experiment of differentfeature fusion methods方法CrowdDet14（基线）+

49、DH_NL+DH_SNL（DHCDet）+DH+DHAP90.3090.5190.9290.81MR-241.2841.2440.7040.50JI82.6383.3383.1183.11表3不同Double-Head的对比实验Table 3Comparative experiment of differentDouble-Heads单位：%BoINetDHCDetAP90.3091.0090.9291.15MR-241.2839.9540.5039.74JI82.6383.2783.1183.60单位：%表4消融实验Table 4Ablation experiment方法Adaptive N

50、MS11Faster R-CNN21PS-RCNN39IterDet40NOH-NMS12Beta R-CNN41CrowdDet14（基线）MFPN42OursAP84.7184.7187.9488.0889.0089.6090.3090.9691.15MR-249.1250.4949.4443.9040.3041.2840.2439.74JI82.6383.1283.60单位：%表5不同方法在CrowdHuman上的结果对比Table 5Comparison of results of different methodson CrowdHuman基线方法本文方法图5预测效果对比Fig.5C

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于改进 ResNet CrowdDet 密集行人检测算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。