分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于双中间模态的四流网络跨模态行人重识别.pdf

基于双中间模态的四流网络跨模态行人重识别.pdf

上传人：自信****多点

文档编号：639019

上传时间：2024-01-22

格式：PDF

页数：8

大小：1.53MB

《基于双中间模态的四流网络跨模态行人重识别.pdf》由会员分享，可在线阅读，更多相关《基于双中间模态的四流网络跨模态行人重识别.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 49卷第 8期2023年 8月Computer Engineering 计算机工程基于双中间模态的四流网络跨模态行人重识别韩华，黄丽，田瑾，王春媛（上海工程技术大学电子电气工程学院上海市数据智能技术及其应用协同创新中心，上海 201620）摘要：摄像头大多配备红外和可见光功能，因此，重识别方法的应用必然要解决跨模态行人重识别问题。为缩小跨模态行人重识别中红外和可见光模态之间的差异，提高识别精度，提出基于双中间模态的四流跨模态行人重识别方法。由 2个轻量级网络分别生成可见光模态和红外模态的双中间模态图像，并从可见光图像和红外图像中继承标签，通过拆分 ResNet50骨干网络以重构适应于

2、 4种模态共享特征学习的网络。此外，还探讨了四流骨干网络中的参数共享问题，分析四模态共享块数量对于跨模态行人重识别的影响。实验结果表明，相比 HcTri，该方法在 SYSU-MM01数据集上的全局检索模式下的 Rank-1和 mAP 分别提高 2.38和 4.64个百分点，在室内检索模式下分别提高6.24和 6.77个百分点，在 RegDB 数据集上可见光至红外检索模式下的 Rank-1、mAP和 mINP分别提高 2.52、3.74和4.68个百分点，在红外至可见光检索模式下的Rank-1、mAP和mINP分别分别提高2.70、3.47和5.56个百分点。关键词：行人重识别；双中间模态；四流

3、骨干网络；跨模态重识别；参数共享开放科学（资源服务）标志码（OSID）：源代码链接：https：/ J.计算机工程，2023，49（8）：302-309.英文引用格式：HAN H，HUANG L，TIAN J，et al.Cross-modality person re-identification using four-stream network based on dual-intermediate modalities J.Computer Engineering，2023，49（8）：302-309.Cross-Modality Person Re-identification Usi

4、ng Four-Stream Network Based on Dual-Intermediate ModalitiesHAN Hua，HUANG Li，TIAN Jin，WANG Chunyuan（Shanghai Data Intelligence Technology and Application Collaborative Innovation Center，School of Electronic and Electrical Engineering，Shanghai University of Engineering Science，Shanghai 201620，China）【

5、Abstract】Most cameras are equipped with infrared and visible light functions.Therefore，the application of re-identification methods will inevitably solve the problem of cross-modality person re-identification.To reduce the difference between infrared and visible light modes in cross-modality person

6、re-identification and improve recognition accuracy，a four-stream cross-modality person re-identification method based on dual-intermediate modalities is proposed.Two lightweight networks generate dual-intermediate modalities images of visible light and infrared modes，respectively，inherit labels from

7、 visible light and infrared images，and reconstruct a network suitable for learning shared features of four modalities by splitting ResNet50 backbone network.Additionally，the problem of parameter sharing in four-stream networks is also explored，and the impact of the number of four modalities shared b

8、locks on cross-modality person re-identification is analyzed.The experimental results show that when compared to HcTri，the proposed method increases Rank-1 and mAP by 2.38 and 4.64 percentage points，respectively，in global search mode on the SYSU-MM01 dataset，6.24 and 6.77 percentage points，respectiv

9、ely，in indoor search mode.Compared to HcTri，the proposed method increases Rank-1，mAP and mINP by 2.52，3.74，and 4.68 percentage points，respectively，in visible light to infrared search mode on the RegDB dataset，in the infrared to visible light search mode，Rank-1，mAP，and mINP increase by 2.70，3.47，and

10、5.56 percentage points.【Key words】person re-identification；dual-intermediate modalities；four-stream backbone network；cross-modality re-identification；parameter sharingDOI：10.19678/j.issn.1000-3428.0065333基金项目：国家自然科学基金（62103257，61305014）；科技创新 2030“新一代人工智能”重大项目（2020AAA0109300）；上海市自然科学基金（22ZR1426200）；上

11、海市教育委员会和上海市教育发展基金会“晨光计划”（13CG60）。作者简介：韩华（1983），女，教授、博士，主研方向为行人重识别、模式识别；黄丽，讲师、博士；田瑾、王春媛，副教授、博士。收稿日期：2022-07-25 修回日期：2022-09-30 Email：开发研究与工程应用文章编号：1000-3428（2023）08-0302-08 文献标志码：A 中图分类号：TP391第 49卷第 8期韩华，黄丽，田瑾，等：基于双中间模态的四流网络跨模态行人重识别0概述行人重识别（Re-ID）在过去十年得到广泛的研究1-3。对于 1个给定的、需要查询的行人图像，行人重识别的目标是通过跨摄像

12、机捕获不同时间的视频或图像，确定此人是否为同 1个人，即处理跨摄像机视角行人图像匹配的问题4。行人重识别的挑战来源于在不同时间内、不同地点环境下，因行人姿态、摄像机视野、遮挡等因素导致的差异变化。现有的研究模型大多只在单模态可见光图像之间进行重识别，对明亮照明环境的依赖限制了传统行人重识别方法在实际复杂场景中的应用。同时，监控网络中的摄像头基本都可以在红外光和可见光 2 种模式下摄像，这就要求行人重识别技术能够同时适应可见光图像和红外图像。跨模态 Re-ID 方法主要分为统一特征、度量学习和模态互转53类，已经取得了较优的效果。基于统一特征的跨模态 Re-ID 研究通常将 2 种模态的特征映射

13、到同 1 个空间中，进而学习具有鲁棒性及区分性的统一特征模型。文献 6 提出深度零填充的单流网络，通过对节点进行选择性失活来学习模态间的共享特征。研究人员提出改进的双流跨模态特征学习网络。文献 7 基于分层跨模态匹配模型，通过整合特征损失和对比损失进行相似性学习，可以同时处理跨模态、模态内和跨视图的 3 类差异。文献 8 所提网络的结构既保留固有的空间限制，又考虑输入跨模态图像对的差异。近年来，文献 9 采用的中层特征融合法和文献 10 提出的跨模态共享与特定特征变换算法都取得了较优的识别结果。对于基于度量学习的跨模态 Re-ID，现有的研究主要集中在度量方法的改进、损失函数的改进以及提出新的

14、损失函数等。代表性工作包括文献 11 提出的双流超球面流形嵌入网络。文献 12-13 先后提出双向双约束最优排序损失和双向中心约束最优排序损失，同时考虑了跨模态和模态内差异对行人特征的约束。文献 14 提出改进困难三元组损失函数的学习框架，将传统硬样本三元组损失函数的计算转变为以跨模态和模态内三元组损失组成的全局三元组损失函数的计算，并对模型进行训练。基于模态互转的跨模态 Re-ID 包括生成对抗网络（Generative Adversarial Network，GAN）和风格迁移。文献15将 GAN 应用到跨模态 Re-ID。文献 16 提出双级减少差异学习法中的图像级子网。文献

15、 17 通过联合利用像素对齐和特征对齐来设计对齐生成对抗网络。文献 18 提出分层跨模态鉴别方法，该方法可自动地从可见光和红外图像中分离ID 鉴别因子和 ID 排斥因子，以减小跨模态和模态内的差异。虽然以上研究均取得较优的研究成果，但是大多数方法仍存在一定的改进空间，例如，根据具有模态差异性的特征实现模态间的行人重识别，然而在缩小模态间差异19方面还需做进一步研究。本文提出基于双中间模态的四流跨模态 Re-ID方法。该方法包括基于双中间模态的四流骨干网络和特征提取块。基于双中间模态的四流骨干网络包含 2个轻量级中间模态生成器。该网络分别生成可见光和红外的中间模态图像，这些中间模态图像是从可见光

16、模态和红外模态中进行自我学习产生的，并将其与可见光和红外原图像构成整个网络的 4个输入。通过四流骨干网络最优框架分层次地学习和适应 4 个模态空间的不变特征。最后，通过异质中心三元组损失20-21对行人图像最终特征进行监督。1行人重识别方法本节将重点介绍所提的基于双中间模态的四流跨模态 Re-ID 方法。图 1所示为该方法的网络结构，主要包括双中间模态、四流骨干网络、特征提取块和损失函数。图 1基于双中间模态的四流网络结构Fig.1Structure of a four-stream network based on dual-intermediate modalities3032023年

17、8月 15日Computer Engineering 计算机工程1.1双中间模态在单模态行人重识别中，颜色通常被作为关键语义信息。由于红外模态的通道数只有 1 个，因此颜色信息在跨模态 Re-ID 中意义不大。大多数跨模态 Re-ID 方法直接从 2 个异构模态中学习跨模态特征，但是在实验中呈现的结果大多不理想。为此，本文借助辅助模态学习 2 个模态间的共享特征，提出能够有效缩小模态间差异的方法。该方法学习了1 种相对于生成对抗网络更加轻量且易优化的辅助模态。然而，辅助模态的生成是从可见光和红外模态相结合的场景中学习得到，其过程牺牲了图像的一半信息，此外，过早地将目标异构模态相结合也会丢失一部

18、分可用的非显著性共享特征。因此，本文提出的双中间模态是基于以上问题进行改进的，从 2 个相结合的异构模态中学习辅助信息，并改进为单独从 2 个异构模态中学习中间模态信息。2 个轻量级模态生成器分别将可见光图像和红外图像作为输入，通过自监督学习得到双中间模态。可见光图像经过1 1的卷积层和 ReLU 激活层后，由原来的三通道图像转变为单通道图像。红外图像先扩展为三通道，再经过1 1的卷积层和ReLU 激活层后，再次转变为单通道图像，之后 2 组图像分别经过1 1的卷积层重构回三通道图像，得到双中间模态。本文方法使用1 1的卷积层进行升降维，从而达到采用最少的参数拓展或减少网络通道数的目的，通过通

19、道间信息的组合变化来实现跨通道的信息交互，同时增加非线性特性。这些优势使得双中间模态不仅保留原有的图像信息，而且学习得到了新的跨通道组合信息。这些组合信息可能是对原有信息的叠加增强，也可能是新图像特征来源，使得可见光和红外模态的信息更加接近。1.2四流骨干网络目前，跨模态 Re-ID 的主流框架是两流网络，主要由特征提取和特征嵌入 2 部分组成，其目的是分别提取 2个异构模态的特征，再学习共同特征，最后投影到公共特征空间进行识别。相对于两流网络和早期使用的单流网络，超过 2 个支路的多流网络22在现实中的使用并不多。多流网络可以加强特定模态的特征提取，提升特征的丰富性。本文所提的四流骨干网络是

20、两流网络的扩充版，同时也是三流网络19的升级版。文献 19 提出的三流网络保留特征提取和特征嵌入 2个主要功能。三流网络在特征提取和特征嵌入过程中全程共享参数，以减小模型尺寸，并同时适应 3种模态。然而，这样的网络结构会掺杂过多的模态特异特征，导致模态共享特征减少。为此，本文提出的模型将四流骨干网络分割为独立学习特定模态信息参数的网络。在两流网络中，文献 21 设计合适的网络模型，该网络前一部分是具有独立参数的特征提取器，后一部分为特征嵌入模型，特征提取器占用 2个阶段（stage），特征嵌入占用3个阶段。根据这个思路，本文所提的四流骨干网络将在此基础上进行拆分研究，采用 ResNet50 模

21、型作为骨干网络，ResNet50中的卷积块分别称为 stage 1、stage 2、stage 3、stage 4 和 stage 5。本文所提四流骨干网络的特点主要有：1）四流骨干网络主要起特征提取作用；2）中间的双流网络既起到特征提取的作用，又起到特征嵌入的作用；3）最后的单流网络完成整体的特征嵌入。1.3特征提取块与损失函数在本文所提的方法中，特征提取块采用全局和局部特征拼接的方式，以避免忽略细节特征，从而增强行人图像特征的辨别力并补充图像中非显著性特征。每个局部特征向量都使用异质中心三元组损失和身份损失23进行度量。在各分类器中不共享参数，分类的个数等于划分的块数。本文将提取的所有局部

22、特征进行组合，以描述行人的身体结构，再与全局特征进行拼接，形成行人图像的最终特征，采用异质中心三元组损失进行监督。本文的损失函数参考文献 21 所提的异质中心三元组损失，并从 2 个方面对异质中心三元组损失进行改进。本文在四流骨干网络中分别提取 4个模态特征，因此在 PK 抽样中，首先在每次迭代的 P 个身份特征后随机选择 K个可见光图像、K个从可见光图像中学习得到的中间模态图像、K 个红外图像和K 个从红外图像中学习得到的中间模态图像，以形成小批量共 4PK 张图像。文献 21 提出在 1 个小批量中计算每个模态的各个身份特征中心的方法，改进后的方法是计算每 2个模态中各个身份的特征中心，其

23、计算式如下：cmvx=12Kj=1Kvxj，mcmiy=12Kj=1Kiyjm（1）其中：v表示 1组可见光模态；x表示从可见光模态中学习得到的中间模态；i表示红外模态；y表示从红外模态中学习得到的中间模态；vxjm表示小批量中第304第 49卷第 8期韩华，黄丽，田瑾，等：基于双中间模态的四流网络跨模态行人重识别m 个人的第 j 个可见光图像以及从可见光图像中学习得到的中间模态图像特征；iyjm表示红外图像以及从红外图像中学习得到的中间模态图像特征。中间模态起到的辅助作用使得在四模态中输入每 2个模态相结合的特征中心距离更接近，相较于双模态输入能够有效缩小模态间的差异。在每个小批量中有 P

24、个可见光以及从可见光图像中学习得到的中间模态与原特征相结合的中心cmvx，m=1，2，P，有 P个红外和从红外图像中学习得到的中间模态与原特征相结合的中心cmiy，m=1，2，P。基于改进后的 PK 抽样，异质中心三元组损失定义为：LHcTri=m=1P +cvxm-ciy，m2-minn vxiyj mcvxm-cnm2+m=1P +ciym-cvxm2-minn vxiyj mciy，m-cnm2+（2）身份损失的计算如下：LID=m=1N-qmloga()pm（3）s.t.qm=1-N-1Nr=mNr m（4）其中：LID为身份损失；r表示真实 ID 标签

25、；pm表示第m 类的 ID 预测概率；N 表示总训练集中的身份数量；是 1 个常数，=0.1。分类损失仅用于局部特征（LIDm、LIDm），而异质中心三元组损失则在全局特征（LHcTriglobal）和局部特征（LHcTrim、LHcTrim）中都使用。总损失函数如式（5）所示：L=LHcTriglobal+m=1P()LIDm+LIDm+LHcTrim+LHcTrim（5）其中：L表示总体损失；表示预定义的平衡参数。2实验与结果分析 2.1实验设置SYSU-MM01 数据集由 4 个可见光摄像头和2 个近红外摄像头采集得到，是 1 个拥有 491 个行人身份的大型跨模态

26、Re-ID 数据集。该数据集的训练集包含 22 258张从可见光摄像机和 11 909张从红外摄像机捕捉到的 395 张行人身份图像。测试集包含3 803张用作被检索的近红外图像和 301张用作检索的可见光图像，总共 96个行人身份。RegDB 数据集24由 1 个可见光摄像头和 1 个远红外摄像头采集得到。该数据集包含 412 张不同行人的图片，每个身份由 10张可见光图像和 10张红外图像组成。本文随机将 RegDB 数据集对半划分成训练集和测试集，训练集包含 2 060 张可见光图像，测试集包含 2 060张热红外图像。在测试阶段，其中1个模态的图像作为检索数据，另一个模态的图像作为被检

27、索数据。本文采用 PyTorch框架实现所提出的方法，骨干网络选择 ResNet50，并使用预先训练好的 ImageNet参数进行网络初始化。第 1 个与第 2 个卷积块对于每个模态都是特定的，第 3个卷积块是每 2个模态间的相对共享，而最后 2个卷积块是全部共享的，且步长设为 1。本文对输入图像进行随机左右翻转，并裁剪大小为288 144像素，采用随机梯度下降优化器进行优化，动量参数设为 0.9。初始学习率设置为0.1，在 60 个训练周期中学习率（lr）随周期 t 的变化如下21，25：lr(t)=0.1 t+1100 t 100.110 t 200.0120 t 500.00150 t（

28、6）所有三元组损失中的=0.3。对于 PK 抽样，在SYSU-MM01 数据集中 P=6，K=8，在 RegDB 数据集中 P=8，K=4。在 SYSU-MM01 数据集中的超参数设为1，在RegDB数据集中的超参数设为2。局部特征尺寸D1=512，D2=256，水平块的数量p1=1，p2=6。2.2与现有方法的比较本文在 SYSU-MM01和 RegDB数据集上分别对本文方法、基线方法、现有经典方法和最新方法进行比较。基线方法包括 DGTL25、AGW26、DDAG27，基于统一特征变化的方法包括 Zero-Pad6、Tone7、DSCSN8、EDFL9、cm-SSFT10，基于度量学习的方

29、法包括 HSME11、BDTR13、eBDTR14，基于模态互转的方法包括 cmGAN15、D2RL16、AlignGAN17、Hi-CMD18、JSIA28，最新方法包括 X modality19、HcTri21以及 HAT29。本文采用的对比指标主要包括首次命中概率（Rank-1）、平均精度均值（mean Average Precision，mAP）、平均逆负样本惩罚率（mean Inverse Negative Penalty，mINP）。不同方法在 SYSU-MM01 数据集上的实验结果对比如表 1 所示，加粗表示最优结果，“”为原文献中

30、没有给出的实验结果。3052023年 8月 15日Computer Engineering 计算机工程在 SYSU-MM01 数据集上的实验结果表明，本文方法优于大多数现有方法。与 HcTri相比，本文方法在全局检索模式下的 Rank-1 和 mAP 指标分别提高 2.38 和 4.64 个百分点，在室内检索模式下 Rank-1和 mAP 指标分别提高 6.24 和 6.77 个百分点。本文方法具有最优的 mINP指标，在全局检索和室内检索模式下分别为 43.95%和 72.06%。但是，相比 cm-SSFT，本文方法在全局检索模式下的 mAP 指标和室内检索模式下的 Rank-1指标与其差距

31、较明显。不同方法在 RegDB 数据集上的实验结果对比如表 2所示。从表 2可以看出，本文方法优于所有对比方法，在可见光至红外检索模式下的 Rank-1、mAP和 mINP 分别为 92.45%、85.44%和 71.96%，相比HcTri分别提高 2.52、3.74 和 4.68 个百分点。本文方法在红外至可见光检索模式下的 Rank-1、mAP 和mINP 分别为 90.78%、83.72%和 69.77%，相比 HcTri分别提高 2.70、3.47 和 5.56 个百分点。本文方法在RegDB 数据集上的性能指标表现优于 cm-SSFT方法。2.3消融实验

32、2.3.1四流骨干网络消融实验结果本文验证 5 种四流骨干网络的拆分方法，均采用 ResNet50 作为骨干网络。表 3 和表 4 所示为在SYSU-MM01和 RegDB 数据集上各拆分方法的实验结果。s*表示 1种拆分方法，下标中的 5个数字分别表示图 1 中 stage 1stage 5 分别采用的几流网络。消融实验在 SYSU-MM01 数据集上进行，再选出较优的结果在 RegDB数据集上进行实验。表1不同方法在SYSU-MM01数据集上的实验结果对比Table 1Experimental results comparison among different methods on SY

33、SU-MM01 dataset%方法Zero-PadTonecmGANHSMED2RLAlignGANDSCSNHC20BDTReBDTR13EDFLX modalityJSIADDAGcm-SSFTHi-CMDHATAGWHcTriDGTL本文方法全局检索模式Rank-114.8012.5226.9720.6828.9042.4035.1056.9627.3227.8236.9449.9238.1054.7561.6034.9455.2947.5061.5857.3463.96mAP15.9514.4227.8023.1229.2040.7037.4054.9527.3228.4240.77

34、50.7336.9053.0263.2035.9453.8947.6556.9155.1361.55mINP35.3041.1143.95室内检索模式Rank-120.5820.8231.6345.9059.7431.9232.4643.8061.0270.5062.1054.1762.6563.1168.89mAP26.9226.3842.1954.3064.9141.8642.4652.9067.9872.6069.3762.9767.3569.2074.12mINP59.2362.4172.06表 2不同方法在 RegDB数据集上的实验结果对比 Table 2Experimental r

35、esults comparison among different methods on RegDB dataset%方法Zero-PadHSMED2RLAlignGANDSCSNBDTReBDTR13EDFLX modalityJSIADDAGcm-SSFTHi-CMDHATAGWHcTriDGTL本文方法可见光至红外检索模式Rank-117.7550.8543.4057.9060.8033.5634.6252.5862.2148.5069.3472.3070.9371.8370.0589.9383.9292.45mAP18.9047.0044.1053.6060.0032.7633.465

36、2.9860.1849.3063.4672.9066.0467.5666.3781.7073.7885.44mINP50.1967.2871.96红外至可见光检索模式Rank-116.6350.1556.3032.9234.2151.8948.1068.0671.0070.0288.0881.5990.78mAP17.8246.1653.4031.9632.4952.1348.9061.8071.7066.3080.2571.6583.72mINP64.2169.77表 3不同网络拆分方法在 SYSU-MM01数据集上的实验结果对比 Table 3Experimental results co

37、mparison among different network splitting methods on SYSU-MM01 dataset%拆分方法s44111s44211s44221s42111s42211全局检索模式Rank-161.3163.6959.5262.0761.80mAP56.5359.6056.7958.1557.81mINP37.6841.3539.5839.0240.23室内检索模式Rank-163.4666.3564.7466.3965.91mAP68.5671.3070.3371.2870.64mINP64.8567.6965.5167.0767.75306第 4

38、9卷第 8期韩华，黄丽，田瑾，等：基于双中间模态的四流网络跨模态行人重识别从表 3 可以看出，相对于s44111和s44221，s44211、s42111和s42211的实验结果较优。该结果表明在四模态的四流骨干网络中单纯依靠特征提取和特征嵌入并不能达到最优的效果，但是在特征提取和特征嵌入之间具有既能实现特征提取也能实现特征嵌入的卷积块的特点，可以有效提升网络性能。本文认为在特征提取和特征嵌入之间存在 1 个过渡功能的模块，能够更有层次地学习 2 种模态间的共享特征。因此，s44211的拆分方法具有最优的性能，在 4种模式下的各项指标均优于s42111和s42211。2.3.2特征提取块的消

39、融实验结果为获取更丰富的细粒度特征，本文在常见的局部特征提取方法上加入多分支、多尺度、多粒度的全局和局部特征的提取与拼接，以得到鲁棒性更强的图像特征属性。本文在消融实验中采用 HcTri两流骨干网络基线，同时在身份损失和两模态异质中心三元组损失的监督下进行实验。表 5 所示为在不同分块组合下全局特征尺寸d1与d2对跨模态 Re-ID 的影响，表中组合方法p1(d1)+p2(d2)。HcTri 方法在全局检索模式下的 Rank-1、mAP、mINP 分别为 61.58%、56.91%和 41.11%，在室内检索模式下的 Rank-1、mAP 和 mINP 分别

40、为62.65%、67.35%和 62.41%。本文首先在 SYSU-MM01数据集上进行实验，取实验结果较优的组合方法在RegDB 上进行实验，最终得出最优的特征拼接组合方法。从表 5 可以看出：全局特征尺寸会影响跨模态Re-ID 的 Rank-1与 mAP。相比 HcTri，不同组合方法得到的实验结果均较优。本文在 SYSU-MM01数据集上最终选取3组 6（256）+1（2 048）、1（1 024）+6（256）、1（512）+6（256）综合表现较优的组合方法，它们在RegDB 数据集中的实验结果如表 6 所示。HcTri 方法在可见光至红外检索模式下的 Ra

41、nk-1、mAP、mINP 分别为 89.93%、81.70%和 67.28%，在红外至可见光检索模式下的 Rank-1、mAP 和 mINP 分别为88.08%、80.25%和 64.21%。从表 6 可以看出：相比HcTri方法，6（256）+1（2 048）和 1（1 024）+6（256）组合方法的 Rank-1 和 mAP 较低，而 1（512）+6（256）组合方法评价指标与 HcTri相接近，并且在可见光至红外检索模式的mAP优于HcTri。因此，1（512）+6（256）的组合方法得到的实验结果最佳。2.3.3各组成部分有效性实验本文方法的主要创新部分是基于双

42、中间模态的四流骨干网络与改进特征拼接策略相结合。表 7和表 8 所示为各组成部分在 SYSU-MM01 数据集和RegDB 数据集上的实验结果，所有结果都与 HcTri方法进行对比。表 5在 SYSU-MM01数据集上全局特征尺寸对跨模态行人重识别结果的影响 Table 5Influence of global feature size on the results of cross-modality person re-identification on SYSU-MM01 dataset%组合方法6(256)+1(2 048)6(256)+1(1 024)6(256)+1(512)6(25

43、6)+1(256)1(2 048)+6(256)1(1 024)+6(256)1(512)+6(256)1(256)+6(256)全局检索模式Rank-163.5560.4160.9561.4060.3662.4261.5861.43mAP60.2257.1558.1358.3357.2559.2058.7458.55mINP44.1641.2142.1542.8140.0743.3241.6242.74室内检索模式Rank-166.9765.0766.3264.8364.4667.3964.9367.36mAP72.0470.1671.2469.7669.7171.7870.4571.60m

44、INP69.8066.5467.7366.4467.3268.8968.4167.34表 4不同网络拆分方法在 RegDB数据集上的实验结果对比 Table 4Experimental results comparison among different network splitting methods on RegDB dataset%拆分方法s44111s44211s44221s42111s42211可见光至红外检索模式Rank-191.5090.3791.22mAP84.4682.8383.90mINP72.3670.0169.63红外至可见光检索模式Rank-190.1088.658

45、9.41mAP82.8181.2482.19mINP67.1365.7166.38表 6在 RegDB数据集上全局特征尺寸对跨模态行人重识别结果的影响 Table 6Influence of global feature size on the results of cross-modality person re-identification on RegDB dataset%组合方法6(256)+1(2 048)1(1 024)+6(256)1(512)+6(256)可见光至红外检索模式Rank-189.1989.6789.88mAP79.8081.6281.76mINP63.5168.2

46、165.85红外至可见光检索模式Rank-187.2387.6988.51mAP78.0179.8880.12mINP60.0863.7062.41表 7不同方法在 SYSU-MM01数据集上的评价指标对比 Table 7Evaluation indexes comparison among different methods on SYSU-MM01 dataset%方法HcTri双中间模态改进特征拼接本文方法全局检索模式Rank-161.5863.6961.5863.96mAP56.9159.6058.7461.55mINP41.1141.3541.6243.95室内搜索模式Rank-16

47、2.6566.3564.9368.89mAP67.3571.3070.4574.12mINP62.4167.6968.4172.063072023年 8月 15日Computer Engineering 计算机工程从表 7 可以看出：仅采用双中间模态，各项指标都优于 HcTri方法；仅采用改进特征拼接策略时，除了在全局检索模式下 Rank-1 指标与 HcTri方法持平以外，其余指标都得到有效提升。因此，在同时引入双中间模态+改进特征拼接策略后，本文方法的实验结果均得到有效提升。从表 8 可以看出：仅采用双中间模态后，各项指标均优于 HcTri方法；仅采用改进特征拼接策略时，2种检索模式下的

48、Rank-1和 mAP指标与虽然未达到HcTri方法的结果相接近；本文方法的实验结果优于HcTri方法。此外，在 2 种检索模式下本文方法最终的 mINP 指标依然优于 HcTri 方法。相比仅加入双中间模态或改进特征拼接策略，本文方法的实验结果均较优，只有在可见光至红外检索模式下的 mINP指标相较于仅加入双中间模态的结果降低 0.4 个百分点。以上消融实验均验证了本文所提方法的有效性。双中间模态的加入对于本文方法性能的提升影响较大，这是因为双中间模态在特征学习过程中有助于网络学习更具辨别力的特征，辅助地缩小了异构模态之间的差异，而改进特征拼接策略对于算法性能的提升也起到了一定的作用。当双中

49、间模态或改进特征拼接策略单独工作时，并不能得到最优的性能，但是当双中间模态和改进特征拼接策略共同作用后，本文方法的性能达到最优。3结束语本文针对可见光和红外模态之间的跨模态差异，提出基于双中间模态的四流跨模态 Re-ID 方法。该方法不同于现有模态间单项转换或仅使用辅助模态相互转换的形式，设计基于双中间模态的四流骨干网络，以得到 2 种异构模态间的共享特征。在SYSU-MM01和 RegDB 数据集上的实验结果验证了本文方法的有效性，实验结果表明，相比 Zero-Pad、HSME、D2RL等方法，本文方法的识别精确度得到显著提升。下一步将在特征拼接处不同切块数量 p对跨模态 Re-ID 的实

50、验做进一步改进，以提高算法的识别率。此外，针对现实场景下的红外-可见光跨模态重识别也是本文研究的重点方向。参考文献 1 董亚超，刘宏哲，徐成.基于显著性多尺度特征协作融合的行人重识别方法 J.计算机工程，2021，47（6）：234-244，252.DONG Y C，LIU H Z，XU C.Person re-identification method based on joint fusion of saliency multi-scale features J.Computer Engineering，2021，47（6）：234-244，252.（in Chinese）2 HAN H

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于中间流网络跨模态行人识别

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。