基于双中间模态的四流网络跨模态行人重识别.pdf
《基于双中间模态的四流网络跨模态行人重识别.pdf》由会员分享,可在线阅读,更多相关《基于双中间模态的四流网络跨模态行人重识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于双中间模态的四流网络跨模态行人重识别韩华,黄丽,田瑾,王春媛(上海工程技术大学 电子电气工程学院 上海市数据智能技术及其应用协同创新中心,上海 201620)摘要:摄像头大多配备红外和可见光功能,因此,重识别方法的应用必然要解决跨模态行人重识别问题。为缩小跨模态行人重识别中红外和可见光模态之间的差异,提高识别精度,提出基于双中间模态的四流跨模态行人重识别方法。由 2个轻量级网络分别生成可见光模态和红外模态的双中间模态图像,并从可见光图像和红外图像中继承标签,通过拆分 ResNet50骨干网络以重构适应于
2、 4种模态共享特征学习的网络。此外,还探讨了四流骨干网络中的参数共享问题,分析四模态共享块数量对于跨模态行人重识别的影响。实验结果表明,相比 HcTri,该方法在 SYSU-MM01数据集上的全局检索模式下的 Rank-1和 mAP 分别提高 2.38和 4.64个百分点,在室内检索模式下分别提高6.24和 6.77个百分点,在 RegDB 数据集上可见光至红外检索模式下的 Rank-1、mAP和 mINP分别提高 2.52、3.74和4.68个百分点,在红外至可见光检索模式下的Rank-1、mAP和mINP分别分别提高2.70、3.47和5.56个百分点。关键词:行人重识别;双中间模态;四流
3、骨干网络;跨模态重识别;参数共享开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):302-309.英文引用格式:HAN H,HUANG L,TIAN J,et al.Cross-modality person re-identification using four-stream network based on dual-intermediate modalities J.Computer Engineering,2023,49(8):302-309.Cross-Modality Person Re-identification Usi
4、ng Four-Stream Network Based on Dual-Intermediate ModalitiesHAN Hua,HUANG Li,TIAN Jin,WANG Chunyuan(Shanghai Data Intelligence Technology and Application Collaborative Innovation Center,School of Electronic and Electrical Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)【
5、Abstract】Most cameras are equipped with infrared and visible light functions.Therefore,the application of re-identification methods will inevitably solve the problem of cross-modality person re-identification.To reduce the difference between infrared and visible light modes in cross-modality person
6、re-identification and improve recognition accuracy,a four-stream cross-modality person re-identification method based on dual-intermediate modalities is proposed.Two lightweight networks generate dual-intermediate modalities images of visible light and infrared modes,respectively,inherit labels from
7、 visible light and infrared images,and reconstruct a network suitable for learning shared features of four modalities by splitting ResNet50 backbone network.Additionally,the problem of parameter sharing in four-stream networks is also explored,and the impact of the number of four modalities shared b
8、locks on cross-modality person re-identification is analyzed.The experimental results show that when compared to HcTri,the proposed method increases Rank-1 and mAP by 2.38 and 4.64 percentage points,respectively,in global search mode on the SYSU-MM01 dataset,6.24 and 6.77 percentage points,respectiv
9、ely,in indoor search mode.Compared to HcTri,the proposed method increases Rank-1,mAP and mINP by 2.52,3.74,and 4.68 percentage points,respectively,in visible light to infrared search mode on the RegDB dataset,in the infrared to visible light search mode,Rank-1,mAP,and mINP increase by 2.70,3.47,and
10、5.56 percentage points.【Key words】person re-identification;dual-intermediate modalities;four-stream backbone network;cross-modality re-identification;parameter sharingDOI:10.19678/j.issn.1000-3428.0065333基金项目:国家自然科学基金(62103257,61305014);科技创新 2030“新一代人工智能”重大项目(2020AAA0109300);上海市自然科学基金(22ZR1426200);上
11、海市教育委员会和上海市教育发展基金会“晨光计划”(13CG60)。作者简介:韩 华(1983),女,教授、博士,主研方向为行人重识别、模式识别;黄 丽,讲师、博士;田 瑾、王春媛,副教授、博士。收稿日期:2022-07-25 修回日期:2022-09-30 Email:开发研究与工程应用文章编号:1000-3428(2023)08-0302-08 文献标志码:A 中图分类号:TP391第 49卷 第 8期韩华,黄丽,田瑾,等:基于双中间模态的四流网络跨模态行人重识别0概述 行人重识别(Re-ID)在过去十年得到广泛的研究1-3。对于 1个给定的、需要查询的行人图像,行人重识别的目标是通过跨摄像
12、机捕获不同时间的视频或图像,确定此人是否为同 1个人,即处理跨摄像机视角行人图像匹配的问题4。行人重识别的挑战来源于在不同时间内、不同地点环境下,因行人姿态、摄像机视野、遮挡等因素导致的差异变化。现有的研究模型大多只在单模态可见光图像之间进行重识别,对明亮照明环境的依赖限制了传统行人重识别方法在实际复杂场景中的应用。同时,监控网络中的摄像头基本都可以在红外光和可见光 2 种模式下摄像,这就要求行人重识别技术能够同时适应可见光图像和红外图像。跨模态 Re-ID 方法主要分为统一特征、度量学习和模态互转53类,已经取得了较优的效果。基于统一特征的跨模态 Re-ID 研究通常将 2 种模态的特征映射
13、到同 1 个空间中,进而学习具有鲁棒性及区分性的统一特征模型。文献 6 提出深度零填充的单流网络,通过对节点进行选择性失活来学习模态间的共享特征。研究人员提出改进的双流跨模态特征学习网络。文献 7 基于分层跨模态匹配模型,通过整合特征损失和对比损失进行相似性学习,可以同时处理跨模态、模态内和跨视图的 3 类差异。文献 8 所提网络的结构既保留固有的空间限制,又考虑输入跨模态图像对的差异。近年来,文献 9 采用的中层特征融合法和文献 10 提出的跨模态共享与特定特征变换算法都取得了较优的识别结果。对于基于度量学习的跨模态 Re-ID,现有的研究主要集中在度量方法的改进、损失函数的改进以及提出新的
14、损失函数等。代表性工作包括文献 11 提出的双流超球面流形嵌入网络。文献 12-13 先后提出双向双约束最优排序损失和双向中心约束最优排序损失,同时考虑了跨模态和模态内差异对行人特征的约束。文献 14 提出改进困难三元组损失函数的学习框架,将传统硬样本三元组损失函数的计算转变为以跨模态和模态内三元组损失组成的全局三元组损失函数的计算,并对模型进行训练。基于模态互转的跨模态 Re-ID 包括生成对抗网络(Generative Adversarial Network,GAN)和风格迁移。文 献15将 GAN 应 用 到 跨 模 态 Re-ID。文献 16 提出双级减少差异学习法中的图像级子网。文献
15、 17 通过联合利用像素对齐和特征对齐来设计对齐生成对抗网络。文献 18 提出分层跨模态鉴别方法,该方法可自动地从可见光和红外图像中分离ID 鉴别因子和 ID 排斥因子,以减小跨模态和模态内的差异。虽然以上研究均取得较优的研究成果,但是大多数方法仍存在一定的改进空间,例如,根据具有模态差异性的特征实现模态间的行人重识别,然而在缩小模态间差异19方面还需做进一步研究。本文提出基于双中间模态的四流跨模态 Re-ID方法。该方法包括基于双中间模态的四流骨干网络和特征提取块。基于双中间模态的四流骨干网络包含 2个轻量级中间模态生成器。该网络分别生成可见光和红外的中间模态图像,这些中间模态图像是从可见光
16、模态和红外模态中进行自我学习产生的,并将其与可见光和红外原图像构成整个网络的 4个输入。通过四流骨干网络最优框架分层次地学习和适应 4 个模态空间的不变特征。最后,通过异质中心三元组损失20-21对行人图像最终特征进行监督。1行人重识别方法 本节将重点介绍所提的基于双中间模态的四流跨模态 Re-ID 方法。图 1所示为该方法的网络结构,主要包括双中间模态、四流骨干网络、特征提取块和损失函数。图 1基于双中间模态的四流网络结构Fig.1Structure of a four-stream network based on dual-intermediate modalities3032023年
17、8月 15日Computer Engineering 计算机工程1.1双中间模态在单模态行人重识别中,颜色通常被作为关键语义信息。由于红外模态的通道数只有 1 个,因此颜色信息在跨模态 Re-ID 中意义不大。大多数跨模态 Re-ID 方法直接从 2 个异构模态中学习跨模态特征,但是在实验中呈现的结果大多不理想。为此,本文借助辅助模态学习 2 个模态间的共享特征,提出能够有效缩小模态间差异的方法。该方法学习了1 种相对于生成对抗网络更加轻量且易优化的辅助模态。然而,辅助模态的生成是从可见光和红外模态相结合的场景中学习得到,其过程牺牲了图像的一半信息,此外,过早地将目标异构模态相结合也会丢失一部
18、分可用的非显著性共享特征。因此,本文提出的双中间模态是基于以上问题进行改进的,从 2 个相结合的异构模态中学习辅助信息,并改进为单独从 2 个异构模态中学习中间模态信息。2 个轻量级模态生成器分别将可见光图像和红外图像作为输入,通过自监督学习得到双中间模态。可见光图像经过1 1的卷积层和 ReLU 激活层后,由原来的三通道图像转变为单通道图像。红外图像先扩展为三通道,再经过1 1的卷积层和ReLU 激活层后,再次转变为单通道图像,之后 2 组图像分别经过1 1的卷积层重构回三通道图像,得到双中间模态。本文方法使用1 1的卷积层进行升降维,从而达到采用最少的参数拓展或减少网络通道数的目的,通过通
19、道间信息的组合变化来实现跨通道的信息交互,同时增加非线性特性。这些优势使得双中间模态不仅保留原有的图像信息,而且学习得到了新的跨通道组合信息。这些组合信息可能是对原有信息的叠加增强,也可能是新图像特征来源,使得可见光和红外模态的信息更加接近。1.2四流骨干网络目前,跨模态 Re-ID 的主流框架是两流网络,主要由特征提取和特征嵌入 2 部分组成,其目的是分别提取 2个异构模态的特征,再学习共同特征,最后投影到公共特征空间进行识别。相对于两流网络和早期使用的单流网络,超过 2 个支路的多流网络22在现实中的使用并不多。多流网络可以加强特定模态的特征提取,提升特征的丰富性。本文所提的四流骨干网络是
20、两流网络的扩充版,同时也是三流网络19的升级版。文献 19 提出的三流网络保留特征提取和特征嵌入 2个主要功能。三流网络在特征提取和特征嵌入过程中全程共享参数,以减小模型尺寸,并同时适应 3种模态。然而,这样的网络结构会掺杂过多的模态特异特征,导致模态共享特征减少。为此,本文提出的模型将四流骨干网络分割为独立学习特定模态信息参数的网络。在两流网络中,文献 21 设计合适的网络模型,该网络前一部分是具有独立参数的特征提取器,后一部分为特征嵌入模型,特征提取器占用 2个阶段(stage),特征嵌入占用3个阶段。根据这个思路,本文所提的四流骨干网络将在此基础上进行拆分研究,采用 ResNet50 模
21、型作为骨干网络,ResNet50中的卷积块分别称为 stage 1、stage 2、stage 3、stage 4 和 stage 5。本文所提四流骨干网络的特点主要有:1)四流骨干网络主要起特征提取作用;2)中间的双流网络既起到特征提取的作用,又起到特征嵌入的作用;3)最后的单流网络完成整体的特征嵌入。1.3特征提取块与损失函数在本文所提的方法中,特征提取块采用全局和局部特征拼接的方式,以避免忽略细节特征,从而增强行人图像特征的辨别力并补充图像中非显著性特征。每个局部特征向量都使用异质中心三元组损失和身份损失23进行度量。在各分类器中不共享参数,分类的个数等于划分的块数。本文将提取的所有局部
22、特征进行组合,以描述行人的身体结构,再与全局特征进行拼接,形成行人图像的最终特征,采用异质中心三元组损失进行监督。本文的损失函数参考文献 21 所提的异质中心三元组损失,并从 2 个方面对异质中心三元组损失进行改进。本文在四流骨干网络中分别提取 4个模态特征,因此在 PK 抽样中,首先在每次迭代的 P 个身份特征后随机选择 K个可见光图像、K个从可见光图像中学习得到的中间模态图像、K 个红外图像和K 个从红外图像中学习得到的中间模态图像,以形成小批量共 4PK 张图像。文献 21 提出在 1 个小批量中计算每个模态的各个身份特征中心的方法,改进后的方法是计算每 2个模态中各个身份的特征中心,其
23、计算式如下:cmvx=12Kj=1Kvxj,mcmiy=12Kj=1Kiyjm(1)其中:v表示 1组可见光模态;x表示从可见光模态中学习得到的中间模态;i表示红外模态;y表示从红外模态中学习得到的中间模态;vxjm表示小批量中第304第 49卷 第 8期韩华,黄丽,田瑾,等:基于双中间模态的四流网络跨模态行人重识别m 个人的第 j 个可见光图像以及从可见光图像中学习得到的中间模态图像特征;iyjm表示红外图像以及从红外图像中学习得到的中间模态图像特征。中间模态起到的辅助作用使得在四模态中输入每 2个模态相结合的特征中心距离更接近,相较于双模态输入能够有效缩小模态间的差异。在每个小批量中有 P
24、 个可见光以及从可见光图像中学习得到的中间模态与原特征相结合的中心cmvx,m=1,2,P,有 P个红外和从红外图像中学习得到的中间模态与原特征相结合的中心cmiy,m=1,2,P。基 于 改 进 后 的 PK 抽 样,异 质 中 心 三 元 组 损 失 定义为:LHcTri=m=1P +cvxm-ciy,m2-minn vxiyj mcvxm-cnm2+m=1P +ciym-cvxm2-minn vxiyj mciy,m-cnm2+(2)身份损失的计算如下:LID=m=1N-qmloga()pm(3)s.t.qm=1-N-1Nr=mNr m(4)其中:LID为身份损失;r表示真实 ID 标签
25、;pm表示第m 类的 ID 预测概率;N 表示总训练集中的身份数量;是 1 个常数,=0.1。分类损失仅用于局部特征(LIDm、LIDm),而异质中心三元组损失则在全局特征(LHcTriglobal)和局部特征(LHcTrim、LHcTrim)中都使用。总损失函数如式(5)所示:L=LHcTriglobal+m=1P()LIDm+LIDm+LHcTrim+LHcTrim(5)其中:L表示总体损失;表示预定义的平衡参数。2实验与结果分析 2.1实验设置SYSU-MM01 数 据 集 由 4 个 可 见 光 摄 像 头 和2 个近红外摄像头采集得到,是 1 个拥有 491 个行人身份的大型跨模态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 中间 流网 络跨模态 行人 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。