分享赚钱赏收藏举报版权申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 面向跨域行人再识别的虚拟数据生成与选择.pdf

面向跨域行人再识别的虚拟数据生成与选择.pdf

上传人：自信****多点

文档编号：654949

上传时间：2024-01-24

格式：PDF

页数：9

大小：6.09MB

《面向跨域行人再识别的虚拟数据生成与选择.pdf》由会员分享，可在线阅读，更多相关《面向跨域行人再识别的虚拟数据生成与选择.pdf（9页珍藏版）》请在咨信网上搜索。

1、2023 年 8 月图学学报 August2023第 44 卷第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期：2022-11-30；定稿日期：2022-12-26 Received：30 November，2022；Finalized：26 December，2022 基金项目：国家自然科学基金项目(62072022)Foundation items：National Natural Science Foundation of China(62072022)第一作者：蔡益武(1999)，男，硕士研究生。主要研究方向为行人再识别。E-mail： Firs

2、t author：CAI Yi-wu(1999),master student.His main research interest covers person re-identification.E-mail：通信作者：张永飞(1982)，男，教授，博士。主要研究方向为计算机视觉等。E-mail： Corresponding author：ZHANG Yong-fei(1982),professor,Ph.D.His main research interests cover computer vision,etc.E-mail：面向跨域行人再识别的虚拟数据生成与选择蔡益武1，张雨佳1

3、，张永飞1,2(1.北京航空航天大学计算机学院北京市数字媒体实验室，北京 100191；2.北京航空航天大学虚拟现实技术与系统国家重点实验室，北京 100191)摘要：针对当前基于深度学习的行人再识别模型依赖于大量标注数据的训练，其收集和标注代价极高；而现有的行人图像数据生成方法未考虑目标域数据特点，跨域性能有待提升的问题，提出一种面向跨域行人再识别的虚拟数据生成与选择算法。首先利用目标域前景信息如行人着装颜色分布指导虚拟 3D 人体模型生成，获得与真实人物整体着装较为相似的虚拟人物。接着引导模型专注于通过前景信息区分不同行人，在生成的虚拟数据上替换目标域背景信息，达到在像素级上提高源域数据质

4、量的目的。最后，根据分布度量如 Wasserstein Distance 等度量源域和目标域的特征分布距离，在特征级上选择与目标域最接近的源域训练子集用以模型训练。实验结果表明，该方法优于现有的其他行人数据生成算法，可以显著提升行人再识别模型的跨域泛化性能。关键词：行人再识别；数据生成；虚拟引擎；数据选择；分布度量中图分类号：TP 391 DOI：10.11996/JG.j.2095-302X.2023040775 文献标识码：A 文章编号：2095-302X(2023)04-0775-09 Generation and selection of synthetic d

5、ata for cross-domain person re-identification CAI Yi-wu1,ZHANG Yu-jia1,ZHANG Yong-fei1,2(1.Beijing Key Laboratory of Digital Media,School of Computer Science and Engineering,Beihang University,Beijing 100191,China;2.State Key Laboratory of Virtual Reality Technology and Systems,Beihang University,Be

6、ijing 100191,China)Abstract:The reliance of mainstream deep learning-based person re-identification models on large-scale labeled data for training is a costly process that requires extensive collection and labeling efforts.Additionally,the existing virtual data generation methods neglect to account

7、 for the characteristics of target domain,thereby compromising the performance of cross-domain re-identification.To address these issues,this paper proposed a synthetic data generation and selection algorithm for cross-domain person re-identification.First,this algorithm utilized the foreground info

8、rmation of the target domain,including the color distribution of individuals clothing,to guide the generation of virtual 3D human models.The background information of the target domain was employed to replace the background of source domain data.This served to enhance the data quality at the pixel l

9、evel,while also guiding the model to distinguish different persons based on the foreground.Finally,the proposed method employed distribution metrics such as Wasserstein Distance to measure the feature distribution distance between the source domain and target domain.This distance was used to select

10、the source domain training subset closest to the target domain for model training.The experimental results demonstrated the superiority of this method over other existing person virtual data 776 计算机图形学与虚拟现实 2023 年 1 generation algorithms,as it can significantly improve the cross-domain generalizatio

11、n performance of the person re-identification model.Keywords:person re-identification;data generation;virtual engine;data selection;distribution measure 行人再识别(Person re-identification)是一种利用行人表观视觉信息来判断不同摄像机下出现的行人图像是否属于同一行人的计算机生物识别技术。通过行人再识别技术，监控视频系统能够自动地获取目标行人在整个视频监控网络中的时间、地点进而得到其运动轨迹，从而实现长时间和远距离的目标监

12、控，有助于减轻工作负担和提高视频监控系统的运行效率，对维护社会公共治安等有重要意义。近年来，大量的监控摄像头部署在商场、车站、机场等公共场所，构成了大规模分布式的视频监控系统。其中，基于计算机视觉的行人再识别技术是智能视频监控系统成功运行的关键1。当前，利用深度学习方法中的完整标注数据进行模型学习的有监督方法在开源数据集上性能十分优秀2，但即使是现有最大规模公开数据集MSMT173的数据质量和规模也十分有限，因其摄像视角单一、学校背景相对简单，采集并标注4 000多个行人的图像花费了3个人2个月的时间，得到的行人图像变化有限，基于此数据集很难训练并获得一个高效的深度学习训练模型。而在实际应用场

13、景中，拍摄背景复杂、图片数量庞大且光照复杂多变，将开源数据集训练好的模型直接应用在实际场景时，往往会因为上述原因使得模型泛化能力降低，从而导致模型性能下降明显。因此，行人图像的生成和选择技术具有重要研究价值和意义。目前，研究者们主要利用虚拟引擎来生成规模化可定制的海量虚拟数据。通过批量生成人体模型并导入虚拟引擎按设定路径行走，接着收集与自动标注行人图像可以得到海量标注成本极低的虚拟数据用于模型学习。但当下虚拟数据生成主要存在以下 2 个问题：(1)生成的虚拟数据多样性不足且与现实数据的差异较大，在现有生成数据上训练的模型往往无法适应现实场景。(2)现有虚拟数据生成方法只会“漫无目的”地生成海量

14、数据，没有利用目标域的数据特点，在目标域上的性能表现一般。为了解决以上问题，本文提出了一种面向跨域行人再识别的虚拟数据生成和选择算法。在数据生成方面，通过前景着装和背景利用有效缓解了生成数据和现实数据差异大以及深度学习训练模型在目标域性能差的问题。在数据选择方面，通过特征提取、特征聚类和特征度量 3 个步骤，选择与目标域特征分布最接近的源域数据，降低源域训练数据与目标域数据的域差距，从而提升行人再识别模型的跨域泛化能力。1 相关工作 1.1 数据生成目前，主要存在两类图像生成技术，一类是基于生成对抗网络(generative adversarial networks，GAN)，另一类是基于计

15、算机图形学的。GAN 是一种常被用于样本生成的神经网络模型，其生成法仅限于对现有的数据进行调整和扩充，生成的图像难以控制，较易出现变形、扭曲等现象，因此对增加数据的多样性有很大的局限。而基于图形学的图像生成法，如基于虚拟引擎的行人图像生成能够真正弥补数据的不足，且可独立生成全新的数据样本。现有的公开虚拟数据集包含 SyRI 数据集4、PersonX 数据集5、RandPerson 数据集6和UnrealPerson7数据集。其中，SyRI 从光照变化的角度提高行人数据的多样性，但由于虚拟人体模型仅 100 个，无法满足深度模型训练的需求。PersonX 从人体姿态朝向的角度丰富生成数据

16、的多样性，但其使用的人体模型过于虚假，且每个人物均需独立导入场景中，在同一时刻只有一台摄像机进行录像或拍照，缺乏人与人之间的遮挡和摄像机之间的转移规律。RandPerson 从行人着装颜色纹理的角度提高数据的多样性，但由于其衣服纹理随机性过大，导致和真实世界的人体外观差异过大。UnrealPerson 从行走姿态、行人着装等多角度丰富了虚拟数据的多样性和真实性，但其“漫无目的”的数据生成，并未利用目标域的数据特点，由此训练得到的模型跨域性能一般。综上，本文采用基于虚拟引擎的数据生成法，在创造满足多样行人图像的同时对现有问题提出针对性解决方案(图 1)。第 4 期蔡益武，等：面向跨域行人再识别

17、的虚拟数据生成与选择 777 (a)(b)(c)(d)图 1 现有虚拟数据集的行人图像 Fig.1 Person Images from existing virtual datasets (a)SyRI;(b)PersonX;(c)RandPerson;(d)UnrealPerson)1.2 数据选择在调研数据选择中发现，在图像分类、人脸识别任务中往往会有大规模的预训练模型，这类模型的训练样本多、训练时间长，因此如何从预训练数据集中选择相关子集，以提高直接转换到目标数据集时的性能。CUI 等8在解决图像分类任务时率先提出通过搬土距离(earth movers distance，EMD)来度

18、量源域和目标域之间的视觉相似度，并在源域上选取和目标域相似度较高的子集用以模型预训练，将学习到的知识再迁移到目标域上进行细粒度分类。CHAKRABORTY 等9基于领域分类器的数据挑选方法，在大规模的源域数据集中随机采样一个与目标域大小一致的源域子集与目标域一起作为训练集，用以训练一个二分类器，对于给定样本，该分类器可以给出一个属于目标域的置信度P，取源域中置信度最高的 M 个样本构成训练子集。YAN 等10提出 NDS(neural data server)，对于有标签数据集，对每类的图像特征均值聚类，而对于无标签数据集，则对所有图像特征聚类；迁移时，去掉从源域上学到的分类头，在目标域学习一

19、个小型解码器网络，并根据各子数据集上训练出的模型在目标域上的评估结果为源数据集中的每一个样本分配权重。LUO 等11考虑到预训练的数据集和下游任务使用的数据存在领域差距，因此只选择部分数据进行预训练，其选取依赖于灾难性遗忘指数(catastrophic forgetting score，CFS)，遗忘程度较低的子数据集能够让模型的性能表现更好。这些方法均在目标域标签信息已知时用于迁移学习，在行人再识别任务中，尽管基于虚拟图像的数据生成方法流行之后，理论上存在无限的数据可供模型训练使用，但目前仍倾向于使用全量数据，并未考虑利用目标域数据特征分布，难以做到真正提升模型的跨域泛化能力。2 面向目标域

20、的数据生成与选择为了让模型学习到可以适用于目标域的区分能力，本文从构造数据集和挑选源域数据以提高数据质量的角度出发，将模型在一个与目标域接近的源域数据集上训练，缩小源域与目标域的领域差距，以达到提高模型跨域泛化性能的效果。2.1 多样化人体模型定制基于团队已有工作7使用开源软件 MakeHuman生成三维定制人体模型，利用网络平台 Mixamo 为人体建模提供骨骼动画，并手动设置较为真实的步行和站立姿态，对服装数据集根据衣服的类型和性别分门别类，后续将其用作衣物和附属物的素材。在场景设置中，采用多种相机视角和多种光照以提高虚拟场景的真实性，达到不论是人体模型还是场景世界都从像素级别上提升生

21、成数据的真实性。与传统的人工模型、三维扫描模型相比，该模型制作成本非常低，可满足大规模的批量生成，也可满足深度神经网络对大规模训练数据的要求，以此可从目标域的角度更好地适应目标训练模型。2.2 目标域前景利用通过统计目标域大量无标签数据在着装颜色上的分布情况，并以此指导虚拟数据的生成。在行人再识别任务中，训练一个模型期望最终能够识别不同行人之间的差异，而在像素级别上不同行人之间的差异很大一部分来自行人着装。在给定无标签的目标域数据集后，本文借助Swin-Transformer 模型12识别目标域行人的主要着装，如上衣、下裤等颜色信息，以得到目标域着装颜色分布。Swin-Transfor

22、mer 模型作为标准transformer 的一个改进，是现阶段计算机视觉任务中一个通用的性能优秀的骨干网络，其借助移位窗口来改进多头自注意力模块，针对行人着装颜色识别任务，只需在数据集上加一个全连接层进行训练，便具备区分行人着装颜色的能力，其模型结构如图 2 所示。从 RGB 颜色模型角度出发，颜色种类有千万种，因考虑到光照、色调等轻微变化均会影响行人着装像素值的改变，所以对着装颜色的分类粗粒度到黑、灰、白、红、橙、黄、绿、蓝、紫、其他10 种，与其对应的着装素材也按 10 种颜色划分。由于公开衣物数据集中的衣服图像是后续贴在三 778 计算机图形学与虚拟现实 2023 年维人体

23、模型上的，所以需通过 RGB 转 HSV 颜色模型并根据相应的取值范围得到着装素材的颜色分布。以 DukeMTMC-ReID 为例，该数据集行人着装颜色分布如图 3 所示。图 2 Swin-Transformer 模型结构12 Fig.2 Swin-Transformer model structure12 图 3 DukeMTMC-ReID 数据集行人着装颜色分布 Fig.3 Color distribution of person clothing in DukeMTMC-ReID 不同于其他虚拟数据集未考虑上下半身适配目标域行人的协调穿搭导致生成的虚拟人物和目标域真实任务之间存在较大的差

24、异。本文在上一步得到目标域上衣、下裤的颜色分布后，将其作为一个整体，并根据需要生成的 3D 人物模型数量按比例从不同颜色、不同位置的着装素材库中选出一个套装子集，再将集合中的套装逐个填充到 3D 人体模型上。通过可生成符合真实人类生理特征的开源软件 MakeHuman，批量生成 3D 人体模型后，经过上述目标域行人着装分布指导的衣物材质贴图，再添加行走、站立、拉伸等各种动作姿态后导入到虚拟引擎 Unreal Engine 中。在虚幻世界中，虚拟行人可以自动在预先设定的行走轨迹上行走。并通过脚本批量设置符合现实摄像机拍摄角度的第一视角，即覆盖到行人正面、侧面、背面等多种朝向、远近不同的多种镜头距

25、离。最后，从每一张全景图中裁剪出仅包含行人目标框并给出行人身份标识，这正是行人再识别模型所需要的训练数据信息，基于前景信息的数据生成流程如图 4 所示。图 5 是经过该流程得到的适配 DukeMTMC-ReID 数据集的虚拟行人图像，可以看出，第 2 行的虚拟行人着装与第 1行目标域行人图像在颜色分布上具有一致性。2.3 目标域背景利用由于行人再识别模型的训练图像是一张张包含前背景的完整图像，因此在不加引导的情况下，从这些图像中学到的行人区分能力不仅包括行人着装的前景信息也包括行人背景信息。本文将引导模型专注于通过前景信息区分行人，并构造具有目标域背景信息的训练数据。经 2.2 节得到的符合

26、目标域行人着装分布的虚拟行人图像，其背景仍然是虚拟引擎中行人所处虚拟世界的背景，并由于 Unreal Engine 不支持根据二维图片来自定义生成三维世界场景，所以难以在虚拟引擎中直接使用目标域的背景信息。于是本文将背景替换的工作放在虚拟图像生成之后，借助UnrealCV 获取每张行人图像中准确无误的行人轮廓图，通过标注图与轮廓图求差得到背景图并替换目标域中行人活跃的背景区域，其整体流程如图 6所示。具体对目标域行人背景的利用上，分为以下3 个步骤：步骤 1.获取各相机下的纯背景图像。以目标域每个摄像机为粒度，分别统计其收集到的所有无标注图像的各像素点 RGB 通道的众数，以各像素、各通道的众

27、数作为各通道值生成一张该相机下的纯背景图像，结果如图 7 所示。步骤 2.选定高频背景图。由于行人不会出现在背景的每一个位置，所以有必要对背景做更精准地选取。观察各摄像机的视频流可以发现，有行人经过的区域会因为行人的不同着装引起该区域像素的大幅变化。根据这个特点，对目标域分别统计各个相机收集到的所有无标注图像的各像素、各通第 4 期蔡益武，等：面向跨域行人再识别的虚拟数据生成与选择 779 图 4 基于前景信息的数据生成流程图 Fig.4 Flow chart of data generation based on foreground (a)(b)图 5 按目标域着装分布指导生成的行人图

28、像(a)目标域；(b)生成的虚拟行人)Fig.5 Person images generated according to the clothing distribution of target domain(a)The target domain;(b)The generated virtual person)道的方差，并将方差超过指定阈值的像素区域作为后续使用的背景图，通过这些行人活跃的区域背景来缩小背景候选范围。以 DukeMTMC-ReID 数据集为例，纯背景图像与高频背景图对比如图 8 所示，第 1 列图片为经过步骤 1 得到的纯背景图像，第 2列图片中非黑色区域为行人的高频活动区。

29、步骤 3.为虚拟行人图像替换背景。得益于生成的虚拟数据，可获得 100%准确的行人前景与背景的分割图，因此可避免使用行人语义分割模型做前、后景分割带来的不必要的误差累积。由于目标图 6 基于背景信息的样本生成流程图 Fig.6 Flow chart of data generation based on background 图 7 DukeMTMC-ReID 中 8 个摄像机视频流的某一帧 Fig.7 Frames of 8 camera video in DukeMTMC-ReID 域图像与虚拟数据图像整体的色温、色调不一致，贸然替换背景会造成前景与背景之间的像素突变，而影响卷积神经网络

30、的学习，因此在替换后需对行人轮廓周边图像做高斯平滑处理。仍以DukeMTMC-ReID 数据集为例，背景替换前、后的对比如图 9 所示。可以看到，替换背景后的第 2 行 780 计算机图形学与虚拟现实 2023 年 (a)(b)图 8 DukeMTMC-ReID 对比图(a)纯背景；(b)高频背景)Fig.8 Comparison chart of DukeMTMC-ReID(a)Pure background;(b)High frequency background)(a)(b)图 9 替换 DukeMTMC-ReID 背景前后的行人图像对比(a)替换背景前；(b)替换背景后)Fig.9 P

31、erson images before and after replacing the background of DukeMTMC-ReID(a)Before replacing the background;(b)After replacing the background)行人图像保留了虚拟行人前景信息且图像整体画面协调。2.4 数据选择目标域数据生成后，可以轻松得到海量带标注信息且与目标域数据在像素级上十分接近的虚拟行人图像数据集，有效解决了跨域行人再识别有监督学习数据匮乏的问题。在行人再识别模型的学习过程中，模型期望从像素中提取行人特征用以表示各行人，并借此学习到区分训练集中不同

32、行人身份标签的能力。但在模型学习过程中，与领域有关及无关的知识都会学，且二者同步，难以剥离。当跨域训练数据规模太小，模型收敛时学到的提取行人特征的能力不论领域相关还是无关的都不够强；当跨域训练数据规模太大，模型学到领域相关知识过多，泛化能力反而下降。因此在模型训练之前，还可根据目标域数据特征分布在源域中选出一个训练子集，在子集而非全量数据集上训练得到行人再识别模型，并更有效地提高模型的泛化能力。即以迭代方式进行以下 3 个步骤直到模型跨域性能达到最佳：(1)特征提取。以在 LUPerson13上预训练的ResNet50 作为骨干网络，将 IDM(intermediate domain modu

33、le)模块14嵌入骨干网络组成行人再识别特征提取器以提取行人特征。不同于 ImageNet 这种包含动物、建筑、车辆等各式各样内容的图像集，LUPerson 由 46 K 个 Youtube 视频中提取的超过20 万行人以及对应的 400 万图片构成，使用不同分辨率的相机，涵盖了广泛的采集环境如固定或移动的摄像头，更适用于行人再识别任务。在使用联合训练中，大部分方法只是将源数据和目标数据作为网络的输入共同训练而忽略了 2 个域之间的桥接(Bridging)，而 IDM 模型如图 10 所示。利用即插即用的 IDM 模块进行建模，以合适的中间域来承载源域和目标域之间的桥接，通过使用 2 个域因子

34、，混合源域和目标域的隐藏表示，动态生成中间域的表示。通过同时训练源域、目标域、中间域，网络将自适应地描述源域、目标域的分布，从而更好地在 2 个域之间传递知识，提高模型在目标域的性能，IDM 模块如图 11 所示。图 10 IDM 模型结构 Fig.10 IDM model structure 第 4 期蔡益武，等：面向跨域行人再识别的虚拟数据生成与选择 781 图 11 IDM 模块详情 Fig.11 IDM model detail (2)特征聚类。对于目标域伪标签的授予，在对目标域的行人图像用特征提取器提取特征后，需通过聚类为不同行人图像赋予不同的伪标签。聚类作为这十几年来许多数据挖掘

35、应用中使用的最广泛的知识发现技术之一，其将一个数据集中的样本划分成若干个不同的类簇，力求每个簇中样本的相似度最大、不同簇之间的相似度很小，从而发现各数据之间的结构和潜在的有效信息。在跨域行人再识别的场景中，由于无法得知目标域上的行人类别数及无法指定类簇个数，所以难以采用 K-means 聚类15，因此选用基于密度的DBSCAN(density-based spatial clustering of applications with noise)聚类16，其主要特点是将特征空间中足够密集的点划分为同一个簇，簇的形状可以是任意的。另一方面，针对高维数据使用传统的距离度量函数，如用欧式距离来计算各

36、样本之间的距离并不稳定，因此可以使用杰卡德距离17作为聚类算法中数据点与质心的相似度计算准则。即，如果 2 个集合共有元素越少，那么这 2 个集合就越不相似。源域上的数据由于自带标签信息，因此以身份 ID 直接划分各个类簇而非借助聚类算法可以避免不必要的误差累积。(3)特征度量。经过以上 2 个步骤，可以获取源域与目标域上的各个行人类簇，为了挑选与目标域接近的源域数据，最朴素的想法是将每个行人类簇中所有行人特征取平均得到一个代表该行人的代表特征，后续在源域与目标域之间计算两两行人代表特征之间的距离，但这种方式显然忽略了每个行人类簇作为一个特征集合所具有的数据分布特性，以分布度量而非取平均再单独

37、进行特征度量的方式能够更有效地衡量 2 个分布之间的距离。在分布度量的选择时，选用 Wasserstein Distance18度量源域每个类别与目标域的距离，选择其中与目标域最接近的 M 个类别包含的图像作为下一轮迭代的初始训练集。将 Wasserstein Distance 定义为 1212(,)(,)(),inP Px yyW P PfExy(1)其中，(P1,P2)和 P2分布组合起来的所有可能联合分布的集合。对于每一个可能的联合分布，可以从中采样(x,y)得到一个样本 x 和 y，并计算出这对样本的距离|xy|，再进一步计算该联合分布下样本对距离的期望值 E(x,y)|xy|。在所有

38、可能的联合分布中能够对期望值取到的下界 in12(,)P Pf E(x,y)y|xy|就是 Wasserstein Distance。训练执行以上 3 个步骤。循环退出的条件是本轮迭代的特征提取器在训练阶段得到的 Rank-1 和平均查准率(mean average precision，mAP)阈值小于上一轮。3 实验结果与分析在 Windows 平台上通过 MakeHuman2.3 和Unreal Engine 4.24 完成虚拟图像的生成。行人再识别的验证实验在使用 Nvidia RTX 2080ti 显卡，CPU为 i9-10900X，主频 3.7 GHz，内存为 64 GB 的Ub

39、untu 平台上完成。实验设定上，以 DukeMTMC-ReID 数据集为目标域，以联合使用本文 2.2 节和 2.3 节方法得到的UnrealForDuke 数据集为源域训练集，对比训练集包括 2 个现有的公开真实数据集 Market 和MSMT17 及若干现有的虚拟数据集如 SyRI，PersonX，RandPerson 和 UnrealPerson。各个数据集的特点见表 1 和表 2。表 1 训练集数据构成 Table 1 The composition of train set 数据集行人数量(人)图像数量(张)摄像机数量(台)Market1501 751 12 936 6 MSMT

40、17 1 041 32 621 15 SyRI 100 56 000 280 PersonX 410 88 560 6 RandPerson 8 000 132 145 19 UnrealPerson 3 000 120 000 34 UnrealForDuke(Ours)3 000 120 000 34 782 计算机图形学与虚拟现实 2023 年表 2 测试集数据构成 Table 2 The composition of test set 数据集行人数量(人)图像数量(张)摄像机数量(台)Duke query 702 2 228 8 Duke gallery 1 110 17 661

41、8 为了排除测试数据的干扰，衡量生成数据本身的质量，测试指标使用在真实数据集上直接迁移测试的行人再识别效果，不使用真实数据集的行人标注数据进行模型微调，这里使用首位命中率 Rank-1和 mAP 作为评价指标。以下实验采用带有 CBN19的 ResNet50 模型直接迁移到 Duke 数据集，实验结果见表 3。表 3 生成数据直接迁移的再识别效果 Table 3 Re-identification effects of direct transfering on real and virtual data 序号训练数据集 Rank-1(%)mAP(%)1 Market1501(ICCV 20

42、15)56.7 36.5 2 MSMT17(CVPR 2018)67.1 46.8 3 SyRI(ECCV 2018)38.9 18.2 4 PersonX(CVPR 2019)49.4 28.9 5 RandPerson(MM 2020)59.4 38.4 6 UnrealPerson(CVPR 2021)69.7 49.4 7 UnrealForDuke(Ours)71.6 51.0 注：加粗数据为最优值其中，序号 12 的实验表示在真实数据集上训练且直接迁移的效果；序号 36 的实验表明在目前已有虚拟数据集上训练且直接迁移的效果，其中实验 5 和实验 6 具有较好的性能表现。理论上Un

43、realForDuke 数据集可以生成任意数量的行人和摄像机数量，但这里为了与目前性能最优的UnrealPerson 数据集公平对比，也选用了 3 000 个行人在 34 台摄像机下共120 000 张行人图像做实验：实验 7 的性能最优，表明利用 Duke 数据集中行人前景着装信息和行人背景信息生成的 UnrealForDuke训练集，可以有效地提高行人再识别模型在 Duke数据集上的跨域泛化能力。与 UnrealPerson 数据集相似，UnrealForDuke数据集也是由 4 个场景世界(城市广场、城市街道1、城市街道 2、室内超市)下收集的 4 个子数据集组成的。在不同的场景世界中，

44、摄像机的拍摄角度、远近有所不同，虚拟行人所处世界的光照、天气等环境也不同。以其中的城市广场场景为例，通过消融实验来探究前景与背景利用对模型性能的影响，实验结果见表 4。表 4 不同条件下生成数据直接迁移的再识别效果 Table 4 Re-identification effects of direct transfering on virtual data with different conditions 序号随机着装目标域行人着装颜色分布目标域行人背景风格 Rank-1(%)mAP(%)1 -50.2 28.52-50.7 29.73-53.7 33.2 对比实验 1 和实验 2 可

45、知，通过利用行人着装分布的前景信息，能够带来一定的性能提升；分析实验 2 和实验 3 可知，对目标域行人背景信息的利用能够带来较大地提升，Rank-1 和 mAP 都有约 3%的提升。说明不论是利用前景还是背景，都对模型的跨域性能有帮助。经过上述数据生成实验得到的 UnrealForDuke数据集，其数据质量已优于现有公开真实数据集和虚拟数据集。然而由于行人再识别模型学习的过程是从图像像素上提取行人特征，最后模型通过不同行人特征的距离远近来判断其身份 ID 是否属于同一行人，那么可从特征级对海量原始训练集加以筛选，进一步得到更符合目标域特征分布的行人图像集。以DukeMTMFC-ReID为测试

46、集，UnrealForDuke为训练集，并以 IDM 为基础模型，通过联合训练的方式，迭代式地对目标域数据生成伪标签，按照指定的挑选方式，每轮挑选上一轮 90%的数据。表 5展示了不同条件下数据选择后直接迁移的再识别效果。表 5 不同条件下数据选择后直接迁移的再识别效果 Table 5 Re-identification effects of direct transfering on virtual data with different selection strategies 序号挑选方式 Rank-1(%)mAP(%)1 Baseline 80.8 70.9 2 RandByPic

47、80.5 71.1 3 RandByPid 81.2 71.6 4 KNN 81.3 71.7 5 FID 81.4 72.4 6 WD 82.0 71.5 注：加粗数据为最优值以全量数据的使用作为 Baseline，横向对比多种挑选方式，其中 RandByPic 表示以图像为粒度随机挑选，RandByPid 表示以行人为粒度随机挑选，KNN(k-nearest neighbor)表示逐行人中最相似的目标域行人，FID(Frchet inception distance)20表示度量源域每个类别与目标域的分布距离，WD 是以Wasserstein Distance 度量源域每个类别与目标域的

48、第 4 期蔡益武，等：面向跨域行人再识别的虚拟数据生成与选择 783 分布距离方法。分析表 5 实验数据可知，以图像为粒度随机挑选的实验2 不如以行人图像为粒度随机挑选的实验3，这是因为行人再识别模型的任务是关联同一个行人在不同摄像机下的拍摄图像。以图片为粒度随机挑选可能会出现单个行人的图像过少的情况，不利于模型学习。序号 46 的实验对比可知，以整体分布度量而非逐元素度量取最相似的源域数据能够取得更好的效果，且以 Wasserstein Distance 作为分布度量的准则效果最佳。4 结束语本文分析了现有数据生成方法的不足，针对性地提出面向目标域的跨域行人再识别的虚拟数据生成与选择算

49、法。该算法在保留低成本生成高多样性数据的同时，提升了生成数据的真实性以及适配目标域的特点。实验部分与现有的数据生成方法、数据选择方法进行了对比，表明了本文面向跨域行人再识别的虚拟数据生成和选择方法的优越性。但目前的数据选择方法还不够细致，在未来的工作中，可以寻求更准确的行人特征表示和特征分布度量方式，争取在特征级的数据选择上有进一步的性能提升。参考文献(References)1 ZHENG L,YANG Y,HAUPTMANN A G.Person re-identification:past,present and futureEB/OL.2022-01-08.https:/arxiv.or

50、g/abs/1610.02984.2 ZHANG X,LUO H,FAN X,et al.AlignedReID:surpassing human-level performance in person re-identificationEB/OL.2022-01-08.https:/arxiv.org/abs/1711.08184.3 WEI L H,ZHANG S L,GAO W,et al.Person transfer GAN to bridge domain gap for person re-identificationC/2018 IEEE/CVF Conference on C

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

版权申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 面向行人识别虚拟数据生成选择

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。