面向跨域行人再识别的虚拟数据生成与选择.pdf
《面向跨域行人再识别的虚拟数据生成与选择.pdf》由会员分享,可在线阅读,更多相关《面向跨域行人再识别的虚拟数据生成与选择.pdf(9页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 图 学 学 报 August2023第 44 卷 第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期:2022-11-30;定稿日期:2022-12-26 Received:30 November,2022;Finalized:26 December,2022 基金项目:国家自然科学基金项目(62072022)Foundation items:National Natural Science Foundation of China(62072022)第一作者:蔡益武(1999),男,硕士研究生。主要研究方向为行人再识别。E-mail: Firs
2、t author:CAI Yi-wu(1999),master student.His main research interest covers person re-identification.E-mail: 通信作者:张永飞(1982),男,教授,博士。主要研究方向为计算机视觉等。E-mail: Corresponding author:ZHANG Yong-fei(1982),professor,Ph.D.His main research interests cover computer vision,etc.E-mail: 面向跨域行人再识别的虚拟数据生成与选择 蔡益武1,张雨佳1
3、,张永飞1,2(1.北京航空航天大学计算机学院北京市数字媒体实验室,北京 100191;2.北京航空航天大学虚拟现实技术与系统国家重点实验室,北京 100191)摘要:针对当前基于深度学习的行人再识别模型依赖于大量标注数据的训练,其收集和标注代价极高;而现有的行人图像数据生成方法未考虑目标域数据特点,跨域性能有待提升的问题,提出一种面向跨域行人再识别的虚拟数据生成与选择算法。首先利用目标域前景信息如行人着装颜色分布指导虚拟 3D 人体模型生成,获得与真实人物整体着装较为相似的虚拟人物。接着引导模型专注于通过前景信息区分不同行人,在生成的虚拟数据上替换目标域背景信息,达到在像素级上提高源域数据质
4、量的目的。最后,根据分布度量如 Wasserstein Distance 等度量源域和目标域的特征分布距离,在特征级上选择与目标域最接近的源域训练子集用以模型训练。实验结果表明,该方法优于现有的其他行人数据生成算法,可以显著提升行人再识别模型的跨域泛化性能。关键词:行人再识别;数据生成;虚拟引擎;数据选择;分布度量 中 图 分 类 号:TP 391 DOI:10.11996/JG.j.2095-302X.2023040775 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)04-0775-09 Generation and selection of synthetic d
5、ata for cross-domain person re-identification CAI Yi-wu1,ZHANG Yu-jia1,ZHANG Yong-fei1,2(1.Beijing Key Laboratory of Digital Media,School of Computer Science and Engineering,Beihang University,Beijing 100191,China;2.State Key Laboratory of Virtual Reality Technology and Systems,Beihang University,Be
6、ijing 100191,China)Abstract:The reliance of mainstream deep learning-based person re-identification models on large-scale labeled data for training is a costly process that requires extensive collection and labeling efforts.Additionally,the existing virtual data generation methods neglect to account
7、 for the characteristics of target domain,thereby compromising the performance of cross-domain re-identification.To address these issues,this paper proposed a synthetic data generation and selection algorithm for cross-domain person re-identification.First,this algorithm utilized the foreground info
8、rmation of the target domain,including the color distribution of individuals clothing,to guide the generation of virtual 3D human models.The background information of the target domain was employed to replace the background of source domain data.This served to enhance the data quality at the pixel l
9、evel,while also guiding the model to distinguish different persons based on the foreground.Finally,the proposed method employed distribution metrics such as Wasserstein Distance to measure the feature distribution distance between the source domain and target domain.This distance was used to select
10、the source domain training subset closest to the target domain for model training.The experimental results demonstrated the superiority of this method over other existing person virtual data 776 计算机图形学与虚拟现实 2023 年 1 generation algorithms,as it can significantly improve the cross-domain generalizatio
11、n performance of the person re-identification model.Keywords:person re-identification;data generation;virtual engine;data selection;distribution measure 行人再识别(Person re-identification)是一种利用行人表观视觉信息来判断不同摄像机下出现的行人图像是否属于同一行人的计算机生物识别技术。通过行人再识别技术,监控视频系统能够自动地获取目标行人在整个视频监控网络中的时间、地点进而得到其运动轨迹,从而实现长时间和远距离的目标监
12、控,有助于减轻工作负担和提高视频监控系统的运行效率,对维护社会公共治安等有重要意义。近年来,大量的监控摄像头部署在商场、车站、机场等公共场所,构成了大规模分布式的视频监控系统。其中,基于计算机视觉的行人再识别技术是智能视频监控系统成功运行的关键1。当前,利用深度学习方法中的完整标注数据进行模型学习的有监督方法在开源数据集上性能十分优秀2,但即使是现有最大规模公开数据集MSMT173的数据质量和规模也十分有限,因其摄像视角单一、学校背景相对简单,采集并标注4 000多个行人的图像花费了3个人2个月的时间,得到的行人图像变化有限,基于此数据集很难训练并获得一个高效的深度学习训练模型。而在实际应用场
13、景中,拍摄背景复杂、图片数量庞大且光照复杂多变,将开源数据集训练好的模型直接应用在实际场景时,往往会因为上述原因使得模型泛化能力降低,从而导致模型性能下降明显。因此,行人图像的生成和选择技术具有重要研究价值和意义。目前,研究者们主要利用虚拟引擎来生成规模化可定制的海量虚拟数据。通过批量生成人体模型并导入虚拟引擎按设定路径行走,接着收集与自动标注行人图像可以得到海量标注成本极低的虚拟数据用于模型学习。但当下虚拟数据生成主要存在以下 2 个问题:(1)生成的虚拟数据多样性不足且与现实数据的差异较大,在现有生成数据上训练的模型往往无法适应现实场景。(2)现有虚拟数据生成方法只会“漫无目的”地生成海量
14、数据,没有利用目标域的数据特点,在目标域上的性能表现一般。为了解决以上问题,本文提出了一种面向跨域行人再识别的虚拟数据生成和选择算法。在数据生成方面,通过前景着装和背景利用有效缓解了生成数据和现实数据差异大以及深度学习训练模型在目标域性能差的问题。在数据选择方面,通过特征提取、特征聚类和特征度量 3 个步骤,选择与目标域特征分布最接近的源域数据,降低源域训练数据与目标域数据的域差距,从而提升行人再识别模型的跨域泛化能力。1 相关工作 1.1 数据生成 目前,主要存在两类图像生成技术,一类是基于生成对抗网络(generative adversarial networks,GAN),另一类是基于计
15、算机图形学的。GAN 是一种常被用于样本生成的神经网络模型,其生成法仅限于对现有的数据进行调整和扩充,生成的图像难以控制,较易出现变形、扭曲等现象,因此对增加数据的多样性有很大的局限。而基于图形学的图像生成法,如基于虚拟引擎的行人图像生成能够真正弥补数据的不足,且可独立生成全新的数据样本。现有的公开虚拟数据集包含 SyRI 数据集4、PersonX 数 据 集5、RandPerson 数 据 集6和UnrealPerson7数据集。其中,SyRI 从光照变化的角度提高行人数据的多样性,但由于虚拟人体模型仅 100 个,无法满足深度模型训练的需求。PersonX 从人体姿态朝向的角度丰富生成数据
16、的多样性,但其使用的人体模型过于虚假,且每个人物均需独立导入场景中,在同一时刻只有一台摄像机进行录像或拍照,缺乏人与人之间的遮挡和摄像机之间的转移规律。RandPerson 从行人着装颜色纹理的角度提高数据的多样性,但由于其衣服纹理随机性过大,导致和真实世界的人体外观差异过大。UnrealPerson 从行走姿态、行人着装等多角度丰富了虚拟数据的多样性和真实性,但其“漫无目的”的数据生成,并未利用目标域的数据特点,由此训练得到的模型跨域性能一般。综上,本文采用基于虚拟引擎的数据生成法,在创造满足多样行人图像的同时对现有问题提出针对性解决方案(图 1)。第 4 期 蔡益武,等:面向跨域行人再识别
17、的虚拟数据生成与选择 777 (a)(b)(c)(d)图 1 现有虚拟数据集的行人图像 Fig.1 Person Images from existing virtual datasets (a)SyRI;(b)PersonX;(c)RandPerson;(d)UnrealPerson)1.2 数据选择 在调研数据选择中发现,在图像分类、人脸识别任务中往往会有大规模的预训练模型,这类模型的训练样本多、训练时间长,因此如何从预训练数据集中选择相关子集,以提高直接转换到目标数据集时的性能。CUI 等8在解决图像分类任务时率先提出通过搬土距离(earth movers distance,EMD)来度
18、量源域和目标域之间的视觉相似度,并在源域上选取和目标域相似度较高的子集用以模型预训练,将学习到的知识再迁移到目标域上进行细粒度分类。CHAKRABORTY 等9基于领域分类器的数据挑选方法,在大规模的源域数据集中随机采样一个与目标域大小一致的源域子集与目标域一起作为训练集,用以训练一个二分类器,对于给定样本,该分类器可以给出一个属于目标域的置信度P,取源域中置信度最高的 M 个样本构成训练子集。YAN 等10提出 NDS(neural data server),对于有标签数据集,对每类的图像特征均值聚类,而对于无标签数据集,则对所有图像特征聚类;迁移时,去掉从源域上学到的分类头,在目标域学习一
19、个小型解码器网络,并根据各子数据集上训练出的模型在目标域上的评估结果为源数据集中的每一个样本分配权重。LUO 等11考虑到预训练的数据集和下游任务使用的数据存在领域差距,因此只选择部分数据进行预训练,其选取依赖于灾难性遗忘指数(catastrophic forgetting score,CFS),遗忘程度较低的子数据集能够让模型的性能表现更好。这些方法均在目标域标签信息已知时用于迁移学习,在行人再识别任务中,尽管基于虚拟图像的数据生成方法流行之后,理论上存在无限的数据可供模型训练使用,但目前仍倾向于使用全量数据,并未考虑利用目标域数据特征分布,难以做到真正提升模型的跨域泛化能力。2 面向目标域
20、的数据生成与选择 为了让模型学习到可以适用于目标域的区分能力,本文从构造数据集和挑选源域数据以提高数据质量的角度出发,将模型在一个与目标域接近的源域数据集上训练,缩小源域与目标域的领域差距,以达到提高模型跨域泛化性能的效果。2.1 多样化人体模型定制 基于团队已有工作7使用开源软件 MakeHuman生成三维定制人体模型,利用网络平台 Mixamo 为人体建模提供骨骼动画,并手动设置较为真实的步行和站立姿态,对服装数据集根据衣服的类型和性别分门别类,后续将其用作衣物和附属物的素材。在场景设置中,采用多种相机视角和多种光照以提高虚拟场景的真实性,达到不论是人体模型还是场景世界都从像素级别上提升生
21、成数据的真实性。与传统的人工模型、三维扫描模型相比,该模型制作成本非常低,可满足大规模的批量生成,也可满足深度神经网络对大规模训练数据的要求,以此可从目标域的角度更好地适应目标训练模型。2.2 目标域前景利用 通过统计目标域大量无标签数据在着装颜色上的分布情况,并以此指导虚拟数据的生成。在行人再识别任务中,训练一个模型期望最终能够识别不同行人之间的差异,而在像素级别上不同行人之间的差异很大一部分来自行人着装。在给定无标签的目标域数据集后,本文借助Swin-Transformer 模型12识别目标域行人的主要着装,如上衣、下裤等颜色信息,以得到目标域着装颜 色 分 布。Swin-Transfor
22、mer 模 型 作 为 标 准transformer 的一个改进,是现阶段计算机视觉任务中一个通用的性能优秀的骨干网络,其借助移位窗口来改进多头自注意力模块,针对行人着装颜色识别任务,只需在数据集上加一个全连接层进行训练,便具备区分行人着装颜色的能力,其模型结构如图 2 所示。从 RGB 颜色模型角度出发,颜色种类有千万种,因考虑到光照、色调等轻微变化均会影响行人着装像素值的改变,所以对着装颜色的分类粗粒度到黑、灰、白、红、橙、黄、绿、蓝、紫、其他10 种,与其对应的着装素材也按 10 种颜色划分。由于公开衣物数据集中的衣服图像是后续贴在三 778 计算机图形学与虚拟现实 2023 年 维人体
23、模型上的,所以需通过 RGB 转 HSV 颜色模型并根据相应的取值范围得到着装素材的颜色分布。以 DukeMTMC-ReID 为例,该数据集行人着装颜色分布如图 3 所示。图 2 Swin-Transformer 模型结构12 Fig.2 Swin-Transformer model structure12 图 3 DukeMTMC-ReID 数据集行人着装颜色分布 Fig.3 Color distribution of person clothing in DukeMTMC-ReID 不同于其他虚拟数据集未考虑上下半身适配目标域行人的协调穿搭导致生成的虚拟人物和目标域真实任务之间存在较大的差
24、异。本文在上一步得到目标域上衣、下裤的颜色分布后,将其作为一个整体,并根据需要生成的 3D 人物模型数量按比例从不同颜色、不同位置的着装素材库中选出一个套装子集,再将集合中的套装逐个填充到 3D 人体模型上。通过可生成符合真实人类生理特征的开源软件 MakeHuman,批量生成 3D 人体模型后,经过上述目标域行人着装分布指导的衣物材质贴图,再添加行走、站立、拉伸等各种动作姿态后导入到虚拟引擎 Unreal Engine 中。在虚幻世界中,虚拟行人可以自动在预先设定的行走轨迹上行走。并通过脚本批量设置符合现实摄像机拍摄角度的第一视角,即覆盖到行人正面、侧面、背面等多种朝向、远近不同的多种镜头距
25、离。最后,从每一张全景图中裁剪出仅包含行人目标框并给出行人身份标识,这正是行人再识别模型所需要的训练数据信息,基于前景信息的数据生成流程如图 4 所示。图 5 是经过该流程得到的适配 DukeMTMC-ReID 数据集的虚拟行人图像,可以看出,第 2 行的虚拟行人着装与第 1行目标域行人图像在颜色分布上具有一致性。2.3 目标域背景利用 由于行人再识别模型的训练图像是一张张包含前背景的完整图像,因此在不加引导的情况下,从这些图像中学到的行人区分能力不仅包括行人着装的前景信息也包括行人背景信息。本文将引导模型专注于通过前景信息区分行人,并构造具有目标域背景信息的训练数据。经 2.2 节得到的符合
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 行人 识别 虚拟 数据 生成 选择
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。