基于注意力机制和视觉转换器的三维虚拟试衣网络.pdf
《基于注意力机制和视觉转换器的三维虚拟试衣网络.pdf》由会员分享,可在线阅读,更多相关《基于注意力机制和视觉转换器的三维虚拟试衣网络.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 44 卷 第 7 期2023 年 7 月纺 织 学 报Journal of Textile ResearchVol.44,No.7Jul.,2023DOI:10.13475/j.fzxb.20220508401基于注意力机制和视觉转换器的三维虚拟试衣网络袁甜甜1,王 鑫1,罗炜豪1,梅琛楠1,韦京艳1,钟跃崎1,2(1.东华大学 纺织学院,上海 201620;2.东华大学 纺织面料与技术教育部重点实验室,上海 201620)摘 要针对三维虚拟试衣网络中易出现的三维人体模型边缘模糊,服装变形严重且存在伪影等问题,设计了三阶段深度神经网络,在第 1 阶段引入卷积注意力机制,第 2 阶段采用 R
2、esnet 和视觉转换器结构结合的编码器-解码器结构,第 3 阶段通过融合服装变形信息和深度估计信息实现三维虚拟试衣。定量实验结果表明:图像质量评价指标结构相似度提升了 0.015 7,峰值信噪比提升了 0.113 2;人体模型的深度估计值的绝对相对误差降低了0.037,平方相对误差降低了 0.014。定性实验结果表明:卷积注意力机制能够引导网络关注图像细节,保留复杂纹理,约束服装的过度形变,并且有效处理三维人体模型黏连问题。定量和定性分析结果均可表明,该方法能够更加精准地实现预测三维虚拟试衣结果。关键词 虚拟试衣;视觉转换器;注意力机制;深度估计;三维重建中图分类号:TS 942.8 文献标
3、志码:A 收稿日期:2022-05-30 修回日期:2022-11-24基金项目:上海市自然科学基金项目(21ZR1403000)第一作者:袁甜甜(1997),女,硕士生。主要研究方向为基于深度学习的三维虚拟试衣技术。通信作者:钟跃崎(1972),男,教授,博士。主要研究方向为数字化纺织服装。E-mail:zhyq 。目前,基于深度学习的虚拟试衣技术主要是利用二维(2-D)图像或者三维(3-D)重建,来模拟目标服装在消费者身上的试穿效果。其中,基于图像的二维虚拟试衣技术主要是使用薄板样条插值(TPS)实现服装的变形,通过服装与人体融合实现虚拟试穿。例如经典的 VITON 网络1使用从粗到细的网
4、络提取服装的纹理信息,并且通过 TPS 变换控制服装的变形,实现二维虚拟试衣。在此基础上,加入几何匹配模块和掩码最大化损失函数,可进一步对服装变形失真进行约束2。而后的方法引入 GAN 损失函数3,优化服装的变形服帖程度。文献4较好地解决了手臂对服装的遮挡问题,使得服装变形更加合理。文献5改善了图像分辨率的问题,但是二维试衣依旧存在弊端,不能真实地展示人体的体型信息和服装的侧面穿着效果。三维虚拟试衣离不开人体重建,常见算法包括参数化、非参数化以及混合法。其中,参数化方法的鼻祖为,通过模板参数驱动标准人体模板生成 具 有 不 同 体 型 和 姿 态 的 三 维 人 体 模型(SMPL)6;还有通
5、过在 SMPL 人体网格的顶点上加上偏移来表达服装7-8,其核心是在于将服装作为人体蒙皮,因此,对于穿着宽松服装的人体较难实现三维着装重建。非参数化方法则利用隐式曲面函数,如以文献9为代表的网络可以生成纹理较为丰富的三维着装人体。通过一个判别位置内外的隐式函数,预测一个连续空间上的内/外概率场,并在其中提取等值面得到人体表面。文献10则设计了一个结构敏感的网络学习隐式体素特征,减少了伪影和畸变的产生。混合法结合了上述二者的优点。如在隐式曲面函数框架下结合三维人体模型的姿态信息,并且增加了法线预测网络,增强了三维重建细节11。还有算法将参数化人体模型中提取特征约束隐式曲面函数12,缓解隐式曲面函
6、数产生伪影的问题。注意力机制是通过生成注意力图,让模型对注意力图中数值高的地方采取更大的计算权重,同时忽略注意力图中数值低的地方。很多相关工作均表明,使用注意力机制可以引导网络关注图像细节提高性能表现13-16。上述技术的进步使得寻找一个对输入要求最小,但是输出结果最优的方案成为可能。此类方法主要通过单张人物图像以及待试穿的服装单品图像,生成三维着装效果。如文献17报道的 M3D-第 7 期袁甜甜 等:基于注意力机制和视觉转换器的三维虚拟试衣网络 VTON 输入单张照片,即可通过融合服装变形信息和人体深度信息得到三维试穿结果,但是该网络生成的三维人体模型边缘存在黏连和伪影,服装变形出现失真。该
7、问题出现的原因之一是网络对图片在运算过程中的细节丢失。为提高 M3D-VTON 模型对于图像细节的计算,本文在此基础上,提出了一种基于注意力机制的三维虚拟试衣网络 T3D-VTON,通过输入用户图像和目标服装图像,即可端到端地得到用户试穿该服装的三维模型。1 T3D-VTON 的构成1.1 网络整体架构 图 1 示出 T3D-VTON 网络的整体架构。该网络主要由二维服装变形、深度估计和三维融合3 个模块组成,输入为用户图像 Iuser和目标服装图像Isku,输出为用户试穿该服装的三维模型 sku。图 1 T3D-VTON 整体网络结构Fig.1 T3D-VTON overall networ
8、k structure1.2 二维服装变形模块 为使变形的服装更加符合人体姿态,本文在TPS 变换前加入卷积注意力模块(包括通道注意力和空间注意力),使其关注到重要的特征,降低无关信息的干扰。图 2 示出卷积注意力模块(包括通道注意力和空间注意力 2 种特征优化机制)。图 2 卷积注意力模块Fig.2 Convolutional block attention module1.2.1 通道注意力 通道注意力(CAM)同时使用平均值池化和最大值池化,在输入特征图的空间维度上进行压缩,得到最终的一维矢量,实现聚合特征映射的空间信息,通过多层感知机(MLP)和逐元素加和,得到通道注意力图 Mc(F)
9、:Mc(F)=(MLP(MaxPool(F)+(MLP(AvgPool(F)=(W1(W0(Fcmax)+(W1(W0(Fcavg)式中:F 为 输 入 特 征 图;代 表 Sigmoid 运 算,MaxPool 为最大值池化,AvgPool 为平均值池化;W1、W0为 MLP 共享网络的权重;Fcmax为 F 通过最大池化层的特征图;Fcavg为 F 通过平均池化层的特征图。1.2.2 空间注意力 空间注意力(SAM)的输入为 CAM 输出的Mc(F)。SAM 的主要功能是对其进行平均值池化和最大值池化,从而将特征在通道维度进行压缩,然后合并卷积操作得到特征图 Ms(F):391 纺织学报第
10、 44 卷Ms(F)=(f(77)(AvgPool(F);MaxPool(F)=(f(77)(Fsavg;Fsmax)式中:F 为输入特征图(即 Mc(F);f(77)为卷积核为 77 的卷积操作;Fsmax为 F 通过最大池化层的特征图;Fsavg为 F 通过平均池化层的特征图。1.3 深度估计模块 深度估计对于推理二维图像上蕴含的三维信息至关重要。该模块的输入包括给定的前后深度图 Di、变形的服装 Cw、非目标服装身体部分 Ip和阴影信息 Ig。针对 M3D-VTON 网络存在边缘模糊、人物轮廓不清晰等问题,本文提出结合卷积神经网络和 Transformer,进行多尺度特征融合的深度估计网
11、络,如图3 所示。首先,以 ResNet50 作为骨干网络设计编码器-解码器结构。其中,编码器在多个尺度(分别为输入图像的 1/2、1/4、1/8、1/16)上提取 4 种不同分辨率 下 的 空 间 信 息 和 语 义 信 息。然 后,加 入Transformer 结构,每个 Transformer 层主要包含层归一化、多头注意力以及 MLP,利用 Transformer 兼顾全局信息以及局部重点信息的优势,进一步对提取到的特征进行处理。最后,解码器对提取到的特征进行上采样操作,并结合编码器提取到的多尺度特征,实现上下级特征融合以提高上下文信息的利用率,融合编码器提取到的语义信息和空间信息得到
12、更加准确的深度信息。图 3 深度估计网络Fig.3 Depth estimation network1.4 三维融合模块T3D-VTON 的三维融合模块采用与 M3D-VTON 相同的 U-net 网络,用于融合二维信息(如变形服装和人体分割图)和三维信息(如人体的前后视角下的深度图)。首先通过 U-net 得到网络的中间输出,即输入试穿着的二维试穿结果,其次通过着装人体的 RGB 图像和前后深度图,实现二维到三维的转换,从而合成三维试衣的着装点云,最后通过泊松重建得到封装好的三维着装人体模型 sku,具体流程如图 4 所示。在此过程中,通过深度信息的指导,既能恢复人体的几何形状,又能较好地恢
13、复着装人体服装表面细节和颜色纹理信息。图 4 三维融合流程图Fig.4 Flowchart of 3-D fusion network491第 7 期袁甜甜 等:基于注意力机制和视觉转换器的三维虚拟试衣网络 2 实验部分2.1 实验数据集 本文所用实验数据集为 MPV-3D 女装数据集,其中包含了6 566对图像组,分为目标服装、人物图像和前后深度图。图像尺寸为 512 像素320 像素。按照 6 1 的比例,将其中5 632张图像用于训练,934 张图像用于测试。2.2 实验设置 本文所有实验均在一台搭载 NVIDIA GeForceRTX 1080ti 双显卡(显存为 12 G)的电脑(P
14、C)上进行,采用 PyTorch 编程实现。在训练过程中,采用 Adam 优化器,辅以学习率衰减。将初始学习率设置为0.000 1,并在每完成第50 个轮次后,将此时学习率乘以 0.98 进行衰减,总计进行 100 轮次的训练。2.3 实验结果分析 本文从服装变形效果和深度估计的深度值误差来分析上述改进的具体效果。2.3.1 服装变形效果分析 对于服装变形效果,本文通过中间输出二维试穿效果予以定量和定性分析。定量评价。采用结构相似度(SSIM)18来评估二维试穿图像和真实图像之间的相似度,采用峰值信噪比(PSNR)19来评估图像的生成质量。二维试衣定量评价结果见表 1。可以看出,添加卷积注意力
15、模块后,结构相似度 SSIM 值增大了0.015 7,PSNR 值增大了 0.113 2。表明本文方法生成的图像质量更高,保留了大量的原始细节。表 1 二维试衣结果定量评价结果Tab.1 Quantitative evaluation result of 2-D virtual try-on网络名称SSIM 值PSNR 值M3D-VTON0.921 820.420 5T3D-VTON0.937 520.533 7定性比较。二维试衣效果对比结果如图 5 所示。在图 5(a)中,从左至右分别表示目标服装、原始人体图像、M3D-VTON 的二维试衣效果图像和T3D-VTON 的二维试衣效果图像。可以
16、看出,由T3D-VTON 得到的服装的标志合理变形至胸前位置,变形服装更加真实,充分捕捉到人体及目标服装的显著特征,很大程度上保留了目标服装的细节,变形服装更加符合人物的身形和姿态。从图 5(b)可看出,由本文提出的 T3D-VTON所得到的服装变形更加合理,与目标人物肩部轮廓图 5 二维试衣效果可视化比较Fig.5 Visual comparison of 2-D virtual try-on.(a)Comparisonof deformation of garment;(b)Comparison of deformationof garment and artifacts eliminat
17、ed;(c)Comparison oflogo preserved and artifacts eliminated图更相符,领口区域没有产生过度形变,肩部更符合目标人物身形。与之相比,原始 M3D-VTON 的结果中,在肩部区域存在伪影,而 T3D-VTON 有效减少了伪影的产生,从而得到更加完整的服装变形效果。从图 5(c)可看出,由 M3D-VTON 产生的试衣效果肩部衣服模糊,甚至裸露出大面积的人体肤色,换装后的短袖形状更接近原始穿着的几何区域,而T3D-VTON能够很好地保留短袖的几何形状,减少长袖变短袖、短袖变无袖的现象,同时领口的变形更加自然。以上结果表明本文提出的 T3D-VT
18、ON 所引入的卷积注意力模块,在处理复杂纹理时,能够有效规范服装变形和目标人物的融合,同时保留服装纹理的图案效果,如服装上的标志和文字。2.3.2 深度估计结果分析 深度估计主要影响三维试衣效果,其定量和定性比较分析如下。定量评价。本文采用绝对相对误差(AbsRel)591 纺织学报第 44 卷和平方相对误差(SqRel)来评价深度估计网络的效果。表 2 示出深度估计效果定量评价结果。相对于M3D-VTON 而言,本文提出的 T3D-VTON 网络,其AbsRel 值减小了 0.037,SqRel 值降低了 0.014。说明通过 T3D-VTON 得到的深度值更加符合真值,这是因为 Trans
19、former 和多尺度特征融合网络能够有效融合语义信息和空间信息,从而提高了深度估计的精度。表 2 深度估计效果定量评价结果Tab.2 Quantitative evaluation result of depth estimation网络名称AbsRel 值SqRel 值M3D-VTON7.2230.375T3D-VTON7.1860.361定性比较。图 6 示出优化后网络的定性比较结果。图中从左至右依次为目标服装、原始着装人体图像和 2 个网络输出结果的正面和侧面图像。在图 6(a)中可见人体呈现出更加清晰的轮廓边缘,同时消除了人体胳膊和腹部交界处的常见黏连问题。得益于 TPS 变形的合理
20、性和人体分割图的精确性,变形背心更加贴合人体身形,实现了更佳的三维试衣效果。图 6 三维人体模型可视化比较Fig.6 Visual comparison of 3-D human body.(a)Visualcomparison of abdominal adhesions in 3-D human body;(b)Visual comparison of abdominal and knee adhesionsin 3-D human body如图 6(b)所示,当人体的双膝较近时,本文提出的 T3D-VTON 网络可以有效地消除双膝之间的黏连,得到轮廓更加清晰的三维人体模型,再次证明该网络
21、所得深度信息更加符合人体形状。换言之,在深度信息的引导下,结合二维试衣图像,最终得到的三维人体模型在保证恢复人体轮廓的前提下,又能较好地恢复着装人体服装表面细节和纹理信息。3 结 论 本文对 M3D-VTON 网络进行了优化和改进,提出了基于注意力机制和 Transformer 的三维虚拟试衣网络 T3D-VTON。实验结果证明,增加的卷积注意力模块很好地指导了薄板样条插值变形参数的生成,约束了服装变形程度,并且使得生成的分割图更加精准,进一步保证了变形服装和人体身形和姿态的合理融合。使用 Transformer 能够更加精准地预测人体的前后深度信息,通过融合分割图信息、变形服装信息和深度估计
22、信息,更精准地预测三维虚拟试衣效果,可为基于单张照片的三维着装人体重建和虚拟试衣提供有益的参考。FZXB参考文献:1 HAN X T,WU Z X,WU Z,et al.Viton:an image-based virtual try-on network C/Proceedings of theIEEE Conference on ComputerVisionandPatternRecognition.New York:IEEE Communications Society,2018:7543-7552.2 WANG B C,ZHENG H B,LIANG X D,et al.Towardc
23、haracteristic-preservingimage-basedvirtualtry-onnetworkC/Proceedings of the European Conferenceon Computer Vision(ECCV).Berlin:Springer-Verlag,2018:589-604.3 GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial netsJ.Communications ofthe ACM,2014,27(2):2672-2680.4 HONDA S.Viton-gan:vi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 机制 视觉 转换器 三维 虚拟 试衣 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。