基于多尺度引导注意力的人物图像合成方法研究.pdf
《基于多尺度引导注意力的人物图像合成方法研究.pdf》由会员分享,可在线阅读,更多相关《基于多尺度引导注意力的人物图像合成方法研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷 第期 年月金 陵 科 技 学 院 学 报J OUR NA LO FJ I N L I NGI N S T I TUT EO FT E CHNO L O G YV o l ,N o M a r,D O I:/j c n k i /n 基于多尺度引导注意力的人物图像合成方法研究邬成,葛斌,郑海君,杨振文(安徽理工大学计算机科学与工程学院,安徽淮南 )摘要:针对现有生成对抗网络合成的人物图像存在的残缺和模糊问题,提出一种基于多尺度特征提取和姿势引导特征转换的人物图像合成方法.利用深度卷积神经网络对图像和姿势进行多尺度特征提取,有效获取丰富的语义信息;在不同尺度特征的转换过程中注入引导注意力机
2、制,利用姿势信息引导纹理特征进行正确转移和变换;使用马尔可夫判别网络(P a t c h G A N)作为判别器,增强对图像纹理细节的鉴别能力;最后在D e e p F a s h i o n数据集上进行测试.结果表明:在定量上,该方法的结构相似度(S S I M)达到了 ,峰值信噪比(P S N R)达到了 ,F r c h e t初始距离得分(F I D)达到了 ,可学习感知图像块相似度(L P I P S)达到了 ;在定性上,比传统方法合成的人物图像具有更好的视觉效果.所提方法能有效解决残缺和模糊问题,提高合成人物图像的质量.关键词:生成对抗网络;多尺度特征;特征转换;人物图像合成;引导
3、注意力机制中图分类号:T P 文献标识码:A文章编号:X()收稿日期:基金项目:国家自然科学基金青年项目();国家重点研发计划(Y F B );安徽省自然科学基金(Q F );安徽省博士后基金(B )作者简介:邬成(),男,安徽六安人,硕士研究生,主要从事计算机视觉研究.通信作者:葛斌(),男,安徽安庆人,教授,博士,主要从事机器学习、计算机视觉、网络与信息安全研究.R e s e a r c ho nH u m a nI m a g e S y n t h e s i sM e t h o dB a s e do nM u l t i s c a l eG u i d e dA t t e
4、n t i o nWUC h e n g,G EB i n,Z HE NG H a i j u n,YANGZ h e n w e n(A n h u iU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,H u a i n a n ,C h i n a)A b s t r a c t:A i m i n ga t t h ep r o b l e mo f i n c o m p l e t e a n db l u r r e dh u m a n i m a g e s s y n t h e s i z e db ye
5、 x i s t i n gg e n e r a t i v e a d v e r s a r i a l n e t w o r k s,ah u m a n i m a g e s y n t h e s i sm e t h o db a s e do nm u l t i s c a l e f e a t u r ee x t r a c t i o na n dp o s eg u i d e df e a t u r et r a n s f o r m a t i o ni sp r o p o s e d T h ed e e pc o n v o l u t i o n
6、 a ln e u r a ln e t w o r k i su s e dt oe x t r a c tm u l t i s c a l e f e a t u r e so f i m a g e sa n dp o s e s t oe f f e c t i v e l yo b t a i nr i c hs e m a n t i c i n f o r m a t i o n T h eg u i d e da t t e n t i o nm e c h a n i s mi s i n j e c t e d i n t h e c o n v e r s i o np
7、 r o c e s so fd i f f e r e n t s c a l e f e a t u r e s,a n dt h ep o s t u r e i n f o r m a t i o ni su s e dt oc o r r e c t l yg u i d et h et r a n s f e ra n dt r a n s f o r m a t i o no f t e x t u r e f e a t u r e s T h eM a r k o vd i s c r i m i n a n tn e t w o r k(P a t c h GAN)i su
8、 s e da sad i s c r i m i n a t o r t of u r t h e re n h a n c et h ea b i l i t yt od i s t i n g u i s hi m a g et e x t u r ed e t a i l s F i n a l l y,t e s t i n g i sc o n d u c t e do nt h eD e e p F a s h i o nd a t a s e t T h er e s u l t ss h o wa s f o l l o w s:Q u a n t i t a t i v e
9、 l y,t h es t r u c t u r a l s i m i l a r i t y(S S I M)o f t h ep r o p o s e dm e t h o dr e a c h e s T h ep e a ks i g n a l t o n o i s er a t i o(P S N R)r e a c h e s T h e F r c h e ti n c e p t i o n d i s t a n c es c o r e(F I D)r e a c h e s L e a r n a b l ep e r c e p t u a l i m a g
10、 ep a t c hs i m i l a r i t y(L P I P S)r e a c h e s Q u a l i t a t i v e l y,c o m p a r e dw i t ht h et r a d i t i o n a lm e t h o d s,t h es y n t h e s i z e dh u m a ni m a g e sh a v eb e t t e rv i s u a le f f e c t s T h ep r o p o s e dm e t h o dc a ne f f e c t i v e l ys o l v et
11、h ep r o b l e m so f i n c o m p l e t e n e s sa n db l u r r i n g,a n d i m p r o v e t h eq u a l i t yo f t h es y n t h e s i z e dh u m a n i m a g e s K e yw o r d s:g e n e r a t i v ea d v e r s a r i a ln e t w o r k s;m u l t i s c a l ef e a t u r e;f e a t u r et r a n s f o r m a t i
12、 o n;h u m a n i m a g es y n t h e s i s;g u i d e da t t e n t i o nm e c h a n i s m人物图像合成是计算机视觉的重要分支,作用在于将当前人物图像合成为给定姿势的人物图像,它在第期邬成,等:基于多尺度引导注意力的人物图像合成方法研究虚拟试衣、图像编辑、视频合成、人员重识别的数据增强等方面都有着广泛的应用.人体是非刚性的物体,不同姿势下的人物图像具有很大差异,尤其是在姿势变化较大时,可能会造成身体部位及服饰被遮挡.在这种情况下采用生成对抗网络(g e n e r a t i v ea d v e r s a r
13、 i a ln e t w o r k s,GAN)合成人物图像,会产生纹理残缺与细节模糊等问题.目前,基于生成对抗网络合成人物图像的方法有很多,大多为生成对抗网络与其他策略的结合.P i x p i x方法使用U N e t作为生成器,有效地利用输入图像和输出图像之间的结构信息来提高生成质量.但该方法对输入数据的质量和分布敏感,当源姿势与目标姿势差距过大时可能无法生成合理的结果.针对该问题,P G 方法使用两阶段生成方式来生成目标图像,第一阶段专注于人体结构的迁移,第二阶段在第一阶段的基础上使用对抗的训练方式来补充人体的纹理细节,更加关注外观的生成.但该方法由于分开处理姿势与纹理,导致有些结
14、果并不真实.P AT N是一种渐进式的姿态迁移方法,引入级联的姿态注意力迁移模块,利用姿态掩模引导网络将图像中人物的不同部分进行像素块迁移,提高了生成效果和训练效率.但该姿态迁移机制忽略了人物衣服纹理及其他信息的变化,导致合成的图像纹理模糊.A D GAN方法也运用级联方式,将人体属性分解并嵌入潜在空间,通过混合和插值操作实现对属性的灵活控制,达到人物图像的可控合成.但该方法对姿势的约束较少,容易出现图像失真问题.P I S E方法通过合成与目标姿态对齐的人体解析图来提高语义指导能力,并结合全局和局部的每个区域编码和标准化来预测隐形区域服装的合理风格,实现了服装形状和风格的解耦.但该方法预先使
15、用语义分割算法提取人物图像的解析图,会增加计算成本和引入误差.其他一些方法如D I A F、D I S T 等基于光流对图像的变换进行建模,但主要只对关键点周围的局部流进行估计,无法捕捉到全局的变化,导致整体图像效果并不理想.针对上述方法合成不同姿势人物图像存在的真实性欠缺问题,本文提出了一种基于多尺度特征和引导注意力的人物图像合成方法,通过提取的多尺度特征,在不同分辨率级别上运用引导注意力机制,合成指定姿势的真实人物图像.本文贡献有如下两点:一是采用不同卷积核的深度卷积神经网络对人物图像与姿势进行多尺度特征提取,充分了解人物纹理和姿态特征;二是增加引导注意力机制,通过探索人物图像特征和姿势特
16、征之间的关联性,在不同尺度特征层面使用引导注意力机制,利用姿势的变化引导纹理特征进行转换,合成清晰完整的目标人物图像.基本原理生成对抗网络是一种无监督深度学习模型,由生成器G和判别器D组成.生成器G与判别器D相互对抗,往复循环训练,使得合成的人物图像更加真实准确.生成对抗网络的整体结构如图所示.图生成对抗网络的整体结构生成器G的任务是生成接近真实图像概率分布的人物图像,目的是欺骗判别器D.判别器D的任务是判断这张人物图像是真实图像还是生成器G的产物,目的是找到生成器G生成的假图像.整个GAN的目标函数为:金陵科技学院学报第 卷m i nGm a xDLG AN(G,D)EIt,Isl gD(I
17、t,Is)EIsl g(D(Is,G(Is)()式中:G为生成器,D为判别器,L为目标函数简称,E为期望值,Is为源人物图像,It为真实目标人物图像,G(Is)为生成器生成的目标人物图像.GAN通过不断优化目标函数,训练生成器G将输入的噪声映射到真实数据的分布上,使生成器生成与真实图片相似的人物图像.人物图像合成网络本文提出的网络整体框架如图所示,主要由个子网络组成,分别是特征编码网络、特征转换网络和判别器网络.图人物图像合成网络结构图特征编码网络结构 特征编码网络特征编码网络(f e a t u r ee n c o d en e t w o r k,F E N)用于提取源图、源姿势和目标姿
18、势的多尺度特征,为下一步的多尺度引导注意力机制提供多特征输入.本文将特征编码网络分为两条并行路径(图),一条用于图像的编码,输入为源图Is,另一条用于姿势的编码,输入为源姿势Ps与目标姿势Pt的深度连接.每条路径有个预处理模块和个特征编码模块F E NB l o c k.预处理模块采用的是一个卷积核大小为的卷积,目的是统一所有输入特征的尺寸为(,).特征编码模块F E NB l o c k采用的是一个C o n v层、B N层、R e L U激活层与残差网络的组合.个F E N B l o c k卷积核的大小依次为、.特征转换网络特征转换网络(f e a t u r e t r a n s f
19、 o r mn e t w o r k,F T N)用于纹理特征的转换与目标图像的合成(图).特征转换网络的输入是多尺度的源人物图像特征FIs和姿势特征FPsPt,输出是经过姿势引导的目标人物图第期邬成,等:基于多尺度引导注意力的人物图像合成方法研究像Ig.F T N共包含个子合成网络,全程按照分辨率由低到高的方式合成最终目标人物图像.每个子转换网络运用了特制的引导注意力机制.图特征转换网络结构在每个子转换网络中,引导注意力模块(g u i d ea t t e n t i o nb l o c k,GAB l o c k)对不同分辨率的特征进行处理,全面捕捉整体姿势变化信息与内部纹理变化信息
20、,解决残缺和模糊的问题,通过姿势的变化引导纹理特征进行相应的转移和变换,合成完整且清晰的人物图像(图).图引导注意力网络结构引导注意力模块基于S e l f A t t e n t i o nGAN 改进得到,由于S e l f A t t e n t i o nGAN中注意力的特征输入单一,且只考虑图像自身内部的关联,而人物图像合成任务为姿势和图像的多源特征输入,需要姿势来指导图像特征转换,因而S e l f A t t e n t i o nGAN无法直接用于本文任务.本文改进后的引导注意力模块GAB l o c k输入是由F E N提取的多尺度特征FIs和FPsPt构成.在GAB l o
21、 c k中,首先对输入的特征分别进行一次卷积操作,目的是提取特征矩阵.由FIs和FPsPt联结之后的特征得到两个特征矩阵K、Q,由FPsPt得到一个特征矩阵V,其注意力图的计算公式可表示为:i,je x p(KjQi)nie x p(KjQi)()式中,i,j表示j位置对i位置的影响,i,j值越大,两个位置之间的相关性就越强.在获取了注意力图之金陵科技学院学报第 卷后,姿势信息将引导图像特征进行相应的转移与变换,合成目标人物图像.引导注意力层的输出为o(o,o,oi,oj,on).oinii,jVi()此外,为了防止部分纹理细节的丢失,通过初始化为的可学习参数将注意力层的输出o与输入的源图特征
22、FIs相结合,GAB l o c k的输出y表示为:yi oiFIs()其次,从第二个F T N子网络开始,运用残差思想将每个F T N子网络输出的图像融合特征Fk与下一个F T N子网络进行整合,确保图像的整体完整性与真实性.整个F T N网络流程表示为:FF TN(FPsPt,FIs)y()FkF TNk(F(k)PsPt,F(k)Is)ykFk,k,()最终,经过姿势引导后的目标人物图像Ig表示为:Igd e c o n v(F)()判别器网络为了更准确地判断生成的目标人物图像是否接近真实的目标人物图像,判别器网络采用马尔可夫判别器(P a t c h GAN)取代普通的判别器.整个判别
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 尺度 引导 注意力 人物 图像 合成 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。