基于StyleGAN的图像反演算法综述.pdf
《基于StyleGAN的图像反演算法综述.pdf》由会员分享,可在线阅读,更多相关《基于StyleGAN的图像反演算法综述.pdf(4页珍藏版)》请在咨信网上搜索。
1、SOFTWARE软 件2023第 44 卷 第 9 期2023 年Vol.44,No.9作者简介:李一凡(1998),女,河南新乡人,硕士研究生,研究方向:计算机视觉。基于 StyleGAN 的图像反演算法综述李一凡 杨萍(杭州电子科技大学人文艺术与数字媒体学院,浙江杭州 310000)摘要:StyleGAN 提供了有意义的潜空间,将真实图像反演(Inversion)到潜空间,再通过对潜空间的探索实现操纵真实图像,引起了众多研究者的关注,文章从基于反演方式和反演步骤两个角度分析总结了近年来图像反演算法的研究情况,并分析反演到不同潜空间的意义。关键词:图像反演;潜空间;StyleGAN中图分类号
2、:TP391.4 文献标识码:A DOI:10.3969/j.issn.1003-6970.2023.09.019本文著录格式:李一凡,杨萍.基于StyleGAN的图像反演算法综述J.软件,2023,44(09):084-087A Review of Image Inversion Algorithms Based on StyleGANLI Yifan,YANG Ping(School of Media and Design,Hangzhou Dianzi University,Hangzhou Zhejiang 310000)【Abstract】:StyleGAN provides mea
3、ningful latent space,inversion of real image to latent space and exploring latent space to manipulate real images has attracted the attention of many researchers,this paper analyzes and summarizes the research situation of image inversion algorithms in recent years from the perspectives of inversion
4、 method and inversion steps,and analyzes the significance of inversionto different latent spaces.【Key words】:image inversion;latent space;StyleGAN设计研究与应用0 引言GAN、VAE 等生成模型被提出,通过生成模型,低维数据得以转换到高维图像数据域,越来越多的 GAN模型,例如 StyleGAN1由于其可以生成高质量和多样性图像的能力,被更加广泛地应用于计算机视觉领域。GAN 模型学习到的数据的潜在分布(潜空间),具有丰富的语义信息,操纵这些语义信息
5、可以修改图像的属性,例如,操纵从人脸图像学习到的语义分布,可以改变人脸的属性。然而,上述操纵潜空间来修改图像属性的操作只适用于 GAN 生成的图像。为了能够用此方法操纵真实图像,图像反演提出,将真实图像反演到(也可以称为嵌入)GANs 的潜空间中得到真实图像的潜码,通过 GANs 的生成器,潜码可以最大程度地重建原图像,即得到的潜码尽量含有原图的语义信息。将真实图像逆映射到 GANs 的潜空间后,就可以通过操作潜码的方式,修改真实图像的属性。本文将目前的反演方法划分为基于反演方式和基于反演步骤,从这两个角度来阐述和总结目前基于 GAN的潜空间反演方法以及分析图像反演算法存在的不足,和未来面对的
6、挑战。1 图像反演的主要方法图像反演的方法,可以分为三类:(1)基于潜码优化的方法;(2)基于训练逆推编码器的方法;(3)基于潜码优化和训练编码器结合的方法。反演方法图示如图 1 所示。图 1 反演方法图示Fig.1 Inversion method diagram1.1 基于潜码优化这类方法,对于输入图像,首先从正态分布中任意85李一凡 杨萍:基于 StyleGAN 的图像反演算法综述采样一个潜码 z,将潜码 z 输入 GANs 的生成器中,得到图像 G(z)(G 为预训练的生成器),最小化输入图像X 和 G(z)在图像特征空间的距离,一般为 lpips 感知损失和像素级别的 L1,L2 损
7、失。基于潜码优化如式(1)所示:z*=argmin L(G(z),x)(1)此类方法通过反向传播,不断优化得到式(1)的最优解,定义 z*即为输入的真实图像在潜空间对应的潜向量。如图 1 第一行所示,对于迭代优化的方法来说,选择优化器是至关重要的,因为一个好的优化器有助于缓解局部最小值问题。主要的优化器有:基于梯度的 ADAM 和无梯度的协方差自适应矩阵 CMA,无梯度优化的方式更加耗费时间。Image2StyleGAN2应用了ADAM 优化器,并且分析了当初始潜码为任意采样和平均潜码的不同,并证实了对于不同的数据集,不同的初始潜码影响最终的反演效果,对于人脸数据集初始潜码为平均潜码,最终得到
8、低得多的损失值。但是,对于其他类别的图像(例如狗),随机初始化被证明是更好的选择。对于潜码化的方法来说,缺点是对于每一张输入图像都需要一个花费时间和内存的迭代过程。1.2 基于训练逆推编码器由于基于优化的反演方法在推理过程中,要花费大量的计算时间,因此基于编码器的方法被提出,在大量的数据上,训练一个编码器,根据式(2),编码器提取图像特征,将特征图映射到低维潜空间,生成器将潜码重新映射回图像空间,得到重建的图像,通过与优化方法一样的损失,反向传播,不断的优化编码器的参数。如图 1 第二行所示。最后训练好的编码器可以为输入图像快速地得到一个潜空间的潜码,用于下游的操纵任务。基于训练逆推编码器如式
9、(2)所示:()()()*,EEnEnnargminL G E xx=(2)实验证明,虽然相比优化潜码的方法,其有较快的推理速度,但是由于基于编码器的方法是从大量的训练图像中学习到的信息,但是它一般重建的是训练图像的平均状态,因此它对于图像的差异化信息(边缘信息)的重建效果不佳,基于训练编码器得图像反演方法,它推理结果的重建效果一般较差。基于编码器的方法是近来研究最多的方法,放在第三章重述。1.3 基于潜码优化和训练编码器结合的方式基于结合的方式是,首先通过训练一个单独的编码器来预测一个给定的潜码,使用得到的 z 作为初始化进行优化。如图 1 第三行所示。这种方法是解决优化编码器产生的潜码总是
10、趋于分布的平均状态的一种方式,使得优化后的潜码学习到分布边缘的信息,能够更加还原输入图像。有的研究者把对生成器参数的优化归为此类,本篇认为是不准确的,因为对生成器参数优化去拟合数据的分布过程,潜码没有变化。2 潜空间性质分析Z 空间:Z 空间中的潜码是从正态分布中采样得到的,Z 空间适用于所有的无条件 GAN 模型,如StyleGAN。W 空间:W 空间是指从 Z 空间采样的向量经过StyleGAN 预训练的 8 层全连接网络,映射到的空间,描述为 w W,z Z,w=M(z),W 空间相较于 Z 空间学习了分布的解纠缠性质,更利于单一属性编辑。W+空间:w*W+,w*指从 W 空间采样不同的
11、18 个 w 潜码组成的 18512 大小的潜在向量(输入图片大小为 1024)。它比 512 维的 w 潜码有更丰富的信息,因此能更好地重建原图。然而这个重建效果是以降低可编辑性为牺牲的,也就是第三节提到的高保真度和可编辑性的权衡。F 空间:Kyoungkook Kang 等人3首先提出的 F/W+,这个空间由作为 StyleGAN 生成器某一层(假设为 m 层)经过自适应归一化之前特征图的 Latent Map fm和 Wm,.Wn 组成。描述为,w*=(fm,w+)。由于 w*是高分辨率的潜在向量,其中的 fm包含图像空间信息,所以可以更好地重建原图,但是没有低分辨率的潜向量易于编辑。如
12、表 1 所示为潜空间维度总结。表 1 不同潜空间维度对此Tab.1 Different dimensions of latent space潜空间Z 空间W 空间W+空间F 空间维度1512151218512 6464512&11512此表默认输入图像是 1024 大小,以及 F 空间特征图与生成器第八层特征图大小一致。3 高质量反演的两个步骤3.1 基于编码器的图像嵌入此部分编码器的设计以及潜空间的选择是基于高保真度、感知性和可编辑性这三个特征。在高保真度和可编辑性中间有一个权衡,即反演得到的潜在编码如果拥好的重建效果,那么它就会失去较好的可编辑性能。Richardson 等人4提出一个三层
13、的金字塔特征提取框架,如图 2 所示,其包含一个 Map2Style 下采样模块,此模块将提取到的不同大小的特征图,从上到下直接映射到 W+空间,此方法更关注的是人脸图像的重建效果,因此它的损失函数除了感知损失和第二范式,还引入了 Arcface 人脸识别损失。此方法从粗到细提取86软 件第 44 卷 第 9 期SOFTWARE特征的框架被用作后续图像反演的 Backbone。Tov 等人5,为了在重建和编辑权衡中找到一个合适的点,它不同于直接编码潜向量至 W+空间,而是从金字塔特征提取到的最后一层特征编码到 W 空间的潜在向量 w,并且从 w 生成一组偏移,这些偏移初始都是0,即潜向量全部来
14、自 W 空间,之后鼓励编码器生成的偏移改变,并且约束每一个偏移都不同,使得潜向量学习到更多信息,保证了潜向量的重建效果。其还对偏移采用第二范式约束,使其不特别远离 W 空间,保持可编辑性。此方法确实拥有比较理想的编辑感知效果,被广泛用于下游的编辑工作中。当反演得到的潜码离 W 空间越近,那么其具有越好的编辑功能,但是是以牺牲重建效果为代价的,因为当潜码的维度越小,那么包含的信息就越少(Low-rate和 High-rate 的权衡),因此 Xu Yao6提出将潜码映射到 F/W 空间,F 是编码器提取的高维特征张量,其相较于 1512 维的 w 潜码能够捕获空间信息,将 F 作为生成器第 5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 StyleGAN 图像 反演 算法 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。