基于StyleGAN的图像反演算法综述.pdf

上传人：自信****多点

文档编号：2077236

上传时间：2024-05-15

格式：PDF

页数：4

大小：1.56MB

《基于StyleGAN的图像反演算法综述.pdf》由会员分享，可在线阅读，更多相关《基于StyleGAN的图像反演算法综述.pdf（4页珍藏版）》请在咨信网上搜索。

1、SOFTWARE软件2023第 44 卷第 9 期2023 年Vol.44,No.9作者简介：李一凡（1998），女，河南新乡人，硕士研究生，研究方向：计算机视觉。基于 StyleGAN 的图像反演算法综述李一凡杨萍（杭州电子科技大学人文艺术与数字媒体学院，浙江杭州 310000）摘要：StyleGAN 提供了有意义的潜空间，将真实图像反演（Inversion）到潜空间，再通过对潜空间的探索实现操纵真实图像，引起了众多研究者的关注，文章从基于反演方式和反演步骤两个角度分析总结了近年来图像反演算法的研究情况，并分析反演到不同潜空间的意义。关键词：图像反演；潜空间；StyleGAN中图分类号

2、：TP391.4 文献标识码：A DOI：10.3969/j.issn.1003-6970.2023.09.019本文著录格式：李一凡,杨萍.基于StyleGAN的图像反演算法综述J.软件,2023,44(09):084-087A Review of Image Inversion Algorithms Based on StyleGANLI Yifan,YANG Ping(School of Media and Design,Hangzhou Dianzi University,Hangzhou Zhejiang 310000)【Abstract】：StyleGAN provides mea

3、ningful latent space,inversion of real image to latent space and exploring latent space to manipulate real images has attracted the attention of many researchers,this paper analyzes and summarizes the research situation of image inversion algorithms in recent years from the perspectives of inversion

4、 method and inversion steps,and analyzes the significance of inversionto different latent spaces.【Key words】：image inversion;latent space;StyleGAN设计研究与应用0 引言GAN、VAE 等生成模型被提出，通过生成模型，低维数据得以转换到高维图像数据域，越来越多的 GAN模型，例如 StyleGAN1由于其可以生成高质量和多样性图像的能力，被更加广泛地应用于计算机视觉领域。GAN 模型学习到的数据的潜在分布（潜空间），具有丰富的语义信息，操纵这些语义信息

5、可以修改图像的属性，例如，操纵从人脸图像学习到的语义分布，可以改变人脸的属性。然而，上述操纵潜空间来修改图像属性的操作只适用于 GAN 生成的图像。为了能够用此方法操纵真实图像，图像反演提出，将真实图像反演到（也可以称为嵌入）GANs 的潜空间中得到真实图像的潜码，通过 GANs 的生成器，潜码可以最大程度地重建原图像，即得到的潜码尽量含有原图的语义信息。将真实图像逆映射到 GANs 的潜空间后，就可以通过操作潜码的方式，修改真实图像的属性。本文将目前的反演方法划分为基于反演方式和基于反演步骤，从这两个角度来阐述和总结目前基于 GAN的潜空间反演方法以及分析图像反演算法存在的不足，和未来面对的

6、挑战。1 图像反演的主要方法图像反演的方法，可以分为三类：（1）基于潜码优化的方法；（2）基于训练逆推编码器的方法；（3）基于潜码优化和训练编码器结合的方法。反演方法图示如图 1 所示。图 1 反演方法图示Fig.1 Inversion method diagram1.1 基于潜码优化这类方法，对于输入图像，首先从正态分布中任意85李一凡杨萍：基于 StyleGAN 的图像反演算法综述采样一个潜码 z，将潜码 z 输入 GANs 的生成器中，得到图像 G(z)（G 为预训练的生成器），最小化输入图像X 和 G(z)在图像特征空间的距离，一般为 lpips 感知损失和像素级别的 L1，L2 损

7、失。基于潜码优化如式（1）所示：z*=argmin L(G(z),x)（1）此类方法通过反向传播，不断优化得到式（1）的最优解，定义 z*即为输入的真实图像在潜空间对应的潜向量。如图 1 第一行所示，对于迭代优化的方法来说，选择优化器是至关重要的，因为一个好的优化器有助于缓解局部最小值问题。主要的优化器有：基于梯度的 ADAM 和无梯度的协方差自适应矩阵 CMA，无梯度优化的方式更加耗费时间。Image2StyleGAN2应用了ADAM 优化器，并且分析了当初始潜码为任意采样和平均潜码的不同，并证实了对于不同的数据集，不同的初始潜码影响最终的反演效果，对于人脸数据集初始潜码为平均潜码,最终得到

8、低得多的损失值。但是，对于其他类别的图像（例如狗），随机初始化被证明是更好的选择。对于潜码化的方法来说，缺点是对于每一张输入图像都需要一个花费时间和内存的迭代过程。1.2 基于训练逆推编码器由于基于优化的反演方法在推理过程中，要花费大量的计算时间，因此基于编码器的方法被提出，在大量的数据上，训练一个编码器，根据式（2），编码器提取图像特征，将特征图映射到低维潜空间，生成器将潜码重新映射回图像空间，得到重建的图像，通过与优化方法一样的损失，反向传播，不断的优化编码器的参数。如图 1 第二行所示。最后训练好的编码器可以为输入图像快速地得到一个潜空间的潜码，用于下游的操纵任务。基于训练逆推编码器如式

9、（2）所示：()()()*,EEnEnnargminL G E xx=（2）实验证明，虽然相比优化潜码的方法，其有较快的推理速度，但是由于基于编码器的方法是从大量的训练图像中学习到的信息，但是它一般重建的是训练图像的平均状态，因此它对于图像的差异化信息（边缘信息）的重建效果不佳，基于训练编码器得图像反演方法，它推理结果的重建效果一般较差。基于编码器的方法是近来研究最多的方法，放在第三章重述。1.3 基于潜码优化和训练编码器结合的方式基于结合的方式是，首先通过训练一个单独的编码器来预测一个给定的潜码，使用得到的 z 作为初始化进行优化。如图 1 第三行所示。这种方法是解决优化编码器产生的潜码总是

10、趋于分布的平均状态的一种方式，使得优化后的潜码学习到分布边缘的信息，能够更加还原输入图像。有的研究者把对生成器参数的优化归为此类，本篇认为是不准确的，因为对生成器参数优化去拟合数据的分布过程，潜码没有变化。2 潜空间性质分析Z 空间：Z 空间中的潜码是从正态分布中采样得到的，Z 空间适用于所有的无条件 GAN 模型，如StyleGAN。W 空间：W 空间是指从 Z 空间采样的向量经过StyleGAN 预训练的 8 层全连接网络，映射到的空间，描述为 w W，z Z，w=M(z)，W 空间相较于 Z 空间学习了分布的解纠缠性质，更利于单一属性编辑。W+空间：w*W+，w*指从 W 空间采样不同的

11、18 个 w 潜码组成的 18512 大小的潜在向量（输入图片大小为 1024）。它比 512 维的 w 潜码有更丰富的信息，因此能更好地重建原图。然而这个重建效果是以降低可编辑性为牺牲的，也就是第三节提到的高保真度和可编辑性的权衡。F 空间：Kyoungkook Kang 等人3首先提出的 F/W+，这个空间由作为 StyleGAN 生成器某一层（假设为 m 层）经过自适应归一化之前特征图的 Latent Map fm和 Wm，.Wn 组成。描述为，w*=(fm,w+)。由于 w*是高分辨率的潜在向量，其中的 fm包含图像空间信息，所以可以更好地重建原图，但是没有低分辨率的潜向量易于编辑。如

12、表 1 所示为潜空间维度总结。表 1 不同潜空间维度对此Tab.1 Different dimensions of latent space潜空间Z 空间W 空间W+空间F 空间维度1512151218512 6464512&11512此表默认输入图像是 1024 大小，以及 F 空间特征图与生成器第八层特征图大小一致。3 高质量反演的两个步骤3.1 基于编码器的图像嵌入此部分编码器的设计以及潜空间的选择是基于高保真度、感知性和可编辑性这三个特征。在高保真度和可编辑性中间有一个权衡，即反演得到的潜在编码如果拥好的重建效果，那么它就会失去较好的可编辑性能。Richardson 等人4提出一个三层

13、的金字塔特征提取框架，如图 2 所示，其包含一个 Map2Style 下采样模块，此模块将提取到的不同大小的特征图，从上到下直接映射到 W+空间，此方法更关注的是人脸图像的重建效果，因此它的损失函数除了感知损失和第二范式，还引入了 Arcface 人脸识别损失。此方法从粗到细提取86软件第 44 卷第 9 期SOFTWARE特征的框架被用作后续图像反演的 Backbone。Tov 等人5，为了在重建和编辑权衡中找到一个合适的点，它不同于直接编码潜向量至 W+空间，而是从金字塔特征提取到的最后一层特征编码到 W 空间的潜在向量 w，并且从 w 生成一组偏移，这些偏移初始都是0，即潜向量全部来

14、自 W 空间，之后鼓励编码器生成的偏移改变，并且约束每一个偏移都不同，使得潜向量学习到更多信息，保证了潜向量的重建效果。其还对偏移采用第二范式约束，使其不特别远离 W 空间，保持可编辑性。此方法确实拥有比较理想的编辑感知效果，被广泛用于下游的编辑工作中。当反演得到的潜码离 W 空间越近，那么其具有越好的编辑功能，但是是以牺牲重建效果为代价的，因为当潜码的维度越小，那么包含的信息就越少（Low-rate和 High-rate 的权衡），因此 Xu Yao6提出将潜码映射到 F/W 空间，F 是编码器提取的高维特征张量，其相较于 1512 维的 w 潜码能够捕获空间信息，将 F 作为生成器第 5

15、层的特征图，向生成器中注入高维特征的空间结构信息，生成图像具有更高保真度，来自 W 空间的剩余潜码保证了后续调整特征图的细节。但是由于其潜空间性质的变化，传统得到编辑图的编辑方法Iedit=G(w+w)(w 为 W，W+潜空间属性编辑方向)，不能在作用于此空间，为了保证可编辑，其提出了F空间特有的编辑方式 Iedit=G(w+w，fm+Gm(w+w)-Gm(w)。Hongyu Liu 等人7，同 Tov 等人一样也是在重建和编辑之间找到一个平衡点，在金字塔特征提取结构上改进，不同于上述工作直接将图像嵌入到 W+或者 F 空间，而是参考 Tov 从金字塔层级结构学习一个来自 W空间的潜码，并且引

16、入对比学习对齐 W 空间和真实图像空间，再通过交叉注意力从 W 空间转换到 W+，F 空间，从 W 空间转换得到的 W+，F 空间的潜在向量和 W空间紧密相关，拥有其可编辑的特性和高维空间本身高保真度的特性。总结：上述方法，都是分析潜空间的性质，找到一个平衡编辑和重建的潜向量，虽然 F 空间实现了部分域外信息域内化，然而由于上述依旧是针对生成器域内的信息进行编码，并且生成下游的风格自动适应归一化模块，只是对于特征图整体的调整，所以变化后的下游潜码会改变高维 Latent Map 带来的域外信息。于是在此基础上，研究者们着重关注在域外信息上，提出反演优化，使此部分编码器固定。3.2 反演优化鉴于

17、上一步遇到的困境，潜在代码只能重建粗信息，并从原始图像中删除细节，即它们不能忠实地反演那些不来自训练数据分布的图像（域外信息）。在此基础上，反演优化的方法被提出，一般情况下，图像嵌入得到的潜向量不会再发生变化（保持可编辑性）。因此，最近的许多工作集中于通过调制额外的高分辨率信息来细化结果，这些方法主要分为权重调制和特征调制。权重调制一般是指对生成器网络的参数调整，如图 3 所示，特征调制是对生成器中间层的特征图加入高分辨率信息，如图 4 所示。图2 金字塔特征提取框架 Fig.2 Pyramid Feature Extraction Framework 图 3 生成器参数调整 Fig.3 Ge

18、nerator Parameter Adjustment 图 4 生成器特征图调整 Fig.4 Generator feature map adjustment latent maps G feature map modulat latent code 图 3 生成器参数调整Fig.3 Generator parameter adjustmentlatentmapsGfeature mapmodulation图 4 生成器特征图调整Fig.4 Generator feature map adjustment3.2.1 生成器参数调整例如，PTI8，提出微调生成器的卷积层权重，使得潜在向量不变的

19、情况下，依旧采用感知损失和 MSE损失，更新迭代生成器的权重，如式（3）所示，使得生成器去拟合训练数据集的分布，因此生成器输出的图像更接近输入图像，此外其还在潜空间中任意采样与编码器得到的潜码插值得到，将其也送入生成器，对潜码局部正则化，保证潜码的编辑质量。生成器调优可以获得较好的反演性能，缺点是优化花费较长的时间。HyperStyle9也是通过调整 StyleGAN 生成器参数的方法，不同于 PTI，其通过超网络，为生成器每一卷积层权重学习了参数偏移，超网络的每层模块参数共享，相比于直接调整生成器每一层网络的参数，减少了参数量，节省了内存和时间。图 2 金字塔特征提取框架Fig.2 Pyra

20、mid feature extraction framework z CNN z G map2style map2style map2style 87李一凡杨萍：基于 StyleGAN 的图像反演算法综述()()()*,GGnGnnargminL G E xx=（3）3.2.2 生成器特征图调制HFGI 等人10，将上一步编码器得到的潜码重建原图丢失的部分称为残差图，其选用 e4e 编码器，保证可编辑性。为残差图设计一个自适应失真对齐模块（此模块也适用于编辑图像产生的残差图）。将残差图，通过预训练的 encder-decoder 结构的对齐模块，将残差信息与输出图像对齐，后特征提取为 646

21、4 大小的latent map fi，fi分解为结构特征图 gi和高频特征图 hi，通过门控融合的方法自适应的调整生成器中的特征图，表达式如式（4）所示，Fi 为经过自适应归一化后的特征图。此方法恢复低频率潜码损失的信息，实现更高的保真度，但是实验结果得到的图像，尤其是潜码改变后的编辑图像，由于残差图背景不会随着潜码的变化而改变，因此会出现伪影。1iiiiFg Fh+=+（4）Pu Cao 等人11提出对生成器参数调制和特征调制结合的方法。采用区域感知分割的方法将图像中域外信息用遮罩提取出来，具体使用超像素算法，将输入图像划分为多个区域，感知损失大的区域，即为无法反演重建出来的域外信息。训练的

22、网络提取特征得到 latent mapf，后与生成器第 l 层的特征图 fl通过下采样的掩码融合，作为此层的新特征图，后送入自适应归一化模块，表达式如式（5）所示。除此之外，其对于域内信息（人脸部分）通过微调生成器参数，使其更接近输入图像真实人脸。该方法能实现重建原图和保持高质量编辑的 SOTA 的效果，缺点是步骤繁琐。f*=m fl+(1-m)f （5）4 结语目前基于 StyleGAN 的图像反演方法主要分为：（1）基于潜码优化；（2）基于训练逆推编码器；（3）基于混合的方法。由于潜码优化耗时，主要采用基于编码器方法，但是编码器不能很好地重建原图，于是研究者考虑潜空间性质，将图像嵌入扩展到

23、高维空间（W+、F 等空间），并且更多的研究者从反演的下游编辑任务出发，考虑潜空间可编辑性的权衡。然而实验观察上述反演会出现人脸靠近平均人脸，边缘信息缺失等情况，因此反演优化的方法被提出着重解决此问题，这一部分是在第一步的基础上通过优化生成器参数或者调制生成器特征图来实现的。值得注意的是感知性和可编辑性是从第一步中继承而来的。在实际应用中，如果潜在向量不能被编辑或生成感知质量良好的图像，细化后的结果仍然表现出相同的效果。因此，获得具有更好的性能的潜在码依旧是目前图像反演方法的挑战。参考文献1 KARRAS T,LAINE S,AILA T,et al.A Style-based Generat

24、or Architecture for Generative Adversarial NetworksC/IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:4396-4405.2 ABDAL R,QIN Y,WONKA P,et al.Image2StyleGAN:How to Embed Images Into the StyleGAN Latent Space?C/IEEE/CVF International Conference on Computer Vision(ICCV),2019:4

25、431-4440.3 KYOUNGKOOK K,SEONGTAE K.GAN Inversion for Out-of-range Images With Geometric Transformations C/IEEE/CVF International Conference on Computer Vision(ICCV),2021:13921-13929.4 RICHARDSON E,ALALUF Y,PATASHNIK O,et al.Encoding in Style:A StyleGAN Encoder for Image-to-image TranslationC/IEEE/CV

26、F Conference on Computer Vision and Pattern Recognition(CVPR),2021:2287-2296.5 TOV O,ALALUF Y,NITZAN Y,et al.Designing an Encoder for StyleGAN Image ManipulationJ.ACM Transactions on Graphics,2021(40):1-14.6 YAO X,NEWSON A,GOUSSEAU Y,et al.A Style-based Gan Encoder for High Fidelity Reconstruction o

27、f Images and VideosC/European Conference on Computer Vision,2022:581-597.7 LIU H,SONG Y,CHEN Q,et al.Delving StyleGAN Inversion for Image Editing:A Foundation Latent Space ViewpointC/IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2023:10072-10082.8 ROICH D,MOKADY R,BERMANO A H,

28、et al.Pivotal Tuning for Latent-based Editing of Real ImagesJ.ACM Transactions on Graphics(TOG),2022,42(1):1-13.9 ALALUF Y,TOV O,MOKADY R,et al.HyperStyle:StyleGAN Inversion with HyperNetworks for Real Image EditingC/In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognitio

29、n,2022.10 WANG T,ZHANG Y,FAN Y,at al.High-fidelity GAN Inversion for Image Attribute EditingC/IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2022:11369-11378.11 CAO P,YANG L,LIU D X,et al.What Decreases Editing Capability?Domain-Specific Hybrid Refinement for Improved GAN InversionJ.2023.

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 StyleGAN 图像反演算法综述

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。