基于条件残差生成对抗网络的风景图生成.pdf
《基于条件残差生成对抗网络的风景图生成.pdf》由会员分享,可在线阅读,更多相关《基于条件残差生成对抗网络的风景图生成.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 图 学 学 报 August2023第 44 卷 第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期:2022-11-17;定稿日期:2023-02-21 Received:17 November,2022;Finalized:21 February,2023 基金项目:国家自然科学基金项目(62162065);云南省科技厅应用基础研究计划重点项目(2019FA044);云南省中青年学术技术带头人后备人才项目(2019HB121);云南大学研究生科研创新项目(ZC-22222502)Foundation items:National Natur
2、al Science Foundation of China(62162065);Key Project of Applied Basic Research Plan of Yunnan Provincial Department of Science and Technology(2019FA044);Yunnan Young and Middle-Aged Academic and Technical Leaders Reserve Talents Project(2019HB121);Postgraduate Research and Innovation Foundation of Y
3、unnan University(ZC-22222502)第一作者:邵俊棋(1997),男,硕士研究生。主要研究方向为计算机视觉和图像生成。E-mail: First author:SHAO Jun-qi(1997),master student.His main research interests cover computer vision and image generation.E-mail: 通信作者:钱文华(1980),男,教授,博士。主要研究方向为图像处理和计算机视觉等。E-mail: Corresponding author:QIAN Wen-hua(1980),profess
4、or,Ph.D.His main research interests cover graphic image processing and computer vision,etc.E-mail: 基于条件残差生成对抗网络的风景图生成 邵俊棋,钱文华,徐启豪(云南大学信息学院计算机科学与工程系,云南 昆明 650504)摘要:风景图像的语义分割图中包含天空、白云、山川、树木、河流等大量类别信息,针对语义分割图中存在的信息类别过多、不同区域间的色彩变换不明显等问题,现有方法生成的风景图像在清晰度和真实性上效果并不理想。因此提出了一种基于条件残差生成对抗网络(CRGAN)方法,用于生成清晰度更高和
5、内容更真实的风景图像。首先,优化生成器网络的上采样和下采样结构,提升生成器对语义分割图的特征提取效果。其次,在编码器和解码器之间使用跳跃连接传递语义分割图的特征信息,防止特征信息在编码器中传递丢失,保留特征信息的完整性。最后,在网络的编码器和解码器之间添加残差模块,以便更好地提取、传输和保留语义信息。此外,方法中采用均方差(MSE)提升语义分割图和生成图像之间的相似度。实验结果表明,相较于 pix2pix 和 cyclegan方法,CRGAN 生成的图像在 FID 指标中分别增加了 26.769 和 119.333,有效提升了风景图像的清晰度和真实性。同时使用公共数据集验证了 CRGAN 的泛
6、用性和有效性。关键词:生成对抗网络;风景图像;图像生成;深度学习;清晰度 中 图 分 类 号:TP 391 DOI:10.11996/JG.j.2095-302X.2023040710 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)04-0710-08 Landscape image generation based on conditional residual generative adversarial network SHAO Jun-qi,QIAN Wen-hua,XU Qi-hao(Department of Computer Science Enginee
7、ring,School of Information Science and Engineering,Yunnan University,Kunming Yunnan 650504,China)Abstract:The semantic segmentation map of landscape image encompasses a large number of categorical information such as the sky,white clouds,mountains,rivers,and trees.In view of the challenges presented
8、 by the numerous information categories in the semantic segmentation map and the subtle color transformations between different regions,the landscape images generated by current methods are deficient in terms of both clarity and authenticity.Consequently,a method based on conditional residual genera
9、tion adversarial network(CRGAN)was proposed to generate landscape images with a higher resolution and more realistic content.Firstly,the proposed method involved the upsampling and downsampling structures of the generator network to enhance the feature extraction effect of the generator on the seman
10、tic segmentation graph.Secondly,skip connections were utilized between the encoder and 第 4 期 邵俊棋,等:基于条件残差生成对抗网络的风景图生成 711 1 decoder to transmit the feature information from the semantic segmentation graph,ensuring the integrity of such information was retained,and not lost in the encoder.Finally,a r
11、esidual module was added between the encoder and decoder of the network,facilitating better extraction,transmission,and retention of semantic information.In addition,the mean square error(MSE)was employed to enhance the similarity between semantically segmented graphs and generated images.The experi
12、mental results demonstrated that compared with pix2pix and cyclegan methods,the FID index of images generated by CRGAN increased by 26.769 and 119.333,respectively.This improvement effectively enhanced the clarity and authenticity of landscape images.The universality and validity of CRGAN were also
13、validated using a common dataset.Keywords:generative adversarial network;landscape image;image generation;deep learning;clarity 随着深度学习的快速发展,图像生成1-5任务受到越来越多研究者的关注。风景图像的生成作为图像生成领域的重要分支,是通过何种方法将语义分割图生成一幅清晰度高6-9,且内容真实的图像仍是计算机视觉领域的研究热点。早期图像生成任务由 GOODFELLOW 等10提出的生成对抗网络(generative adversarial network,GAN)
14、算法完成,GAN 模型包含 2 个部分:生成器(Generator)和判别器(Discriminator),二者通过博弈达到一种动态平衡,使生成器产生理想的样本11-12。GAN 在训练样本时,网络能够快速完成收敛,生成目标图像,但 GAN 是无监督网络,在生成图像的过程中没有条件约束,生成的结果较为随机,效果也不理想。且 GAN 在训练过程中可能会发生梯度消失等问题,使网络的稳定性降低。随着对 GAN 的不断探索和研究,MIRZA 和OSINDERO13在 GAN 的基础上增加标签作为条件约束,提出条件生成对抗网络(conditional generative adversarial net
15、work,CGAN)。CGAN 相较于 GAN首先在输入上不同,CGAN 在输入中额外附加了标签信息作为条件,标签内包含了需要生成目标的类别信息等。标签则在生成器生成样本的过程中作为条件和指导方向,以便更好地生成样本14,CGAN增加约束后,使网络从无监督学习变为有监督学习15,约束了生成器网络输入噪音的随机范围,减小了因其导致的生成样本内容的不可控性。其次CGAN 的判别器除了计算生成图像与真实图像间的损失,还对生成的类别进行判定,以此生成更准确的目标样本。但 CGAN 在对图像进行编码时,图像特征信息会在 Encoder-Decoder 中传递时部分丢失,导致生成的图像清晰度不高、纹理不清
16、晰。ISOLA 等16提出了 pix2pix 算法,并在 CGAN 的Encoder-Decoder 中使用跳跃连接,图像在 Encoder网络经不同编码层编码后,将特征信息输入到下一层和相应的解码层,有效解决了网络在生成图像时的特征丢失问题。然而,pix2pix 网络生成的图像清晰度依然不理想,其效果有待进一步提升。综上所述,现有方法生成的风景图像在清晰度和内容的真实性等方面并不理想。本文提出了一种基于条件残差生成对抗网络(conditional residual generative adversarial network,CRGAN)的方法,首先在生成器模型中优化 Encoder-Dec
17、oder 网络的层数,同时使用跳跃连接,提升生成器在下采样时提取特征的效果,进而提升生成器生成图像的效果。其次在生成器中增加残差块组成残差网络,有效防止了神经网络的退化,同时可提升对图像特征信息的提取、保留和传递,及网络生成图像的清晰度和图像的细节纹理。最后,引入均方差(mean square error,MSE),通过网络间的对抗训练,使网络生成图像更加逼近真实图像,提升生成图像的色彩、纹理、清晰度和真实性。1 本文方法 1.1 网络模型 基于 GAN 原理,本文的 CRGAN 模型由生成器和判别器 2 部分组成,生成器和判别器通过损失进行对抗训练,网络模型如图 1 所示,实线表示正向传播,
18、虚线表示反向传播。本文通过风景图像的语义分割图生成风景图像,数据集的训练集为风景图像的语义分割图和对应的风景图像,因此本文将语义分割图作为网络的条件约束,使网络进行对抗训练。首先将风景图像的语义分割图 x 经过预处理后送入生成器,再将 x 作为约束条件并使其经过Encoder-Decoder 输出虚假的风景图像x。然后CRGAN 一方面使用x 更新生成器的模型参数,另一方面将x 和x拼接送入判别器,同时网络将x与真实的风景图像y拼接至判别器,再将判别器输出的结果一起送入损失函数中,通过反向传播优化生 712 图像处理与计算机视觉 2023 年 图 1 网络模型 Fig.1 Network mo
19、del 成器和判别的参数,提升网络生成图像的效果。最后 CRGAN 网络不断迭代该过程,直至模型收敛。CRGAN 的生成器模型如图 2 所示。该网络由3 部分组成:前端卷积网络、残差卷积网络和后端卷积网络。前端卷积网络用来提取语义分割图的特征信息,在下采样和传输过程中,为了防止特征信息在不同网络模块间传递丢失,在前端和后端卷积网络之间使用跳跃连接,使前端卷积网络内的特征信息向下一卷积层传递的同时,将特征信息传递到后端卷积网络中对应的卷积层。CGAN 特征提取效果不佳,是因其含有的信息量不丰富,使解码器解码后的特征信息所生成图像的清晰度不理想,因此CRGAN 在编码器和解码器之间加入残差卷积网络
20、,该网络可以对图像特征进一步学习以提升提取效果,同时可以更好地保留图像信息,以提升生成图像的清晰度。图 2 生成器网络模型 Fig.2 Generator network model 1.2 子网络模块 由图 2 可知,CRGAN 在训练时,将语义分割图传入前端卷积网络,网络将语义分割图编码和提取的特征信息x传入残差模块,并进一步地提取学习分割图像的特征信息。最后将经过残差网络后的x传入后端卷积网络进行解码和生成样本图像,即 1()iixF x(1)其中,x为残差网络的输入;xi为特征信息经过第i个残差块后的状态。CRGAN生成器的前端卷积网络由4个卷积块组成,卷积块结构如图3所示,由卷积实例
21、归一化模 块(convolution instance normalization Relu,CINR)组成卷积块。在将语义分割图输入生成器后,前端卷积网络通过CIN结构提取语义分割图的特征信息并进行下采样操作。后端与前端卷积网络由4个对称卷积块构成,卷积块的结构由反卷积实例归一化模块(transporse convolution instance normalization Relu,TCINR)组成。在将语义分割图的特征信息输入后端卷积网络后,TCINR对特征信息进行解码和上采样操作,生成风景图像。图 3 Front block 结构 Fig.3 Front block structure
22、 第 4 期 邵俊棋,等:基于条件残差生成对抗网络的风景图生成 713 为了生成高分辨的图像,本文的判别器采用“PatchGAN”17方法,即通过多层卷积操作后不使用全连接和激活函数,使用卷积将输入映射为一个矩阵并输出。输出矩阵的每一个输出,代表着原图中的感受野,对应着原图的一个区域,通过此方式,模型更加关注生成图像的细节。为了减少CRGAN生成图像产生的模糊现象,本文算法在判别器中使用L1距离和MSE作为损失函数,约束生成的图像和原图像的距离,从而使生成的图像更接近原图像,清晰度也更高。1.3 损失函数 CGAN的模型如图4所示。数据集中的标签为风景图的语义分割图,将标签x输入生成器,经过生
23、成器编码和解码后输出一幅虚假图像G(x),然后将图像G(x)和标签x输入判别器,并对生成的图像进行分类和识别,判断结果输入的图像为假;将原图y和标签x同时送入判别器时,将会判定为真。图 4 CGAN 网络模型 Fig.4 CGAN network model GAN的生成器和判别器为博弈网络,在训练过程中,生成器的目标函数取最小值,而判别器的目标函数取最大值,目标函数为 ()()min max(,)log()log(1()yzy pdataz pzG DV D GED yED G z(2)其中,y为生成器生成的图像;D(y)为判别器函数;G(z)为生成器函数;z为生成器输入的随机噪声。本文使用
24、的模型是基于CGAN网络模型,在输入随机噪声进入生成器的同时,以输入标签作为条件约束,此时可得CGAN网络的目标函数为 ()()min max(,)log(|)log(1(|)yzypdatazpzG D V D GED y xED G z x(3)其中,y为生成器生成的图像;D(y|x)为判别器函数;G(z|x)为生成器函数;z为生成器输入的随机噪声;x为条件约束。为了保证CRGAN网络生成的图像在风格和内容上更接近真实图像,算法中使用L1距离,通过此方法约束生成图像和真实图像在像素级的距离,使生成的图像在风格和内容尽可能接近真实图像。L1损失为 1,()|(,)|lx y zLGEyG x
25、 z(4)其中,y为目标图像;G(x,z)为网络生成图像。此外,为进一步保证生成的图像在风格和内容上接近真实图像,本文在算法中使用了MSE,通过此方法,使生成器生成的图像从距离上进一步逼近真实的图像,MSE损失函数为 2MSE(,)iiiiLy GyG(5)综上所述,CRGAN的损失函数为 min maxCRGANCGAN1MSE(,)()(,)liiLG D LD GLGLy G(6)其中,LCGAN(D,G)为CRGAN网络的损失函数;和为所使用L1距离损失和MSE损失的权重参数。2 实验结果及分析 本文基于风景图像的语义分割图可生成内容真实、清晰度高的风景图像,所使用的数据集为第五届中国
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 条件 生成 对抗 网络 风景图
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。