一种渐进式增长条件生成对抗网络模型.pdf
《一种渐进式增长条件生成对抗网络模型.pdf》由会员分享,可在线阅读,更多相关《一种渐进式增长条件生成对抗网络模型.pdf(9页珍藏版)》请在咨信网上搜索。
1、 研究与开发 一种渐进式增长条件生成对抗网络模型 马辉,王瑞琴,杨帅(湖州师范学院,浙江 湖州 313000)摘 要:渐进式增长生成对抗网络(PGGAN)是一种能够生成高分辨图像的网络模型,但是当样本间的类别不平衡或者样本类别过于相似或不相似时,容易出现模式崩溃现象而导致生成效果不佳。提出一种渐进式增长条件生成对抗网络(PGCGAN)模型,将条件生成对抗网络的思想引入 PGGAN,在 PGGAN 的基础上加入类别信息作为条件,在网络结构和小批量标准差两个方面对 PGGAN 进行了改进,缓解图像生成过程中的模式崩溃现象。在对 3 个数据集的实验中,相比于 PGGAN,PGCGAN 在起始分数(I
2、S)和 Frchet 距离(FID)两个评价图像生成的指标方面都有较大程度的提升,生成的图像具有更高的多样性和真实性;且 PGCGAN 可以同时训练多个无关联的数据集而不崩溃,在类别不平衡或数据过于相似和不相似的数据集中均能产生高质量的图像。关键词:生成对抗网络;渐进式增长条件生成对抗网络;小批量标准差;图像生成 中图分类号:TP391 文献标志码:A doi:10.11959/j.issn.10000801.2023134 A progressive growing of conditional generative adversarial networks model MA Hui,WAN
3、G Ruiqin,YANG Shuai Huzhou University,Huzhou 313000,China Abstract:Progressive growing of generative adversarial networks(PGGAN)is an adversarial network model that can generate high-resolution images.However,when the categories of samples are unbalanced,or the categories of samples are too similar
4、or too dissimilar,it is prone to produce mode collapse,resulting in poor image generation ef-fect.A progressive growing of conditional generative adversarial networks(PGCGAN)model was proposed.The idea of conditional generative adversarial networks(CGAN)was introduced into PGGAN.Using category infor
5、mation as condition,PGGAN was improved in two aspects of network structure and mini-batch standard deviation,and the phenomenon of model collapse in the process of image generation was alleviated.In the experiments on the three data sets,compared with PGGAN,PGCGAN has a greater degree of improvement
6、 in inception score and Frchet incep-tion distance,two evaluation indicators for image generation,and the generated images have higher diversity and au-thenticity;and PGCGAN multiple unrelated datasets can be trained simultaneously without crashing,and high-quality 收稿日期:20230111;修回日期:20230610 通信作者:王
7、瑞琴, 基金项目:国家自然科学基金资助项目(No.62277016)Foundation Item:The National Natural Science Foundation of China(No.62277016)研究与开发 106 images can be produced in datasets with imbalanced categories or data that are too similar and dissimilar.Key words:generative adversarial network,progressive growing of condition
8、al GAN,mini-batch standard deviation,image generation 0 引言 生成模型1-2是通过概率密度函数在数据分布上进行数据抽样并生成新样本的模型,已经被广泛应用于图像生成3-4、风格迁移5、机器翻译6和语音识别7等领域。目前较流行的生成模型方法有变分自编码器(variational auto-encoder,VAE)8-9、自回归模型10和生成对抗网络(generative adver-sarial network,GAN)11-12三大类。VAE 擅长自然语言处理领域中的语言生成,但在图像处理方面很难生成高清的图像。而自回归模型可以很好地对序列
9、数据进行密度估计,但其计算量远大于 VAE 和GAN。GAN 能产生高清的图像,但训练过程很不稳定。但总的来说,在图像生成领域,GAN 的发展最为迅速且应用最为广泛。GAN 存在的问题并未限制它的发展,更多的学者开始投入对 GAN 的研究中来。在设计改进GAN 的目标函数方面:LSGAN13将判别器中的交叉熵损失函数变为最小二乘损失函数,让梯度的传递更加有效,使模型的训练过程更加稳定;WGAN14-15用 Wasserstein 距离代替了 KL 散度(Kullback-Leibler divergence)和 JS 散度(Jensen-Shannon divergence)来衡量生成分布和真
10、实分布之间的距离,使得生成器 G 的梯度计算更加精准;此外还有一些针对 WGAN 权重裁剪限制参数边界值的问题进行改进的模型16-17,这些方法的提出使得 GAN 的训练效果不断提高。在 GAN 的网络结构设计方面:DCGAN18把卷积神经网络19和 GAN 结合,让 GAN 可以在一套稳定结构下进行训练;条件生成对抗网络(conditional GAN,CGAN)20提出在 GAN 的网络结构中加入条件信息,使得 GAN 能够准确地在一个模型中同时训练和生成多种类别的图像,并且根据不同数据集和生成要求,注入条件的方式21-22多种多样;而半监督和自监督的 GAN23-25则是在CGAN 的基
11、础上更进一步,通过在 GAN 内部加入分类器和聚类器来增加部分或完全得到条件信息,然后进行类似 CGAN 的模型训练,部分摆脱或完全摆脱没有标签信息对 CGAN 训练的限制;渐进式增长生成对抗网络(progressive growing of GAN,PGGAN)26则是一种网络结构逐步增长的生成模型,通过不断加入成对的网络结构来逐步增大生成图像的分辨率。本文在 PGGAN 的基础上引入 CGAN 的思想,提 出 渐 进 式 增 长 条 件 生 成 对 抗 网 络(progressive growing of conditional GAN,PGCGAN)模型,该模型改变了 PGGAN 的网络
12、结构并定义了新的目标函数,使其更适应 CGAN的生成方式,同时改进了 PGGAN 中的小批量标准差方法以提高生成图像的多样性。相比于PGGAN,PGCGAN 模型具有以下优点:可以将多种类别的图像同时注入模型进行训练,不容易产生模式崩溃;可以学习不同类别之间的共性,使得数据集中数量较小的类别也可以生成高质量的图像;生成的图像在每个类别标签内和整体上都具有更好的多样性和真实性;在 PGGAN 中,随着图像分辨率逐渐变大需要批处理尺寸逐渐减小来使训练保持稳定,而 PGCGAN 通过输入条件来控制批处理尺寸的大小,加快了模型的收敛速度。1 背景知识 1.1 生成对抗网络 GAN 主要由生成器 G 和
13、判别器 D 构成,其107 电信科学 2023 年第 6 期 核心是 G 和 D 的相互对抗和相互博弈,最终 G 生成符合样本分布规律的新样本。在图像生成任务中,G 输入随机噪声 z,输出生成图像 Xfake=G(z)。D 输入真实图像 Xreal和生成图像 Xfake,输出图像真假结果的概率分布 P(S|X)=D(X)。G 和 D 的训练不是同时的,当 G 训练时,D 不参与训练而只用于判别,训练目标为最小化目标函数;当 D 训练时,G 不参与训练而只用于生成样本,训练目标为最大化目标函数。目标函数的基本计算式如下:lb(|)lb(|)LEP SXEP SXrealfakerealfake(
14、1)其中,L 为目标函数,E 为数学期望,(|P S real )Xreal表示真实图像被D判别为真的概率,(P S|)Xfakefake表示生成图像被判别为假的概率。1.2 渐进式增长生成对抗网络 PGGAN模型采用渐进式的图像生成方法缓解了梯度消失和模式崩溃的问题,且容易生成高分辨的图像。PGGAN模型训练流程如图1所示。先在一个较小的分辨率下训练模型,生成低分辨率的图像;当模型学习到图形的整体结构轮廓时,在G中加入新的网络结构来进一步学习图像的细节,以增大生成图像的分辨率,同时在D中加入新的网络结构来接收G生成的更高分辨率的图像,抽取更多的特征用于D网络来判别图像的真假。生成器G和判别器
15、D是对称的网络结构,通过多次插入新的网络结构,将生成的图像从低像素扩展到高像素。为了缓解新网络结构的突然插入导致的模型震荡,通过逐步加大新网络层的权重来平滑过渡。PGGAN对传统的批量判别方法27进行改进,提出小批量标准差(mini-batch stddev)方法来提高生成图像的多样性,过程如下:计算小批量样本上每个空间位置中每个特征矩阵的标准差,然后对其求平均值,将该均值作为小批量样本中的多样性度量,将样本自身信息和多样性度量拼接成新的矩阵,作为下一层的输入。这样可以避免原始的D独立地处理生成的每一个样本,而G发现生成的某个图像可以骗过D时,就没有必要冒险去生成别的图像,鉴于损失函数的压力,
16、生成器G生成的样本就会渐渐趋于相似,从而导致模式崩溃。图 1 PGGAN 模型训练流程 2 渐进式增长条件生成对抗网络模型 本节将详细介绍本文提出的渐进式增长条件生成对抗网络模型,该模型通过对PGGAN的网络结构进行改良、定义新的目标函数、改进小批量标准差方法等一系列措施,使得改进后的网络模型更适应CGAN,从而提高生成图像的质量。2.1 网络结构 PGCGAN模型的网络结构如图2所示,生成器G和判别器D的结构是对称的。首先,噪声z和类标签别c被传入G的初始模块中以生成4像素 4像素图像的特征,然后经过特征转图片模块转为图像输出;D接收真图像和假图像,传入图片转特征模块变为特征信息,再传入结果
17、模块中经过mini-batch stddev层增加生成图像的多样性;最后将得到的特征一部分用于判断图像的真假,另一部分用于判断图像的类别;直到低像素的生成图像足够逼真后,在G的特征转图片模块之前和D的图片转特征模块之后不断地插入新模块,以生成更高像素的图像并提取图像特征,最终G可以 研究与开发 108 生成所需要的高分辨率的图像。本文模型与已有模型的不同之处在于:传统的CGAN模型在G和D的输入端输入类别标签,在D的输出端判断图像的真假;PGCGAN模型改变了类别标签在D中的输入位置,避免了D的输入端不断加入新模块导致条件信息不能被稳定接收的问题。2.2 目标函数 PGCGAN模型中类别标签不
18、需要从D的输入端进入,而是将类别标签放入目标函数中,通过目标函数的约束使D学会判断类别。G生成图像Xfake=G(z,c),D给出判断图像真假的概率分布(|)P S X和判断图像类别的概率分布(|)P C X()D X。因此,PGCGAN的目标函数由两部分组成:判断图像真假的目标函数LS和判断图像类别的目标函数LC,计算式如下:Slb(|)lb(|)LEP SXEP SXrealfakerealfake(2)Clb(|)lb(|)LEP Cc XEP CcXrealfake(3)其中(|)P Cc Xreal表示真实图像的类别标签与从D得出的类别标签结果一致,(|)P CcXfake表示生成图
19、像设定的类别标签与从D得出的类别标签结果一致。在训练D时需要最大化CSLL,而在训练G时需要最大化CSLL。具体实现方式是将D的最后一层分为两个部分,分别用于计算目标函数SL和CL。传统的CGAN在G和D中直接输入类别标签,让黑盒的网络模型同时学会判断图像的真假和类别信息,然后将它们融合到一个真假的结果中,这给网络模型增加了过多的负担,从而导致信息传递不够准确。在PGCGAN模型中,只需要分别判断图像的真假和和图像的类别,然后通过目标函数将两个结果进行整合,这样可以更加准确地生成所需要的图像。图 2 PGCGAN 模型的网络结构 109 电信科学 2023 年第 6 期 2.3 改进的小批量标
20、准差 本文将PGGAN改为条件生成对抗网络模型后,由于同一批样本内是不同类别的数据,而不同类别的数据本身就不相似,并存在一定的多样性,使得小批量标准差方法无法督促模型产生多样性的图像。针对以上问题,本文对基于小批量标准差提高生成图像多样性的方法进行了改进,使PGCGAN更适合于CGAN,改进的小批量标准差方法如图3所示。在一批样本中,首先利用类别标签将某一批次的样本分为k个类别,再对每个类别中每个特征空间中的点求标准差,然后对k 个类别中的每个标准差分别求平均值,得到一个批次中每个类别的多样性度量12,kyy yy,最后将一批样本中每个样本自身xi和与其对应类别中的多样性度量yi进行拼接形成新
21、的矩阵,传入下一层网络进行训练。图 3 改进的小批量标准差方法 2.4 模型优化 在PGCGAN模型中使用了卷积操作加上采样的方式来代替转置卷积28,因为生成器G在使用转置卷积将图像像素放大的同时,由于输出窗口大小、卷积核大小和步长等问题,在转置卷积的操作过程中部分像素重叠,产生棋盘效应而抑制了生成能力,而卷积操作加上采样来放大图像不存在这样的问题。此外,在每个卷积层之后使用像素归一化(pixel normalization)对模型的参数权重进行处理,防止信号幅度过大导致G和D之间的恶性竞争。像素归一化使得计算过程没有参数,其计算式如下:,128,01()10 x yx yNjx yjNaba
22、(4)其中,N表示特征矩阵的个数,ax,y表示在像素(x,y)的位置上对应的原始特征向量,bx,y表示像素归一化后的特征向量。最后,还利用He初始化(He initialition)29配合LeakyReLU函数对模型进行初始化,使每层网络结构参数的方差都比较接近,进而使模型快速收敛。3 实验与分析 3.1 数据集 为了验证本文提出的PGCGAN模型的有效性,在PlantVillage30、AFHQ31和kaggle官网中的Fingers 3个数据集上进行了对比实验,并利用本文提出的方法对数据进行了预处理。PlantVillage数据集中包含256像素256像素的植物叶子图片,选择了苹果、樱桃
23、、葡萄和桃子4类叶子,共11 797张图片,其中苹果叶子占比为26.88%、樱桃叶子占比为16.16%、葡萄叶子占比为34.44%以及桃树叶子占比为22.52%。PlantVillage数据集在类别方面是不平衡的,葡萄叶子是樱桃叶子的两倍多。AFHQ数据集中包含512像素512像素的猫、狗和野生动物的3类图片,由于野生动物类别中有多种动物,经过预处理,提取了其中的猫、狗、老虎和狮子4个类别的图片,共11 569张,其中猫占比44.51%、狗占比40.96%、狮子占比6.63%、老虎占比7.9%。该数据集中不同类别的数据量极不平衡。Fingers数据集中包含6种手势的128像素128像素的图片,
24、共17 994张图片,其中每种类别的数据集各占16.7%。Fingers数据集中不同类别的数据量是相对均衡的,但是同一个人的6种手势的图片很相似,不易于GAN的训练。研究与开发 110 3.2 实验设置 本文采用的实验平台为Liunx操作系统,处理器为 Intel(R)Xeon(R)Silver 4214 CPU 2.20 GHz,内存为256 GB,使用显存为32 GB的显卡加速NVIDIA Tesla V100图形运算。实验环境为Python 3.9.7,采用基于PyTorch的深度学习框架,版本为1.10.2。在模型训练的过程中,初始学习率设置为0.001,其后每次扩大分辨率,学习率变为
25、当前学习率的87%;使用采用自适应矩估计的Adam优化器,批处理的大小固定为32。3.3 实验结果与分析 起始分数(inception score,IS)32和Frchet距离(Frchet inception distance,FID)33是评价GAN生成图像质量的常用指标。IS使用ImageNet分类模型来衡量生成图像的真实性和多样性,IS的数值越大,表明生成器生成的图像质量越高。FID指标使用Inception-v3网络来抽取生成图像和真实图像的特征,并衡量特征之间的分布距离,FID的数值越小,表明生成图像的质量越好。本文将PGGAN和PGCGAN模型在以上数据集中进行训练并生成图像,并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 渐进 增长 条件 生成 对抗 网络 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。