基于NS-StyleGAN2的鱼类图像扩充方法_李海涛.pdf
《基于NS-StyleGAN2的鱼类图像扩充方法_李海涛.pdf》由会员分享,可在线阅读,更多相关《基于NS-StyleGAN2的鱼类图像扩充方法_李海涛.pdf(6页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期0引 言随着人工神经网络的不断发展,深度学习这一人工智能重要领域有了更好的前景,其中图像识别与分类已经有了广泛的应用,包括人脸识别、停车场车牌识别、医疗图像分析、安防监控等1。但是当深度学习逐渐扩展到更多行业中时,其局限性也慢慢暴露出来:数据的不足会使深度学习与其他传统方法相比没有优势,甚至达不到其他传统方法取得的效果。这一局限性在图像识别与分类中,具体表现为数据集质量参差不齐、数据多样性不足、数据集类别不平衡等问题2。其中数据集类别不平衡问题较为常见且影响较大,表现为数据集中某几类样本的数据量较多,而另外几
2、类样本的数据量较少,若人工神经网络采用此种数据集训练,最后的判别准确率会在某几类上出现明显的偏差。解决类别不平衡问题最直观、有效的方法是对数量少的样本图像进行扩充。传统的图像扩充方法主要依据计算机图形学相关理论,通过在几何变换方面对原始图像进行平移、缩放、旋转、仿射、透视;在图像增强方面对原始图像进行亮度、色度、对比度、锐度调整;在噪声方面对原始图像添加高斯噪声或椒盐噪声3。采用传统图像扩充方法可以在不增加无意义数据的同时简单快速地扩充样本图像数量,但在数据多样性提升方面效果不佳。近年来随着神经网络不断改进变革,涌现出了卷积神经网络、递归神经网络、深度神经网络等众多复杂的多节点网络模型,依托于
3、此,诞生了生成对抗网络(Generative Adversarial Networks,GANs)及其一文章编号:1006-2475(2023)01-0013-05基于NS-StyleGAN2的鱼类图像扩充方法李海涛,胡泽涛,张俊虎(青岛科技大学信息科学与技术学院,山东 青岛 266061)摘要:图像多分类领域中经常出现类别不平衡问题,这会对分类模型的学习训练产生负面影响。通过对样本数量较少的类别进行扩充可以有效解决类别不平衡问题。生成对抗网络作为近年来新兴的一种神经网络,输入真实图像样本训练可以输出与真实样本非常相似的生成样本。根据此特性,本文结合第二代样式生成对抗网络(StyleGAN2)
4、的设计思想与鱼类图像的特点,设计一种噪声抑制样式生成对抗网络NS-StyleGAN2(Noise-Suppressed Style Generative Adversarial Networks 2)。NS-StyleGN2去除了StyleGAN2合成网络中低分辨率层的噪声输入,从而抑制低分辨率层的噪声权重,使StyleGAN2生成样本细节特征更逼近真实样本特征。采用202张鲢鱼图像进行训练,本文提出的方法在起始分数、弗雷歇起始距离、内核起始距离得分等方面均优于DCGAN、WGAN、StyleGAN2,表明该方法可以有效进行图像扩充。关键词:样式生成对抗网络;图像扩充;噪声抑制;起始分数;弗雷
5、歇起始距离中图分类号:TP391.4文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.01.003Method of Fish Image Expansion Based on NS-StyleGAN2 NetworkLI Hai-tao,HU Ze-tao,ZHANG Jun-hu(Information Science and Technology Academy,Qingdao University of Science and Technology,Qingdao 266061,China)Abstract:Category imbalance ofte
6、n occurs in the field of image multi-classification,which has a negative impact on the learningand training of the classification model.It can be effectively solved by expanding the category with fewer samples.Generative adversarial network,as a newly developed neural network in recent years,can out
7、put generated samples that are very similar to realsamples when trained by real image samples.According to this characteristic,this paper designs a noise-suppressed second generation style generation adversarial network 2(NS-StyleGAN2)by combining the design philosophy of the second generationstyle
8、generation adversarial network(StyleGAN2)and the characteristics of fish image.NS-StyleGAN2 removes the noise inputof the low-resolution layer in the StyleGAN2 s synthetic network,so as to suppress the noise weight of the low-resolution layerand make the StyleGAN2-generated samplesdetail features mo
9、re close to the real samples.202 images of silver carp are usedfor training.The method proposed in this paper is superior to DCGAN,WGAN and StyleGAN2 in inception score,Frechet inception distance and kernel inception distance,which shows this method can be used for image expansion effectively.Key wo
10、rds:StyleGAN(Style Generative Adversarial Networks);image augmentation;noise suppression;IS;FID收稿日期:2022-01-28;修回日期:2022-03-02基金项目:山东省重点研发计划(科技示范工程)项目(2021SFGC0701)作者简介:李海涛(1978),男,山东菏泽人,副教授,博士,研究方向:地理信息系统,北斗定位导航,移动物联网,E-mail:;胡泽涛(1997),男,山东菏泽人,硕士研究生,研究方向:智慧海洋,智慧渔业,E-mail:huzetao_;张俊虎(1974),男,副教授,博士
11、,研究方向:分布式数据处理,E-mail:。计算机与现代化2023年第1期系列改进网络。生成对抗网络通过生成器与判别器二者进行博弈式训练,可使生成器生成与真实样本极其相似的生成样本4。根据生成对抗网络的结构和特性,可以利用其进行有效的图像扩充,使生成图像多样性更加丰富。考虑到生成对抗网络所生成样本的分辨率、多样性等指标,本文选取 StyleGAN2 作为原始网络。在StyleGAN2的基础上,针对鱼类图像由低到高不同层级特征的变化特点,以及StyleGAN2控制不同层级特征变化的方式,本文设计一种噪声抑制样式生成对抗网络NS-StyleGAN2。NS-StyleGAN2 通过去除 StyleG
12、AN2的合成网络中44至1616分辨率层的噪声叠加模块,保留其他分辨率层的噪声叠加模块,抑制了StyleGAN2合成网络中的低分辨率层噪声输入。同时本文对DCGAN、WGAN等其他生成对抗网络进行相同实验对比,发现利用NS-StyleGAN2网络对鱼类图像样本训练,可以生成更真实、更多样化的鱼类图像样本。1生成对抗网络GANs于2014年由Goodfellow等人提出,是一种无监督学习方法5。GANs包括 2大部分:生成器 G(Generator)和判别器D(Discriminator)6。生成器将随机噪声z作为输入,经过多层网络运算处理输出生成样本图像G(z)。判别器将生成样本图像和真实样本
13、图像作为输入x,经过多层网络运算处理得到二值输出D(x),值为0时表示输入x为生成样本图像,值为1时表示输入x为真实样本图像7。最初的GANs使用梯度下降法达到纳什均衡,训练过程极不稳定,会出现梯度消失、模式崩溃(ModelCollapse)等问题,造成训练能效低、生成样本多样性低、图像质量差8-12等问题。为了解决原始GANs的问题,经过后人研究衍生了若干GANs的变种。1.1深度卷积生成对抗网络DCGAN深度卷积生成对抗网络与原始 GANs相比修改了生成器和判别器的网络结构,在生成器中使用分数步长卷积(Fractional-strided Convolutions)代替池化层,在判别器中使
14、用步长卷积(Strided Convolutions)代替池化层,以此加深网络层级,学习样本更多的特征13。为了加快网络收敛,DCGAN使用池化层将生成器和判别器的随机输入直接与卷积层特征输入进行连接,去掉了参数过多的全连接层14-15。1.2基于推土机距离的生成对抗网络WGAN基于推土机距离的生成对抗网络(WassersteinGAN,WGAN)的改进方式与 DCGAN 的根据经验调整网络架构不同,它从原始GANs的公式定理方面着手,针对推理出的问题从算法逻辑进行改进。WGAN相较于原始GANs,从理论上解决了梯度消失问题,同时引入了Wasserstein距离作为GAN训练指标,使网络训练更
15、加稳定并减少了模式崩塌现象16-18。但WGAN没有对网络结构进行大幅度调整,仍然难以生成高分辨率图像。1.3第二代基于样式的生成对抗网络StyleGAN2基于样式的生成对抗网络(Style Based GAN,StyleGAN)是英伟达公司于 2019年提出的一种基于ProGAN 改进的生成对抗网络变体19。StyleGAN 网络结构与GANs类似,包括生成器和判别器,其改进点主要集中在生成器。StyleGAN的生成器网络主要包括2个部分:映射网络(Mapping Network)和合成网络(Synthesis Network),整体网络结构如图 1 所示。图1StyleGAN网络结构Map
16、pingNetwork 主 要 对 隐 藏 空 间(LatentSpace)进行解耦,寻找数据之间耦合性高的特征之间更深层次的关系,将这些关系解耦得到隐藏特征(Latent Code)。Mapping Network的8个全连接层将Latent Code(z)仿射变换(A)为中间变量w,使z的分布函数变为非均匀密度分布函数,更符合实际情况的特征分布。通过Mapping Network模型可以生成一个不需要跟随训练数据分布的向量w,并可以减少样本特征之间的耦合性,达到控制单一特征而不影响其原始被纠缠的特征20-23。StyleGAN作为目前最先进的高分辨率图像生成方法之一,其仍存在缺点,包括网络
17、训练速度慢以及生成的各级特征图像都包含明显的斑点伪影(artifacts)。为解决StyleGAN出现的问题,NVIDIA发布了StyleGAN的升级版StyleGAN2。StyleGAN2通过实验发现出现artifacts的原因在于AdaIN操作,于是在一代的基础上修改合成网络架构,首先将AdaIN转化为归一化与调制这2个操作,并将多余的偏差和噪声广播操作移至不同分辨率层之间,最终使用解调代替归一化 24-27。StyleGAN2可以有效减少artifacts现象,加快网络训练速度。StyleGAN2网络结构如图2所示。图 2与图 1相比可明显看出,StyleGAN2生成器除了将StyleG
18、AN中的AdaIN模块使用调制解调模块NormalizeLatent Code z zFCFCFCFCFCFCFCFCw wConst 44512+AdaINConv 33+AdaIN44Const 44512+AdaINConv 33+AdaIN88.256256Mapping NetworkSynthesis NetworkAAAABNoiseBBBAABB142023年第1期李海涛,等:基于NS-StyleGAN2的鱼类图像扩充方法Mod、Demod代替,同时将噪声 B叠加的位置从 Conv模块与AdaIN模块之间移至不同分辨率层之间。图2StyleGAN2网络结构2噪声抑制样式生成网络
19、NS-StyleGAN2原始 StyleGAN2通过噪声广播将噪声叠加到合成网络的从低到高所有分辨率层,以此增加图像基础特征到高级特征的多样性,例如增加人脸图像的肤色、头发颜色、背景色到姿态、脸型、穿戴等特征的多样性。但是对于使用StyleGAN2扩充鱼类图像以增加图像识别分类准确率来说,每种鱼的基础特征,如鱼表面颜色及外轮廓应较为一致,因此需要减少图像基础特征的多样性。图3NS-StyleGAN2网络结构针对上述StyleGAN2在鱼类图像应用的问题,本文构建一种噪声抑制样式生成对抗网络(Noise-Suppressed Style Generative Adversarial Networ
20、ks 2,NS-StyleGAN2)。NS-StyleGAN2 在 44 至 1616 分辨率层中去除噪声叠加,在3232及更高分辨率层保留噪声叠加,以增加高分辨率层噪声权重,抑制低分辨率层噪声权重。图 3为 NS-StyleGAN2结构,可明显看出 44、88及 1616分辨率层没有了噪声叠加模块。基于StyleGAN2网络结构,NS-StyleGAN2网络包括生成器和鉴别器,其样本图像生成过程主要由3个步骤构成:步骤1输入随机噪声到8个全连接层,输出中间变量w。步骤2中间变量w先后经过仿射变换、调制解调,与常量或来自上一分辨率层的输出进入卷积层运算。步骤33232及更高分辨率层经过步骤2得
21、到的输出与噪声B叠加输入下一分辨率层,最高分辨率层的输出即为最终生成图像。3实验与结果分析3.1实验环境实验电脑配置如下:操作系统为Ubuntu 20.04,CPU 为 i9-9900k,GPU 为 2 张 NVIDIAGeForceRTX3090,单张显存为12 GB,内存为32 GB,Python版本为3.9.7,Pytorch版本为1.9.1。3.2实验数据集本文实验使用202幅从不同角度实际拍摄的鲢鱼图像作为数据集,每幅图像分辨率为256256,颜色为彩色。DCGAN 和 WGAN 模型训练时由于难以生成高分辨率图像,所以将DCGAN和WGAN模型训练所用图像使用中心裁剪方法裁剪至64
22、64分辨率。3.3实验评价指标本文采用起始分数(Inception Score,IS)、弗雷歇起始距离(Frechet Inception Distance,FID)、内核起始距离(Kernel Inception Distance,KID)这3种GANs常用的评价标准作为实验结果评价指标。3.3.1起始分数IS起始分数使用图片分类网络 Inception Network第3个版本以及ImageNet数据集,从生成图片的清晰度和多样性2个方面验证生成模型的性能。在清晰度方面,IS计算生成的图片属于1000类图片中某个类别的概率的熵,熵越小代表被检测图片越清晰,最理想的情况为生成的图片属于某一类
23、图片的概率极大,属于其他类别的概率极小;在多样性方面,IS计算所有生成图片在1000类图片中概率的边缘分布的熵,熵越大代表图片多样性越高,最理想的情况为生成的图片在各类图片中均匀分布。综合2方面可得公式(1):IS()G=exp()ExPgDKL()p()y|x p()y(1)其中,exp没有具体含义,xPg表示从生成器中生成图片样本分布,p(y|x)表示生成图片x属于各个类别NormalizeLatent Code z zFCFCFCFCFCFCFCFCw wConst 44512Conv 33+.256256Mapping NetworkSynthesis NetworkAANoiseBB
24、ABBModDemodw wConv 33+ModDemodw wUpsampleA4488161632326464AAAwww15计算机与现代化2023年第1期图片 y 的概率分布,p(y)表示生成器所有图片在所有类别图片上的边缘分布,DKL表示KL散度,用以衡量 2 个概率分布的距离。通过前面分析可知,生成器性能最好情况下 p(y|x)为极尖锐分布,p(y)为均匀分布,因此这2个分布的KL散度越大生成器性能越好。3.3.2弗雷歇起始距离FIDFID同样借助Inception Network得到图片样本的n 维特征并将其简化为向量,使用弗雷歇距离(Frechet Distance)计算真实样
25、本特征和生成样本特征这2个多维向量所服从分布之间的距离。2幅相同的图片样本其特征向量的分布会重合,因此FID越小,生成样本与真实样本越相似。FID计算如公式(2)所示:FID=r-g2+Tr()r+g-2(rg)1 2(2)其中,r表示真实图片的特征的均值,g表示生成图片的特征的均值,r表示真实图片的特征的协方差矩阵,g表示生成图片的特征的协方差矩阵。FID与IS不同,考虑了真实样本与生成样本的关系,而IS只依据ImageNet数据集,从判别依据上提升了合理性。同时FID不需要对生成样本进行分类,可以避免生成样本类别模糊、不存在于ImageNet数据集等多样性问题对计算结果造成的影响。3.3.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 NS StyleGAN2 鱼类 图像 扩充 方法 海涛
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。