基于对比学习的多肉植物分类识别方法研究.pdf
《基于对比学习的多肉植物分类识别方法研究.pdf》由会员分享,可在线阅读,更多相关《基于对比学习的多肉植物分类识别方法研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、河南农业科学,2 0 2 3,52(7):154-16 2Journal of Henan Agricultural Sciencesdoi:10.15933/ki.1004-3268.2023.07.016基于对比学习的多肉植物分类识别方法研究封雨欣,梁少华,童浩(长江大学计算机科学学院,湖北荆州4340 2 3)摘要:针对多肉植物种类多,类内差异大、类间差异小,数据难收集,导致传统分类算法不能有效解决多肉植物图像分类的问题,提出一种基于对比学习的多肉植物图像分类网络CL_ConvNeXt。该网络以ConvNeXt为基础结构引入对比学习思想,在网络中间层添加非线性投影层(Projection
2、head)作为辅助分类器来帮助模型对浅层网络进行特征提取;在一个批处理中通过数据增强来构造正样本,将剩余样本看作负样本;将交叉熵损失函数和对比损失函数进行加权计算,重新设计新的损失函数计算方法,实现单阶段模型训练。训练时采用迁移学习将预训练权重迁移到模型中来提高模型训练时的收敛速度,通过优化各种策略和参数来进一步提升模型的识别准确率。结果表明,在自制的190 类多肉植物数据集中,在使用相同训练策略和环境配置的情况下,最终模型CL_ConvNeXt对多肉植物图像分类识别准确率达到了91.7 9%,较原ConvNeXt模型结构的识别准确率提升了12.2 4个百分点,对解决多肉植物图像分类识别问题有
3、较好的效果。关键词:多肉植物;图像分类;对比学习;ConvNeXt;投影层中图分类号:S126Research on Succulent Plant Classification and Recognition Method文献标志码:ABased on Contrastive Learning文章编号:10 0 4-32 6 8(2 0 2 3)0 7-0 154-0 9FENG Yuxin,LIANG Shaohua,TONG Hao(College of Computer Science and Technology,Yangtze University,Jingzhou 434023,
4、China)Abstract:In view of the large variety of succulents,the large intra-class differences and the smallinter-class differences,as well as the difficulty of data collection,traditional classification algorithmscannot effectively solve the problem of succulent plant image classification.This paper p
5、roposed acontrastive learning based succulent plant image classification network CL_ConvNeXt.The network wasbased on ConvNeXt structure and introduced the idea of contrastive learning.A non-linear projection layer(Projection head)was added in the middle layer of the network as an auxiliary classifie
6、r to help themodel extract features from the shallow network.In a batch,positive samples were constructed throughdata augmentation,and the remaining samples were considered as negative samples.The cross entropyloss function and the contrastive loss function were weighted to newly design loss functio
7、n calculationmethod,which could achieve one-stage model training.Transfer learning was used during training totransfer the pre-trained weights to the model to improve the convergence speed of the model,and variousstrategies and parameters were optimized to further improve the recognition accuracy of
8、 the model.Theexperimental results showed that on the self-made 190-class succulent plant dataset,under the same收稿日期:2 0 2 3-0 3-30基金项目:国家自然科学基金项目(6 2 0 0 6 0 2 8)作者简介:封雨欣(1999-),女,湖北十堰人,在读硕士研究生,研究方向:计算机视觉。E-mail:8 6 2 352 92 4q q.c o m通信作者:梁少华(196 5-),男,湖北荆州人,副教授,硕士,主要从事人工智能、石油软件开发等研究。E-mail:1998 5
9、46 6 q q.c o m第7 期training strategy and environment configuration,the recognition accuracy of the final modelCL_ConvNeXt for succulent plant image classification reached 91.79%,which was 12.24 percentagepoints higher than that of the original ConvNeXt model structure,showing good effect on solving t
10、heproblem of succulent plant image classification and recognition.Key words:Succulents;Image classification;Contrastive learning;ConvNeXt;Projection head据统计,目前有超过12 0 0 0 种多肉植物,隶属约8 0 科。但在国内的多肉植物市场中,供人们欣赏的作为盆栽类的多肉植物种类只有百余种。多肉植物的外观特征很难准确评估和描述,种类间存在的差异很小,肉眼很难进行分辨,只有少数植物学家和多肉植物从业者能够完全识别它们。由于多肉植物种类繁多,类与
11、类之间差异小,而类的内部由于生长周期、生长状态和环境的不同存在较大差异,这使得多肉植物的分类与其他分类任务相比更加复杂,属于细粒度分类问题。深度学习技术为解决多肉植物图像分类问题带来了新思路,不仅大大节省了时间和精力,更是将人工智能和农业科学相结合促进了现代农业的发展。在多肉植物图像分类技术研究中,刘俨娇2 提出的基于深度卷积网的多肉植物分类使用了包含10 个种类的多肉植物数据集和9个种类的生石花细粒度数据集,通过微调AlexNet,多肉植物和生石花的分类准确率分别达到了96.1%和8 8.1%。黄嘉宝等3提出的基于卷积神经网络的多肉植物细粒度图像分类使用了包含2 0 个种类的多肉植物数据集,
12、通过微调GoogLeNet,多肉植物的分类准确率达到了96.7%。上述多肉植物分类研究虽然能够有效提升分类准确率,但多肉植物数据集种类较少,只是简单对卷积网络进行微调,在多肉植物数据集种类扩充以及模型结构的改进方面仍有很大的进步空间。随着人工智能技术的飞速发展,卷积神经网络近年来被广泛用于解决图像分类任务,它具有良好的特征提取和映射能力,通过迭代运算来提高模型的泛化能力。DYRMANN等4设计了一个卷积神经网络,对2 2 种植物进行识别,识别准确率达到了86.2%。H U 等5 提出了一种多尺度融合卷积神经网络(MSF-CNN),对MalayaKewLeafi0数据集中的99种植物叶片和Lea
13、fSnap/7数据集中的18 4种植物叶片进行识别。李立鹏等8 使用迁移学习和残差网络对6 2 种野生植物进行识别,得到了8 5.6%的准确率。但是单纯的卷积神经网络在面对“类间差异小、类内差异大”这种细粒度分类时,往往很难捕捉到具有区分能力的关键局部信息。随着自监督学封雨欣等:基于对比学习的多肉植物分类识别方法研究155习领域中对比学习思想的提出,利用对比学习作为外部信息辅助细粒度图像分类也成为很多研究者的研究重点,涌现出了MoCo9、Si mCLR10 等一系列优秀的对比学习模型。MoCo和SimCLR都提出批大小设置的越大,越能获得更好的效果,这对计算机资源的需求很大,不利于实际应用。且
14、在解决固定下游任务时,仍需要采用“预训练一微调迁移下游任务”两阶段训练过程,造成一定资源的浪费。鉴于此,扩充多肉植物数据集种类,参考卷积神经网络的结构设计,融合了对比学习思想,提出一种基于对比学习的CL_ConvNeXt网络(ConvNeXtwithcontrastivelearning),以提高多肉植物图像的分类准确率,从而有效识别更多种类的多肉植物。1材料和方法1.1试验材料1.1.1多肉植物数据集数据集是自主采集的原创数据集,收集了网络上较为常见的19 0 种多肉植物的图片,每个种类包含6 0 18 0 张不等的图片,共有2 4440 张图片,以8:2 的比例划分训练集和验证集。部分种类
15、多肉植物图像如图1所示。多肉植物种类多、数据量少,类内差异大、类间差异小等问题是多肉植物识别的主要难点。图2 展示了多肉植物类内差异大、类间差异小的特点。1.1.2数据预处理数据增强可以有效解决数据不足引发的模型过拟合问题。数据增强可以让有限的数据产生更多的数据,增加训练样本的数量以及多样性,提升模型鲁棒性。常用的监督数据增强的方法包括裁剪、反转、对比度增强、平移、旋转、添加噪声等。所用数据集在使用普通数据增强的方法,比如中心裁剪、随机翻转、随机旋转、随机改变对比度之外,还增加了Cutout121和Mixupl1312种数据增强的方法。Cutout能更好地实现对遮挡数据的模拟,提高泛化能力。同
16、时能够让卷积神经网络更好地利用图像的全局信息,而不是依赖于小部分特定的视觉特征。Mixup作为常见的多样本数据增强方法,使用线性插值得到新样本数据,可以将不同类别之间的图像进行混合,从而扩充训练数据集。图3为多肉植物数据集的数据增强示例。156河南农业科学第52 卷(a)乒乓福娘(a)Cotyledon orbiculata“Oophylla(b)钱串(b)Crassulaperforate(c)鹿角海棠(c)AstridiavelutinaDinter&Schwantes图1部分种类多肉植物图像Fig.1 Images of some species of succulents(d)阿尔巴佳
17、人(d)Crassula alba(e)红唇(e)Echeveriabella(f)冰城寿(f)Haworthia八千代Sedum corynephyllum Sedum pachyphyllum(a)类间差异小(a)Small inter-class differences图2 多肉植物的识别难点Fig.2 Difficulties in identifying succulents乙女心观音莲Semperviwum tectorum(b)类内差异大(b)Large intra-class differences观音莲Sempervivum tectorum原图Original image1
18、.2试验方法1.2.1网络结构(CL_ConvNeXt网络以 ConvNeXt模型为主干网络。ConvNeXtli4是2 0 2 2 年提出的一款纯卷积神经网络。它以残差网络ResNet50l15I为基准模型,设计上参考了Transformer和Swin-Transformer的训练策略。在推理速度和准确率两方面都明显优于ResNet网络和Swin-Transformerl。CL_ConvNeXt将卷积网络与对比学习相融合,利用ConvNeXt模型的多路特征表示能力提取出不同抽象级别的特征,对比学习可以通过比较不同层之间的相似性和差异性,加强不同卷积层之间的交互,从而进一步提高模型的特征表示能
19、力和性能。一般来说,卷积神经网络的不同层倾向于学习不同层次的特征。通常,浅层学习诸如颜色和边缘等底层特征,而最后几层学习更多与任务相关的高级语义特征。对于细粒度图像分类任务来说,浅层网络学习到的特征同样需要关注。传统的卷积神经网络只对最后一层进行监督,然后将误差从最后一层传播到较浅的层,导致中间层优化困难,出现随机裁剪Random croppingFig.3 Example of data augmentation for the succulent dataset络模型的结构如图5所示。CL_ConvNeXt在解决多肉植物种类多、类间差异小、类内差异大的问题时,首先,不需要数据集具有详细特征
20、判别区域标签,简单的类别标签就可以获得不错的效果;其次,投影层(Projection head)的嵌入比较灵活,浅层嵌入如果效果好,就无需多层嵌入,避免资源浪费,也可以适应不同的任务需求;同时不需要复杂的网络结构,对不同卷积神经网络均有适用性。相较于SimCLR和MoCo需要先训练出通用大模型再进行fine-turn训练出分类器的方色彩抖动Color jitterRandom horizontal filp Random rotation图3多肉植物数据集的数据增强示例梯度消失的问题。对比学习作为一种表征学习方法,将其运用到网络中间层,学习数据增强的不变性,可以很好地对浅层网络特征进行提取,解
21、决了传统深度卷积网络容易出现的梯度传播不稳定和收敛过慢的问题。同时还可以带来一定的计算优势,由于中间层的特征维度相对较小,因此在进行特征投影时所需计算的参数数量也较小,可以减少计算量和模型参数,加速模型的训练和推理过程。图4为不同方法的基本结构对比,CL_ConvNeXt网随机翻转随机旋转剪切填充Cutout混合Mixup第7 期法,在解决多肉植物图像分类这个特定领域问题时有着不可取代的优势。不仅可以提取浅层网络特征,对全局和局部特征进行融合,而且重新设计了封雨欣等:基于对比学习的多肉植物分类识别方法研究入网络系统中部署非常有利。157损失函数的计算方法,可以实现单阶段模型训练。对计算机资源的
22、要求不高,对后续在移动设备或嵌LossBlockBlock深度卷积网络BlockBlockfcDeep convolutional networkProjectionBlockBlockContrastiveBlockBlockSimCLRheadlearning lossLossBlockProjectionheadConv2d 4x4stride 4LayerNormBlockProjectionheadContrastive learning lossBlockProjectionhead图4不同方法的基本结构对比Fig.4 The basic structure comparison
23、of different methodsConvNeXtx3Blockhead96x95x9S96x9Sx9S(dim-96)BlockProjectionhead3Projection(dim-96)CL_ConvNeXtDownsample3ConvNeXtBlock(dim=192)Projectionhead(dim=192)DownsampleGlobal Avg3FCLayerNormDownsampleX1ProjectionConvNeXtheadPool89LLLx9Block(dim=384)(dim=768)ConvNeXtBlock(dim=384)Downsample
24、Conv2d 1x1DepthwiseConv2d7x7stride 1,padding 3Layer NormXMXConvNeXtBlock1.2.2Projection head 结构高维特征映射到低维向量空间来增强特征表示,这个低维的向量空间通常被称为嵌入空间(Em b e d d i n g s p a c e),其中每个向量对应着1个样本的表示。在这个空间中,相似的样本会被映射到相似的位置,不相似的样本会被映射到不同的位置。Conv2d 1x1stride 1tumpxMxuGELU图5CL_ConvNeXt网络模型结构Fig.5CL_ConvNeXt network model
25、structureProjection head通过将stride 1Layer ScaleDrop Path这种低维的表示可以帮助模型更好地学习数据的结构和特征,从而提高模型的性能。通过只保留相关信息并消除不相关信息,Projectionhead有助于在不同任务中实现更好的泛化、高效的特征提取和稳定而健壮的模型性能。Projection head中的每个神经元可以看作是1个学到的特征。因此,可以通过Layer NormConv2d 1x1tumpxMxystride 1158分析每个神经元对应的权重来了解模型在学习哪些特征。对于多肉植物图像分类任务,可以通过分析投影层中的每个神经元对应的权重
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 对比 学习 植物 分类 识别 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。