基于改进YOLOX的轻量型垃圾分类检测方法.pdf
《基于改进YOLOX的轻量型垃圾分类检测方法.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOX的轻量型垃圾分类检测方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、生活垃圾分类是保护生态环境、促进绿色和谐发展的有效措施。针对移动端设备计算资源和内存有限,重量级模型难以嵌入等问题,本文提出一种基于改进 YOLOX-tiny 轻量型的垃圾分类检测方法。首先,使用 EIoU 替换原来的IoU 损失函数,能加速收敛,提升检测精度;其次,在颈部网络引入注意力机制 CBAM,对不同通道的权重重新分配,获取更多浅层的细粒度特征和深层的语义信息;最后,使用 GhostBottleneck 模块替换特征提取网络中的 CSP 模块,保留更多边缘信息,同时降低参数量,使模型轻量化。在华为云垃圾数据集上的实验结果表明,改进的算法与 YOLOX-tiny相比,参数量降低至原来的
2、87.97%,精度提升了 0.3 个百分点,在 TrashNet 数据集上的实验效果提升了 0.36 个百分点,从而证明了本文算法的有效性,该算法有利于嵌入移动端设备使用,具有一定的实用价值。关键词:垃圾分类;YOLOX;轻量型网络;EIoU;CBAM;GhostBottleneck中图分类号:TP391.41 文献标志码:A 文章编号:1001-6600(2023)03-0080-11目前,我国城镇化已进入高速增长期,城镇生活垃圾呈爆发式增长,据相关统计,2020 年我国生活垃圾清运量为 23 511.7 万吨1,对生活垃圾进行正确分类可以有效缓解垃圾污染问题。2019 年 6 月,住房和城
3、乡建设部等 9 部门印发关于在全国地级及以上城市全面开展生活垃圾分类工作的通知2;2019 年7 月 1 日,上海市政府出台了强制垃圾分类的政策,政策要求上海市 2 600 万居民,包括商业机构,在垃圾的源头进行垃圾分类处理3;2022 年 4 月 26 日,贵阳市政府根据中华人民共和国固体废物污染环境防治法等法律法规的规定,结合贵阳市实际,制定了贵阳市城镇生活垃圾分类管理条例4。由此可见,政府越来越重视垃圾分类的问题,如果能有效解决该问题,将会减少环境污染,进一步提升人居环境。随着计算机视觉技术的迅猛发展,基于卷积神经网络的目标检测算法广泛应用于人脸识别5、道路交通6、人工智能7、医疗影像分
4、析等领域。目标检测包括用于提取特征的主干网络、进行特征融合的颈部以及检测头 3 个部分,其主要分为双阶段检测算法(two-stage)和单阶段检测算法(one-stage)。two-stage算法分为 2 步:第一步产生感兴趣区域(ROI);第二步对这些感兴趣区域进行训练,通过卷积神经网络对目标分类。常见的 two-stage 算法有 R-CNN、Faster-RCNN、SPP-Net、R-FCN 等8-10,该类算法检测精度高但速度慢。one-stage 算法则直接在网络中对目标物体进行特征提取,将 two-stage 的 2 个步骤融合为一步,检测速度更快,常见的算法有 SSD11、YOL
5、O 系列12-15。针对垃圾分类检测问题,一些研究者进行了相关的研究工作。如:陈智超等16提出基于 MobileNetV2改进的垃圾图像分类算法,在自制垃圾数据集(共 14 类,4 256 张图片)上的准确率为 94.6%,实现了推理速度与预测准确率的提升;高明等17提出基于新型空间注意力机制的垃圾图像分类算法,证明了神经网络 GANet 在垃圾分类问题中具有良好的性能,推理时间为 80 ms;袁建野等18提出基于轻量级残差网络的垃圾图片分类方法,在中国科学院自动化研究所智能服务机器人实验室提供的数据集(共 2 400 张图片,6 个类别)上进行实验,其 MAPMobileNet-18 模型的
6、精度为 86.34%;罗安能等19提出基于 YOLOv5s 改进的算法,结合 ShuffleNetV2 与深度可分离卷积,在自制数据集(共 6 632 张图片,10 个类别)上进行实验,收稿日期:2022-10-08 修回日期:2022-11-30基金项目:国家自然科学基金(62162010);贵州省科技支撑计划项目(黔科合支撑2022一般 267)通信作者:苟刚(1976),男,贵州贵阳人,贵州大学副教授。E-mail:http:精度达到 94.01%;吕东等20对 ResNet-101 进行改进,融入注意力机制模块,并使用 11 卷积代替注意力机制模型的全连接层,在 TrashNet 数据
7、集上的准确率为 80.87%。上述文献模型要么使用自制数据集,泛化性能较弱,要么网络模型参数量较多,不适合移动端设备的嵌入。轻量化网络在保证模型精度的基础上降低了模型的参数量和复杂度。为了解决上述问题,同时对模型进行轻量化,本文提出一种轻量级垃圾分类检测网络结构,采用 YOLOX-tiny 作为基线模型,在颈部网络中引入注意力机制,使用轻量化模块 GhostBottleneck 替换 CSP 模块并更换模型损失函数,来提升模型的整体性能,并在降低网络参数量的同时不损失网络性能。在 TrashNet 垃圾数据集和华为云垃圾数据集上的实验显示,本文改进算法具有实用性与鲁棒性。1 背景知识1.1 Y
8、OLOX 网络结构传统的 YOLO 系列算法获得的特征层是将输入的图像进行网格划分,每个特征点对应若干先验框,网络的预测结果相当于对先验框内部是否包含物体进行判断,并调整先验框获得预测框。YOLOX 融合了 YOLO 系列网络的优点,主要改进为:1)使用 Focus 网络结构对特征点的信息进行划分,间隔像素点进行取值,扩张通道,同时使用 SiLU 激活函数,在其基础上进行有效改进;2)将 YOLOv3、YOLOv4 的耦合头部改为解耦头部,提高收敛速度,将检测头分为 2 个部分,分别实现分类与回归、目标检测任务,最后对特征信息进行融合;3)使用 Mosaic 和 MixUp 数据增强方式扩充数
9、据集,丰富被检测物体的背景信息;4)采用 Anchor-Free 的方式,缓解正负样本不平衡的问题,降低时间成本;5)采用 SimOTA 动态匹配正样本,降低训练时间。YOLOX-tiny 的网络结构如图 1 所示,共 4 个部分,分别为输入、主干网络、颈部网络、检测头。在输入端,输入需要检测的图片;在主干网络部分,将输入的图片经过 Focus 切片,周期性地抽取高分辨率图像的像素点重构至低分辨率图像中,减少计算量,提升速度,然后经过 Dark2、Dark3、Dark4 获得浅层相关特征,在 Dark5 的 CBS 和 CSP 之间插入 SPP 池化结构,扩大感受野,获得更多的语义信息;在颈部
10、网络部分,将C5 经过卷积、上采样,并与 C4 获得的特征信息拼接融合,接着使用 CSP 结构,再次卷积、上采样,与 C3 获得的特征信息融合,进行下采样,依次输出 P5、P4、P3,使上下层获得的信息被充分利用,最后输出预测结果。图 1 YOLOX-tiny 网络结构Fig.1 Network structure of YOLOX-tiny18广西师范大学学报(自然科学版),2023,41(3)1.2 损失函数交并比(IoU)21被用于测量目标检测中预测框与真实框的重叠程度,用预测框 A 和真实框 B 的交集除以它们的并集,如式(1)所示,A 与 B 的交集越大,表明模型的检测效果越好。Io
11、U=ABAB。(1)当预测框 A 和真实框 B 不重合时,交集的面积为零,大范围内损失函数没有梯度,无法更好反映两者之间的距离。Rezatofighi 等22对其进行改进,提出了 GIoU,如式(2)所示,C 表示 2 个框的最小外接矩阵。LGIoU=1-IoU+|C-(AB)|C|。(2)虽然 GIoU 加入了最小外包框作为惩罚项,解决了 IoU 作为损失函数时梯度无法计算的问题,但是依然存在一些局限性。随后 Zheng 等23提出了 DIoU,如式(3)所示,(A,B)表示 A 框与 B 框中心点坐标的欧氏距离,c 表示包住它们的最小方框的对角线距离。LDIoU=1-IoU+2(A,B)c
12、2。(3)DIoU 仅考虑了中心点距离以及重叠面积,未考虑到长宽比的问题,CIoU 在 DIoU 损失的基础上添加衡量预测框和真实框纵横比 v,一定程度上加快了预测框的回归速度,如式(4)所示,表示权重参数。LCIoU=1-IoU+2(A,B)c2+v。(4)1.3 注意力机制注意力机制能够定位到感兴趣的区域,自适应地决定不同区域的权重比,在通道位置关注更高语义的信息。比如高分辨率特征图包含更多目标的细粒度特征,低分辨率特征图包含更多语义信息,通过注意力自适应分配不同权重,可以有效提高感兴趣目标的检测精度。由于卷积池化过程中特征图在不同通道的不同权重会带来负面影响,2018 年,Hu 等24提
13、出通道注意力机制 SENet(squeeze-and-excitation networks),首先对输入的特征层进行全局平均池化,之后使用 2 次全连接并通过 sigmoid 将其值固定在 0 与 1 之间,最后将获得的权值与原输入特征层相乘。2018 年,Woo等25提出 CBAM(convolutional block attention module)注意力机制,CBAM 结合了通道注意力模块 CAM(channel attention module)和空间注意力模块 SAM(spatial attention module),如图 2 所示。图 2 通道注意力与空间注意力结构Fig.
14、2 Structure of channel attention and spatial attention1.4 Ghost 网络结构2020 年,华为诺亚方舟实验室提出了新的轻量级神经网络 GhostNet26,其将传统的卷积分为 2 步:一方面,利用较少的计算量通过传统卷积生成通道较小的特征图;另一方面,从已经获得的特征图信息通过深度卷积生成新的特征图,最后对特征进行融合拼接。在 ImageNet 分类任务中,GhostNet 的 Top-1 正确率28http:达到 75.7%,比轻量级网络 MobileNetV327提升了 0.5%。GhostNet 的网络结构如表 1 所示,G-b
15、neck 表示幽灵瓶颈,#exp 表示扩展大小,#out 表示输出通道的数量,SE 表示是否使用 SE 注意力机制模块。表 1 GhostNet 网络结构Tab.1 GhostNet structureInputOperator#exp#outSEStride22423Conv2d 33162112216G-bneck16161112216G-bneck4824256224G-bneck7224156224G-bneck72401228240G-bneck120401128240G-bneck24080214280G-bneck20080114280G-bneck18480114280G-bn
16、eck18480114280G-bneck48011211142112G-bneck67211211142112G-bneck6721601272160G-bneck960160172160G-bneck9601601172160G-bneck960160172160G-bneck9601601172160Conv2d 11960172960AvgPool 7712960Conv2d 111 2801121 280FC1 0002 改进的 YOLOX 算法2.1 改进的网络结构针对多分类任务中数据集正负样本不平衡、背景复杂、检测困难、误检、漏检等问题,本文使用 EIoU 作为损失函数,调整模型
17、训练过程中样本比例失衡的问题,提升检测性能。其次,随着网络深度的增加,会丢失部分信息,本文对主干网络 3 个输出特征层 C3(5252)、C4(2626)、C5(1313)分别融合 CBAM 注意力机制,重新分配不同通道的权重,使深层的语义信息与浅层的细粒度特征充分融合,使模型更加关注感兴趣的区域。然后对获得的特征信息进行卷积、上采样、连接、下采样操作,其中 P3 负责检测小目标物体,P4 负责检测中目标物体,P5 负责检测大目标物体,为了细化小目标特征,在 P3 之前再次引入 CBAM。最后,使用 GhostBottleneck 模块替换 C4、C5 层的 CSP 模块,降低参数量,轻量化模
18、型。本文改进的网络结构如图 3 所示。38广西师范大学学报(自然科学版),2023,41(3)图 3 改进的 YOLOX 结构Fig.3 Improved YOLOX structure2.2 EIoU 损失函数CIoU 虽然考虑了边界框回归的重叠面积、中心点距离、纵横比,但式(4)中 v 反映的是纵横比的差异,而不是宽高分别与其置信度的真实差异,有时会阻碍模型有效地优化相似性。为了解决该问题,Zhang等28提出 EIoU,拆开了 CIoU 的纵横比,EIoU 损失函数包含 3 个部分:重叠损失、中心距离损失、宽高损失,如式(5)所示。LEIoU=LIoU+Ldis+Lasp=1-IoU+2
19、(b,bgt)c2+2(w,wgt)C2w+2(h,hgt)C2h。(5)式中:C2w、C2h分别表示预测框和真实框最小外接矩形的宽和高。EIoU 损失的重叠损失和中心距离损失使用 CIoU 中的原方法,而宽高损失直接使预测框与真实框的宽度和高度之差最小,使得收敛速度更快。本文使用 EIoU 作为改进模型的损失函数,能有效提升精度。2.3 CBAM 模块由于部分通道的信息特征更为重要,所以本文引入了 CBAM 注意力机制,如图 4 所示,CAM 用于处理特征图通道权重分配的关系,SAM 用于处理图像分类,将注意力聚焦于重要区域。首先对输入的特征通过 CAM 模块进行全局最大池化与全局平均池化,
20、得到 2 个 11C 的特征层;再通过 MLP,输入分别为 C和 C/r,其中 r 表示升维或者降维因子,实验中 r 取值为16,进行卷积、ReLU 操作;接着使用 sigmoid 函数生成 Mc;然后通过 SAM 模块,进行通道拼接;再经过 77 卷积、Sigmoid 函数,获得目标的重要特征信息,提升模型的检测性能。2.4 GhostBottleneck 模块GhostBottleneck 模块由 2 个 GhostConv 模块和 1 个残差块组成。GhostConv 由卷积、批归一化、ReLU激活函数组成,能有效减少参数量,有利于节约计算资源和内存,与 Ghost 模块相比,训练速度更
21、快,参数量更少,故使用 GhostBottleneck 替换原来颈部网络的 CSP 结构。GhostBottleneck 结构如图 5 所示:步长为1 时,GhostBottleneck 由 2 个 Ghost 模块堆叠而成,第 1 个 Ghost 模块用于增加通道数,第 2 个 Ghost 模块用于减少通道数,并使用短切连接,如图 5(a)所示;当步长为 2 时,2 个 Ghost 模块之间使用深度卷积连接,如图 5(b)所示。3 实验结果与分析3.1 实验条件与数据集实验在 Ubuntu18.4 操作系统上进行训练与测试,GPU 为 NVIDIA GeForce RTX 2080 Ti,C
22、PU 为 Intel48http:(R)core(TM)i3-12100,内存 16 GiB,实现环境是 Pytorch1.8.0。InputChannelAttentionModuleSpatialAttentionModuleRefinedFeature图 4 CBAM 结构Fig.4 CBAM structure AddAddBNGhost moduleGhost moduleBN ReLUBN ReLUBNBNGhost moduleGhost moduleDWConv Stride=2aStride=1 bStride=2图 5 GhostBottleneck 结构Fig.5 Gho
23、stBottleneck structure本文在训练过程中使用预训练模型来加快训练速度,分为冻结层训练和解冻层训练 2 部分。先进行冻结层训练,其中训练批次大小(batch size)设置为 16,迭代次数为 50;再进行解冻层训练,其中训练批次大小设置为 8,迭代次数为 250。总共训练 300 个 Epoch,训练所用的参数如表 2 所示。本次实验数据集来源于 2020 年华为云人工智能大赛的生活垃圾图像数据集,包含可回收垃圾、厨余垃圾、有害垃圾、其他垃圾 4 个大类,易拉罐、电池、茶叶渣等 44 个小类,共 14 964 张图片,训练集与测试集划分比例为 8 2,由于类别较多,此处仅展
24、示部分垃圾类型的标注框数量,如图 6 所示。表 2 训练参数Tab.2 Training parameters参数名称数值Input_size416416Batch_size16/8optimizer_typeSGDInit_lr110-2Min_lrInit_lr10-2Momentum0.9Epoch50/300lr_decay_typecosweight_decay510-4图 6 数据集标记框数量Fig.6 Number of labeled boxes in dataset3.2 评价指标本次实验用到的评价指标包括 mAP、计算量(FLOPs)、参数量、查准率(P)、召回率(R)、综
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 YOLOX 轻量型 垃圾 分类 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。