![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于SwinT-YOLACT的玉米果穗实时实例分割.pdf
《基于SwinT-YOLACT的玉米果穗实时实例分割.pdf》由会员分享,可在线阅读,更多相关《基于SwinT-YOLACT的玉米果穗实时实例分割.pdf(9页珍藏版)》请在咨信网上搜索。
1、农业信息与电气技术基于 SwinT-YOLACT 的玉米果穗实时实例分割朱德利,余茂生,梁明飞(1.重庆师范大学计算机与信息科学学院,重庆401331;2.重庆市数字农业服务工程技术研究中心,重庆401331)摘要:玉米果穗的表型参数是玉米生长状态的重要表征,生长状况的好坏直接影响玉米产量和质量。为方便无人巡检机器人视觉系统高通量、自动化获取玉米表型参数,该研究基于 YOLACT(youonlylookatcoefficients)提出一种高精度-速度平衡的玉米果穗分割模型 SwinT-YOLACT。首先使用 Swin-Transformer 作为模型主干特征提取网络,以提高模型的特征提取能力
2、;然后在特征金字塔网络之前引入有效通道注意力机制,剔除冗余特征信息,以加强对关键特征的融合;最后使用平滑性更好的 Mish 激活函数替换模型原始激活函数 Relu,使模型在保持原有速度的同时进一步提升精度。基于自建玉米果穗数据集训练和测试该模型,试验结果表明,SwinT-YOLACT 的掩膜均值平均精度为 79.43%,推理速度为 35.44 帧/s,相较于原始 YOLACT 和其改进算法 YOLACT+,掩膜均值平均精度分别提升了 3.51 和 3.38 个百分点;相较于 YOLACT、YOLACT+和 MaskR-CNN 模型,推理速度分别提升了 3.39、2.58 和 28.64 帧/s
3、。该模型对玉米果穗有较为优秀的分割效果,适于部署在无人巡检机器人视觉系统上,为玉米生长状态监测提供技术支撑。关键词:图像分割;注意力机制;玉米果穗;YOLACT;Swin-Transformerdoi:10.11975/j.issn.1002-6819.202302172中图分类号:S24;TP391文献标志码:A文章编号:1002-6819(2023)-14-0164-09朱德利,余茂生,梁明飞.基于 SwinT-YOLACT 的玉米果穗实时实例分割J.农业工程学报,2023,39(14):164-172.doi:10.11975/j.issn.1002-6819.202302172http
4、:/www.tcsae.orgZHU Deli,YU Maosheng,LIANG Mingfei.Real-time instance segmentation of maize ears using SwinT-YOLACTJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(14):164-172.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202302172http:/www.tcsae
5、.org0引言高通量、自动化获取作物表型参数是智慧农业背景下实现作物生长状态监测和性状分析的基础1。玉米果实和穗须是玉米的重要器官2,其大小和形状直接关系到玉米的产量和质量3。随着人工智能技术在农业生产中的应用4-6,通过机器视觉进行玉米表型参数获取和性状分析具有客观、准确、快速的优点7。采用田间巡检机器人完成大规模玉米种植模式下的生长状态监测是现阶段重要趋势,而玉米果穗分割是巡检机器人视觉系统的基础。图像分割是视觉系统快速、高精度地获取植物表型信息的重要技术手段8。该技术将图像分成若干个具有独特性质的区域,再从这些区域中提取感兴趣的目标,相较于目标检测提取的检测框,图像分割对目标边界有更加精
6、细的表现,去除了冗余的背景信息,更有利于表型参数的获取。图像分割中,实例分割方法不仅可以对玉米果穗进行识别分类,还能框选分割出玉米果实和穗须个体,在果穗聚集重叠等复杂情况下更能有效获取个体信息,更适用于玉米定量化精准监测,是自动巡检机器人目标识别与分割的有效技术手段。近年来,国内外学者针对果实分割任务进行了大量研究并取得了不错的成果,主要分为基于阈值、基于边界检测和基于区域生长的传统分割算法,以及基于深度学习的分割方法。JI 等9用基于区域生长和颜色特征的图像分割方法,在提取图像的颜色特征和形状特征后引入一种基于支持向量机(supportvectormachine,SVM)的苹果识别分类算法,
7、识别成功率约为 89%,平均识别时间为 352ms。孙建桐等10以串收番茄为对象,利用Canny 边缘检测算法获得果实边缘轮廓点后基于几何形态学对图像进行分割,果实识别正确率为 85.1%。以上方法虽然在一定条件下有不错的分割效果,但受制于传统方法的局限性,在田间等实际复杂环境下时难以有效学习到目标特征,进而导致分割效果略显不足。随着机器学习的发展,越来越多的深度学习方法被用于农业果蔬检测和分割任务,JIA 等11基于 MaskR-CNN 网络,将残差网络(ResNet)和密集连接卷积网络(DenseNet)相融合作为特征提取的主干网络,提出一种针对重叠苹果目标果实的优化掩膜区域卷积神经网络,
8、平均检测准确率和召回率分别为 97.31%和 95.70%。YU等12以 ResNet-50 为主干网络,引入掩膜区域卷积网络(MaskR-CNN)实现对未成熟和成熟草莓的检测和分割,平均检测精度、召回率和 MIoU 率分别为 95.78%、95.41%和 89.85%。贾伟宽等13利用分离注意力网络(ResNeSt)设计 SOLO 算法的主干网络,同时引入特征金字塔网络(featurepyramidnetworks,FPN),构造收稿日期:2023-02-28修订日期:2023-04-17基金项目:重庆市教育委员会科学技术研究项目(KJQN201800536);重庆市高校创新研究群体项目智慧
9、农业的机器视觉感知与智能算法研究(CXQT20015)作者简介:朱德利,博士,教授,研究方向为机器学习与机器视觉在农业工程中的应用。Email:第39卷第14期农 业 工 程 学 报Vol.39No.141642023年7月TransactionsoftheChineseSocietyofAgriculturalEngineeringJuly2023ResNeSt+FPN 组合结构提取绿色果实特征,将 SOLO 算法分为类别预测和掩码生成 2 个分支实现对绿色果实的实例分割,平均召回率和精确率分别达到 94.84%和96.16%,平均每张绿色果实图像分割时间为 0.14s。以上研究大多基于两阶
10、段模型 MaskR-CNN 进行,虽然在分割精度上有不错的效果,但随着农情监测的实时性需求不断提高,两阶段模型受限于体积大、推理速度慢且很难提升而难以应用于实际田间复杂场景。YOLACT 基于单阶段实例分割方法设计,将原型掩码与掩码系数进行线性组合生成目标的实例掩码,速度更快,能达到实时实例分割的要求,但该模型分割精度明显不如两阶段模型。YOLACT 采用卷积神经网络(convolutionalneuralnetwork,CNN)架构进行特征提取,这种方式依靠卷积核结合像素周围信息进行特征提取,在捕捉长距离依赖能力和全局信息的处理上较差,限制了模型性能的进一步提升。而 Transformer
11、模型利用像素与像素之间的自注意力机制14构成多头注意力机制,不仅充分考虑了卷积神经网络的位移不变性、感受野与层次关系的特点,还具有处理完整序列和学习长距离依赖关系的能力,在提取特征时有效结合全局信息生成特征图。因此,本研究将 Swin-Transformer 引入 YOLACT模型中,提出兼顾分割精度和速度的 SwinT-YOLACT 分割模型,对玉米果实和穗丝进行识别和精确分割,以期为准确获取玉米果穗表型信息提供支撑。1材料与方法1.1数据采集和数据集制作本研究玉米果穗数据采集于重庆市璧山区自然田间场景,采集时间为 2022 年 6 月初至 7 月中旬,使用便携式移动端相机(Xiaomi10
12、,中国)进行拍摄,图像分辨率为43445792(像素),拍摄距离约为 0.21m。为保证数据的多样性,试验分别采集了不同光照强度、不同果实数量、不同成熟度的图像样本共 473 张,包含光线变化、背景干扰、果实遮挡、重叠等多种情况,如图 1 所示。数据处理主要分为 2 个阶段:第一阶段,为了减少模型训练和测试的计算和运行时间,将原始图像大小调整为 544544(像素),然后通过 Labelme15软件对果实和穗须进行标注,制作为 COCO16格式数据集。a.乳熟期a.Milk stageb.蜡熟期b.Wax stagec.完熟期 c.Full staged.背光 d.Back lightinge
13、.果实被叶片遮挡 e.Fruit obscured by blade f.果实相互遮挡 f.Fruit obscuredeach other 图 1玉米果穗图像样本示例Fig.1Exampleofmaizeearimagesample深度学习需要足够的数据完成模型训练,适当增加数据集大小能增强模型的泛化能力和鲁棒性。因此,数据处理的第二阶段是通过改变亮度、平移、翻转、添加噪声和添加随机点对 473 幅原始图像进行增强处理,增强后的样本如图 2 所示,最终获得样本共计 3300 幅,按 7:3 划分为训练集和验证集。a.原图a.Original imageb.水平翻转b.Horizontal f
14、lipc.平移 c.Panningd.添加噪声d.Add noisee.平移+翻转+改变亮度e.Panning+flipping+change brightness图 2增强后的图像样本示例Fig.2Exampleofenhancedimagesample1.2玉米果穗分割模型1.2.1YOLACT 实例分割实例分割通常是将目标检测与语义分割串联,即首先对图像进行目标检测,再对预测框内图像进行分割,典型的如 MaskR-CNN17,但这种方法推理时间较长、分割帧率较低,无法应用于实时检测。YOLACT网络18是一种简单、快速的实时实例分割模型,整体架构设计轻量化,分割速度与分割效果上具有很好的
15、平衡,方便部署在边缘设备上,网络整体结构如图 3所示。第14期朱德利等:基于 SwinT-YOLACT 的玉米果穗实时实例分割165特征提取网络ResnetCropThresholdFast NMS特征融合网络FPN掩膜原型生成Protonet掩膜系数预测Prediction head输出Output输入Input注:FastNMS 为快速非极大值抑制,表示矩阵相乘,Crop 表示对边界外的 mask 清零操作,Threshold 表示以 0.5 为阈值对生成的 mask 进行图像二值化,下同。Note:FastNMSisfastnon-maximalsuppression,denotesth
16、ematrixmultiplication,Cropdenotesazeroingoperationforthemaskoutsidetheboundingbox,andThresholddenotesanimagebinarizationofthegeneratedmaskwithathresholdof0.5,thesamebelow.图 3YOLACT 网络结构Fig.3StructureofYOLACT(youonlylookatcoefficients)YOLACT 网络由 2 个并行的分支组成:掩码预测分支 Protonet(prototypemask 分支)和目标检测识别分支pr
17、edictionhead,Protonet 分支学习图像中目标实例的特征表示,通过使用全卷积网络结构生成单一实例的原型掩码,其中包含目标实例的语义信息和形状信息。predictionhead 分支(在检测分支上添加额外的头)通过对每个候选框预测掩码系数,得到图像中实例的位置,2个子分支分开并行计算,大大提高了计算速度,最后通过矩阵乘法融合得到最终的预测结果,从而缩短模型推理时间,满足实时实例分割的要求。1.2.2引入 Swin-Transformer 特征提取网络针对常规卷积核具有空间局限性19的问题,本文采用 Swin-Transformer20作为主干网络,以增加主干网络对非局部信息的整合
18、能力以及从高维特征图像中获取全局语义信息的能力。Swin-Transformer20是一种可以用于 各 种 下 游 视 觉 任 务 的 通 用 模 型 架 构,在 保 留Transformer 结构自注意力计算的基础上,构造了层次化的特征映射,并且使 Transformer 结构计算复杂度由指数级降低为与图像大小成线性关系,在多项计算机视觉任务上实现了与当前最先进模型相当的性能。Swin-Transformer 网络结构主要分为 4 个 Stage,每个 Stage 的特征图像数量成倍增加,尺寸缩小,在利用自注意力与多头注意力机制提取全局特征的同时保留各个尺度的重要特征,具体结构如图 4 所示
19、。块分割Patch partition线性嵌入Linear embedding块合并Patch merging块合并Patch merging块合并Patch merging62阶段1Stage1LNW-MSALNMLPLNSW-MSALNMLP22阶段2Stage2阶段3Stage3阶段4Stage4a.Swin-transformer架构a.Swin-transformer architectureb.Swin-transformer block结构b.Structure of swin-transformer block注:LN 为归一化层,W-MSA 为窗口多头自注意力结构,表示按元素
20、求和,SW-MSA 为移位窗口多头自注意力结构,MLP 为多头感知机。Swin-Transformerblock 由以上结构串联而成。Note:LNisthenormalizationlayer,W-MSAisthewindowmulti-headedself-attentivestructure,denotessummationbyelements,SW-MSAistheshiftedwindowmulti-headedself-attentivestructure,MLPisthemulti-headedperceptron,Swin-Transformerblockiscomposedo
21、fstringingtheabovestructurestogether.图 4Swin-Transformer 网络结构Fig.4StructureofSwin-TransformernetworkSwin-Transformer 先将输入图像分成若干个 patch,然后以窗口多头自注意力(windowsmulti-headself-at-tention,W-MSA)取代全局多头自注意力(multi-headself-attention,MSA),以不重叠的方式均匀地划分图像得到各个窗口,在窗口内部之间以 patch 为单位进行计算,用这种方法将计算复杂度降为线性,计算量大大减少。MSA 和
22、 W-MSA 计算复杂度具体为(MSA)=4hwC2+2(hw)2C(1)(W-MSA)=4hwC2+2M2hwC(2)式中表示计算复杂度,h 代表 featuremap 的高度,w代表 featuremap 的宽度,C 代表 featuremap 的深度,M代表每个窗口的大小。Swin-Transformer 使用类似卷积神经网络中的层次化构建方法,如图 5a,在每一个 Stage 中将特征图以下采样的方式分成若干个不同尺度的组,然后对每个组中的特征图进行自注意力计算和多头注意力计算,最166农业工程学报(http:/www.tcsae.org)2023年后将不同尺度的特征图进行融合,得到全
23、局特征表示。通过这种层次化的结构设计,既可以提取出图像的低层纹理特征,也能获得图像的高层语义特征。为解决特征图不同窗口之间无法进行信息传递,像素无法捕获更广泛的信息从而限制模型建模表征能力的问题,Swin-Transforme 引入了移位窗口多头自注意力(shiftedwindowsmulti-headself-attention,SW-MSA),M/2如图 5b,将原来的窗口向左上循环偏移个像素,得到多个尺寸不同的新窗口。同时,在偏移后的特征图中,允许不相邻的子窗口组成一个窗口,新划分的批处理窗口数与偏移前规则分区窗口数保持相同,这样新窗口中包含了原来 W-MSA 里不同窗口之间的 patc
24、h,实现了不同窗口之间的信息交流,让网络更好的提取到全局特征。16 8 4 单位块A patchW-MSASW-MSA在新局部窗口内执行多头自注意力计算A local window to perform self-attentiona.层次化构建方法a.Hierarchical feature mapsb.移位窗口多头自注意力b.Shifted windows multi-head self-attention图 5Swin-Transformer 层次化结构和移位窗口多头注意力Fig.5Swin-Transformerhierarchyandshiftwindowmulti-headedat
25、tention1.2.3融合有效通道注意力田间环境下玉米植株间距较小,玉米果实容易受到植株之间的叶片干扰,且玉米果实与叶片和植株节间体颜色相近,表观特征较为类似。为了区分它们之间更深层次的语义信息,准确提取玉米果实目标的关键特征,本文在特征融合之前引入 3 层有效通道注意力机制(efficientchannelattention,ECA),使网络在进行特征融合时聚焦在感兴趣的局部信息中,重点关注玉米果实和穗须特征,对其他无用信息进行抑制。ECA21是一种轻量级高效通道注意力模块,在SENet22的基础上引入一个新的计算结构进行优化,增加了通道间的关联性,使得不同通道之间的信息可以相互影响和传递
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SwinT YOLACT 玉米 果穗 实时 实例 分割
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。