分销赏收藏举报申诉 / 9

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于SwinT-YOLACT的玉米果穗实时实例分割.pdf

基于SwinT-YOLACT的玉米果穗实时实例分割.pdf

上传人：自信****多点

文档编号：2108696

上传时间：2024-05-16

格式：PDF

页数：9

大小：3.25MB

《基于SwinT-YOLACT的玉米果穗实时实例分割.pdf》由会员分享，可在线阅读，更多相关《基于SwinT-YOLACT的玉米果穗实时实例分割.pdf（9页珍藏版）》请在咨信网上搜索。

1、农业信息与电气技术基于 SwinT-YOLACT 的玉米果穗实时实例分割朱德利，余茂生，梁明飞（1.重庆师范大学计算机与信息科学学院，重庆401331；2.重庆市数字农业服务工程技术研究中心，重庆401331）摘要：玉米果穗的表型参数是玉米生长状态的重要表征，生长状况的好坏直接影响玉米产量和质量。为方便无人巡检机器人视觉系统高通量、自动化获取玉米表型参数，该研究基于 YOLACT（youonlylookatcoefficients）提出一种高精度-速度平衡的玉米果穗分割模型 SwinT-YOLACT。首先使用 Swin-Transformer 作为模型主干特征提取网络，以提高模型的特征提取能力

2、；然后在特征金字塔网络之前引入有效通道注意力机制，剔除冗余特征信息，以加强对关键特征的融合；最后使用平滑性更好的 Mish 激活函数替换模型原始激活函数 Relu，使模型在保持原有速度的同时进一步提升精度。基于自建玉米果穗数据集训练和测试该模型，试验结果表明，SwinT-YOLACT 的掩膜均值平均精度为 79.43%，推理速度为 35.44 帧/s，相较于原始 YOLACT 和其改进算法 YOLACT+，掩膜均值平均精度分别提升了 3.51 和 3.38 个百分点；相较于 YOLACT、YOLACT+和 MaskR-CNN 模型，推理速度分别提升了 3.39、2.58 和 28.64 帧/s

3、。该模型对玉米果穗有较为优秀的分割效果，适于部署在无人巡检机器人视觉系统上，为玉米生长状态监测提供技术支撑。关键词：图像分割；注意力机制；玉米果穗；YOLACT；Swin-Transformerdoi：10.11975/j.issn.1002-6819.202302172中图分类号：S24；TP391文献标志码：A文章编号：1002-6819(2023)-14-0164-09朱德利，余茂生，梁明飞.基于 SwinT-YOLACT 的玉米果穗实时实例分割J.农业工程学报，2023，39(14)：164-172.doi:10.11975/j.issn.1002-6819.202302172http

4、:/www.tcsae.orgZHU Deli,YU Maosheng,LIANG Mingfei.Real-time instance segmentation of maize ears using SwinT-YOLACTJ.TransactionsoftheChineseSocietyofAgriculturalEngineering(TransactionsoftheCSAE),2023,39(14):164-172.(inChinesewithEnglishabstract)doi:10.11975/j.issn.1002-6819.202302172http:/www.tcsae

5、.org0引言高通量、自动化获取作物表型参数是智慧农业背景下实现作物生长状态监测和性状分析的基础1。玉米果实和穗须是玉米的重要器官2，其大小和形状直接关系到玉米的产量和质量3。随着人工智能技术在农业生产中的应用4-6，通过机器视觉进行玉米表型参数获取和性状分析具有客观、准确、快速的优点7。采用田间巡检机器人完成大规模玉米种植模式下的生长状态监测是现阶段重要趋势，而玉米果穗分割是巡检机器人视觉系统的基础。图像分割是视觉系统快速、高精度地获取植物表型信息的重要技术手段8。该技术将图像分成若干个具有独特性质的区域，再从这些区域中提取感兴趣的目标，相较于目标检测提取的检测框，图像分割对目标边界有更加精

6、细的表现，去除了冗余的背景信息，更有利于表型参数的获取。图像分割中，实例分割方法不仅可以对玉米果穗进行识别分类，还能框选分割出玉米果实和穗须个体，在果穗聚集重叠等复杂情况下更能有效获取个体信息，更适用于玉米定量化精准监测，是自动巡检机器人目标识别与分割的有效技术手段。近年来，国内外学者针对果实分割任务进行了大量研究并取得了不错的成果，主要分为基于阈值、基于边界检测和基于区域生长的传统分割算法，以及基于深度学习的分割方法。JI 等9用基于区域生长和颜色特征的图像分割方法，在提取图像的颜色特征和形状特征后引入一种基于支持向量机（supportvectormachine，SVM）的苹果识别分类算法，

7、识别成功率约为 89%，平均识别时间为 352ms。孙建桐等10以串收番茄为对象，利用Canny 边缘检测算法获得果实边缘轮廓点后基于几何形态学对图像进行分割，果实识别正确率为 85.1%。以上方法虽然在一定条件下有不错的分割效果，但受制于传统方法的局限性，在田间等实际复杂环境下时难以有效学习到目标特征，进而导致分割效果略显不足。随着机器学习的发展，越来越多的深度学习方法被用于农业果蔬检测和分割任务，JIA 等11基于 MaskR-CNN 网络，将残差网络（ResNet）和密集连接卷积网络（DenseNet）相融合作为特征提取的主干网络，提出一种针对重叠苹果目标果实的优化掩膜区域卷积神经网络，

8、平均检测准确率和召回率分别为 97.31%和 95.70%。YU等12以 ResNet-50 为主干网络，引入掩膜区域卷积网络（MaskR-CNN）实现对未成熟和成熟草莓的检测和分割，平均检测精度、召回率和 MIoU 率分别为 95.78%、95.41%和 89.85%。贾伟宽等13利用分离注意力网络（ResNeSt）设计 SOLO 算法的主干网络，同时引入特征金字塔网络（featurepyramidnetworks，FPN），构造收稿日期：2023-02-28修订日期：2023-04-17基金项目：重庆市教育委员会科学技术研究项目（KJQN201800536）；重庆市高校创新研究群体项目智慧

9、农业的机器视觉感知与智能算法研究（CXQT20015）作者简介：朱德利，博士，教授，研究方向为机器学习与机器视觉在农业工程中的应用。Email：第39卷第14期农业工程学报Vol.39No.141642023年7月TransactionsoftheChineseSocietyofAgriculturalEngineeringJuly2023ResNeSt+FPN 组合结构提取绿色果实特征，将 SOLO 算法分为类别预测和掩码生成 2 个分支实现对绿色果实的实例分割，平均召回率和精确率分别达到 94.84%和96.16%，平均每张绿色果实图像分割时间为 0.14s。以上研究大多基于两阶

10、段模型 MaskR-CNN 进行，虽然在分割精度上有不错的效果，但随着农情监测的实时性需求不断提高，两阶段模型受限于体积大、推理速度慢且很难提升而难以应用于实际田间复杂场景。YOLACT 基于单阶段实例分割方法设计，将原型掩码与掩码系数进行线性组合生成目标的实例掩码，速度更快，能达到实时实例分割的要求，但该模型分割精度明显不如两阶段模型。YOLACT 采用卷积神经网络（convolutionalneuralnetwork，CNN）架构进行特征提取，这种方式依靠卷积核结合像素周围信息进行特征提取，在捕捉长距离依赖能力和全局信息的处理上较差，限制了模型性能的进一步提升。而 Transformer

11、模型利用像素与像素之间的自注意力机制14构成多头注意力机制，不仅充分考虑了卷积神经网络的位移不变性、感受野与层次关系的特点，还具有处理完整序列和学习长距离依赖关系的能力，在提取特征时有效结合全局信息生成特征图。因此，本研究将 Swin-Transformer 引入 YOLACT模型中，提出兼顾分割精度和速度的 SwinT-YOLACT 分割模型，对玉米果实和穗丝进行识别和精确分割，以期为准确获取玉米果穗表型信息提供支撑。1材料与方法1.1数据采集和数据集制作本研究玉米果穗数据采集于重庆市璧山区自然田间场景，采集时间为 2022 年 6 月初至 7 月中旬，使用便携式移动端相机（Xiaomi10

12、，中国）进行拍摄，图像分辨率为43445792（像素），拍摄距离约为 0.21m。为保证数据的多样性，试验分别采集了不同光照强度、不同果实数量、不同成熟度的图像样本共 473 张，包含光线变化、背景干扰、果实遮挡、重叠等多种情况，如图 1 所示。数据处理主要分为 2 个阶段：第一阶段，为了减少模型训练和测试的计算和运行时间，将原始图像大小调整为 544544（像素），然后通过 Labelme15软件对果实和穗须进行标注，制作为 COCO16格式数据集。a.乳熟期a.Milk stageb.蜡熟期b.Wax stagec.完熟期 c.Full staged.背光 d.Back lightinge

13、.果实被叶片遮挡 e.Fruit obscured by blade f.果实相互遮挡 f.Fruit obscuredeach other 图 1玉米果穗图像样本示例Fig.1Exampleofmaizeearimagesample深度学习需要足够的数据完成模型训练，适当增加数据集大小能增强模型的泛化能力和鲁棒性。因此，数据处理的第二阶段是通过改变亮度、平移、翻转、添加噪声和添加随机点对 473 幅原始图像进行增强处理，增强后的样本如图 2 所示，最终获得样本共计 3300 幅，按 7:3 划分为训练集和验证集。a.原图a.Original imageb.水平翻转b.Horizontal f

14、lipc.平移 c.Panningd.添加噪声d.Add noisee.平移+翻转+改变亮度e.Panning+flipping+change brightness图 2增强后的图像样本示例Fig.2Exampleofenhancedimagesample1.2玉米果穗分割模型1.2.1YOLACT 实例分割实例分割通常是将目标检测与语义分割串联，即首先对图像进行目标检测，再对预测框内图像进行分割，典型的如 MaskR-CNN17，但这种方法推理时间较长、分割帧率较低，无法应用于实时检测。YOLACT网络18是一种简单、快速的实时实例分割模型，整体架构设计轻量化，分割速度与分割效果上具有很好的

15、平衡，方便部署在边缘设备上，网络整体结构如图 3所示。第14期朱德利等：基于 SwinT-YOLACT 的玉米果穗实时实例分割165特征提取网络ResnetCropThresholdFast NMS特征融合网络FPN掩膜原型生成Protonet掩膜系数预测Prediction head输出Output输入Input注：FastNMS 为快速非极大值抑制，表示矩阵相乘，Crop 表示对边界外的 mask 清零操作，Threshold 表示以 0.5 为阈值对生成的 mask 进行图像二值化，下同。Note:FastNMSisfastnon-maximalsuppression,denotesth

16、ematrixmultiplication,Cropdenotesazeroingoperationforthemaskoutsidetheboundingbox,andThresholddenotesanimagebinarizationofthegeneratedmaskwithathresholdof0.5,thesamebelow.图 3YOLACT 网络结构Fig.3StructureofYOLACT（youonlylookatcoefficients）YOLACT 网络由 2 个并行的分支组成：掩码预测分支 Protonet（prototypemask 分支）和目标检测识别分支pr

17、edictionhead，Protonet 分支学习图像中目标实例的特征表示，通过使用全卷积网络结构生成单一实例的原型掩码，其中包含目标实例的语义信息和形状信息。predictionhead 分支（在检测分支上添加额外的头）通过对每个候选框预测掩码系数，得到图像中实例的位置，2个子分支分开并行计算，大大提高了计算速度，最后通过矩阵乘法融合得到最终的预测结果，从而缩短模型推理时间，满足实时实例分割的要求。1.2.2引入 Swin-Transformer 特征提取网络针对常规卷积核具有空间局限性19的问题，本文采用 Swin-Transformer20作为主干网络，以增加主干网络对非局部信息的整合

18、能力以及从高维特征图像中获取全局语义信息的能力。Swin-Transformer20是一种可以用于各种下游视觉任务的通用模型架构，在保留Transformer 结构自注意力计算的基础上，构造了层次化的特征映射，并且使 Transformer 结构计算复杂度由指数级降低为与图像大小成线性关系，在多项计算机视觉任务上实现了与当前最先进模型相当的性能。Swin-Transformer 网络结构主要分为 4 个 Stage，每个 Stage 的特征图像数量成倍增加，尺寸缩小，在利用自注意力与多头注意力机制提取全局特征的同时保留各个尺度的重要特征，具体结构如图 4 所示

19、。块分割Patch partition线性嵌入Linear embedding块合并Patch merging块合并Patch merging块合并Patch merging62阶段1Stage1LNW-MSALNMLPLNSW-MSALNMLP22阶段2Stage2阶段3Stage3阶段4Stage4a.Swin-transformer架构a.Swin-transformer architectureb.Swin-transformer block结构b.Structure of swin-transformer block注：LN 为归一化层，W-MSA 为窗口多头自注意力结构，表示按元素

20、求和，SW-MSA 为移位窗口多头自注意力结构，MLP 为多头感知机。Swin-Transformerblock 由以上结构串联而成。Note：LNisthenormalizationlayer,W-MSAisthewindowmulti-headedself-attentivestructure,denotessummationbyelements,SW-MSAistheshiftedwindowmulti-headedself-attentivestructure,MLPisthemulti-headedperceptron,Swin-Transformerblockiscomposedo

21、fstringingtheabovestructurestogether.图 4Swin-Transformer 网络结构Fig.4StructureofSwin-TransformernetworkSwin-Transformer 先将输入图像分成若干个 patch，然后以窗口多头自注意力（windowsmulti-headself-at-tention，W-MSA）取代全局多头自注意力（multi-headself-attention，MSA），以不重叠的方式均匀地划分图像得到各个窗口，在窗口内部之间以 patch 为单位进行计算，用这种方法将计算复杂度降为线性，计算量大大减少。MSA 和

22、 W-MSA 计算复杂度具体为(MSA)=4hwC2+2(hw)2C（1）(W-MSA)=4hwC2+2M2hwC（2）式中表示计算复杂度，h 代表 featuremap 的高度，w代表 featuremap 的宽度，C 代表 featuremap 的深度，M代表每个窗口的大小。Swin-Transformer 使用类似卷积神经网络中的层次化构建方法，如图 5a，在每一个 Stage 中将特征图以下采样的方式分成若干个不同尺度的组，然后对每个组中的特征图进行自注意力计算和多头注意力计算，最166农业工程学报（http:/www.tcsae.org）2023年后将不同尺度的特征图进行融合，得到全

23、局特征表示。通过这种层次化的结构设计，既可以提取出图像的低层纹理特征，也能获得图像的高层语义特征。为解决特征图不同窗口之间无法进行信息传递，像素无法捕获更广泛的信息从而限制模型建模表征能力的问题，Swin-Transforme 引入了移位窗口多头自注意力（shiftedwindowsmulti-headself-attention，SW-MSA），M/2如图 5b，将原来的窗口向左上循环偏移个像素，得到多个尺寸不同的新窗口。同时，在偏移后的特征图中，允许不相邻的子窗口组成一个窗口，新划分的批处理窗口数与偏移前规则分区窗口数保持相同，这样新窗口中包含了原来 W-MSA 里不同窗口之间的 patc

24、h，实现了不同窗口之间的信息交流，让网络更好的提取到全局特征。16 8 4 单位块A patchW-MSASW-MSA在新局部窗口内执行多头自注意力计算A local window to perform self-attentiona.层次化构建方法a.Hierarchical feature mapsb.移位窗口多头自注意力b.Shifted windows multi-head self-attention图 5Swin-Transformer 层次化结构和移位窗口多头注意力Fig.5Swin-Transformerhierarchyandshiftwindowmulti-headedat

25、tention1.2.3融合有效通道注意力田间环境下玉米植株间距较小，玉米果实容易受到植株之间的叶片干扰，且玉米果实与叶片和植株节间体颜色相近，表观特征较为类似。为了区分它们之间更深层次的语义信息，准确提取玉米果实目标的关键特征，本文在特征融合之前引入 3 层有效通道注意力机制（efficientchannelattention，ECA），使网络在进行特征融合时聚焦在感兴趣的局部信息中，重点关注玉米果实和穗须特征，对其他无用信息进行抑制。ECA21是一种轻量级高效通道注意力模块，在SENet22的基础上引入一个新的计算结构进行优化，增加了通道间的关联性，使得不同通道之间的信息可以相互影响和传递

26、，在增加少量参数的同时带来明显性能的提升，并且具有较快的训练速度和更少的内存消耗，结构如图 6 所示。11CGAPWHCWHC11C注：H、W、C 分别为输入特征图的高、宽和通道数，GAP 表示全局平均池化操作，为激活函数，为矩阵相乘，11C 表示自适应一维卷积。Note：H,W,andCaretheheight,width,andnumberofchannelsoftheinputfeaturemap,respectively,GAPdenotestheglobalaveragepoolingoperation,istheactivationfunction,ismatrixmultipli

27、cation,and11Cdenotestheadaptiveone-dimensionalconvolution.图 6ECA 结构Fig.6StructureofECA(efficientchannelattention)自适应一维卷积主要是通过参数 K 来调整输入通道C 的大小，K 和 C 的函数关系为K=(C)=?log2(C)+b?odd（3）|t|odd式中表示离 t 最近的奇数，和 b 是默认为 2 和 1 的自定义参数。ECA 模块去掉了原 SENet 中的全连接层，在 GAP 之后直接对每个通道及其 K 个相邻通道进行11 卷积获得跨通道交互信息，避免了通道降维，有利于网络对

28、关键特征的学习，在降低模型复杂度的同时提高模型性能。1.2.4激活函数优化激活函数的使用可以使网络中增加非线性因素，提升模型表达能力。本文将 YOLACT 中 PredictionHead、ProtoNet 和 FPN 网络中的 Relu 激活函数替换为表现更好的 Mish23激活函数，函数表达式为Mish=xtanh(ln(1+ex)（4）函数曲线对比如图 7 所示，与 Relu 激活函数相比，Mish 激活函数的非单调性使得正、负区间内的临界点没有完全截断，而是通过一个小的负梯度过渡，有助于稳定网络梯度流，保证信息的流动。a.Relub.Mish543f(x)x210543f(x)x210

29、4202442024图 7Relu 与 Mish 激活函数曲线比较Fig.7ComparisonofReluandMishactivationfunctionscurve1.2.5SwinT-YOLACT 模型对于分割任务来说，对目标区域精准定位需要尽量准确地将目标轮廓检测出来，而不只是像检测任务一样用矩第14期朱德利等：基于 SwinT-YOLACT 的玉米果穗实时实例分割167形框将目标区域框出，这就决定了分割任务对目标的位置信息要更加敏感。虽然 YOLACT 算法已经达到了实时性，但该算法的准确性无法达到令人满意的效果。因此，本文借用 Transformer 结构自注意力机制的优势，引入

30、 Swin-Transformer 作为主干特征提取网络，以增强模型全局建模能力。同时，为了提升模型对关键特征的学习能力，在特征金字塔网络之前加入有效通道注意力机制 ECA。最后通过引入允许负值输入，使得网络有稳定梯度流的Mish 激活函数对模型进行优化。优化后的 SwinT-YOLACT 玉米果穗分割框架如图 8 所示。Conv3ProtonetConvClassWHcaBoxWH4aMask coef WHkaPrediction HeadFastNMSCropThresholdC1C2C3C4C5P3P4P5P6阶段4Stage4阶段3Stage3阶段2Stage2阶段1Stage1EC

31、AECAECAP7Swin-transformer2upsample WH3 2倍上采样输出Output注：C1C5、P1P5 为不同尺度的特征图，Conv 为 33 的卷积操作，Class 为类别预测头，Box 为边界框预测头，Maskcoef 为掩膜系数预测头，ca 表示置信率信息，4a 表示边界框的 anchor 数，ka 表示 k 个掩膜系数。Note:C1-C5andP1-P5arefeaturemapsofdifferentscales,Convisa33convolutionoperation,Classisthecategorypredictionheader,Boxisthe

32、boundingboxpredictionheader,Maskcoefisthemaskcoefficientpredictionheader,cadenotesconfidencerateinformation,4adenotesthenumberofanchorsintheboundingbox,andkaindicatesthatthemaskcoefficientisk.图 8SwinT-YOLACT 网络结构Fig.8StructureofSwinT-YOLACT1.2.6玉米果穗定位分割玉米果穗分割过程如图 9 所示。1）图像输入：将采集的玉米果穗图像通过插值的方法调整为 550

33、550（像素）图输入到主干网络；2）特征提取：输入图像经 Swin-Transformer 网络进行全局特征提取；3）特征融合：将提取的特征图输入到改进 FPN 网络进行多尺度特征融合。将得到的特征张量送入PedictionHead 和 ProtoNet 分支中并行处理；4）生成原型掩膜、掩膜系数：通过 ProtoNet 结构对特征区域进行卷积操作后输出整张图片的 k 个 prototype集合，PredictionHead 结构中 MaskCoefficient 分支生成对应掩膜系数；5）掩膜融合：将 Protonet 输出的 k 个 Prototype 集合和 PredictionHead

34、输出的 MaskCoefficients 进行线性组合得到 InstanceMask；6）生成目标掩膜：在分割出的目标上生成相应的掩膜，实现玉米果穗识别与定位。输入图像Input image特征提取、特征融合 Feature extraction andfeature fusion 生成原型掩膜、掩膜系数 Generate prototype mask andmask coefficients 掩膜融合 Mask combination生成实例掩膜Generate instance mask掩膜系数Mask coefficients图 9玉米果穗分割步骤Fig.9Stepsofmaizeea

35、rsegmentation2结果与分析2.1试验环境本文试验的操作系统为 Ubuntu20.04，GPU 型号为NXIDIAGeForceRTXA6000，显存 48G，处理器为 IntelXeonW-255，采用 Pytorch 深度学习框架，并配置并行架构 CUDA11.1。为提高模型的训练效率，先使用COCO 数据集对模型进行预训练，再使用自建玉米果穗数据集训练模型。2.2评价指标实例分割算法主要是将感兴趣的不同目标实例分割出来，本质上是解决像素点分类和类别识别的问题。本文以实例分割模型通用评价指标平均精度（averagepr-ecision，AP）24和均值平均精度（meanavera

36、gepreci-sion，mAP）25作为预测框和实例分割掩模的评价指标。另外，使用每秒帧率（framepersecond，FPS）26评价模型的推理速度。168农业工程学报（http:/www.tcsae.org）2023年2.3模型训练为节省计算资源，训练时先通过插值方法将自建数据集输入图像的大小统一调整为 544544（像素）。借用迁移学习思想，使用大型数据集 ImagNet 上对 Swin-Transformer 进行预训练的权重，使特征提取网络的参数达到相对最优，避免模型出现过拟合的问题，再将 Swin-Transformer 连同其他结构在自建数据集上进行微调，以实现玉米果穗的预测

37、分割。初始学习率设置为 0.0001，批处理尺寸为 16，优化方法采用随机梯度下降(stochasticgradientdescent,SGD)，动量因子为 0.9，权重衰减率为 0.0001，每迭代 400 次保存 1 次模型权重，最大迭代次数为 40000，在 7000、12500、25000 迭代次数时更新学习率，模型指标随迭代次数的增加而迅速升高，且趋于稳定。模型总损失值变化如图 10 所示。YOLACTYOLACT+Swin-transformerYOLACT+Swin-transformer+ECAYOLACT+Swin-transformer+ECA+Mish迭代次数 Itera

38、tions5 00015 00025 00035 00014121086420训练总损失值 Total training loss图 10模型损失值变化Fig.10Changeofmodellossvalue2.4结果与分析2.4.1消融试验结果与分析为验证本文模型的有效性，根据不同优化策略进行消融试验，结果如表 1 所示。表1消融试验结果Table1Resultsofablationexperiments试验号TestNo.特征提取网络FeatureextractionnetworkECAMishmAPall/%mAP75/%FPS/(帧s1)边框 Box掩膜 Mask边框 Box掩膜 Ma

39、sk1ResNet-10184.075.9294.890.3832.052Swin-Tiny83.2478.0396.7291.932.583Swin-Tiny83.0378.6897.293.4632.704Swin-Tiny84.6179.4396.1493.0435.44注：表示未引入该因素，表示引入该因素。mAPall表示 IoU 在 0.50.95 区间步长为 0.05 的所有取值下的所有类别的均值平均精度，mAP75表示 IoU 为 0.75 时所有类别的平均精度，FPS 为每秒内模型可以处理的图片数量。下同。Note:indicatesthatthefactorisnotintr

40、oduced,indicatesthatthefactorisintroduced.mAPallindicatesthemeanaccuracyofallcategoriesforallvaluesofIoUtakeninstepsof0.05intheintervalfrom0.5to0.95,respectively,andmAP75isthemeanaccuracyofallcategorieswhenIoUis0.75,andFPSisthenumberofimagesthatcanbeprocessedbythemodelinframespersecond.Thesameasbelo

41、w.对比试验 1 和试验 2 发现，Swin-Transformer 作为主干特征提取网络比原始 YOLACT 的掩膜 mAPall提升了 2.11 个百分点，掩膜 mAP75提升了 1.52 个百分点。说明在玉米果穗分割任务中 Swin-Transformer 更具优势。针对玉米穗须边缘分散、果实狭长的特点，Swin-Transformer 根据自带的长依赖特性，利用像素级自注意力运算捕获全局信息，抽取出更有效的特征。利用 Grad-CAM27对 Resnet-101 和 Swin-Transformer 特征提取网络提取的特征可视化，效果如图 11 所示。颜色越亮表示特征提取网络对于该区域

42、的关注力越强，由图 11 可知，卷积神经网络 ResNet-101 的感兴趣区域主要集中在某个部位，而 Swin-Transformer 能提取出全局的特征，尤其是当一张图像里出现多个玉米果穗目标时，Swin-Transformer 能关注到每一个目标，更能体现出其优越性。对比试验 2 与试验 3 发现，引入 ECA 之后，模型推理速度基本保持不变，掩膜 mAPall提升了 0.65 个百分点，掩膜 mAP75提升了 1.56 个百分点。说明在特征融合网络之前引入有效通道注意力机制可以使模型性能有效提升。对比试验 3 与试验 4 可知，将 Prediction Head、ProtoNet 和

43、FPN 中的 Relu 激活函数替换为 Mish 激活函数后，掩膜 mAPall相比替换前提升了 0.75 个百分点，模型推理速度提升了 2.74 帧/s，这可能是由于 Mish 激活函数在输入数据包含噪声或异常值的情况下，可以更好地保留数据的有用信息，同时其非单调性使得正、负区间内的临界点没有完全截断，而是通过一个小的负梯度过渡，保证了信息的传递，从而提高了模型的推理速度。乳熟期Milk stage蜡熟期Wax stage 完熟期Full stagea.原始图像a.Original imageb.ResNet101c.Swin-Transformer图 11不同特征提取网络的特征可视化结果F

44、ig.11Featurevisualizationresultsofdifferentfeatureextractionnetworks2.4.2SwinT-YOLACT 与其他分割模型对比将 SwinT-YOLACT 与 YOLACT+28、YOLACT-Edge29、MaskR-CNN 分割模型进行对比，所有模型均使用与本研究方法相同的试验环境和训练策略，分割结果如表 2 所示。SwinT-YOLACT 掩膜 mAPall为 79.43%，相较于基准 YOLACT 及其系列改进模型 YOLACT+、YOLACT-Edge 分别提升 3.51、3.38 和 7.88 个百分点，仅低于第14期

45、朱德利等：基于 SwinT-YOLACT 的玉米果穗实时实例分割169MaskR-CNN 模型 0.67 个百分点。但在分割速度上，SwinT-YOLACT 的推理速度为 35.44 帧/s，分别优于YOLACY、YOLACT+和 Mask R-CNN3.39、258 和28.64 帧/s。综上，相对原始 YOLACT，本文模型实现了对精度和速度的双重提升。表2不同分割模型结果对比Table2Comparisonoftheresultsofdifferentsegmentationmodels模型ModelmAPall/%mAP75/%推理速度Inferencespeed/(帧s1)边框Box

46、掩膜Mask边框Box掩膜MaskYOLACT84.075.9294.890.3832.05YOLACT+79.0876.0592.4488.8832.86YOLACT-Edge 75.4971.5589.8785.1534.32MaskR-CNN91.5180.1095.8794.056.80SwinT-YOLACT 84.6179.4396.1493.0435.442.4.3SwinT-YOLACT 与其他模型分割结果对比由于田地间实际环境更加复杂多变，模型分割效果会受到不同程度的影响。如存在果实过小、穗丝边缘太过分散，果穗重叠区域较多等情况，且由于玉米植株间距较小，玉米果穗容易被相邻植株

47、的叶片大面积遮挡，不易分割。使用 SwinT-YOLACT 玉米果穗分割模型与其他对比模型对田间玉米果穗图像进行分割，各模型分割结果如图 12 所示。原始图像Original imageYOLACTYOLACT+YOLACT-EdgeMaskR-CNNSwinT-YOLACTa.乳熟期a.Milk stageb.蜡熟期b.Wax stagec.完熟期c.Full staged.背光d.Backlightinge.遮挡e.Obscured 注：黑色椭圆区域为漏检漏分割，红色椭圆区域为误检误分割，黄色椭圆区域为分割效果较差。Note:Theblackellipsearearepresentsmis

48、seddetectionandsegmentation,thered ellipse area represents false detection and segmentation,and the yellowellipsearearepresentspoorsegmentationeffectonthisarea.图 12不同模型的分割结果Fig.12Segmentationresultsofdifferentmodel由图 12 可以看出，原始 YOLACT 和 YOLACT-Edge 模型分割效果较差，存在漏检漏分割情况，YOLACT+和 MaskR-CN

49、N 模型在分割果实和穗须边缘部分时表现一般，尤其是完熟期，不能准确分割出完整的玉米果穗形状。各模型对背光情况下的玉米果穗图像分割效果都较差，容易出现漏分割和误分割，本文SwinT-YOLACT 模型对各种成熟度和各种复杂背景下的玉米果穗图像都能实现精确分割，分割效果良好。3结论为使无人巡检机器人视觉系统快速、精确分割玉米器官，实现玉米生长状态监测、果实表型参数提取分析，针对现有网络模型无法同时兼顾精度和速度的问题，本研究提出一种基于 YOLACT 的玉米果穗实时实例分割模型 SwinT-YOLACT，主要结论如下：1）引入 Swin-Transformer 作为主干特征提取网络，利用 Tran

50、sformer 结构自注意力机制提取有效的全局特征；同时在特征金字塔网络之前加入有效通道注意力机制（efficientchannelattention，ECA），以加强对关键特征的融合；并将部分激活函数替换为 Mish 自正则非激活函数，提升模型整体性能，得到新模型 SwinT-YOLACT。2）在自建玉米果穗数据集上的试验结果表明，SwinT-YOLACT 掩膜均值平均精度为 79.43%，推理速度为 35.44 帧/s，比原始 YOLACT提高 3.51 个百分点和3.39 帧/s。对比其他模型，本文模型综合性能表现最好，在处理背景复杂、果实重叠和不同成熟度的玉米果穗图像时均有较好的分割效

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 SwinT YOLACT 玉米果穗实时实例分割

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。