基于SOLOV2改进的实例分割算法研究.pdf
《基于SOLOV2改进的实例分割算法研究.pdf》由会员分享,可在线阅读,更多相关《基于SOLOV2改进的实例分割算法研究.pdf(7页珍藏版)》请在咨信网上搜索。
1、实例分割在图像分类的基础上为每一个物体生成像素级别的分割掩码,是当前计算机视觉领域热门研究课题,也是极具挑战性的任务之一。针对当前算法存在的分割精度和鲁棒性不高等问题,提出了一种改进的 SOLOV2 算法。首先,以 FCN(Fully Convolutional Networks for Semantic Segmentation)算法为整体框架,采用 ResNext 作为骨干网络,在不增加网络参数量和计算量的前提下可以有效提升网络的精度;其次,采用改进的 NAS-FPN(Neural Architecture Search FeaturePyramid Network)作为特征金字塔网络结构
2、,这是一种可以在 FPN 中进行特征图的搜索和组合结构,使网络可以重新搜索并融合已经提取的特征图,以此来解决网络不能充分感知特征图从而导致网络精度不高的问题;最后,通过调整超参数得到整个分割网络模型。通过在 COCO2017 数据集上与 BDD100K 数据集上进行实验分析比较可知,改进的基于 SOLOV2 实例分割算法精度达到 41.8%,在兼顾实时性的同时网络精度提升了 2.1%。通过实验证明改进的算法可以适应多种交通场景,可以完成交通场景目标的检测与分割。关键词:实例分割;ResNext;SOLOV2;特征金子塔网络;NAS-FPN中图分类号:TP301摇 摇 摇 摇 摇 摇 摇 文献标
3、识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0045-07doi:10.3969/j.issn.1673-629X.2023.09.007Research on Improved Instance Segmentation AlgorithmBased on SOLOV2ZENG Hao-wen,WANG Hui-lan*,ZHAO Kan,WANG Gui-li(School of Physics and Electronic Information,Anhui Normal University,Wuhu 241002,China)Abstract:Ins
4、tance segmentation generates pixel-level segmentation masks for each object based on image classification,which iscurrently one of the popular research topics and challenging tasks in computer vision.To address the problems of poor segmentationaccuracy and robustness of current algorithms,we propose
5、 an improved SOLOV2 algorithm.Firstly,FCN(Fully Convolutional Networksfor Semantic Segmentation)is used as the overall framework,and ResNext is adopted as the backbone network,which can effectivelyimprove the accuracy of the network without raising the number of network parameters and computational
6、effort.Secondly,a modifiedNAS-FPN(Neural Architecture Search Feature Pyramid Network)is used as the feature pyramid network structure,which is a structurethat allows the search and combination of feature maps in the FPN,so that the network can re-search and fuse the already extractedfeature maps,as
7、a solution to the problem that the network cannot fully perceive the feature maps and thus the network accuracy is nothigh.Finally,the whole segmentation network model is obtained by adjusting the hyperparameters.The experimental analysis andcomparison on the COCO2017 dataset and the BDD100K dataset
8、 shows that the improved SOLOV2 instance segmentation algorithmachieves 41.8%accuracy,which improves the network accuracy by 2.1%while taking into account the real-time performance.It isproved through experiments that the improved algorithm can adapt to a variety of traffic scenes and can complete t
9、he detection and seg鄄mentation of traffic scene targets.Key words:instance segmentation;ResNext;SOLOV2;feature pyramid network;NAS-FPN0摇 引摇 言近年来随着深度学习的快速发展,计算机视觉任务也发展得非常迅速1-2。其中较热门的领域有目标检测3、语义分割4、实例分割5等。实例分割需要将图像中所有的物体都准确地区分出来,同时在语义层面的像素点级别上分割出每个实例,是一项具有挑第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算
10、 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023战性的任务。实例分割的研究长期以来都依赖较为复杂的两阶段(two-stage)方法,即先通过目标检测方法找到实例所在区域,再在检测框内进行语义分割,每个分割结果都作为一个不同的实例输出。例如 Mask RCNN6-7、PANet8、HTC9等都是使用此方法。两阶段方法的精度较高,但是速度较慢,不能适应实时性的场景,从而导致它的实用性并不高。所以,出现了单阶段(one-stage)实例分割方法。单阶段实例分割方法是先将输入
11、图像进行像素级别的语义分割,再通过聚类、度量等学习方法在语义层面的像素点上区分并分割不同的实例,最后进行实例输出。经典的方法如 YOLACT10、PolarMask11、Ten鄄sorMask12等。以上单阶段的方法提高了速度,但是普遍存在精度有所下降的问题。基于此,Wang 等人在 2020 年 提 出 SOLOV2(Dynamic,FasterandStronger)13单阶段的算法,通过提出“实例类别冶的概念,根据实例的位置和大小,对每个实例的像素点赋予一个类别,巧妙地将实例掩码分割问题转换为一个分类问题,SOLOV2 算法从精度和速度上超越目前存在的实例分割算法,得到了广泛的应用。Li
12、u 等人14通过对卷积结构进行优化并将其应用到农业上;Zhu 等人15将其应用到无人机中可以快速地检测与分割目标。SOLOV2 是一种以 ResNet16为基础网络的实例分割算法,并且在骨干网络后连接 FPN 结构进行特征提取和特征融合,以此提高算法的精确度。最后通过Category Branch(分类分支)和 Mask Branch(掩膜分支)分别得到语义分类和掩膜输出的结果,并输出最后的图像。但 ResNet 网络的计算量随着网络深度加深会逐渐增大,基于此,该文使用 ResNext17作为骨干网络,在与 ResNet 相同参数量和计算量的情况下网络精度有所提升。此外,使用 NAS-FPN1
13、8代替 FPN19结构进行特征的提取和融合,NAS-FPN 使用重新组合和融合特征图的方式使网络能够充分地感知特征图从而 提 升 网 络 精 度。实 验 结 果 表 明,改 进 后 的SOLOV2 算法在速度不变的情况下精度提升 2.1%,证明了算法的可行性。1摇 SOLOV2 算法框架SOLOV2 是一种单阶段逐像素的实例分割算法,并且是以 FCN 为基础架构添加两个并行分支组成,可以实现端到端的目标检测与分割。SOLOV2 网络整体架构如图 1 所示。图 1摇 网络整体结构摇 摇 整体网络架构由 ResNet 特征提取网络、FPN 特征金字塔网络、语义类别分类分支和掩膜分支、像素级实例分类
14、与掩膜输出 4 个部分组成。SOLOV2 的核心思想就是将实例分割问题重新表示为类别预测和实例掩码生成两个问题。具体就是,算法将输入图像划分为若干一致的网格,即 S 伊 S。如果物体的中心落在某网格内,该网格负责预测语义类别和分割该物体实例。具体过程如图 1 中语义分类分支和实例掩膜分支所示。语义分类:对于每个网格,SOLOV2 预测一个 C 维度的输出,表示语义类别的概率,C 是类别的个数。这些概率值取决于这些网格。如果将图像划分为 S 伊 S个网格,则输出空间为 S 伊 S 伊 C,如图1 语义分类分支所示。这样设计是基于一个假定,即每一个网格都属于一个单独的实例,因此只属于一个语义类别。
15、在推理时,C 维度的输出表示每个实例的类别概率。由于此分支需要对 C 维度的网格进行分类,但一般网格是实例所在区域概率较小,大部分是背景区域,这种差异如果较大则会影响检测结果,所以此分支中使用 Focalloss 损失函数可以很好地抑制这种差异较大导致精度降低的现象。实例掩膜:与语义类别预测平行,每个网格都会输出一个相应的实例掩码。给定一个输入图像 i,将之划分为 S 伊 S 个网格,总共就有至多 S2个预测掩码。在 3D 输出张量中,将在第三个维度中直接对这些掩码进行编码。输出的实例掩码的维度就是 H1伊 W1伊S2。第 k 个通道负责在第(i,j)个网格中分割实例,k=iS+j(i,j 都
16、是从 0 开始)。这样就在语义类别和掩64摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷码之间构建起了一一对应的关系,如图 2 所示13。当此分支开始对拥有实例的网格进行掩膜时,有些网格中实例占比可能较少,从而导致掩膜精度降低,所以使用 Dice loss 损失函数来抑制这种现象,从而有效提升精度。HW2SSSC图 2摇 实例掩膜对应关系2摇 改进 SOLOV2 算法2.1摇 ResNext 网络结构SOLOV2 常用的骨干网络是 ResNet-50/101
17、 残差网络,ResNet 网络中加入了一个残差结构,解决了随着网络加深准确率下降的问题。ResNet 网络残差结构如图 3 所示16。Weight layerWeight layerreluXidentityF(x)F(x)+x图 3摇 ResNet 网络残差结构残差结构对每层的输入做一个反馈(X),通过加深层学习形成残差函数,这种残差函数更容易优化,能使网络层数大大加深。但是随着网络层数的不断增加,网络计算量和参数也随之增加,导致速度降低精度却没有增加,所以,该文采用改进的 ResNext 网络,在ResNet 网络残差结构中增加了 Inception 结构20,如图4 所示。1x1 con
18、vPreviouslayer3x3 conv1x1 conv1x1 conv1x1 conv3x3 maxpooling5x5 convFilterConcatenation图 4摇 Inception 结构从图 5 中可以看出,改进后的 ResNext 网络在ResNet 网络结构的基础上增加了平行堆叠拓扑结构,在网络深度不变的情况下增加了基数,将多维度的乘积运算变为更低维度的求和运算,网络的参数量和计算量不会变多,但能有效提升网络精度。表 1 显示了ResNet 网络和 ResNext 网络参数量和计算量的对比。256,1x1,6464,3x3,6464,1x1,256256,1x1,64
19、4,3x3,44,1x1,256256,1x1,44,3x3,44,1x1,256256,1x1,44,3x3,44,1x1,256256-d in256-d out256-d in256-d out32paths (a)ResNet(b)ResNext图 5摇 网络结构对比表 1摇 网络参数量和计算量对比stageoutputResNet50ResNeXt50(32x4d)conv1112伊1127伊7 64,stride 27伊7 64,stride 2conv256伊563伊3 max pool,stride 2 3伊3 max pool,stride 21伊1摇 641伊1摇 1283
20、伊3摇 64伊33伊3摇 128 C=32伊31伊1摇 641伊1摇 256conv328伊281伊1摇 1281伊1摇 2563伊3摇 128伊43伊3摇 256 C=32伊41伊1摇 5121伊1摇 512conv414伊141伊1摇 5121伊1摇 5123伊3摇 256伊63伊3摇 512 C=32伊61伊1摇 1 0241伊1摇 1 024conv57伊71伊1摇 5121伊1摇 1 0243伊3摇 512伊33伊3摇 1 024 C=32伊31伊1摇 2 0481伊1摇 1 0241伊1global average pool1000-d,fc,softmaxglobal avera
21、ge pool1000-d,fc,softmax#params25.5伊10625.1伊106FLOPs4.1伊1094.2伊1092.2摇 NAS-FPN 结构传统的 FPN 结构如图 1 中 FPN 方框中所示。FPN 结构从不同的网络层次提取不同尺度的特征图,将提取的特征图每个都做 1 伊 1 卷积,从而减少卷积核的个数。经过处理的特征图从顶层开始依次向下做上采样操作,目的是为了和上一层的特征图尺寸一样从而做特征图的融合操作。可在融合之后还会再采用3伊3 的卷积核对每个融合结果进行卷积来消除上采样的混叠效应。经过融合操作后最底层的特征图所包含的特征语义信息最多,但是还会对过程中的每个特征
22、图都做预测操作,这样就大大减少了在特征融合过程74摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 曾浩文等:基于 SOLOV2 改进的实例分割算法研究中因为卷积所损失。但是 FPN 的这种结构不能充分的利用特征图,所以使用改进的 NAS-FPN 结构来提升网络精度。NAS-FPN 结构对于 FPN 的改进之处在于将原来的 FPN 结构中所得到的那些特征图重新进行组合,不再是通过从高层次特征图依次向下和低层次的特征图融合的这种方式。NAS-FPN 结构如图 6 所示。图 6摇 NAS-FPN 结构NAS-FPN 对 5 个尺度上的特征图进行重组,5 个尺度的特征图分别表示为:C
23、3,C4,C5,C6,C7,相对输入图像的步长(缩放倍数)分别为8,16,32,64,128,其中 C3、C4、C5 是 ResNext 提取的三个尺度上的特征层,C6 和 C7 是把 C5 特征层池化后得到的。NAS-FPN 的核心设计是合并单元,它负责搜索、抽取输入特征图以及经过二元操作得到输出特征图。具体步骤如下:(1)从候选特征层中选取 2 个作为输入特征层。(2)选择输出特征的分辨率。(3)选择一个二元操作将两个输入特征层整成新的输出特征,并加入候选特征层中。上述步骤重复进行,最初的候选特征层就是 5 个尺度的特征图,最后 5 个循环分别生成最终输出特征层P3,P4,P5,P6,P7
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SOLOV2 改进 实例 分割 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。