基于注意力与自适应特征融合机制的小目标检测.pdf
《基于注意力与自适应特征融合机制的小目标检测.pdf》由会员分享,可在线阅读,更多相关《基于注意力与自适应特征融合机制的小目标检测.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 38 卷 第 4 期 2023 年 8 月 天津科技大学学报 Journal of Tianjin University of Science&Technology Vol.38 No.4 Aug.2023 收稿日期:2022-09-29;修回日期:2022-11-12 基金项目:天津市科技支撑重点项目(18YFZCGX00360)作者简介:任克营(1996),男,天津人,硕士研究生;通信作者:陈晓艳,教授, 基于注意力与自适应特征融合机制的小目标检测 任克营,陈晓艳,茆 震,苗 霞,陈志辉(天津科技大学电子信息与自动化学院,天津 300222)摘 要:随着无人机平台的发展,航拍小目标检测
2、成为当下研究热点。为了更有效地解决航拍小目标检测存在的漏检、错检以及重复检测等问题,提出了一种基于注意力与自适应特征融合机制的小目标检测算法 ST-YOLOX(small target-YOLOX)。本算法在 CSPDarknet 中融合了全局注意力模块(GC)以及可变形卷积(DC),增强主干网络对小目标特征的提取能力;采用四尺度自适应空间特征融合金字塔,抑制不同尺度之间的不一致信息,提升小目标特征表达的准确性;优化损失函数以及标签分配策略,提高算法检测精度。实验表明:ST-YOLOX 在 VisDrone-DET 2019 数据集中的平均检测精度(mAP)为 21.83%,比 YOLOX-s
3、 模型提升了 3.78%,比 PPYOLOE-s 模型提升了 2.99%,比 YOLOv5-s模型提升了 6.21%。航拍结果证明,本文算法的小目标检测准确率得到显著提高。关键词:无人机航拍;单阶段检测算法;小目标检测;全局注意力机制;YOLOX;自适应特征融合 中图分类号:TP391.41 文献标志码:A 文章编号:1672-6510(2023)04-0054-08 Small-Target Detection Based on Attention and Adaptive Feature Fusion Mechanism REN Keying,CHEN Xiaoyan,MAO Zhen,M
4、IAO Xia,CHEN Zhihui(College of Electronic Information and Automation,Tianjin University of Science&Technology,Tianjin 300222,China)Abstract:With the development of UAV,drone-captured scenarios detection has become a hotspot of current research.In order to effectively solve the problem of missing,wro
5、ng and repeated detection caused by drone-captured scenariosdetection,a novel algorithm named ST-YOLOX based on attention and adaptive feature fusion mechanism is proposed in this article.The algorithm combines the Global Context Module(GC)and Deformable Convolution(DC)in CSPDarknet to en-hance the
6、ability of backbone networks of extracting the features from small targets.A four-scale adaptive spatial feature fusion pyramid is used to filter the conflicting information between different scales and improve the expressive accuracy of the small target features.The loss function and label allocati
7、on strategies are applied to increase the target detection accuracy.Experiments showed that the mean average precision(mAP)of ST-YOLOX in the VisDrone-DET 2019 dataset reached21.83%,which was 3.78%higher than that of YOLOX-s prototype,2.99%higher than that of PPYOLOE-s,and 6.21%higher than that of Y
8、OLOv5-s.Tests on the actual drone-captured scenarios verified that the accuracy of small-scale target detection was significantly improved.Key words:drone shooting;one-stage detection algorithm;small target detection;global attention mechanism;YOLOX;adaptively spatial feature fusion 随着人工智能技术的不断发展,计算
9、机视觉领域取得了巨大突破。目标检测作为计算机视觉的主要任务之一,目前已应用于行人检测1-2、人脸检测3-5等任务。主流算法有 SSD(single shot multibox detect-or)6、CornerNet7、YOLO(you only look once)8-9系列等,这些算法可以直接对目标进行分类和定位,无须生成大量的候选区域,因此有更快的检测速度,但其错误率以及漏检率也相对较高,尤其在无人机航拍DOI:10.13364/j.issn.1672-6510.20220224 2023 年 8 月 任克营,等:基于注意力与自适应特征融合机制的小目标检测55 图像的小目标检测任务中。
10、在 MS COCO10数据集上,小目标的检测精度甚至没有大/中目标检测效果的一半。因此,提高无人机航拍图像的小目标检测精度是亟待解决的问题。2020 年,Nayan 等11提出一种基于 YOLOv3 的小目标检测算法,利用上采样和跳连接提取学习任务中不同卷积层的多尺度特征,显著提升了网络小目标检测能力。同年,郑晨斌等12提出一种强化上下文模块(enhanced context model,ECM),利用双空洞卷积结构减少参数量,扩大有效感受野,强化浅层上下文信息,并可以灵活应用于网络的浅层预测层。然而,这些方法严重依赖于上下文窗口的设计或感受野的大小,可能会导致重要上下文信息的丢失。2021
11、年,王建军等13提出一种改进 YOLOv3 的小目标检测算法,在主干网络中增加浅层特征对应卷积层网络的深度,以增强 backbone 对小目标特征的提取能力;引入RFB(receptive field block)结构增大浅层特征图的感受野,提升小目标检测精度,在遥感图像小目标检测方面达到很好的效果。同年,旷视科技提出 YOLOX算法,引入 Anchor free 思想,即在目标检测任务中无须设定预置锚框,但这使得目标检测中分类与目标定位任务之间缺乏交互,从而导致检测精度下降14-15。2021 年,基于自注意力机制的算法在许多视觉任务中取得显著效果,如 Swim Transformer16等
12、。这类算法将自注意力机制应用到每个像素的局部窗口内,实现了比卷积神经网络(convolutional neural network,CNN)更好的效果,但其昂贵的内存访问成本导致检测明显比 CNN 慢。2022 年,百度科技提出 PP-YOLOE,该算法针对 Anchor free 算法类型的缺陷,引入了 TOOD(task-aligned one-stage object detection)中的 TAL(task alignment learning)17将目标检测中的分类与定位任务最优锚框拉近,进一步提升 YOLO系列的检测精度。为了实现高精度小目标检测方法,本文提出了一种新型的小目标检
13、测算法 ST-YOLOX(small target-YOLOX):(1)提出一种基于全局上下文注意力主干提取网络 GD-CSPDarknet(global context deformable conv CSPDarknet)。(2)采用四尺度自适应空间融合(adaptively spa-tial feature fusion,ASFF)方式抑制不同尺度之间的冲突信息。(3)提出一种基于任务对齐策略的损失函数,优化标签分配方法。1 ST-YOLOX网络 YOLOX 与 ST-YOLOX 结构对比如图 1 所示,ST-YOLOX 主要包括骨干网络、Neck 网络、解耦检测头 3 部分,其基本网络
14、结构遵循 YOLOX 的基本设计,即主干网络经过 3 次下采样。在浅层网络中,特征图分辨率较高,局部信息比较丰富,单个像素的感受野比较小,可以捕捉更多小目标的信息。因此,Neck 部分在原有基础上增加 1 次上采样操作,并增加了 1 个小目标检测头。图 1 YOLOX与 ST-YOLOX结构对比 Fig.1 Structure comparison of YOLOX and ST-YOLOX 1.1 骨干网络 传统 YOLO 算法骨干网络大部分采用残差连 接18-19。残差连接通过使用身份映射的方式解决网络在训练过程中梯度消失的问题。CSP(cross stage 56 天津科技大学学报 第
15、38 卷 第 4 期 partial)20利用跳连接的方式降低计算负担,同时又尽可能减少模型精度损失。在小目标检测中,由于目标本身可利用的特征极少,这给检测任务增加很大难度,怎样利用全局信息提升小目标检测效果成为小目标检测研究的重点问题。本文提出了一种基于全局上 下 文 注 意 力 主 干 网 络 GD-CSPDarknet。GD-CSPDarknet 能最大限度保持原有 CSPDarknet 架构的特点,采用 3 个堆叠的 33 卷积替换 Focus 模块,提升模型非线性拟合能力。在主干网络第一、二阶段的 concat 操作后引入全局上下文注意力模块(global context,GC)21
16、,第三、四阶段用可变形卷积(deform-able conv,DC)22替换原有的 33 卷积,其中 D-CSP、G-CSP 模块结构如图 2 所示。通过引入这两个模块将小目标及其周围上下文信息的特征最大化 利用。(a)D-CSP (b)G-CSP 图 2 D-CSP、G-CSP模块结构 Fig.2 Structures of D-CSP and G-CSP models 1.1.1 GC 模块 在早期特征中,目标语义信息较弱,且含有很多无用噪声,但早期特征信息有利于小目标定位,因此利用全局上下文注意力模块凸显对定位更有利的特征且抑制无用噪声,这成为早期特征处理的关键。GC 模块结构如图 3
17、所示。图 3 GC模块结构 Fig.3 Structure of GC model 该模块由两部分组成,第一部分为 Context Modeling,第二部分为 Transform。Context Modeling为全局上下文注意力模块,该模块可以将特征图中相关联的特征聚合,形成全局上下文特征图。当该模块得到一个大小为 CHW(C 为通道数量,H 为图片长度,W 为图片宽度)的特征图之后,采用 11 卷积进行降维操作得到一个新的特征 1HW,即为原始特征图的注意力权重kW,将kW的维度重塑为(1,HW),再经过 Softmax 操作后得到一个权重分数(介于 01 之间),将权重分数与重塑后的特
18、征(1,C,HW)进行矩阵相乘,得到一个全局注意力热图,并将其维度重塑为(C,1,1)。Transform 模块采用 11 卷积进行通道压缩,再采用 11 卷积恢复到原始的特征维度。通过这种方式大幅减少网络参数数量。Transform 操作会得到一个新的权重矩阵vW,GC模块计算公式为 ppkv1k1exp()exp()=+NjiijNjmmxZxxxWWW(1)其中:ix为模块输入特征;iZ为模块的输出特征;pN为特征映射中的位置数,对于图像,p=NHW;i 是查询位置的索引,j 列举出所有可能的位置。上式可以简化为如下 3 个操作:(1)通过 Context Modeling生成一个全局注
19、意矩阵,采用 11 卷积kW和softmax 获得注意力权重,然后通过注意力权重获得全局注意力热图;(2)Transform 模块获得特征图中的通道相关性;(3)使用 Add 方式将全局上下文特征聚合到原始特征图中。1.1.2 DC 模块 随着主干网络的加深以及下采样操作的进行,小目标的特征信息变得越来越弱。为了在深层主干网络中(第三、四阶段)尽可能利用全局信息加强小目标的表达能力,本文在深层主干网络中引入 DC,其结构如图 4 所示。DC 模块是在卷积后加入向量偏置以及特征调制策略聚合小目标周围有利信息,其中向量偏置的特征维度为(1,22k,H,W)。22k为卷积核中所有元素在(x,y)方向
20、的偏移量,即为图 4 的 offsets。特征调制标量kM可以调节来自输入特征中不同空间位置的 2023 年 8 月 任克营,等:基于注意力与自适应特征融合机制的小目标检测57 特征振幅,其取值在0,1范围内。在极端情况下,DC模块可以通过将特征幅值设置为零,决定不聚合该位置的特征。因此,来自相应空间位置的图像内容将显著减少,但不会对模块输出产生影响。其具体运算为 1()()=+kkkkkky pwx pppM(2)其中 y(p)、x(p)分别表示输出特征映射 y 和输入特征映射 x 中位置 p 处的特征。图 4 DC模块结构 Fig.4 Structure of DC model 1.2 自
21、适应空间特征融合 在目标检测算法中,为了适应不同尺度的目标检测,采用特征金字塔级联的方式进行特征融合。当使用特征金字塔检测对象时,大目标通常在深层特征中检测,小目标在浅层特征中检测,这会造成不同尺度特征之间的不一致性。因此,一幅图像中同时包含了小目标和大目标时,会在不同层次的特征之间产生冲突信息,这样就增加了小目标检测的难度。自适应空间 特 征 融 合(adaptively spatial feature fusion,ASFF)23可以抑制不同尺度特征之间在空间上冲突的信息。本文采用 ASFF 依次将 FPNPAN 的 4 个输出2P、3P、4P、5P中 3 个相邻的输出进行空间及通道维度加
22、权统一,权值1ia、2ia、3ia分别控制不同层级对融合信息的贡献。在每个空间位置上,对不同层次的特征进行自适应融合,即相同空间位置上的矛盾信息特征会赋予较小的权重,而对具有较高辨别性的特征赋予较大的权重,抑制不一致信息并加强有利信息的表征,通过训练找到最优的融合方式。融合后的特征()iy x输出至解耦检测头。ASFF 的计算公式为 12132()iiiinnny xPPP+=+(3)其中:1,4i,2,5n。1.3 解耦检测头 现有主流目标检测器仍采用耦合头实现目标检测中的目标分类及回归任务。本文将解耦检测头引入 ST-YOLOX 网络中,其结构如图 5 所示。该结构采用 11 卷积将传入预
23、测头的特征通道压缩到128,分别采用 2 个 33 卷积提取分类及回归两项任务所需要的特征,有效解决了分类与回归之间最佳锚点定位的冲突。图 5 解耦检测头的结构 Fig.5 Structure of decoupling detector 1.4 损失函数 针对分类任务的特点,本文引入了 VFL(vari-focal loss)24作为损失函数。VFL 是一种动态尺度的二分类交叉熵损失函数,具体计算公式为 VFL(,)(log(1)log(1)log(1)+=i qq qiqiLii(4)其中:i 为 IACS(IOU-aware classification score),即预测目标的联合
24、IOU(intersection of union)类别感知分数24-25;q 为目标 IOU 的得分。在训练过程中,如果该样本是正样本,则将 q 设置为预测框和真值框之间的 IOU,而对于训练中的负样本,所有类别的训练目标 q 均为 0。VFL 也会通过i有效降低负样本损失的权重,正样本则不会降低权重。此外,通过 q 对IOU 得分高的正样本损失加大权重,相当于将训练重点放在高质量的样本上。VFL 可以通过目标分数的排序衡量正样本的损失,这种排序对于 IOU 较高的正样本的损失贡献相对较大。这也使得模型在训练时更加关注高质量样本。通过 IACS 也可以有效地学习分类得分和定位质量估计的联合表
25、示,从而实现网络在训练和推理之间的高度一致性。对于回归任务,本文采用 DFL(distribution focal loss)26作为损失函数。DFL 可以使网络在任意灵活分布的条件下,快速专注于学习目标边界连续位置周围值的概率,提升特征边界不清晰目标的回归质量。具体计算公式为 1DFL(,)11()log()log)+=+iiS SiiiiLyySyyS (5)其中:11+=iiiiyySyy,11=ii+i+iyySyy-,iy、1iy+为标签y 58 天津科技大学学报 第 38 卷 第 4 期 周围的数值。从式(2)可以看出,DFL 是回归一个离散域上的任意分布建模预测框,以类似交叉熵的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 自适应 特征 融合 机制 目标 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。