基于无锚框的孪生网络目标跟踪改进算法.pdf
《基于无锚框的孪生网络目标跟踪改进算法.pdf》由会员分享,可在线阅读,更多相关《基于无锚框的孪生网络目标跟踪改进算法.pdf(10页珍藏版)》请在咨信网上搜索。
1、 doi:10.3772/j.issn.1002-0470.2023.06.006基于无锚框的孪生网络目标跟踪改进算法张立国 张 升 章玉鹏 耿星硕 金 梅(燕山大学电气工程学院 秦皇岛 066000)摘 要 视觉目标跟踪在车辆、人机交互以及监控等领域应用广泛,虽然近年来取得了很大的进展,但是在跟踪过程中,仍然存在许多的干扰因素。针对跟踪过程存在目标尺度和长宽的比例会随着目标或跟踪设备的变化而变化以及背景干扰的问题,设计了一种基于无锚框的孪生神经网络的跟踪方法。首先,改进了特征提取网络,提高了跟踪的准确性。其次,增加了非局部感知网络,能够更好地利用模板和搜索分支更深度的特征。对于分类来说,增加
2、了选择分支,用于抑制较低的得分,选择更高更准确的得分,从而能够进行更好的回归预测。其采样策略也不同于之前的网络,并对损失部分进行了优化。在对网络进行整体的训练及实验之后,该算法能够很好地跟踪目标,提高了跟踪的成功率和精确度。关键词 目标跟踪;特征提取;孪生神经网络;精度0 引 言目标跟踪无论是在安防还是机器人领域,一直是人们研究的重点。目前的目标跟踪一般指的是在视频的连续帧中,不需要任何目标对象的先验知识即能用来跟踪任意感兴趣目标。通过初始化视频场景中的感兴趣区域,目标跟踪算法需要寻找该区域中的指定目标在后续视频帧里面的位置变化。但是目标跟踪仍然面临许多问题1,如何在具有挑战性的场景下准确、高
3、效地检测和定位目标的遮挡、失视、变形、背景杂波和其他变化2,越来越成为人们研究的热点。现代追踪器大致可以分为 2 个分支。第 1 个分支是基于相关滤波器,它利用循环相关的特性,在傅里叶域中训练回归器,其广泛应用于跟踪领域。最近的基于相关滤波的方法利用深度特征来提高精度。第 2 个分支旨在使用非常强的深度特征,而不更新模型。但是,由于没有使用特定领域的信息,这些方法的性能往往不如基于相关滤波器的方法。2016 年,全卷积孪生网络(fully convolutional siamesenetworks,SiamFC)3算法被提出,孪生卷积网络被引入到目标跟踪领域4,通过目标帧与模板帧的匹配,求得目
4、标的位置。然而,它的运行速度却很慢。2019 年,SiamRPN+(siamese region proposal net-work+)5利用目标检测中的区域侯选网络(re-gion proposal network,RPN)以及级联的思想将目标跟踪的精度提升至0.960。2020 年,SiamFC+(sia-mese fully convolutional network+)6跟踪网络舍弃了那些预定义的锚框从而让网络能够直接得到被跟踪目标的边框7,这极大提高了目标跟踪的精确度和效率。然而,当前目标跟踪的瓶颈在于:视频跟踪时往往会存在背景干扰现象8,目标的尺度和长宽比也会随着目标或摄像机的移动
5、和目标外观的变化而变化,这使得准确估计目标尺度和高宽比以及追踪目标变得很难9。针对上述问题,本文设计了一个无锚框的具有深度特征提取的孪生卷积网络跟踪器,通过对特征网络进行优化,进行深度特征提取,增加了非局部感016 高技术通讯 2023 年 第33 卷 第6 期:610-619 河北省中央引导地方科技发展专项(199477141G)和河北省科学技术研究与发展计划科技支撑(20310302D)资助项目。男,1978 年生,博士,副教授;研究方向:图像处理,计算机视觉,故障诊断,虚拟现实;E-mail:。通信作者,E-mail:278383534 。(收稿日期:2022-04-24)知模块。在跟踪
6、器的最后,增加用于对分类目标进行准确估计的独立选择分支,选取更加合适的回归特征、更加精确的追踪目标,平衡了准确率和效率,进一步提高了精度。1 基于孪生卷积网络的目标跟踪1.1 基于 ResNet-50 的特征提取传统的 SiamFC 网络结构如图 1 所示。图 1 SiamFC 网络结构 网络由 2 个分支构成,一个是模板分支,输入记为 Z,尺寸为127 127 3;另外一个是搜索分支,输入记为 X,尺寸为255 255 3。2 个分支共享网络的参数,对 2 个输入进行 变换,分别输出特征图Z(6 6 128)和 X(22 22 128),对 Z和 X进行互相关操作(求卷积),得到了响应图 R
7、,计算过程为R=ZX(1)其中,代表互相关操作,R 为响应图,再对生成的响应图进行双三次线性插值生成 272 272 的图像来确定目标的位置。在 SiamFC 之后,许多以 AlexNet 为基准的孪生网络跟踪算法也相继提出,后来许多人也尝试着使用深层次的网络。然而实验发现,使用已经预训练好的深层网络反而会降低跟踪的精度。因此,本文采用 ResNet-5010用作为主干网络(backbone),Res-Net-50 结构图如图 2 所示。图 2 ResNet-50 结构图 尽管 ResNet-50 可以用来学习抽象的特征,但是目标特征的分辨率被降低了。跟踪器预测的时候需要详细的信息,针对这个问
8、题,本文在最后 2 个卷积块中去掉了下采样这一步骤。为了增加感受野,使用了空洞卷积,受文献11的启发,采用不同的扩张率,在卷积层 4 和卷积层 5 中把步距都设为 1,在卷积层 4 中把扩张率设为 2,在卷积层 5 中把扩张率设为 4。1.2 网络整体结构孪生网络 2 个分支在网络中共享参数,确保 2个分支进行相同的变换,整体架构如图 3 和图 4 所示。图 3 网络整体结构116张立国等:基于无锚框的孪生网络目标跟踪改进算法图 4 主干网络结构 图中 S3、S4 和 S5 为主干网络的特征图,SL 为独立的选择分支,模板和搜索分支通过卷积等操作得到模板特征 Z1 和搜索特征 X1,通过卷积层
9、 3 和4 之后得到回归的特征,在分类特征上增加非局部感知网络,得到分类特征图 X2 和 Z2。ClassificationMap 和 Regression Map 为头模块输出的特征图,DW-Corr 为深度交叉相关操作。整体框架由孪生网络和多个自适应头组成,不需要预定义的候选框。在进行分类后,在全卷积网络中直接回归边界框,其中 SL 为质量选择分支。网络可以预测相关特征图上每个空间位置的四维向量,即从边界框到搜索区域对应的特征位置中心点的相对偏移量。1.3 质量选择分支在一般网络中,置信度和定位精度没有很好的相关性12,距离目标中心远的位置经常容易产生质量比较低的预测边界框13,直接使用分
10、类置信度来选择边界框会导致定位精度下降,从而降低跟踪的性能。因此选择和分类分支独立的质量选择分支,即在卷积分类的基础上添加 1 1 卷积层,输出定义为SLS=min(l,r)max(l,r)min(t,b)max(t,b)(2)其中,l、t、r、b 的含义将在下文做具体阐述。将它的输出 SLS 和相应预测的分类分数乘起来选择最终框的分数,那些远离物体中心的边界框所占的权重就会下降,从而提高跟踪精度。1.4 非局部感知模块孪生网络是通过对大量图像进行训练来学习目标的跟踪特征。但是,这些特征的辨别力较弱,当类似的干扰物体出现时,跟踪器很容易被误导。为了应对在跟踪过程中干扰物以及背景等对特征带来的影
11、响,增强搜索分支的识别能力,并且因为在不同的特征通道中,语义是不一样的,所以增加了非局部感知模块(non-local means module,NL),在模块中把模板的信息加入到了搜索分支中,从而提高搜索分支的识别能力,模块的网络结构如图 5 所示。NL 主要利用每个通道的平均值、最大值以及不同通道的相关性,通过整合这几个位置的信息得到非局部感知网络的权重信息。对于模板分支 Z1,把平均全局池化特征 Vz、最大池化 Zz和通道的相关信息 Rz拼接起来得到了响应 yz。生成通道相关信息Rz时,调整 Z1 生成 ZR1,通过卷积形成了 TZ1和 TZ2,然后将其相乘就得到了通道间的相关信息,即获得
12、了某个通道和其他通道之间的关系。再通过最大池化和全局平均池化,就得到了 yz。最后经过 Sigmoid得到了 AZ,将其与 Z1 进行聚合之后得到了 Z2。对于搜索分支 X1,类似 Z1,得到了模板通道之间的相关信息,然后和搜索分支组合到一起,得到了响应yx,再执行与模板分支相同的操作,得到 X2。原始的跟踪器没有目标相关信息的监督,搜索分支并不能保证那些与目标相关的区域不受干扰物的影响得到最大的关注。非局部感知模块的主要作用是引入了全局信息和局部关联信息。该模块的这种关联信息相互作用可以减少背景干扰物对搜索分支的负面影响,从而有助于在搜索区域中定位目标。因此,采用非局部目标感知网络来学习特征
13、权重的跟踪器可以通过对特征通道重要性的再分配来增强216高技术通讯 2023 年 6 月 第 33 卷 第 6 期图 5 非局部感知模块网络对目标的关注效果,进而提高跟踪器性能。后续的消融研究将进一步验证这一想法。1.5 头模块如图 4 所示,把网络的输出特性用(Z)和(X)来表示,头部模块(Head)由分类和回归 2 部分 组 成,之 后 调 整(Z)和(X)到 模 块(Z)cls、(Z)reg和(X)cls、(X)reg。分类模块主要用来进行前景和背景分类,回归模块主要输出 4 个通道进行边界框的预测,每个模块使用深度互相关组合而成。Pclswh2=(X)cls(Z)cls(3)Pregw
14、h4=(X)reg(Z)reg(4)式中,表示(Z)reg或(Z)cls作为卷积核进行卷积操作,Pclswh2表示分类图,Pregwh4表示回归图。分类图 Pclswh2和回归图 Pregwh4中的每一个位置,都能将其映射到搜索补丁,比如(i,j)对应搜索补丁上的位置是 wm2+(i-w2)s,hm2+(j-h2)s,将其表示为(x,y),其中 wm和 hm是搜索补丁的宽高,s 表示网络的步距,w 和 h 分别为特征图的宽和高。1.6 特征融合实验中考虑了聚合多层深度特征来进行跟踪14,虽然 backbone 的 conv3、conv4 和 conv5 空间分辨率相同,但它们的扩展速率不同,导
15、致感受野差异较大,捕获的信息存在差异,所以使用多个自适应头进行预测,分别取出搜索分支和模板分支中第 3、4、5 卷积模块的卷积结果,选取模板分支特征图的 7 7 区域大小以减小计算量。在对模板图像进行特性提取时,根据目标中心点得到模板补丁 127 127,骨干网络后 3 层输出特征图的大小为 15 15,此时选取中心4 11的区域,可以代表目标区316张立国等:基于无锚框的孪生网络目标跟踪改进算法域。相对于搜索分支,通过相同的骨干网络,后 3 层得到大小为 31 31 的特征图。然后将模板分支和搜索分支的后 3 层特征分别进行深度互相关操作,最后将得到的结果进行加权融合。Pcls-allwh2
16、=5l=3lPclsl(5)Preg-allwh4=5l=3lPregl(6)其中,、表示每一个特征图对应的权值,经实验可得 =1、=2 时,可以取得比较理想的效果。1.7 网络损失在对孪生网络提取的不同分支特征进行互相关操作后,设计了分类网络和回归网络,接着将跟踪器的训练损失分为分类和回归损失。1.7.1 边界框回归受 SiamRPN15的启发,本实验中,负样本数量比基于有锚框的负样本少,但是总体来说负样本的数量还是比正样本大得多。实验时从 1 对图像里面选择 16 个正样本和 48 个负样本。正负样本的选取如图 6 所示。图 6 样本选取每一个搜索补丁上的跟踪目标都用真实框做一个标记,真实
17、框的高、宽、左上、中心、和右下角点的坐标分别用 gw、gh、(gx1,gy1)、(gxc,gyc)以及(gx2,gy2)表示。以(gxc,gyc)为中心,以gw2、gh2为轴长,可以得到椭圆 U1:(x-gxc)2gw2()2+(y-gyc)2gh2()2=1(7)以(gxc,gyc)为中心,以gw6、gh6为轴长,可以得到椭圆 U2:(x-gxc)2gw6()2+(y-gyc)2gh6()2=1(8)(x,y)落在 U2 内,记为正标签,落在 U1 之外,就记为负标签,落在 U1 和 U2 之间,则将其忽略。用正标签的(x,y)对边界框进行回归,对于回归来说,在对分类得分图上得分最大处的位置
18、进行选择之后,就对应着回归分支对目标边框的估计值。回归图上每个位置对应的 4 个偏移值可以不需要预定义的锚框来预测目标边界框位置。把网络预测目标边框的 4 个边到目标真实边框的距离表示为向量 q=(l,t,r,b),表示如下:l=x-gx1(9)t=x-gy1(10)r=gx2-x(11)b=gy2-y(12)其中,l、t、r、b 是各个位置到边界框 4 条边的距离。在回归训练中就可以把偏差坐标图转化成预测框,然后挑选最好的预测框进行跟踪。1.7.2 损失函数在选定正负样本之后,将损失函数定义如下。L=1Lcls+2Lreg(13)其中 为超参数,在网络训练过程中,发现令 1=1,2=2,可以
19、取得很好的效果。其中 Lcls为分类损失,Lreg为回归损失。分类损失表示如下。Lcls=-t(1-pt)log(pt)y=1-(1-t)log(1-pt)y=0(14)其中,pt是网络的估计值,y 表示正负样本时的值,取 0.06、取 0.02。对于回归损失 Lreg,将其定义为 CIoU 损失。LCIoU=1-IoU+2(b,bgt)c2+(15)其中,V=42(arctanwgthgt-arctanwh)2(16)其中,IoU 为预测框和目标真实框的交并比,b 和 bgt分别表示预测框和目标真实框的中心,2则表示 2个点的欧氏距离,c 表示包含 2 个框最小框的斜对416高技术通讯 20
20、23 年 6 月 第 33 卷 第 6 期角线长度。为平衡系数,wgt和 hgt表示目标真实框的宽高,w 和 h 表示预测框的宽高,(arctanwgthgt-arctanwh)2取值是(0,24)。2 实验与分析2.1 网络训练实验主要使用了数据集 GOT10K16、COCO17、ImageNet VID18和 ImageNet DET19,使用在 Ima-geNet 上预训练后改进的 ResNet-50 作为 backbone训练模型,采用随机梯度下降法进行优化。重量衰减设置为 0.0001,动量为 0.9,共 20 个 epoch,batchsize 设置为 64,每个 epoch 中采
21、用 40 万对图像样本对进行训练。硬件方面,是在处理器为 Intel(R)Core(TM)i5-10400F CPU 2.90 GHz,RAM 为16 GB,显卡为 RTX 3060 的电脑上进行的;软件方面,在Window 10 上使用 Python 以 Pytorch 为框架进行。2.2 数据集与评价指标本文使用的数据集是目标跟踪的标准数据集OTB10020和 UAV12321。OTB100 是一个广泛使用的公共基准数据集,其包含着尺度变化、背景杂波等 11 个情况下的 100 个视频序列。UAV123 是使用无人机拍摄的场景数据集,包含了从低空航拍视角的 123 个序列,帧数超过了 11
22、0K,其中的序列均已被完全标注,对象主要有快速运动、尺度变化、光照变化和遮挡这些问题,使得跟踪变得十分有挑战性。本文的实验主要使用精确度、成功率、速度 3 个指标对提出的算法进行分析。(1)精确度精确度就是跟踪预测的目标框和目标真实框的重叠程度,数值越大,表示精确度越高,公式如下:t(i)=1NNk=1t(i,k)(17)其中,t(i,k)代表经过 k 次后,第 t 帧图像的精确性,N 代表重复次数,所以平均准确率为A(i)=1MMt=1t(i)(18)其中 M 代表跟踪的有效图像的数量。(2)成功率使用预测边界框和真实边界框之间的交并比来表示成功率,通过重叠率(overlap ratio,O
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 无锚框 孪生 网络 目标 跟踪 改进 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。