基于特征相似性学习的抛洒物检测方法_郭恩强.pdf
《基于特征相似性学习的抛洒物检测方法_郭恩强.pdf》由会员分享,可在线阅读,更多相关《基于特征相似性学习的抛洒物检测方法_郭恩强.pdf(12页珍藏版)》请在咨信网上搜索。
1、第 51 卷 第 6 期2023 年 6 月Vol.51 No.6June 2023华 南 理 工 大 学 学 报(自 然 科 学 版)Journal of South China University of Technology(Natural Science Edition)基于特征相似性学习的抛洒物检测方法郭恩强 符锌砂(华南理工大学 土木与交通学院,广东 广州 510640)摘要:针对当前以目标检测为核心的抛洒物检测算法无法识别“未知类别”的缺陷,以抛洒物引发外观特征变化的视角切入,提出基于特征相似性学习的抛洒物检测方法。首先,在抛洒物体过程中采集参考图像和待检图像,通过参数共享的孪生
2、卷积神经网络得到两张图像的外观特征,然后利用欧式距离等特征相似性函数计算图像区域之间的特征变化并得到欧式距离热力图,最后经阈值筛选得到抛洒物检测结果。为了提升算法对光照等噪声的抗干扰能力,提出全新的注意力掩膜单元,并通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能,引导特征响应聚焦于抛洒物引起的外观变化,同时忽略噪声产生的扰动,最终解决噪声干扰和抛洒物产生的特征缠绕问题。为了验证方法的有效性,本研究在真实高速公路场景下进行视频影像数据采集、标注、构建成标准数据集。结果表明:注意力掩膜单元有效提升了特征的语义判别性能,大幅度提高抛洒物检测精度,其中调和均值F1提高6.4个百
3、分点,同时算法运行速度稳定在30帧/s,满足实时性需求;利用特征序列状态转移方式构建的长跨度上下文信息更有利于注意力掩膜聚焦抛洒物特征信息,抗噪声干扰能力更强;通过强监督学习得到的注意力掩膜轮廓更为准确,模型精度更高。关键词:抛洒物识别;深度学习;特征相似性学习;注意力机制;上下文信息中图分类号:U495文章编号:1000-565X(2023)06-0030-12抛洒物因可预见性差、事故危害大、二次事故诱发几率高等特点成为了影响交通安全的突出隐患1,已引起交通从业人员的广泛关注。于此同时,随着图像处理技术的日益成熟,以图像处理算法为核心的视频交通事件监控让抛洒物的实时预警和快速处理成为了可能,
4、这不仅有利于维护交通的稳定通畅,而且能有效保障人民的生命财产安全使之不受威胁。传统基于图像处理的抛洒物检测算法通常采用图像差分的方式,其核心思想是将抛洒区域视为前景,非抛洒区域设定为背景,通过帧间区域的变化对比实现抛洒物识别。在此背景下,李清瑶、Din、Zeng 等2-4提出背景差分和帧间差分融合的方法,先利用像素区域的帧间变化获取目标前景,再根据前景的运动轨迹或运动状态完成抛洒物确认。为了增强算法对复杂环境的抗干扰能力,夏莹杰、Fu等5-6提出了基于高斯混合模型的动态背景建模方法,进行背景快速迭代,以达到适应环境快速变化的目的。汪贵平等7将抑制车辆阴影算法融入至前景检测,降低因阴影产生的抛洒
5、物误报。上述方法在单一噪声下取得不错的效果,但受限于底层特征孱弱的表达能力,传统方法很难应对多种噪声干doi:10.12141/j.issn.1000-565X.220604收稿日期:20220915基金项目:国家自然科学基金资助项目(51778242,51978283)Foundation items:Supported by the National Natural Science Foundation of China(51778242,51978283)作者简介:郭恩强(1990-),男,博士,主要从事智能交通系统研究。E-mail:第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测
6、方法扰(例如光线突然变化、雨水反光、树叶晃动等),导致算法泛化性能差,容易产生虚警误报。近年来,深度学习在计算机视觉领域取得重大突破,该算法借助于强大的特征表达能力,将图像分类、目标检测等算法性能指标推向前所未有的高度。在此背景下,研究人员尝试采用目标检测算法对抛洒物进行识别。其中,金瑶等8对YOLOV3模型进行多尺寸模块改造,实现对石头、木块、落叶等抛洒物体识别;章悦等9利用CenterMask模型对石块、废弃纸盒等4类抛洒物进行定位和识别。借助于主流目标检测算法的优良性能,此类方法在特定的抛洒物类别识别上达到了非常高的精度。但该方法依旧存在应用的局限性,其中最突出的问题在于方法和应用场景之
7、间存在天然的矛盾:一方面,交通场景的开放性和不确定性决定了抛洒物测试数据是开集合,并且类别数不可穷举;另一方面,主流目标检测算法只能识别训练数据涵盖的类别,当场景出现训练数据不存在的类别时,该方法无法识别“新类别”。如何突破方法的局限,将深度学习更好地应用于抛洒物检测是值得探究的问题。遵循基于图像差分的抛洒物检测方法的核心思想,抛洒物的出现必然会导致参考图像与待检图像之间产生外观差异,因此如何更准确地度量图像之间差异是解决该任务的关键。近几年,特征相似性学习广泛应用于人脸验证、图片匹配、变化检测等计算机视觉任务,此类方法通过孪生卷积神经网络将两张图像从样本空间映射至特征空间形成特征对,然后通过
8、计算特征对的欧式距离等度量指标量化图像区域的相似程度。以特征相似性学习的视角重新审视抛洒物检测任务,首先将抛洒物区域定义为外观特征不相似,背景区域定义为外观特征相似,然后通过识别特征不相似的区域完成抛洒物定位。不难看出,基于特征相似性学习的抛洒物检测方法巧妙地将抛洒物检测问题转化为局部特征是否相似的二分类决策任务,可有效推广到“未知”类别的抛洒物识别,避免了基于目标检测方法的类别局限。在此基础上,复杂多变外界环境产生的噪声干扰(光照变化、车辆快速运动等)与抛洒物产生特征缠绕依旧是亟需解决的难题。针对这一问题,本研究在特征相似性学习的基础框架下加入了注意力掩膜单元,目的是利用注意力掩膜排除背景区
9、域的噪声干扰,引导特征响应聚焦于抛洒物引起的变化,同时忽视噪声产生的扰动,进而提升特征的语义表达性能。为进一步加强注意力掩膜对抛洒物和噪声干扰的语义判别性能,本研究还提出利用特征序列状态转移的方式构建长跨度上下文信息以及强监督的学习方法,实验证明该方法有效提升了抛洒物检测率。综上所述,针对训练数据闭合性、类别有限与真实场景开放性、类别不可穷举之间的矛盾,本研究提出了基于特征相似性学习的抛洒物检测框架。在此基础上,本研究融入了全新的注意力掩膜单元,并通过构建长跨度上下文信息和强监督学习的方式提升注意力掩膜的语义判别性能,引导特征响应聚焦于抛洒物区域,有效解决了光照变化等噪声干扰与抛洒物在特征空间
10、的缠绕问题。本研究通过精度指标对比证明该方法有效提升了特征语义判别性能,确保算法在复杂场景下依旧具有较强的抗噪声干扰能力。1抛洒物检测算法1.1算法基础框架本研究的算法检测思路如下:首先对实时视频流按照K帧间隔(本研究将K设置为16)进行图像对采集,将当前帧(记为T1时刻图像)设定为待检图像XT1,前K帧(记为T0时刻图像)设定为参考图像XT0,然后对待检图像和参考图像进行逐区域比较。假如帧间有物体抛出,那么待检图像和参考图像之间一定存在外观特征的差异,可通过识别外观差异完成抛洒物检测。可以看出,准确量化外观特征差异是识别抛洒物的关键。为了准确描述外观特征之间的差异,本研究提出了基于特征相似性
11、学习的抛洒物检测基础框架(Dropped Objcet Detection Network,以 下 简 称 为DODNet)。如图 1所示,DODNet主要包括基于孪生卷积神经网络的主干(backbone)模块、基于注意力机制的特征增强颈项(neck)模块以及基于特征相似性对比的网络输出(head)结构。在主干模块部分,本研究选用参数共享的孪生网络,通过卷积操作分别对T0时刻参考图像XT0和T1时刻待检图像XT1进行特征提取,并得到特征FT0和FT1。其中,采用孪生网络的目的是保证参考图像和待检图像之间的外观特征差异只与图像信息有关,而和模型参数无关。在主干模块提取的特征基础之上,引入基于注意
12、力掩膜单元(Attention Masking Unit,以下简称为AMU)的特征增强颈项模块。该模块目的是通过生成的注意力掩膜引导特征响应聚焦于抛洒物区域,从而排除光线、雨滴等瞬时自然环境变化以及车辆31第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)快速移动引发的语义混淆,提升算法的抗干扰能力。具体操作中,AMU会生成3个不同层级的注意力响应图 M1Att,M2Att,M3Att,通过权重聚合的方式生成增强特征FT0Att和FT1Att。最后,在网络输出模块部分,网络采用相似性对比的方式,利用欧式距离量化图像特征FT0Att和FT1Att之间的差异。最后通过固定阈值二值化决
13、策的方式将距离值较大的区域判定为抛洒物,得到最终的结果图。1.2注意力掩膜单元注意力掩膜单元(以下简称AMU)基本结构如图2所示。为了方便阐述,本研究将T0时刻图像特征FT0和T1时刻图像特征FT1记为F。如图 2所示,AMU通过特征通道分离操作将输入特征F按通道数平均切分为FEN和FA,并分别流向两个分支:特征编码分支和注意力分支。其中特征编码分支通过常规的卷积核单元将输入特征FEN映射为特征FDE,而注意力分支则将输入特征FA映射称为注意力掩膜MAtt。在此基础上,将特征FDE和MAtt按照式(1)进行加权聚合得到增强特征:FAtt=FDE MAtt(1)其中,表示为逐元素相乘,MAtt取
14、值范围为 0,1。由于MAtt权重响应反映了不同区域信息的重要程度,因此加权聚合生成的特征FAtt能够关注到最重要的特征信息,这对模型抗干扰能力的提升至关重要。如上文所提,注意力分支的作用在于生成一张注意力掩膜MAtt,并且掩膜权重响应应聚焦于最相关的特征信息。依据文献 10-12 的研究结论,搜索最相关的特征信息的前提在于尽可能地利用长跨度的上下文信息。为了实现这一目的,本研究将采用特征序列状态转移方式构建进行上下文信息构建。具体操作中,将特征图的每一行或列看作是一维序列,利用门控循环单元13(以下简称GRU)的图1基于相似性学习的抛洒物检测算法基础框架Fig.1Detailed archi
15、tecture of dropped object detection network based on similarity learning图2注意力掩膜单元示意图Fig.2An illustration of the proposed attention mask unit32第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法状态转移矩阵将前一个空间位置的特征信息转移至下一个空间位置,此时每一行或列的特征均建立了长跨度的上下文信息依赖。GRU 推理过程如式(2)-(5)所示:zt=(Wzxt+Uzht-1+bz)(2)rt=(Wrxt+Uzht-1+br)(3)h?t=tanh(W
16、hxt+Uh(ht-1rt+bh)(4)ht=(1-zt)h?t+ztht-1(5)其中,表示的是逐像素相乘运算,代表Sigmoid函数。xt、ht分别表示t时刻原始输入和隐层特征,rt为重置门,zt为更新门。W z,W r,W h,U z,U r,W h均为状态转移矩阵,bz,br,bh 均为偏置向量,隐层状态ht和记忆单元h?t均通过状态转移矩阵进行更新。为方便描述,可将式(2)-(5)简写为G(),具体如式(6)所示:ht=G(W,xt,ht-1)(6)其中,W=W z,W r,W h,U z,U r,W h,bz,br,bh 代表了整个计算模块的状态转移矩阵和偏置向量。参照式(6)的形
17、式,本研究将时间序列上下文信息依赖转化成空间位置序列的上下文信息构建,其中t时刻的原始输出xt转变为空间位置p的特征xp,t-1时刻的隐藏特征ht-1转变为前一个空间位置p-1的上下文信息Cp-1,t时刻的隐藏特征ht转变为空间位置p的上下文信息Cp。空间位置p的上下文信息计算如式(7)所示:Cp=G(W,xp,Cp-1)(7)为了使每一个空间位置得到更为全局的视野,本研究提出四方向上下文信息编码模块,即对特征图上下左右四个方向均进行长跨度上下文编码操作。具体操作如图3所示,首先利用特征通道分离操作将输入特征FA按通道数切分为 4 组特征 F;F;F;F,其中F、F、F、F分别表示按照自下向上
18、、自上向下、自左向右及自右向左总计4个方向进行上下文信息编码。在切分特征 F;F;F;F基础上,对任意空间位置p特征 Fp;Fp;Fp;Fp,按照式(7)分别进 行 上 下 文 信 息 编 码,得 到 上 下 文 信 息Cp;Cp;Cp;Cp。4 个方向上下文信息计算如式(8)-(11)所示:Cp=G(W,Fp,Cp-1)(8)Cp=G(W,Fp,Cp-1)(9)Cp=G(W,Fp,Cp-1)(10)Cp=G(W,Fp,Cp-1)(11)在4个方向上下文信息编码基础上,沿通道方向进行维度连接得到更为全局的上下文信息C,并根据式(12)对空间注意力掩膜进行计算:MAtt=(GAP(BN(1 1C
19、onv(C)(12)其中,表示Sigmoid函数,GAP表示全局池化层,BN表示批归一化,1 1Conv表示为1 1卷积核。1.3损失函数本文方法的训练损失包括对比损失和注意力响应强监督损失两部分。其中,对比损失函数是深度度量学习领域非常重要的约束函数,广泛地应用于人脸认证14、行人再识别15、无监督学习16等领图3注意力分支示意图Fig.3An illustration of the proposed attention branch33第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)域,详细计算如式(13)所示。LC=(D fT0i,fT1i-m1)2,yi=0max(0,
20、m2-D fT0i,fT1i)2,yi=1(13)式中:fT0i,fT1i表示不同时刻T0,T1在位置i的特征对,D fT0i,fT1i表示样本i的欧式距离度量值。yi代表空间位置i的特征对标签值,其中,yi=1表示位置i为抛洒物区域,yi=0则表示位置i为背景区域。m1、m2分别为间隔阈值,本研究将m1设置为0,将m2设置为2。从式(13)可以看出,该函数优化的本质是通过降低总体损失数值,促使抛洒物特征对距离趋向于间隔值m2,同时背景区域特征对距离趋向另一个间隔值m1,最终达到最大化抛洒物特征差异的同时最小化背景区域特征差异的目的。注意力掩膜的强监督损失是另一个重要的损失函数,该损失用于对注
21、意力响应预测的优化,目的是确保注意力掩膜能够准确聚焦于抛洒物区域,最大程度地降低噪声干扰的影响。本研究将采用二阶回归函数进行损失计算,具体如式(14)所示:LAtt=lN=3i(yi-ali)2(14)式中:yi表示空间位置i对应的标签值,ali表示第l层注意力掩膜在位置i的预测值,LAtt为所有层(N=3)的均方差损失总和。最后,本研究最终的损失函数L由对比损失LC和注意力响应损失LAtt组成,并按照式(15)进行计算。L=LC+LAtt(15)2数据实验数据来源于广东省的多条高速公路产生的抛洒物视频监控影像。依据算法设定,数据将含有抛洒物图像设定为待检图像XT1,将该抛洒物落地前K帧图像(
22、本研究将K设置为16)设定为参考图像XT0。为了满足场景的真实性和复杂多样性的要求,采集数据涵盖了多个天气场景,包括晴天、雨天、雾天、雨滴镜头等多个场景。具体场景类别分布如图4(a)所示,其中晴天(39%)、阴天(27%)、雨天(14%)比重较大,雨滴镜头(11%)及雾天(9%)也占据一定比例。于此同时,抛洒物涵盖了多个细粒度物体类别,例如塑料泡沫、纸箱、轮胎、石块、瓶子等。抛洒物各类别比例分布如图4(b)所示,其中抛洒物类别占比较多的包括塑料物(25%)、桶类(18%)、纸箱(15%)及轮胎(13%),其他类别抛洒物主要包含线缆、瓶子等。在数据采集的基础上,对抛洒物进行像素级标注。具体将抛洒
23、物区域的像素值设置为1,其他区域均当成背景标注为0。图5示出了抛洒物主要类别的样例,其中红色掩膜为抛洒物。为了提升算法的泛化能力,本研究对部分原始参考图像进行数据增广,增广的方法包括添加高斯噪声、模糊化等操作及抛洒样本随机粘贴等,具体效果如图6所示。最终的数据集中共包含1 682组图像,训练集、验证集、测试集分别按7 1 2的比例进行分配。3实验3.1实验设置与评价指标所有实验均在 GTX TITAN1080显卡硬件条件下搭建,训练及测试代码使用Pytorch17框架。实验用的基础模型为ImageNet预训练的ResNet5018,图4数据集天气场景及抛洒物类别占比分布Fig.4Distrib
24、ution of the weather scenes and dropped objects by class34第 6 期郭恩强 等:基于特征相似性学习的抛洒物检测方法采用的网络参数设置如下:图像输入尺寸统一缩放为480320,训练时的批量大小为1,训练阶段将采用随机梯度下降(SGD)的训练方式,训练批次设置为60次。初始学习率设置为10-6,训练阶段的学习率按照指数衰退方式18进行调整。在模型性能方面,本研究采用4个指标进行评价,包括准确性指标:精确率P、召回率R、调和均值F1,以及实时性指标:运行时间。其中准确性指标计算方式如式(16)-(18)所示:P=NTPNTP+NFP(16)R
25、=NTPNTP+NFN(17)F1=2PRP+R(18)其中,P表示精确率,R表示召回率,NTP表示被正确分类为正样本的个数,NFP表示被错误分类为正样本的个数,NFN表示被错误分类为负样本的个数。F1是综合考虑精确率和召回率后的评价指标,F1取值范围为01,其数值越大则代表模型精度越高。3.2实验结果本研究将DODNet与多个主流算法进行性能评价指标对比。对照组算法分为传统方法和基于卷积神经网络的方法,其中传统方法包括帧间差分1和高斯混合模型5(简称GMM);而基于卷积神经网络的方法有:FCN-FSL19、UNet-FSL20、DeeplabV3-FSL21、RefineNet-FSL22和
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 相似性 学习 抛洒 检测 方法 郭恩强
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。