基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf
《基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf》由会员分享,可在线阅读,更多相关《基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 35 卷 第 6 期 计算机辅助设计与图形学学报 Vol.35 No.6 2023 年 6 月 Journal of Computer-Aided Design&Computer Graphics Jun.2023 收稿日期:2021-11-19;修回日期:2022-04-24.基金项目:渭南市科技局重点项目(ZDYF-JCYJ-196);渭南师范学院人才项目(2020RC11);西华师范大学英才项目(17YC046).崔志强(1997),男,硕士研究生,主要研究方向为计算机视觉、显著性检测;冯正勇(1978),男,博士,教授,硕士生导师,主要研究方向为深度学习、人工智能;王峰(1981)
2、,男,博士,讲师,论文通信作者,主要研究方向为深度学习、图像融合;刘强(1995),男,硕士研究生,主要研究方向为计算机视觉、变化检测.基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 崔志强1),冯正勇1),王峰2)*,刘强1)1)(西华师范大学电子信息工程学院 南充 637000)2)(渭南师范学院物理与电气工程学院 渭南 714099)()摘 要:针对基于深度卷积神经网络的 RGB-D 显著性检测性能差等问题,提出利用注意机制和多尺度跨模态融合进行 RGB-D 显著性检测的方法.首先采用多尺度残差注意模块对骨干网络提取的特征进行预处理;然后提出多尺度跨模态融合策略,对高层 RGB
3、 特征和深度特征进行融合,获得初始显著图;最后采用边界细化模块细化初始显著图中目标的边界,使最终显著图包含敏锐的边界和完整的突出目标.在 5 个基准数据集上与 10 种先进方法进行实验的结果表明,所提方法在 4 个评价指标上均处于前 3 名;尤其是在 NJUD 和 SIP 数据集上,该方法在 4 个指标上提升了0.5%1.5%.关键词:图像处理;显著性检测;注意机制;多尺度跨模态融合 中图法分类号:TP391.41 DOI:10.3724/SP.J.1089.2023.19479 RGB-D Saliency Detection Based on Attention Mechanism and
4、 Multi-Scale Cross-Modal Fusion Cui Zhiqiang1),Feng Zhengyong1),Wang Feng2)*,and Liu Qiang1)1)(College of Electronic and Information Engineering,China West Normal University,Nanchong 637000)2)(College of Physics and Electrical Engineering,Weinan Normal University,Weinan 714099)Abstract:Aiming at the
5、 poor performance of RGB-D saliency detection based on deep convolution neural network,a method of RGB-D saliency detection using attention mechanism and multi-scale cross-modal fu-sion is proposed.Firstly,the multi-scale residual attention module is used to preprocess the features ex-tracted from t
6、he backbone network.Secondly,a multi-scale cross-modal fusion strategy is proposed to fuse the high-level RGB and depth features to obtain the initial saliency map.Finally,the boundary refinement module is utilized to refine the boundary of the object in the initial saliency map,so that the final sa
7、liency map contains sharp boundaries and complete salient objects.The results of experiments with ten advanced methods on five benchmark datasets show that the proposed method ranks in the top three in four evaluation metrics,especially on the NJUD and SIP datasets,where the method improves by 0.5%1
8、.5%in four metrics.Key words:image processing;saliency detection;attention mechanism;multi-scale cross-modal fusion 显著性检测通过模拟人类视觉感知系统自主地检测出给定图像上最吸引人的目标,已在图像分割1、视觉追踪2、目标识别3以及图像检索4等各种计算机视觉任务中得到了广泛应用.894 计算机辅助设计与图形学学报 第 35 卷 传统的 RGB-D 显著性检测通过探索 RGB 和深度线索中的有用信息来设计手工特征,由于手工特征表达能力较低,检测效果往往不佳.随着深度学习的快速发展,相
9、对于传统的检测方法,基于卷积神经网络(convolutional neural network,CNN)的 RGB-D 显著性检测取得了较大的进步.Liu 等5提出一种自交互的注意力模块以融合 RGB 和深度图,并且集成自注意力和交互注意力机制准确地传播上下文信息;Zhang 等6提出一个互补交互模块,探索模态间的互补性和融合跨模态特征;Piao等7设计深度感应多尺度加权模块和循环注意力模块探索 RGB 特征和深度特征之间的互补性,提升显著性检测的性能.然而,当处理具有挑战的场景(如背景杂乱、前景背景相似等)时,上述方法不能完整地检测图像中的突出目标,造成此问题的原因如下:(1)未对骨干网络提
10、取的特征信息进行处理而直接进行跨模态融合,以及个别低质量深度图的负面影响;(2)RGB 图像和深度图像未得到充分的互补融合,致使遗漏一些重要特征信息.近年来,由于注意力机制能够筛选出重要的特征区域,大多数方法将其引入 RGB-D 显著性检测中.Zhou 等8引入注意力图区分显著物体和背景区域,以减少低质量深度图的负面影响;Li 等9通过深度监督注意力机制对显著区域进行加权;凌艳等10提出一个多尺度上下文增强模块处理骨干网络提取的特征信息.不同于以上方法,本文在Liu 等11提出的感受野块(receptive field block,RFB)的基础上加入空间注意(spatial attentio
11、n,SA)模块和通道注意(channel attention,CA)模块,设计一个多尺度残差注意模块(multi-scale residual at-tention module,MSRA);将此模块应用到骨干网络提取的分层特征上,分别从 RGB 图像和深度图像中提取丰富且重要的特征信息,也可以缓解低质量深度图的负面影响.通常,显著性检测中 RGB 特征和深度特征的融合方法划分为 3 种:(1)早期融合.Liu 等12直接把 RGB 图像和深度图像进行连接操作形成四通道输入,然后将其输入到网络中实现显著图的预测;(2)后期融合.Wang等13使用2个并行的网络结构分别学习 RGB 和深度图的特
12、征信息,然后将其级联起来生成最终的显著图;(3)中期融合,也称多尺度融合.陈正等14通过点乘和相加操作融合 2 个模态的特征信息;Li 等15设计了一个跨模态深度加权结合块,利用深度特征来增强 RGB 特征;Chen 等16提出一个密集的跨层反馈拓扑结构,其中每层进行跨模态交互,然后密集地反馈到浅层;Liu 等17提出一种跨模态自适应门控融合生成对抗网络来融合 2 个模态的特征信息;Li 等18提出一个跨模态加权策略,通过 3 个 RGB-D 交互模块分别进行低层、中层和高层的跨模态融合.不同于上述方法,本文提出一个多尺度跨模态融合策略.首先,把经过MSRA获取的高层特征送到2种类型的密集融合
13、模块(dense fusion module,DFM),充分地融合 2 个模态间的信息,产生一个初始显著图;然后提出边界细化模块(boundary refinement module,BRM)挖掘低层中的边界细节信息,细化初始显著图中目标的边界,进而得出包含敏锐边界和完整目标的最终显著图.1 本文方法 1.1 整体结构 本文方法的整体结构如图 1 所示,包括特征提取模块、MSRA、相同尺度密集融合模块(same scale dense fusion module,S-DFM)、不同尺度密集融合模块(different scale dense fusion module,D-DFM)和BRM 共
14、 5 个模块.其中,后 3 个模块构成本文的多尺度跨模态融合策略.首先采用 ResNet5019骨干网络分别从输入的 RGB 和深度图像中提取 5 层特征图bH W CaF.其中,ar d,1,2,3,4,5b,H W和C分别表示特征图的高度、宽度和通道维度数;然后对提取的 5 层特征图bH W CaF,分别 应 用1 1的 卷 积 层 得 到 降 维 后 的 特 征 图64bH WaF;再将降维后的特征图输入到 MSRA中,获取丰富且重要的 RGB 特征12345,R RRRR和深度特征12345,D DD DD;最后将高层的RGB 特征345,RRR和深度特征345,D DD送入S-DFM
15、 和 D-DFM 进行密集的融合,产生初始显著图iniS,使用低层的 RGB 特征12,R R和深度特征12,D D细化初始显著图中目标的边界,产生最终的显著图finS.1.2 MSRA 现实生活中,给定图像中的突出目标尺度是多变的,因此需要获取不同尺度大小的特征信息,增加显著性检测的可靠性.虽然主干网络有足够大的理论感受野覆盖图像中大部分的突出目标,但是实验已经证明,有效的感受野比理论感受野要小.经过 Liu等11提出的 RFB后,虽然可以捕获丰富的全局上下文信息,也解决了显著性检测的 第 6 期 崔志强,等:基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 895 图 1 本文方法
16、整体结构 尺度问题,但是所提取的特征信息量大且没有信息的着重点.考虑 CA 机制和 SA 机制可以有效地筛选出通道和空间上哪一部分区域更值得关注,本文巧妙地把 RFB 与 SA 机制和 CA 机制结合起来形成 MSRA,在通过 RFB 覆盖更大范围区域捕获丰富特征信息的同时,也通过注意机制从丰富的特征信息中筛选出重要的特征信息.MSRA结构如图2所示,由5个并行分支构成:第 1 个分支由一个1 1和一个3 3卷积层构成,在无膨胀率的情况下对输入特征图提取特征信息;中间 3 个分支由上至下膨胀率依此为 3,5 和 7,并且这 3 个分支添加 CA 模块和 SA 模块,旨在获取丰富特征信息的同时更
17、加关注重要的信息;最后一个分支由一个1 1卷积层构成,用于降低通道数.最终将前 4 个分支获得的特征图进行拼接操作,再与包含输入特征原始信息的第5个分支相加形成残差结构.1.3 多尺度跨模态融合 RGB 和深度图像的融合方法大致分为早期融合、中期融合和后期融合.本文提出一种多尺度跨 图 2 MSRA 结构 896 计算机辅助设计与图形学学报 第 35 卷 模态融合策略,其充分地探索模态间的互补性,有效地融合 2 个模态提取的特征,分为 2 步:首先对高层特征跨模态密集融合产生初始显著图;其次使用包含丰富边界细节信息的低层特征细化初始显著图,使得最终的显著图包含敏锐的边界和完整的突出目标.(1)
18、密集融合.由于高层特征包含丰富的语义信息有助于定位突出目标,因此有效地融合2个模态的高层特征是一个至关重要的问题.从相同尺度和不同尺度的跨模态密集融合出发,本文设计S-DFM 和 D-DFM 这 2 种类型的 DFM 充分地挖掘模态间像素层的互补信息,同时通过2种类型的密集融合捕获更全面的突出目标信息.S-DFM 如图 3a 所示.对经过 MSRA 处理的高3 层 RGB 特征345,RRR和深度特征345,D DD,首先通过 3 个经典的密集块进行相同尺度的跨模态融合,产生3个具备位置信息和空间结构信息的强有力的混合特征图;然后通过上采样、卷积和连接操作整合 3 个特征图,产生一个特征图.第
19、i个RGB 特征和第j个深度特征融合产生的特征图为 =,ijijFD R D(1)其中,=3,4,5ij,iR和jD分别表示第i个 RGB特征和第j个深度特征,D 表示一个密集融合操作.通过式(1)可以得到 3 个包含复杂信息的特征图334455,FFF,进行下述操作 554554422554433554433fuse1334455=Conv=ConvConv=Conv,FUFFUUFFFFFFFC FFF.其中,2U和 4U分别表示2倍和4倍上采样操作;Conv 表示一个3 3的卷积操作;表示元素相加操作;C 表示连接操作;ijF表示特征ijF跨尺度融合后的增强特征;fuse1F表示相同尺度
20、跨模态融合得到的特征图.考虑 RGB 图像包含丰富的位置细节信息,而深度图像包含丰富的空间结构信息,仅仅通过3个相同尺度的跨模态融合无法充分地挖掘它们之间的互补性,也会丢失一些重要的特征信息.因此,本文使用 2 个如图 3b 所示的 D-DFM 进行不同尺度的跨模态融合.经过 MSRA 处理得到高层 RGB 图 3 2 种类型的 DFM 特征和深度特征后,分别将它们送进密集块中产生具有复杂信息的特征图.首先,如同式(1)那样进行密集融合操作,但此处=3,4,5i,=3,4,5j且ij,因此将得到 6个特征图343545435354,FFFFFF;然后,分别对前3个以及后3个特征图通过一系列卷积
21、、上采样、相加和连接操作进行整合.前3个特征图的详细整合过程为 4524535354534343545fuse2343545=Conv=Conv,FUFFFFFFFFFC FFF.其中,fuse2F表示不同尺度跨模态融合的特征图.类似地,后3个特征图通过上述操作也可以得到一个不同尺度跨模态融合的特征图fuse3F.最终的初始显著图为inifuse1fuse2fuse3=SFFF.其中,iniS表示初始显著图.(2)边界细化.由于低层特征包含丰富的边界细节信息,有助于细化突出目标边界,因此本文使用低层特征细化初始显著图,使最终显著图具备敏锐的边界细节和完整的突出目标.如图4所示,边界细化部分使用
22、经MSRA处理后低层的RGB特征和深度特征,公式为 第 6 期 崔志强,等:基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 897 121111ini242222inifin12=Conv,FURDRDSFURDRDSSC F F.其中,表示元素相乘操作;1F和2F表示细化后的特征图;finS表示最终的显著图.图 4 BRM 结构 1.4 损失函数 交叉熵可以表示真实值与预测值之间的差异,其值越小,表明模型预测效果越好.本文使用二值交叉熵损失评估模型,公式为bcefin=,GTLLS.其中,L表示模型的总损失;bceL表示二值交叉熵损失函数;finS表示最终的预测显著图;GT表示真值
23、(ground truth)显著图.2 实验及结果分析 2.1 数据集 本文在5个具有挑战的数据集上进行实验,包括NJUD20,NLPR21,LFSD22,SSD23和SIP24.其中,NJUD由1 985幅立体图像对组成,这些图像均来自Internet,3D电影和FujiW3立体相机拍摄的照片;NLPR包含1 000幅RGB图像及其对应的深度图,这些图像都是通过标准的Microsoft Kinect收集得到的;LFSD由Lytro光场相机收集的100幅光场图像组成,包含60张室内场景和40张室外场景;SSD通过3部立体电影制作而成,包含室内和室外场景共80个样本;SIP由929幅带标注的高分
24、辨率图像组成,每幅图像都包含多个显著人物.为了公平对比,训练测试集划分按照文献25-26相同的设置,训练集包含NJUD中1 485个样本和NLPR数据集中700个样本;测试集包含NJUD和NLPR数据集中的剩余图像,以及整个LFSD,SSD和SIP数据集.2.2 评价指标 本文采用5个广泛使用的指标评价提出的方法,包 括 S-measure(S),E-measure(E),F-measure(F)、平均绝对值误差(mean absolute error,MAE)和准确率-召回率(precision-recall,P-R)曲线.S用于评估区域感知rS和目标感知oS之间的结构相似性,定义为 or=
25、+SSS.其中,0,1表示平衡参数,默认值设为0.5.E用于获取图像水平统计信息及其局部像素匹配信息,定义为111,WHIJEi jWH.其中,W和H分别表示显著图的宽和高;表示增强对角矩阵.为全面考虑精度和召回率,加权的调和平均值定义为22=1+PRFPR.其中,设置2=0.3以增强精度.本文使用不同的阈值0,255计算F.2.3 实现细节 本文方法采用Pytorch框架,在一块3080GPU上做实验;主干网络采用ResNet5019,去掉最后的池化层和全连接层,并且采用ImageNet上的预训练模型进行初始化.为了防止过拟合,本文对所有训练图像实施随机翻转、旋转和边界裁剪;输入图像的分辨率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意 机制 尺度 跨模态 融合 RGB 显著 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。