分销赏收藏举报申诉 / 10

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf

基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf

上传人：自信****多点

文档编号：649988

上传时间：2024-01-23

格式：PDF

页数：10

大小：2.52MB

《基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf》由会员分享，可在线阅读，更多相关《基于注意机制和多尺度跨模态融合的RGB-D显著性检测.pdf（10页珍藏版）》请在咨信网上搜索。

1、第 35 卷第 6 期计算机辅助设计与图形学学报 Vol.35 No.6 2023 年 6 月 Journal of Computer-Aided Design&Computer Graphics Jun.2023 收稿日期:2021-11-19;修回日期:2022-04-24.基金项目:渭南市科技局重点项目(ZDYF-JCYJ-196);渭南师范学院人才项目(2020RC11);西华师范大学英才项目(17YC046).崔志强(1997),男,硕士研究生,主要研究方向为计算机视觉、显著性检测;冯正勇(1978),男,博士,教授,硕士生导师,主要研究方向为深度学习、人工智能;王峰(1981)

2、,男,博士,讲师,论文通信作者,主要研究方向为深度学习、图像融合;刘强(1995),男,硕士研究生,主要研究方向为计算机视觉、变化检测.基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测崔志强1),冯正勇1),王峰2)*,刘强1)1)(西华师范大学电子信息工程学院南充 637000)2)(渭南师范学院物理与电气工程学院渭南 714099)()摘要:针对基于深度卷积神经网络的 RGB-D 显著性检测性能差等问题,提出利用注意机制和多尺度跨模态融合进行 RGB-D 显著性检测的方法.首先采用多尺度残差注意模块对骨干网络提取的特征进行预处理;然后提出多尺度跨模态融合策略,对高层 RGB

3、特征和深度特征进行融合,获得初始显著图;最后采用边界细化模块细化初始显著图中目标的边界,使最终显著图包含敏锐的边界和完整的突出目标.在 5 个基准数据集上与 10 种先进方法进行实验的结果表明,所提方法在 4 个评价指标上均处于前 3 名;尤其是在 NJUD 和 SIP 数据集上,该方法在 4 个指标上提升了0.5%1.5%.关键词:图像处理;显著性检测;注意机制;多尺度跨模态融合中图法分类号:TP391.41 DOI:10.3724/SP.J.1089.2023.19479 RGB-D Saliency Detection Based on Attention Mechanism and

4、 Multi-Scale Cross-Modal Fusion Cui Zhiqiang1),Feng Zhengyong1),Wang Feng2)*,and Liu Qiang1)1)(College of Electronic and Information Engineering,China West Normal University,Nanchong 637000)2)(College of Physics and Electrical Engineering,Weinan Normal University,Weinan 714099)Abstract:Aiming at the

5、 poor performance of RGB-D saliency detection based on deep convolution neural network,a method of RGB-D saliency detection using attention mechanism and multi-scale cross-modal fu-sion is proposed.Firstly,the multi-scale residual attention module is used to preprocess the features ex-tracted from t

6、he backbone network.Secondly,a multi-scale cross-modal fusion strategy is proposed to fuse the high-level RGB and depth features to obtain the initial saliency map.Finally,the boundary refinement module is utilized to refine the boundary of the object in the initial saliency map,so that the final sa

7、liency map contains sharp boundaries and complete salient objects.The results of experiments with ten advanced methods on five benchmark datasets show that the proposed method ranks in the top three in four evaluation metrics,especially on the NJUD and SIP datasets,where the method improves by 0.5%1

8、.5%in four metrics.Key words:image processing;saliency detection;attention mechanism;multi-scale cross-modal fusion 显著性检测通过模拟人类视觉感知系统自主地检测出给定图像上最吸引人的目标,已在图像分割1、视觉追踪2、目标识别3以及图像检索4等各种计算机视觉任务中得到了广泛应用.894 计算机辅助设计与图形学学报第 35 卷传统的 RGB-D 显著性检测通过探索 RGB 和深度线索中的有用信息来设计手工特征,由于手工特征表达能力较低,检测效果往往不佳.随着深度学习的快速发展,相

9、对于传统的检测方法,基于卷积神经网络(convolutional neural network,CNN)的 RGB-D 显著性检测取得了较大的进步.Liu 等5提出一种自交互的注意力模块以融合 RGB 和深度图,并且集成自注意力和交互注意力机制准确地传播上下文信息;Zhang 等6提出一个互补交互模块,探索模态间的互补性和融合跨模态特征;Piao等7设计深度感应多尺度加权模块和循环注意力模块探索 RGB 特征和深度特征之间的互补性,提升显著性检测的性能.然而,当处理具有挑战的场景(如背景杂乱、前景背景相似等)时,上述方法不能完整地检测图像中的突出目标,造成此问题的原因如下:(1)未对骨干网络提

10、取的特征信息进行处理而直接进行跨模态融合,以及个别低质量深度图的负面影响;(2)RGB 图像和深度图像未得到充分的互补融合,致使遗漏一些重要特征信息.近年来,由于注意力机制能够筛选出重要的特征区域,大多数方法将其引入 RGB-D 显著性检测中.Zhou 等8引入注意力图区分显著物体和背景区域,以减少低质量深度图的负面影响;Li 等9通过深度监督注意力机制对显著区域进行加权;凌艳等10提出一个多尺度上下文增强模块处理骨干网络提取的特征信息.不同于以上方法,本文在Liu 等11提出的感受野块(receptive field block,RFB)的基础上加入空间注意(spatial attentio

11、n,SA)模块和通道注意(channel attention,CA)模块,设计一个多尺度残差注意模块(multi-scale residual at-tention module,MSRA);将此模块应用到骨干网络提取的分层特征上,分别从 RGB 图像和深度图像中提取丰富且重要的特征信息,也可以缓解低质量深度图的负面影响.通常,显著性检测中 RGB 特征和深度特征的融合方法划分为 3 种:(1)早期融合.Liu 等12直接把 RGB 图像和深度图像进行连接操作形成四通道输入,然后将其输入到网络中实现显著图的预测;(2)后期融合.Wang等13使用2个并行的网络结构分别学习 RGB 和深度图的特

12、征信息,然后将其级联起来生成最终的显著图;(3)中期融合,也称多尺度融合.陈正等14通过点乘和相加操作融合 2 个模态的特征信息;Li 等15设计了一个跨模态深度加权结合块,利用深度特征来增强 RGB 特征;Chen 等16提出一个密集的跨层反馈拓扑结构,其中每层进行跨模态交互,然后密集地反馈到浅层;Liu 等17提出一种跨模态自适应门控融合生成对抗网络来融合 2 个模态的特征信息;Li 等18提出一个跨模态加权策略,通过 3 个 RGB-D 交互模块分别进行低层、中层和高层的跨模态融合.不同于上述方法,本文提出一个多尺度跨模态融合策略.首先,把经过MSRA获取的高层特征送到2种类型的密集融合

13、模块(dense fusion module,DFM),充分地融合 2 个模态间的信息,产生一个初始显著图;然后提出边界细化模块(boundary refinement module,BRM)挖掘低层中的边界细节信息,细化初始显著图中目标的边界,进而得出包含敏锐边界和完整目标的最终显著图.1 本文方法 1.1 整体结构本文方法的整体结构如图 1 所示,包括特征提取模块、MSRA、相同尺度密集融合模块(same scale dense fusion module,S-DFM)、不同尺度密集融合模块(different scale dense fusion module,D-DFM)和BRM 共

14、 5 个模块.其中,后 3 个模块构成本文的多尺度跨模态融合策略.首先采用 ResNet5019骨干网络分别从输入的 RGB 和深度图像中提取 5 层特征图bH W CaF.其中,ar d,1,2,3,4,5b,H W和C分别表示特征图的高度、宽度和通道维度数;然后对提取的 5 层特征图bH W CaF,分别应用1 1的卷积层得到降维后的特征图64bH WaF;再将降维后的特征图输入到 MSRA中,获取丰富且重要的 RGB 特征12345,R RRRR和深度特征12345,D DD DD;最后将高层的RGB 特征345,RRR和深度特征345,D DD送入S-DFM

15、和 D-DFM 进行密集的融合,产生初始显著图iniS,使用低层的 RGB 特征12,R R和深度特征12,D D细化初始显著图中目标的边界,产生最终的显著图finS.1.2 MSRA 现实生活中,给定图像中的突出目标尺度是多变的,因此需要获取不同尺度大小的特征信息,增加显著性检测的可靠性.虽然主干网络有足够大的理论感受野覆盖图像中大部分的突出目标,但是实验已经证明,有效的感受野比理论感受野要小.经过 Liu等11提出的 RFB后,虽然可以捕获丰富的全局上下文信息,也解决了显著性检测的第 6 期崔志强,等:基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 895 图 1 本文方法

16、整体结构尺度问题,但是所提取的特征信息量大且没有信息的着重点.考虑 CA 机制和 SA 机制可以有效地筛选出通道和空间上哪一部分区域更值得关注,本文巧妙地把 RFB 与 SA 机制和 CA 机制结合起来形成 MSRA,在通过 RFB 覆盖更大范围区域捕获丰富特征信息的同时,也通过注意机制从丰富的特征信息中筛选出重要的特征信息.MSRA结构如图2所示,由5个并行分支构成:第 1 个分支由一个1 1和一个3 3卷积层构成,在无膨胀率的情况下对输入特征图提取特征信息;中间 3 个分支由上至下膨胀率依此为 3,5 和 7,并且这 3 个分支添加 CA 模块和 SA 模块,旨在获取丰富特征信息的同时更

17、加关注重要的信息;最后一个分支由一个1 1卷积层构成,用于降低通道数.最终将前 4 个分支获得的特征图进行拼接操作,再与包含输入特征原始信息的第5个分支相加形成残差结构.1.3 多尺度跨模态融合 RGB 和深度图像的融合方法大致分为早期融合、中期融合和后期融合.本文提出一种多尺度跨图 2 MSRA 结构 896 计算机辅助设计与图形学学报第 35 卷模态融合策略,其充分地探索模态间的互补性,有效地融合 2 个模态提取的特征,分为 2 步:首先对高层特征跨模态密集融合产生初始显著图;其次使用包含丰富边界细节信息的低层特征细化初始显著图,使得最终的显著图包含敏锐的边界和完整的突出目标.(1)

18、密集融合.由于高层特征包含丰富的语义信息有助于定位突出目标,因此有效地融合2个模态的高层特征是一个至关重要的问题.从相同尺度和不同尺度的跨模态密集融合出发,本文设计S-DFM 和 D-DFM 这 2 种类型的 DFM 充分地挖掘模态间像素层的互补信息,同时通过2种类型的密集融合捕获更全面的突出目标信息.S-DFM 如图 3a 所示.对经过 MSRA 处理的高3 层 RGB 特征345,RRR和深度特征345,D DD,首先通过 3 个经典的密集块进行相同尺度的跨模态融合,产生3个具备位置信息和空间结构信息的强有力的混合特征图;然后通过上采样、卷积和连接操作整合 3 个特征图,产生一个特征图.第

19、i个RGB 特征和第j个深度特征融合产生的特征图为 =,ijijFD R D(1)其中,=3,4,5ij,iR和jD分别表示第i个 RGB特征和第j个深度特征,D 表示一个密集融合操作.通过式(1)可以得到 3 个包含复杂信息的特征图334455,FFF,进行下述操作 554554422554433554433fuse1334455=Conv=ConvConv=Conv,FUFFUUFFFFFFFC FFF.其中,2U和 4U分别表示2倍和4倍上采样操作;Conv 表示一个3 3的卷积操作;表示元素相加操作;C 表示连接操作;ijF表示特征ijF跨尺度融合后的增强特征;fuse1F表示相同尺度

20、跨模态融合得到的特征图.考虑 RGB 图像包含丰富的位置细节信息,而深度图像包含丰富的空间结构信息,仅仅通过3个相同尺度的跨模态融合无法充分地挖掘它们之间的互补性,也会丢失一些重要的特征信息.因此,本文使用 2 个如图 3b 所示的 D-DFM 进行不同尺度的跨模态融合.经过 MSRA 处理得到高层 RGB 图 3 2 种类型的 DFM 特征和深度特征后,分别将它们送进密集块中产生具有复杂信息的特征图.首先,如同式(1)那样进行密集融合操作,但此处=3,4,5i,=3,4,5j且ij,因此将得到 6个特征图343545435354,FFFFFF;然后,分别对前3个以及后3个特征图通过一系列卷积

21、、上采样、相加和连接操作进行整合.前3个特征图的详细整合过程为 4524535354534343545fuse2343545=Conv=Conv,FUFFFFFFFFFC FFF.其中,fuse2F表示不同尺度跨模态融合的特征图.类似地,后3个特征图通过上述操作也可以得到一个不同尺度跨模态融合的特征图fuse3F.最终的初始显著图为inifuse1fuse2fuse3=SFFF.其中,iniS表示初始显著图.(2)边界细化.由于低层特征包含丰富的边界细节信息,有助于细化突出目标边界,因此本文使用低层特征细化初始显著图,使最终显著图具备敏锐的边界细节和完整的突出目标.如图4所示,边界细化部分使用

22、经MSRA处理后低层的RGB特征和深度特征,公式为第 6 期崔志强,等:基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 897 121111ini242222inifin12=Conv,FURDRDSFURDRDSSC F F.其中,表示元素相乘操作;1F和2F表示细化后的特征图;finS表示最终的显著图.图 4 BRM 结构 1.4 损失函数交叉熵可以表示真实值与预测值之间的差异,其值越小,表明模型预测效果越好.本文使用二值交叉熵损失评估模型,公式为bcefin=,GTLLS.其中,L表示模型的总损失;bceL表示二值交叉熵损失函数;finS表示最终的预测显著图;GT表示真值

23、(ground truth)显著图.2 实验及结果分析 2.1 数据集本文在5个具有挑战的数据集上进行实验,包括NJUD20,NLPR21,LFSD22,SSD23和SIP24.其中,NJUD由1 985幅立体图像对组成,这些图像均来自Internet,3D电影和FujiW3立体相机拍摄的照片;NLPR包含1 000幅RGB图像及其对应的深度图,这些图像都是通过标准的Microsoft Kinect收集得到的;LFSD由Lytro光场相机收集的100幅光场图像组成,包含60张室内场景和40张室外场景;SSD通过3部立体电影制作而成,包含室内和室外场景共80个样本;SIP由929幅带标注的高分

24、辨率图像组成,每幅图像都包含多个显著人物.为了公平对比,训练测试集划分按照文献25-26相同的设置,训练集包含NJUD中1 485个样本和NLPR数据集中700个样本;测试集包含NJUD和NLPR数据集中的剩余图像,以及整个LFSD,SSD和SIP数据集.2.2 评价指标本文采用5个广泛使用的指标评价提出的方法,包括 S-measure(S),E-measure(E),F-measure(F)、平均绝对值误差(mean absolute error,MAE)和准确率-召回率(precision-recall,P-R)曲线.S用于评估区域感知rS和目标感知oS之间的结构相似性,定义为 or=

25、+SSS.其中,0,1表示平衡参数,默认值设为0.5.E用于获取图像水平统计信息及其局部像素匹配信息,定义为111,WHIJEi jWH.其中,W和H分别表示显著图的宽和高;表示增强对角矩阵.为全面考虑精度和召回率,加权的调和平均值定义为22=1+PRFPR.其中,设置2=0.3以增强精度.本文使用不同的阈值0,255计算F.2.3 实现细节本文方法采用Pytorch框架,在一块3080GPU上做实验;主干网络采用ResNet5019,去掉最后的池化层和全连接层,并且采用ImageNet上的预训练模型进行初始化.为了防止过拟合,本文对所有训练图像实施随机翻转、旋转和边界裁剪;输入图像的分辨率

26、统一调整为256 256像素;采用 Adam优化模型,初始学习率设为0.000 1,每隔60轮下降10倍;实验中批次大小设为8,训练模型200轮大约需6 h.2.4 结果对比与分析本文方法在5个广泛使用的公开基准数据集上与10种方法进行比较,包括TANet27,CPFP28,DMRA7,D3Net26,ICNet15,CMMS29,CoNet30,SSF6,S2MA5,ASIFNet9.为了公平对比,直接使用由作者提供的显著图或预计算的评价结果.(1)定量评估.表1和图5所示为在5个数据集和5个评价指标下,本文方法与10种方法的定量比较结果.表1中,结果最好的用粗体标注(下文同),可以明显地

27、观察到,在NJUD,NLPR和SIP数据集上,本文方法优于所有对比方法.从图5可以看出,在NJUD,NLPR和SIP数据集上,本文方法(红线所示)在不同的阈值下优于所有对比方法.(2)定性评估.图6所示为本文方法与10种方法的视觉对比结果.为了证实本文方法的鲁棒性,选取7幅典型的场景图像进行对比,其中,前5行图像来自NJUD数据集,后2行图像来自NLPR数据集.可以看出,本文方法检测的显著图在不同的 898 计算机辅助设计与图形学学报第 35 卷表 1 在 5 个基准数据集上的定量评估对比方法数据集评价指标 TANet27 CPFP28 DMRA7 D3Net26ICNet15CMM

28、S29CoNet30SSF6 S2MA5 ASIFNet9本文S 0.878 0.883 0.886 0.900 0.894 0.904 0.895 0.899 0.894 0.889 0.915maxF 0.874 0.881 0.886 0.900 0.891 0.897 0.892 0.896 0.889 0.888 0.909maxE 0.925 0.930 0.927 0.938 0.924 0.936 0.937 0.934 0.930 0.927 0.947NJUD MAE 0.060 0.051 0.051 0.047 0.052 0.044 0.047 0.043 0.054

29、 0.047 0.039S 0.886 0.889 0.899 0.912 0.923 0.919 0.908 0.914 0.915 0.907 0.925maxF 0.863 0.868 0.880 0.897 0.908 0.904 0.887 0.896 0.902 0.888 0.911maxE 0.941 0.932 0.947 0.953 0.952 0.955 0.945 0.954 0.953 0.949 0.959NLPR MAE 0.041 0.036 0.031 0.030 0.029 0.028 0.031 0.026 0.030 0.030 0.027S 0.801

30、 0.828 0.847 0.825 0.868 0.845 0.862 0.859 0.837 0.822 0.867maxF 0.796 0.825 0.856 0.810 0.871 0.858 0.859 0.861 0.835 0.824 0.863maxE 0.847 0.872 0.901 0.862 0.903 0.886 0.907 0.900 0.873 0.861 0.909LFSD MAE 0.111 0.088 0.076 0.095 0.071 0.082 0.071 0.067 0.095 0.089 0.075S 0.835 0.850 0.806 0.860

31、0.854 0.858 0.876maxF 0.830 0.851 0.821 0.861 0.857 0.867 0.881maxE 0.895 0.903 0.874 0.909 0.903 0.913 0.921SIP MAE 0.075 0.064 0.086 0.063 0.069 0.063 0.058S 0.839 0.807 0.857 0.857 0.848 0.858 0.853 0.868 0.857 0.868maxF 0.810 0.766 0.844 0.834 0.841 0.839 0.840 0.848 0.834 0.846maxE 0.897 0.852

32、0.906 0.908 0.903 0.900 0.915 0.909 0.884 0.909SSD MAE 0.063 0.082 0.059 0.058 0.064 0.053 0.060 0.052 0.056 0.051注.加粗数值表示最优值.图 5 5 个数据集上 P-R 曲线对比第 6 期崔志强,等:基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 899 图 6 11 种方法在典型复杂场景上的视觉对比场景下与真值图更相似.在简单场景(第1行)下,RGB图像中的突出目标猫是非常明显的,但是深度图是低质量的;与其他方法相比,本文方法可以检测出更为完整的突出目标.在复杂背

33、景(第2行)下,本文方法可以过滤背景信息的干扰,产生令人满意的结果;在前景背景相似(第3行)下,本文方法可以关注到空间和通道维度上重要的特征区域,比其他方法检测结果要好;在低质量深度图(第1行和第4行)下,MSRA可以在一定程度上缓解低质量深度图的消极影响,因此与其他方法相比,本文方法能检测出更完整的目标;在低对比度场景(第5行)下,本文方法通过密集融合探索模态间的互补信息,产生完整的显著目标;在小目标场景(第6行)下,本文方法关注重要的特征区域,过滤周围不重要的区域,可以较好地检测出小目标;在多目标场景(第7行)下,与其他方法相比,本文方法能检测出图像上所有的突出目标.2.5 消融实验本文

34、在LFSD和SIP数据集上进行消融实验,在验证不同模块有效性的同时,也可以证实本文方法有较好的泛化能力.(1)MSRA的有效性.本文进行不同策略的实验:a.w/o MSRA.对骨干网络提取的不同尺度分层特征不经过MSRA预处理,直接用于后续的跨模态融合;b.with RFB.去掉MSRA模块中的CA和SA,使用RFB对骨干网络提取的分层特征进行处理,然后执行后续操作.从表2可以看出,使用MSRA处理后,maxmax,S EF和MAE 4个评价指标均有较大提升,如在LFSD数据集上,4个指标分别提升3%,3.8%,3.7%和1.9%;在SIP数据集上,4个指标分别提升3.1%,3.6%,1.5%

35、和1.8%,证实了MSRA的有效性.图7所示为不同策略下的检测结果,可以看出,不经过MSRA处理的特征图中突出目标不完整且边界模糊,去掉CA和SA后检测的图包含一些背景区域,证实MSRA能够提取丰富且重要的特征信息,检测的结果令人满意.另外,当处理低质量深度图时(第3行),MSRA能够有效地缓解低质量深度图的负面影响,而其他策略检测效果较差.(2)多尺度跨模态融合的有效性.本文进行不同网络结构设计的实验:a.w/o S-DFM.去掉多尺度跨模态融合策略中的S-DFM部分;b.w/o D-DFM.去掉多尺度跨模态融合策略中的D-DFM部分;c.w/o BRM.去掉多尺度跨模态融合策略中的BRM部

36、分.从表2可以看出,丢掉多尺度跨模态融合策略中的任何一个模块都会降低模型的检测效果,证实多尺度跨模态融合策略的有效性.图8所示为多尺度跨模态融合策略不同设置的视觉对比结果,可以看出,在不同的场景下去掉BRM后,检测结果图丢失一些细节信息,并且突出目标边界模糊;当去掉S-DFM部分时,在不同场景下检测图中的突出目标信息不完整,这是因为去掉相同尺度的900 计算机辅助设计与图形学学报第 35 卷跨模态融合会丢失一些目标信息;当去掉D-DFM部分时,不同场景下检测的突出目标会多检或漏检一些重要特征信息,这是因为去掉不同尺度的跨模态融合不能捕获一些复杂重要的特征信息.表 2 LFSD 和 SIP

37、数据集上的消融实验 LFSD SIP 方法 S maxF maxE MAE S maxF maxE MAE 本文 0.867 0.863 0.909 0.075 0.876 0.881 0.921 0.058 w/o MSRA 0.837 0.825 0.872 0.094 0.845 0.845 0.906 0.076 with RFB 0.852 0.851 0.894 0.089 0.852 0.854 0.908 0.073 w/o BRM 0.857 0.851 0.896 0.080 0.866 0.867 0.914 0.064 w/o S-DFM 0.859 0.857 0.8

38、95 0.080 0.870 0.874 0.917 0.061 w/o D-DFM 0.861 0.860 0.898 0.079 0.865 0.869 0.910 0.064 注.加粗数值表示最优值.图 7 MSRA 不同策略的视觉对比图 8 多尺度跨模态融合不同策略的视觉对比 2.6 失败案例利用MSRA和多尺度跨模态融合策略,本文方法可以清晰地检测出大多图像中的显著区域,但面对如图9中更复杂的情况时,本文方法检测效果不佳.从图9可以看出,第1行中目标多样且背景复杂,本文方法不能区分前景背景,检测效果较差;第2行中目标透明且复杂,本文方法不能明确地学习到细节信息,检测结果较模糊.第

39、 6 期崔志强,等:基于注意机制和多尺度跨模态融合的 RGB-D 显著性检测 901 图 9 本文方法的失败案例 3 结语本文提出一种基于注意机制和多尺度跨模态融合的显著性检测方法,包含MSRA,DFM和BRM这3个重要模块.其中,MSRA在RFB的基础上加入SA和CA,从骨干网络的输出特征中提取丰富且重要的特征信息;对于高层的特征,设计了2种类型的DFM,一种用于相同尺度的融合,另一种用于不同尺度的融合,可以有效地探索模态间的互补信息,并充分地融合这些信息产生包含复杂信息的初始显著图;BRM利用低层特征包含的边界细节信息细化高层特征产生的初始显著图,使产生的最终显著图包含完整的突出目标

40、.定量和定性的实验结果证实,本文方法在5个公开基准数据集上的实验结果表现优秀.参考文献(References):1 Ye L W,Rochan M,Liu Z,et al.Cross-modal self-attention network for referring image segmentationC/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society Press,2019:10494-10503 2 Jia

41、 X,Lu H C,Yang M H.Visual tracking via coarse and fine structural local sparse appearance modelsJ.IEEE Transac-tions on Image Processing,2016,25(10):4555-4564 3 Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networksJ.IEEE Transactions on Pattern

42、 Analysis and Machine Intelli-gence,2017,39(6):1137-1149 4 Gao Y,Wang M,Tao D C,et al.3-D object retrieval and recog-nition with hypergraph analysisJ.IEEE Transactions on Im-age Processing,2012,21(9):4290-4303 5 Liu N,Zhang N,Han J W.Learning selective self-mutual atten-tion for RGB-D saliency detec

43、tionC/Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Rec-ognition.Los Alamitos:IEEE Computer Society Press,2020:13753-13762 6 Zhang M,Ren W S,Piao Y R,et al.Select,supplement and focus for RGB-D saliency detectionC/Proceedings of the IEEE/CVF Conference on Computer Vision and

44、Pattern Rec-ognition.Los Alamitos:IEEE Computer Society Press,2020:3469-3478 7 Piao Y R,Ji W,Li J J,et al.Depth-induced multi-scale recur-rent attention network for saliency detectionC/Proceedings of the IEEE/CVF International Conference on Computer Vi-sion.Los Alamitos:IEEE Computer Society Press,2

45、019:7253-7262 8 Zhou X F,Li G Y,Gong C,et al.Attention-guided RGB-D sa-liency detection using appearance informationJ.Image and Vision Computing,2020,95:103888 9 Li C Y,Cong R M,Kwong S,et al.ASIF-net:attention steered interweave fusion network for RGB-D salient object detec-tionJ.IEEE Transactions

46、on Cybernetics,2021,51(1):88-100 10 Ling Yan,Chen Ying.Salient object detection with multiscale context enhanced fully convolutional networkJ.Journal of Computer-Aided Design&Computer Graphics,2019,31(11):2007-2016(in Chinese)(凌艳,陈莹.多尺度上下文信息增强的显著目标检测全卷积网络J.计算机辅助设计与图形学学报,2019,31(11):2007-2016)11 Liu

47、S T,Huang D,Wang Y H.Receptive field block net for ac-curate and fast object detectionC/Proceedings of the 15th European Conference on Computer Vision.Heidelberg:Sprin-ger,2018:404-419 12 Liu Z Y,Shi S,Duan Q T,et al.Salient object detection for RGB-D image by single stream recurrent convolution neu

48、ral networkJ.Neurocomputing,2019,363:46-57 13 Wang N N,Gong X J.Adaptive fusion for RGB-D salient ob-ject detectionJ.IEEE Access,2019,7:55277-55284 14 Chen Zheng,Zhao Xiaoli,Zhang Jiaying,et al.RGB-D image saliency detection based on cross-model feature fusionJ.Journal of Computer-Aided Design&Compu

49、ter Graphics,2021,33(11):1688-1697(in Chinese)(陈正,赵晓丽,张佳颖,等.基于跨模态特征融合的 RGB-D显著性目标检测J.计算机辅助设计与图形学学报,2021,33(11):1688-1697)15 Li G Y,Liu Z,Ling H B.ICNet:information conversion net-work for RGB-D based salient object detectionJ.IEEE Transactions on Image Processing,2020,29:4873-4884 16 Chen H,Li Y F,S

50、u D.Discriminative cross-modal transfer learning and densely cross-level feedback fusion for RGB-D salient object detectionJ.IEEE Transactions on Cybernetics,2020,50(11):4808-4820 17 Liu Z Y,Zhang W,Zhao P.A cross-modal adaptive gated fusion generative adversarial network for RGB-D salient object de

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于注意机制尺度跨模态融合 RGB 显著检测

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。