分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf

深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf

上传人：自信****多点

文档编号：575947

上传时间：2024-01-02

格式：PDF

页数：8

大小：1.81MB

《深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf》由会员分享，可在线阅读，更多相关《深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 5 期2023 年5 月电子学报ACTA ELECTRONICA SINICAVol.51 No.5May 2023深度信号引导学习混合变换器的高性能无监督视频目标分割苏天康1，2，宋慧慧1，2，樊佳庆3，张开华1，2（1.南京信息工程大学江苏省大数据分析技术重点实验室，江苏南京 210044；2.南京信息工程大学大气环境与装备技术协同创新中心，江苏南京 210044；3.南京航天航空大学计算机与科学技术学院，江苏南京 211106）摘要：现存的无监督视频目标分割方法通常使用光流作为运动线索来提升模型性能.然而，光流的估计常存在误差，这将导致双流网络易对噪声过拟合.为此，本文提出一种基于混

2、合变换器的无监督视频目标分割算法，通过引入深度信号引导变换器高效融合不同模态数据，以学习更加鲁棒的特征表达，从而减轻模型对噪声的过拟合.首先，设计一个新颖的混合注意力模块来获得全局感受野并对不同模态的特征进行充分交互，以增强特征的全局语义信息来提升模型的抗干扰能力.接着，为了进一步感知精细化的目标边缘，设计了一个局部-非局部语义增强模块，将局部语义的归纳偏置引入补充学习非局部语义特征，在提升模型抗干扰力的同时突出更精细化的目标区域.最后，增强后的特征输入变换器的解码器，预测得到高质量的分割结果.与最先进的方法相比，本文所提算法在四个标准数据集上都获得了领先的性能，充分表明了本文所提方法的有效性

3、.关键词：无监督视频目标分割；混合变换器；混合注意力；多模态；深度估计；鲁棒特征基金项目：科技创新2030-“新一代人工智能”重大项目（No.2018AAA0100400）；国家自然科学基金（No.62276141，No.U20B2065）中图分类号：TP391.41文献标识码：A文章编号：0372-2112(2023)05-1388-08电子学报URL:http:/DOI:10.12263/DZXB.20221162Learning Depth Signal Guided Mixed Transformer for High-Performance Unsupervised Video Ob

4、ject SegmentationSU Tian-kang1,2,SONG Hui-hui1,2,FAN Jia-qing3,ZHANG Kai-hua1,2（1.Jiangsu Key Laboratory of Big Data Analysis Technology，Nanjing University of Information Science and Technology，Nanjing，Jiangsu 210044，China;2.Collaborative Innovation Center on Atmospheric Environment and Equipment Te

5、chnology，University of Information Science and Technology，Nanjing，Jiangsu 210044，China;3.College of Computer Science and Technology，Nanjing University of Aeronautics and Astronautics，Nanjing，Jiangsu 211106，China）Abstract:The existing unsupervised video object segmentation methods usually employ opti

6、cal flow as a motion cue to improve the model performance.However,the estimation of optical flow frequently involves errors,resulting in lots of noise,especially for objects with static or complicated motion interference.The two-stream networks will easily overfit to the noise,which severely degrade

7、s the segmentation model.To relieve this,we propose to a novel mixed transformer in unsupervised video object segmentation,which can efficiently fuse different modality data by introducing depth signals to learn more robust feature representation and reduce the model overfitting to noise.In specific

8、,the video frame,optical flow and depth map that are cropped into a set of fixed-size patches and concatenated together,are first composed of a triplet as the transformer input.The linear layer followed by a position-encoding layer is applied on the triplet,producing the features to be encoded.After

9、 this,the features are integrated by a novel mixed attention module,which can obtain the global respective field and sufficiently interact with the various modality features,to enhance the global semantic features and improve the anti-interference ability of the model.The local-non-local semantic en

10、hancement module is developed in order to 收稿日期：2022-10-11；修回日期：2023-01-18；责任编辑：覃怀银第 5 期苏天康:深度信号引导学习混合变换器的高性能无监督视频目标分割further perceive the refined target edge by introducing the inductive bias of local semantic information into supplementary learning of non-local semantic features.In this way,the tar

11、get region is more refined while improving the anti-interference capability of the model.In the end,the enhanced features as the transformer decoder input to produce the predicted segmentation mask.Extensive experiments on four standard challenging benchmarks demonstrate that the proposed method ach

12、ieves favorable performance against state-of-the-art methods.Key words:unsupervised video object segmentation mixed transformer;mixed attention;multimodality;depth estimation;robust featuresFoundation Item(s):National Key Research and Development Program of China(No.2018AAA0100400);National Natural

13、Science Foundation of China(No.62276141,No.U20B2065)1引言给定一组视频序列，视频目标分割（Video Object Segmentation，VOS）旨在从中定位并分割出特定的目标.VOS在计算机视觉中是一项极具挑战性的任务，拥有目标跟踪和自动驾驶等应用场景13现有的VOS技术大致可分为三类：半监督视频目标分割、无监督视频目标分割（Unsupervised VOS，UVOS）和参考视频目标分割.UVOS任务的主流方法包括双流网络48、基于记忆的卷积神经网络9，10和3D卷积神经网络11，12等.其中，双流网络方法利用光流捕获运动信息，并通过信

14、息交互模块融合外观与运动特征，以获得增强后的时空特征.基于记忆的UVOS方法利用过往所有的历史帧信息，将当前帧与历史帧在时空域上做匹配学习，从而关联当前帧和历史帧的特征.基于3D卷积神经网络的方法将连续视频帧沿着时间维度拼接，再输入3D卷积模块中提取时空特征.尽管上述UVOS方法取得了较好的性能，但是仍然存在一些不足之处：双流网络结构复杂且计算开销较大，容易对光流噪声信号过拟合；3D卷积网络计算量大，并且感受野受限，无法捕获特征之间的长程依赖关系；基于记忆的UVOS方法需要大量的内存开销来存储历史帧信息.基于上述分析，本文提出了基于深度信号引导学习混合变换器的UVOS网络.2预备知识为了解决模

15、型对光流噪声过拟合的问题，本文在网络中引入深度信号.直观上，深度信息提供了一帧中所有对象的空间位置信息，而不像光流会受物体静止或复杂运动的干扰.通过深度图，我们可以很容易地区分出不同空间位置的物体，从而精确分割出运动目标区域.此外，针对卷积神经网络中局部感受野受限和网络复杂、计算量大的问题，轻量化的视觉变换器（Vision Transformer，ViT）能够以较小的计算量和参数量来建模长程依赖关系，从而避免引入卷积神经网络的归纳偏置而获得全局感受野.最后，变换器本身具备良好的处理多模态信号的特性，特别适合建模视频帧、光流图、深度图等不同模态数据之间的相互依赖关系，从而高效挖掘出它们之间的共性

16、信息.3基于深度信号引导学习混合变换器3.1网络整体结构基于深度信号引导学习混合变换器网络主要包括Transformer编码器和Transformer解码器.在每个Transformer模块中包含层归一化、混合注意力模块、局部-非局部语义增强模块和多层感知机，具体网络结构如图1所示.给定 RGB 帧IrRHW3、光流图IfRHW3和深度图IdRHW3三种模态数据组成的三元组，其中下标r、f、d分别表示视频帧、光流和深度信息.然后，分别将其裁剪为N个固定尺寸的图像块，并将每个图像块展成一个C维向量xlj构成一个图符（token），其中l是r、f、d 中的一种模态.随后，通过可学习的投影矩阵WRC

17、D线性映射后加入位置编码PRND，生成待编码的特征FlRND：Fl=xTl1WxTl2W.xTlNW+Plrfd（1）接着，将模态l特征Fl输入编码器，并在各个阶段抽象产生它们的中间特征.编码器和解码器由多个本Transformer模块组成.其通过利用深度信号引导RGB帧与光流分支学习鲁棒的特征表示，有效解决了感受野受限和光流噪声导致的模型退化问题.随后，通过跳跃连接将逐级编码的特征输入解码器得到特征S.最后，特征S输入预测器并预测得到最后的分割掩膜MRHW：M=Conv(S)（2）其中，Conv表示11卷积.3.2混合注意力模块混合注意力模块是追求简洁、紧凑的端到端UVOS的核心设计.如图2

18、所示，首先使用线性映射层将Fl映射到对应的查询（query），键（key）和值（value）：QlKlVl=FlWqlFlWklFlWvllrfd（3）1389电子学报2023 年其中，Ql，Kl，VlRND分别表示对应的查询、键和值.Wql，Wkl，WvlRDD.表示可学习的投影矩阵.然后，分别将Kr与Kf拼接，Vr与Vf拼接，得到RGB帧和光流分支融合的 key 和 value.分别表示为KvideoR2ND与VvideoR2ND：KvideoVvideo=Cat(KrKf)Cat(VrVf)（4）接着，分别对它们做如下注意力操作：ArAfAd=Softmax(QrKTvideoQfKTv

19、ideoQdKTdd)（5）其中，Ar，AfRN2N，AdRNN分别表示RGB特征、光流特征和深度特征的注意力权值，d表示key的维度.得到后的注意力权值与对应的value相乘得到增强后的特征：YrYfYd=ArVvideoAfVvideoAdVd（6）其中，Yr，Yf，YdRND分别表示RGB、光流和深度图增强后的特征.最后，将Yr，Yf，Yd拼接得到输出Y：Y=Cat(YrYfYd)（7）其中，YR3ND表示充分挖掘不同模态之间共性信息后的融合特征.图2展示了不同特征的热力图.从中可见，第一行的光流效果较好，外观特征融合光流特征可以有效关注目标区域，融合深度特征可以提供额外的目标定位信息.

20、第二行到第四行展示了当光流信息包含噪声时，导致模型对噪声信号过拟合.但是，当融合深度特征后，模型可以利用深度信号提供的空间位置信息，更加准确的关注运动目标.第五行展示了当目标静止时，光流线索产生负面影响，导致分割效果变差.但是，当引入深度特征时，模型易于区分出不同空间位置的物体，从而精确分割出主要目标.上述实验结果表明了本文提出的混合注意力模块能够充分交互学习RGB帧、光流和深度图之间的特征，从而充分挖掘它们之间的共性信息，增强了模型的抗干扰能力.传统变换器中采用的自注意力机制只能获取空间位置信息，而未能有效捕获通道方向的语义信息，导致其泛化能力受限，难以有效建模输入图符与图符之间潜在的依赖关

21、系.因此，本文设计了一个局部-非局部语义增强模块，将局部语义的归纳偏置引入补充学习非局部语义特征，在提升模型抗干扰力的同时获取更加精细的目标区域.3.3局部-非局部语义增强模块图 3 展示了局部-非局部语义增强模块的设计细节.其中，对于非局部语义增强模块，首先使用线性投影层将增强后的特征Y沿通道维投影到潜在空间QcR3ND，keyKcR3ND和valueVcR3ND：QcKcVc=YWqcYWkcYWvc（8）其中，Wqc，Wkc，WvcRDD表示query，key和value的投影矩阵.然后，对它们执行自注意力操作：图1基于深度信号引导学习混合变换器网络结构图2不同特征热力图1390第 5

22、期苏天康:深度信号引导学习混合变换器的高性能无监督视频目标分割Ac=Softmax(QcTVcd)（9）其中，AcRDD 表示全局语义注意力权重矩阵，d表示key的维度.最后，注意力权值与对应的value相乘得到增强后的非局部语义特征ONLR3ND：ONL=(AcVcT)T（10）对于局部语义模块，首先将输入特征Y合并：Y1=Merge(Y)（11）其中，Y1RTH1W1D表示合并后的特征，Merge（）表示合并的操作.合并后的特征经过全局平均池化层聚合空间特征：Y2=GAP(Y1)（12）其中，Y2R111D表示聚合空间特征，GAP（）表示全局平均池化操作.接着，将空间聚合特征经过分组卷积层

23、学习特征，有效缓解了全卷积复杂计算量的问题.增强后的特征经过Sigmoid激活函数层得到通道维度的局部注意力权值：Y3=Sigmoid(GroupConv(Y2)（13）其中，Y3R111D表示局部语义注意力权重向量，GroupConv表示分组卷积操作，Sigmoid表示激活函数层.最后，将得到的局部语义注意力权值与特征Y1对应元素相乘：OL=Y3Y1（14）其中，OLRTH1W1D表示增强局部语义信息的特征，表示对应元素相乘.增强语义信息后的特征分块展开转换为原始特征维度：OL=Split(OL)（15）其中，OLR3ND表示原始维度的增强语义信息后的特征，Split表示分块展开操作.增强后

24、的非局部语义特征ONL和局部语义特征OL对应元素相加得到最终的特征OR3ND：O=ONLOL（16）其中，表示对应元素相加.3.4损失函数本文使用交叉熵损失函数LCE和 IoU 损失函数LIoU，旨在对目标进行像素级分类.总的损失函数L定义如下：L=LCE+LIoU（17）其中，LCE=-ijG(ij)logM(ij)，LIoU=1-|MG|MG|，GRHW表示真实标签，MRHW表示预测掩模.4实验结果与分析4.1实验设置本文以端到端的方式训练模型.模型的输入是RGB帧、光流和深度图.其中，深度图和光流分别使用MiDaS（Mixing DataSets）13和 RAFT（Recurrent

25、All-pairs Field Transforms）14算法生成.训练的数据集由DAVIS1615、FBMS16和 YouTube-VOS17组成.本文先在YouTube-VOS、DAVIS16和FBMS数据集训练15个周期，再在DAVIS16和FBMS数据集上微调25个周期.此外，本文采用了随机旋转、随机裁剪和随机水平翻转的数据增强策略，并将图片统一缩放到的尺寸.整个网络使用AdamW优化器，并初始化学习率为1e4，批量大小设置为4.使用前2个周期预热，剩余周期余弦衰减的优化策略.实验平台使用一块 64 GB 内存、12 核、2.50 GHz 的 AMD-Ryzen395

26、0X CPU 和两块 11 GB 显存的 RTX2080Ti GPU.推理阶段，本文在 DAVIS16 和FBMS数据集上使用区域相似度J、边界准确率F和平均值 J&F作为 UVOS评估指标15，在 DAVIS16、FBMS、DAVSOD18和 ViSal19数据集上使用平均绝对误差MAE、Fmax和结构值S作为视频显著性评估指标6.此外，生成的分割掩膜无需任何后处理.在前向推理过程中，使用 RAFT 算法估计光流约耗时 0.025 s，使用 MiDaS 算法估计深度图约耗时 0.023 s，所提算法约耗时图3局部-非局部语义增强模块1391电子学报2023 年0.02 s，总耗时约

27、为0.068 s，即推理速度达到了15 fps.4.2定量实验分析表1列举了本文方法与目前最先进的UVOS方法在DAVIS16和FBMS数据集上的定量比较结果.其中，红色加粗为最优结果，蓝色加粗为次优结果，绿色加粗为排名第三的结果.本文所提 UVOS网络在 DAVIS16数据集上的平均值、区域相似度和边界准确率上分别超过了目前最先进的UVOS算法D2Conv3D 0.4%、0.6%和0.2%.此外，本文方法在FBMS数据集上的区域相似度大幅领先目前最先进的算.本文方法在DAVIS16数据集和FBMS数据集上同时取得了最先进的性能，这充分表明了本文方法能够生成高质量的分割掩膜.表2列举了本文方法

28、与目前最先进的视频显著性目标检测算法在DAVIS16、FBMS、DAVSOD和ViSal数据集上的定量比较结果.其中，红色加粗为最优指标，蓝色加粗为次优指标，绿色加粗为第三优指标.表中可见，本文在四个数据集的11个指标上都取得了最优结果，在一个指标上取得了次优的结果.与目前最先进的视频显著性检测方法 CFANet（Contrastive Features and Attention Network）相比，本文方法在各个评价指标上都领先于CFANet.特别地，在UVOS方法中，本文方法在各个数据集上优于TransportNet.这表明了本文方法在UVOS 与 VSOD（Video Salient

29、 Object Detection）任务上均具备优越的性能.4.3消融实验分析表 3列举了本文算法在 DAVIS16和 FBMS数据集上的消融实验结果.将深度图引入基线模型中，模型的J和F指标在DAVIS16数据集上相比于基线模型分别提升了1.9%和1.6%；在FBMS数据集上，模型的J指标比基线模型提高了2.6%.这是因为当目标静止或存在复杂运动干扰时，估计出的光流将含有大量噪声，导致模型对噪声信号过拟合.深度信号可提供一帧中所有对象的空间位置信息，辅助减轻物体静止或复杂运动的干扰，从而能够得到更高质量的目标分割掩膜.在原有的基线模型中加入混合注意力模块，在DAVIS16数据集上，模型的J和

30、F比基线模型提升了2.5%和3.2%；表1在DAVIS16和FBMS数据集上的区域相似度和边界准确率评估结果算法MATNet53DC-Seg11FSNet6TransportNet7RTNet8CFANet20D2Conv3D12本文方法DAVIS16J&F81.684.583.384.885.282.886.086.4J82.484.383.484.585.683.585.586.1F80.784.783.185.084.782.086.586.7FBMSJ76.178.784.0表2在DAVIS16、FBMS、DAVSOD和ViSal数据集上的S，Fmax和MAE的对比结果算法SSAV18

31、DFNet213DC-Seg11CASNet22TransportNet7FSNet6CFANet20本文方法DAVIS16S0.8930.8730.9200.9180.937Fmax0.8610.8990.9180.8600.9280.9070.9090.929MAE0.0280.0180.0150.0320.0130.0200.0150.010FBMSS0.8790.8560.8900.9090.916Fmax0.8650.8330.8450.8630.8850.8880.9150.922MAE0.0400.0540.0480.0560.0450.0410.0260.026DAVSODS0

32、.7240.6940.7730.7530.790Fmax0.6030.6850.6620.698MAE0.0920.0890.0720.0830.069ViSalS0.9430.8200.953Fmax0.9390.9270.9220.8470.9530.954MAE0.0200.0170.0190.0290.0120.013表3在DAVIS16和FBMS数据集上消融实验结果模型变化深度图混合注意力模块局部-非局部语义增强模块DAVIS16J80.782.683.281.384.683.684.286.1F80.682.283.881.584.884.084.686.7FBMSJ78.280.

33、881.479.882.681.282.084.01392第 5 期苏天康:深度信号引导学习混合变换器的高性能无监督视频目标分割在FBMS数据集上，模型的指标J在基线模型的基础上提升了3.2%.这是因为混合注意力模块能够充分交互学习RGB帧、光流和深度图之间的特征，从而充分挖掘它们之间的共性信息，生成更加精确的目标分割掩膜.在基准模型上加入全局-局部语义调制模块，在DAVIS16和FBMS数据集上的评估指标都获得了一定的提升，这充分表明了全局-局部语义调制模块能够获取更加精细、完整的目标区域，从而进一步提升了分割的精度.为了有效验证深度图、混合注意力模块和局部-

34、非局部语义增强模块对模型的积极作用，本文通过删除模块的方法来测试对模型性能的影响.当去除混合注意力模块时，模型在DAVIS16数据集上的J和F比原始版本降低了2.5%和2.7%；在FBMS数据集上，模型的区域相似度J比原始版本降低了2.0%，充分体现了混合注意力模块在挖掘各种模态数据之间共性的优越性.当去除深度图时，模型在DAVIS16数据集上的J和F比原始版本降低了1.9%和2.1%；在FBMS数据集上，J比原始版本降低了2.0%.体现了深度图能够有效提供目标的空间位置信息，避免了受物体静止和复杂运动的干扰.在去除局部-非局部语义增强模块的情况下，模型在DAVIS16和FBMS数据上的性能均

35、下降了一些，侧面体现了局部-非局部语义增强模块能够获取更加精细的目标区域，进一步提高了分割质量.4.4定性实验分析图4展示了一些本文算法的定性分析结果.从上到下依次是DAVIS16 数据集（breakdance，car-roundabout，dance-twirl和libby），DAVSOD数据集（select_0689和select_0669）和FBMS数据集（dogs01）.本文提出的方法在实际场景中表现出色，包括快速移动场景（car-roundabout，libby，select_0689和select_0669）、杂乱背景场景（breakdance，car

36、-roundabout和dance-twirl）、严重遮挡场景（libby，select_0689，select_0669和dogs01）和剧烈形变场景（breakdance，dance-twirl和dogs01）.例如，在第一行和第三行中，即使周围有很多观看者的背景，本文提出的分割算法依然能够准确的定位并分割出舞蹈者.在第六行中，冲浪的人在浪花中只能看见头部，本文提出的算法依然能够精准的分割出头部轮廓.在第四行中，小狗被各种围栏、大树遮挡，本文算法仍然可以只分割小狗而不分割遮挡的背景部分.以上定性分析结果验证了本文算法在各种复杂场景中的有效性.4.5模型限制当深度估计不准确时会存在两种情况，

37、如图 5所示.第一种情况是深度估计不准确且光流存在噪声（见图5前2行），这种条件下，深度信号会对光流噪声起到一定的抑制效果，但是预测结果仍然会存在一些噪声；第二种情况是深度估计不准确但是光流估计较为准确图4定性实验结果1393电子学报2023 年（见图5后2行），这种条件下，光流估计会占主导作用，因此最终的预测结果效果较为理想.总之，只有当深度估计不准确且光流存在噪声的情况下，模型预测效果会较差，但深度图仍会对噪声起到一定的抑制效果.5总结为了解决现有的UVOS框架存在对光流噪声过拟合、感受野受限、网络复杂、计算量大等问题，本文提出了一种基于深度信号引导学习混合变换器的UVOS网络.实验表明本

38、文所提方法能够有效抑制光流噪声带来的干扰并且推理速度快，能够为视频编辑、目标跟踪和自动驾驶等领域提供更加快速准确的图像处理结果.参考文献1 谢青松,刘晓庆,安志勇,等.基于前景优化的视觉目标跟踪算法J.电子学报,2022,50(7):1558-1566.XIE Q S,LIU X Q,AN Z Y,et al.Visual object tracking algorithm based on foreground optimizationJ.Acta Electronica Sinica,2022,50(7):1558-1566.(in Chinese).2 付利华,赵宇,姜涵煦,等.基于前景

39、感知视觉注意的半监督视频目标分割J.电子学报,2022,50(1):195-206.FU L H,ZHAO Y,JIANG H X,et al.Semi-supervised video object segmentation based on foreground perception visual attentionJ.Acta Electronica Sinica,2022,50(1):195-206.(in Chinese).3 付利华,赵宇,孙晓威,等.基于孪生网络的快速视频目标分割J.电子学报,2020,48(4):625-630.FU L H,ZHAO Y,SUN X W,et

40、al.Fast video object segmentation based on Siamese networksJ.Acta Electronica Sinica,2020,48(4):625-630.(in Chinese).4 FAN J,ZHANG K,ZHAO Y,et al.Unsupervised video object segmentation via weak user interaction and temporal modulationJ.Chinese Journal of Electronics,2022,32:1-13.5 ZHOU T F,LI J W,WA

41、NG S Z,et al.Matnet:Motion-attentive transition network for zero-shot video object segmentationJ.IEEE Transactions on Image Processing,2020,29:8326-8338.6 JI G P,FU K R,WU Z,et al.Full-duplex strategy for video object segmentationC/2021 IEEE/CVF International Conference on Computer Vision(ICCV).Pisc

42、ataway:IEEE,2022:4922-4933.7 ZHANG K H,ZHAO Z C,LIU D,et al.Deep transport network for unsupervised video object segmentationC/2021 IEEE/CVF International Conference on Computer Vision(ICCV).Piscataway:IEEE,2021:8781-8790.8 REN S,LIU W,LIU Y,et al.Reciprocal transformations for unsupervised video ob

43、ject segmentationC/2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway:IEEE,2021:15455-15464.9 TOKMAKOV P,ALAHARI K,SCHMID C.Learning video object segmentation with visual memoryC/2017 IEEE International Conference on Computer Vision(ICCV).Piscataway:IEEE,2017:4481-4

44、490.10 LU X K,WANG W G,DANELLJAN M,et al.Video object segmentation with episodic graph memory NetworksC/Computer Vision-ECCV 2020.Cham:Springer International Publishing,2020:661-679.11 Mahadevan S,Athar A,Oep A,et al.Making a case for 3d convolutions for object segmentation in videosEB/OL.(2020-08-2

45、6)2022-11-01.arXiv preprint arXiv:2008.11516,2020.12 SCHMIDT C,ATHAR A,MAHADEVAN S,et al.D2conv3d:Dynamic dilated convolutions for object segmentation in videosC/2022 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV).Piscataway:IEEE,2022:1200-1209.13 RANFTL R,LASINGER K,HAFNER D,et

46、 al.Towards robust monocular depth estimation:Mixing datasets for zero-shot cross-dataset transferJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(3):1623-1637.14 TEED Z,DENG J.RAFT:Recurrent all-pairs field transforms for optical flowC/Computer Vision-ECCV 2020.Cham:Springer

47、 International Publishing,2020:402-419.15 PERAZZI F,PONT-TUSET J,MCWILLIAMS B,et al.A benchmark dataset and evaluation methodology for video object segmentationC/2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Pisca图5深度估计不准确条件下光流对结果的影响1394第 5 期苏天康:深度信号引导学习混合变换器的高性能无监督视频目标分割tawa

48、y:IEEE,2016:724-732.16 OCHS P,MALIK J,BROX T.Segmentation of moving objects by long term video analysisJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,36(6):1187-1200.17 XU N,YANG L J,FAN Y C,et al.Youtube-vos:Sequence-to-sequence video object segmentation C/Computer Vision-ECC

49、V 2018.Cham:Springer International Publishing,2018:585-601.18 FAN D P,WANG W G,CHENG M M,et al.Shifting more attention to video salient object detectionC/2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Piscataway:IEEE,2019:8554-8564.19 WANG W G,SHEN J B,SHAO L.Consistent vi

50、deo saliency using local gradient flow optimization and global refinementJ.IEEE Transactions on Image Processing,2015,24(11):4185-4196.20 CHEN Y W,JIN X J,SHEN X H,et al.Video salient object detection via contrastive features and attention modulesC/2022 IEEE/CVF Winter Conference on Applications of

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 深度信号引导学习混合变换器性能监督视频目标分割苏天康

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。