深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf
《深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf》由会员分享,可在线阅读,更多相关《深度信号引导学习混合变换器的高性能无监督视频目标分割_苏天康.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 5 期2023 年5 月电子学报ACTA ELECTRONICA SINICAVol.51 No.5May 2023深度信号引导学习混合变换器的高性能无监督视频目标分割苏天康1,2,宋慧慧1,2,樊佳庆3,张开华1,2(1.南京信息工程大学江苏省大数据分析技术重点实验室,江苏南京 210044;2.南京信息工程大学大气环境与装备技术协同创新中心,江苏南京 210044;3.南京航天航空大学计算机与科学技术学院,江苏南京 211106)摘要:现存的无监督视频目标分割方法通常使用光流作为运动线索来提升模型性能.然而,光流的估计常存在误差,这将导致双流网络易对噪声过拟合.为此,本文提出一种基于混
2、合变换器的无监督视频目标分割算法,通过引入深度信号引导变换器高效融合不同模态数据,以学习更加鲁棒的特征表达,从而减轻模型对噪声的过拟合.首先,设计一个新颖的混合注意力模块来获得全局感受野并对不同模态的特征进行充分交互,以增强特征的全局语义信息来提升模型的抗干扰能力.接着,为了进一步感知精细化的目标边缘,设计了一个局部-非局部语义增强模块,将局部语义的归纳偏置引入补充学习非局部语义特征,在提升模型抗干扰力的同时突出更精细化的目标区域.最后,增强后的特征输入变换器的解码器,预测得到高质量的分割结果.与最先进的方法相比,本文所提算法在四个标准数据集上都获得了领先的性能,充分表明了本文所提方法的有效性
3、.关键词:无监督视频目标分割;混合变换器;混合注意力;多模态;深度估计;鲁棒特征基金项目:科技创新2030-“新一代人工智能”重大项目(No.2018AAA0100400);国家自然科学基金(No.62276141,No.U20B2065)中图分类号:TP391.41文献标识码:A文章编号:0372-2112(2023)05-1388-08电子学报URL:http:/DOI:10.12263/DZXB.20221162Learning Depth Signal Guided Mixed Transformer for High-Performance Unsupervised Video Ob
4、ject SegmentationSU Tian-kang1,2,SONG Hui-hui1,2,FAN Jia-qing3,ZHANG Kai-hua1,2(1.Jiangsu Key Laboratory of Big Data Analysis Technology,Nanjing University of Information Science and Technology,Nanjing,Jiangsu 210044,China;2.Collaborative Innovation Center on Atmospheric Environment and Equipment Te
5、chnology,University of Information Science and Technology,Nanjing,Jiangsu 210044,China;3.College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing,Jiangsu 211106,China)Abstract:The existing unsupervised video object segmentation methods usually employ opti
6、cal flow as a motion cue to improve the model performance.However,the estimation of optical flow frequently involves errors,resulting in lots of noise,especially for objects with static or complicated motion interference.The two-stream networks will easily overfit to the noise,which severely degrade
7、s the segmentation model.To relieve this,we propose to a novel mixed transformer in unsupervised video object segmentation,which can efficiently fuse different modality data by introducing depth signals to learn more robust feature representation and reduce the model overfitting to noise.In specific
8、,the video frame,optical flow and depth map that are cropped into a set of fixed-size patches and concatenated together,are first composed of a triplet as the transformer input.The linear layer followed by a position-encoding layer is applied on the triplet,producing the features to be encoded.After
9、 this,the features are integrated by a novel mixed attention module,which can obtain the global respective field and sufficiently interact with the various modality features,to enhance the global semantic features and improve the anti-interference ability of the model.The local-non-local semantic en
10、hancement module is developed in order to 收稿日期:2022-10-11;修回日期:2023-01-18;责任编辑:覃怀银第 5 期苏天康:深度信号引导学习混合变换器的高性能无监督视频目标分割further perceive the refined target edge by introducing the inductive bias of local semantic information into supplementary learning of non-local semantic features.In this way,the tar
11、get region is more refined while improving the anti-interference capability of the model.In the end,the enhanced features as the transformer decoder input to produce the predicted segmentation mask.Extensive experiments on four standard challenging benchmarks demonstrate that the proposed method ach
12、ieves favorable performance against state-of-the-art methods.Key words:unsupervised video object segmentation mixed transformer;mixed attention;multimodality;depth estimation;robust featuresFoundation Item(s):National Key Research and Development Program of China(No.2018AAA0100400);National Natural
13、Science Foundation of China(No.62276141,No.U20B2065)1引言给定一组视频序列,视频目标分割(Video Object Segmentation,VOS)旨在从中定位并分割出特定的目标.VOS在计算机视觉中是一项极具挑战性的任务,拥有目标跟踪和自动驾驶等应用场景13现有的VOS技术大致可分为三类:半监督视频目标分割、无监督视频目标分割(Unsupervised VOS,UVOS)和参考视频目标分割.UVOS任务的主流方法包括双流网络48、基于记忆的卷积神经网络9,10和3D卷积神经网络11,12等.其中,双流网络方法利用光流捕获运动信息,并通过信
14、息交互模块融合外观与运动特征,以获得增强后的时空特征.基于记忆的UVOS方法利用过往所有的历史帧信息,将当前帧与历史帧在时空域上做匹配学习,从而关联当前帧和历史帧的特征.基于3D卷积神经网络的方法将连续视频帧沿着时间维度拼接,再输入3D卷积模块中提取时空特征.尽管上述UVOS方法取得了较好的性能,但是仍然存在一些不足之处:双流网络结构复杂且计算开销较大,容易对光流噪声信号过拟合;3D卷积网络计算量大,并且感受野受限,无法捕获特征之间的长程依赖关系;基于记忆的UVOS方法需要大量的内存开销来存储历史帧信息.基于上述分析,本文提出了基于深度信号引导学习混合变换器的UVOS网络.2预备知识为了解决模
15、型对光流噪声过拟合的问题,本文在网络中引入深度信号.直观上,深度信息提供了一帧中所有对象的空间位置信息,而不像光流会受物体静止或复杂运动的干扰.通过深度图,我们可以很容易地区分出不同空间位置的物体,从而精确分割出运动目标区域.此外,针对卷积神经网络中局部感受野受限和网络复杂、计算量大的问题,轻量化的视觉变换器(Vision Transformer,ViT)能够以较小的计算量和参数量来建模长程依赖关系,从而避免引入卷积神经网络的归纳偏置而获得全局感受野.最后,变换器本身具备良好的处理多模态信号的特性,特别适合建模视频帧、光流图、深度图等不同模态数据之间的相互依赖关系,从而高效挖掘出它们之间的共性
16、信息.3基于深度信号引导学习混合变换器3.1网络整体结构基于深度信号引导学习混合变换器网络主要包括Transformer编码器和Transformer解码器.在每个Transformer模块中包含层归一化、混合注意力模块、局部-非局部语义增强模块和多层感知机,具体网络结构如图1所示.给定 RGB 帧IrRHW3、光流图IfRHW3和深度图IdRHW3三种模态数据组成的三元组,其中下标r、f、d分别表示视频帧、光流和深度信息.然后,分别将其裁剪为N个固定尺寸的图像块,并将每个图像块展成一个C维向量xlj构成一个图符(token),其中l是r、f、d 中的一种模态.随后,通过可学习的投影矩阵WRC
17、D线性映射后加入位置编码PRND,生成待编码的特征FlRND:Fl=xTl1WxTl2W.xTlNW+Plrfd(1)接着,将模态l特征Fl输入编码器,并在各个阶段抽象产生它们的中间特征.编码器和解码器由多个本Transformer模块组成.其通过利用深度信号引导RGB帧与光流分支学习鲁棒的特征表示,有效解决了感受野受限和光流噪声导致的模型退化问题.随后,通过跳跃连接将逐级编码的特征输入解码器得到特征S.最后,特征S输入预测器并预测得到最后的分割掩膜MRHW:M=Conv(S)(2)其中,Conv表示11卷积.3.2混合注意力模块混合注意力模块是追求简洁、紧凑的端到端UVOS的核心设计.如图2
18、所示,首先使用线性映射层将Fl映射到对应的查询(query),键(key)和值(value):QlKlVl=FlWqlFlWklFlWvllrfd(3)1389电子学报2023 年其中,Ql,Kl,VlRND分别表示对应的查询、键和值.Wql,Wkl,WvlRDD.表示可学习的投影矩阵.然后,分别将Kr与Kf拼接,Vr与Vf拼接,得到RGB帧和光流分支融合的 key 和 value.分别表示为KvideoR2ND与VvideoR2ND:KvideoVvideo=Cat(KrKf)Cat(VrVf)(4)接着,分别对它们做如下注意力操作:ArAfAd=Softmax(QrKTvideoQfKTv
19、ideoQdKTdd)(5)其中,Ar,AfRN2N,AdRNN分别表示RGB特征、光流特征和深度特征的注意力权值,d表示key的维度.得到后的注意力权值与对应的value相乘得到增强后的特征:YrYfYd=ArVvideoAfVvideoAdVd(6)其中,Yr,Yf,YdRND分别表示RGB、光流和深度图增强后的特征.最后,将Yr,Yf,Yd拼接得到输出Y:Y=Cat(YrYfYd)(7)其中,YR3ND表示充分挖掘不同模态之间共性信息后的融合特征.图2展示了不同特征的热力图.从中可见,第一行的光流效果较好,外观特征融合光流特征可以有效关注目标区域,融合深度特征可以提供额外的目标定位信息.
20、第二行到第四行展示了当光流信息包含噪声时,导致模型对噪声信号过拟合.但是,当融合深度特征后,模型可以利用深度信号提供的空间位置信息,更加准确的关注运动目标.第五行展示了当目标静止时,光流线索产生负面影响,导致分割效果变差.但是,当引入深度特征时,模型易于区分出不同空间位置的物体,从而精确分割出主要目标.上述实验结果表明了本文提出的混合注意力模块能够充分交互学习RGB帧、光流和深度图之间的特征,从而充分挖掘它们之间的共性信息,增强了模型的抗干扰能力.传统变换器中采用的自注意力机制只能获取空间位置信息,而未能有效捕获通道方向的语义信息,导致其泛化能力受限,难以有效建模输入图符与图符之间潜在的依赖关
21、系.因此,本文设计了一个局部-非局部语义增强模块,将局部语义的归纳偏置引入补充学习非局部语义特征,在提升模型抗干扰力的同时获取更加精细的目标区域.3.3局部-非局部语义增强模块图 3 展示了局部-非局部语义增强模块的设计细节.其中,对于非局部语义增强模块,首先使用线性投影层将增强后的特征Y沿通道维投影到潜在空间QcR3ND,keyKcR3ND和valueVcR3ND:QcKcVc=YWqcYWkcYWvc(8)其中,Wqc,Wkc,WvcRDD表示query,key和value的投影矩阵.然后,对它们执行自注意力操作:图1基于深度信号引导学习混合变换器网络结构图2不同特征热力图1390第 5
22、期苏天康:深度信号引导学习混合变换器的高性能无监督视频目标分割Ac=Softmax(QcTVcd)(9)其中,AcRDD 表示全局语义注意力权重矩阵,d表示key的维度.最后,注意力权值与对应的value相乘得到增强后的非局部语义特征ONLR3ND:ONL=(AcVcT)T(10)对于局部语义模块,首先将输入特征Y合并:Y1=Merge(Y)(11)其中,Y1RTH1W1D表示合并后的特征,Merge()表示合并的操作.合并后的特征经过全局平均池化层聚合空间特征:Y2=GAP(Y1)(12)其中,Y2R111D表示聚合空间特征,GAP()表示全局平均池化操作.接着,将空间聚合特征经过分组卷积层
23、学习特征,有效缓解了全卷积复杂计算量的问题.增强后的特征经过Sigmoid激活函数层得到通道维度的局部注意力权值:Y3=Sigmoid(GroupConv(Y2)(13)其中,Y3R111D表示局部语义注意力权重向量,GroupConv表示分组卷积操作,Sigmoid表示激活函数层.最后,将得到的局部语义注意力权值与特征Y1对应元素相乘:OL=Y3Y1(14)其中,OLRTH1W1D表示增强局部语义信息的特征,表示对应元素相乘.增强语义信息后的特征分块展开转换为原始特征维度:OL=Split(OL)(15)其中,OLR3ND表示原始维度的增强语义信息后的特征,Split表示分块展开操作.增强后
24、的非局部语义特征ONL和局部语义特征OL对应元素相加得到最终的特征OR3ND:O=ONLOL(16)其中,表示对应元素相加.3.4损失函数本文使用交叉熵损失函数LCE和 IoU 损失函数LIoU,旨在对目标进行像素级分类.总的损失函数L定义如下:L=LCE+LIoU(17)其 中,LCE=-ijG(ij)logM(ij),LIoU=1-|MG|MG|,GRHW表示真实标签,MRHW表示预测掩模.4实验结果与分析4.1实验设置本文以端到端的方式训练模型.模型的输入是RGB帧、光流和深度图.其中,深度图和光流分别使用MiDaS(Mixing DataSets)13和 RAFT(Recurrent
25、All-pairs Field Transforms)14算 法 生 成.训 练 的 数 据 集 由DAVIS1615、FBMS16和 YouTube-VOS17组成.本文先在YouTube-VOS、DAVIS16和FBMS数据集训练15个周期,再在DAVIS16和FBMS数据集上微调25个周期.此外,本文采用了随机旋转、随机裁剪和随机水平翻转的数据增强策略,并将图片统一缩放到的尺寸.整个网络使用AdamW优化器,并初始化学习率为1e4,批量大小设置为4.使用前2个周期预热,剩余周期余弦衰减的优化策略.实验平台使用一块 64 GB 内存、12 核、2.50 GHz 的 AMD-Ryzen395
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 信号 引导 学习 混合 变换器 性能 监督 视频 目标 分割 苏天康
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。