融合注意力的拉普拉斯金字塔单目深度估计.pdf
《融合注意力的拉普拉斯金字塔单目深度估计.pdf》由会员分享,可在线阅读,更多相关《融合注意力的拉普拉斯金字塔单目深度估计.pdf(11页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 图 学 学 报 August2023第 44 卷 第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期:2022-11-22;定稿日期:2023-03-27 Received:22 November,2022;Finalized:27 March,2023 基金项目:国家自然科学基金项目(61863037);云南省“万人计划”青年拔尖人才专项 Foundation items:National Natural Science Foundation of China(61863037);Ten Thousand Talent Plans for Y
2、oung Top-Notch Talents of Yunnan Province 第一作者:余伟群(1998),男,硕士研究生。研究方向为计算机视觉、图像处理。E-mail: First author:YU Wei-qun(1998),master student.His main research interests cover computer vision,image processing.E-mail: 通信作者:张亚萍(1979),女,教授,博士。主要研究方向为计算机视觉、计算机图形学。E-mail: Corresponding author:ZHANG Ya-ping(1979)
3、,professor,Ph.D.Her main research interests cover computer vision,computer graphic.E-mail: 融合注意力的拉普拉斯金字塔单目深度估计 余伟群,刘佳涛,张亚萍(云南师范大学信息学院,云南 昆明 650500)摘要:随着深度神经网络的迅速发展,基于深度学习的单目深度估计研究集中于通过编码器-解码器结构回归深度,并取得了重大成果。针对在大多数传统方法中,解码过程通常重复简单的上采样操作,存在无法充分利用编码器的特性进行单目深度估计的问题,提出一种结合注意力机制的致密特征解码结构,以单张 RGB图像作为输入,将编码
4、器各层级的特征图融合到拉普拉斯金字塔分支中,加强特征融合的深度和广度;在解码器中引入注意力机制,进一步提高了深度估计精度;结合数据损失和结构相似性损失,提高模型训练的稳定性及收敛速度,降低模型的训练代价。实验结果表明,在 KITTI 数据集上与现有的模型相比,均方根误差相较于先进的算法 LapDepth 降低了 4.8%,训练代价降低了 36%,深度估计精度和收敛速度均有较显著地提升。关键词:深度学习;单目深度估计;注意力机制;拉普拉斯金字塔;拉普拉斯残差 中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2023040728 文献标识码:A 文 章 编 号:2
5、095-302X(2023)04-0728-11 Monocular depth estimation based on Laplacian pyramid with attention fusion YU Wei-qun,LIU Jia-tao,ZHANG Ya-ping(School of Information Science and Technology,Yunnan Normal University,Kunming Yunnan 650500,China)Abstract:With the rapid development of deep neural networks,rese
6、arch on deep learning-based monocular depth estimation has centered on regressing depth through encoder-decoder structures and has yielded significant results.However,most traditional methods typically entail the repetition of simple upsampling operations during the decoding process,which fail to ta
7、ke full advantage of the characteristics of the encoder for monocular depth estimation.To address this problem,this study proposed a dense feature decoding structure combined with an attention mechanism.Utilizing a single RGB image as input,the feature map of each level of the encoder was fused into
8、 the branch of the Laplace pyramid to heighten the utilization of the feature map at each level.Attention mechanisms were introduced into the decoder to further enhance depth estimation.Finally,data loss and structural similarity loss were combined to reinforce the stability and convergence speed of
9、 model training and diminish the training cost of the model.The experimental results demonstrated that compared with the existing model on the KITTI dataset,the root mean square error decreased by 4.8%and the training cost was reduced by 36%relative to the advanced algorithm LapDepth,with a more sig
10、nificant improvement in depth estimation accuracy and convergence speed.第 4 期 余伟群,等:融合注意力的拉普拉斯金字塔单目深度估计 729 1 Keywords:deep learning;monocular depth estimation;attention mechanism;Laplacian pyramid;Laplacian residuals 基于图像的深度估计是机器人技术和自动驾驶等领域的关键挑战之一。近年来,随着大规模数据集的出现和硬件算力的迅速提升,使得深度学习进行单目深度估计成为研究热点。基于深度
11、学习的单目深度估计可以分为有监督和自监督。有监督单目深度估计需要真实深度数据作为监督信号,而自监督则没有真实深度数据可用,通常以连续帧之间的约束来指导深度模型的训练。在自监督训练中,GODARD 等1利用对极几何约束,通过使用图像重建损失训练网络生成视差图像,从而避免了场景真实深度标注数据难以获取的问题。蒲正东等2通过非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰,在TensorFlow的框架下获得不错的效果。赵霖等3设计了一种局部注意力机制来融合高分辨率特征图的局部特征,以提升深度估计的准确性,同时提出一种迭代调优的位姿估计结构,利用残差优化的方
12、式降低位姿估计难度,提升位姿估计的准确性进而提升深度估计网络的性能。但自监督学习方法存在缺乏大规模和多样化数据集的问题,在深度估计时其精确度始终有限,所以对于需要高精深度信息的应用场景,使用较多且更可靠的是有监督学习方法。在有监督学习方法中,各种基于编码器-解码器结构的深度估计方法取得了不错的效果。SONG 等4认为大多数解码过程重复简单的上采样操作,无法充分利用编码良好的底层特征进行单目深度估计,所以在解码器中加入拉普拉斯算子,使得在上采样过程中减少细粒度信息的丢失。FU 等5针对一些方法忽略了深度间固有的有序关系的问题,将回归问题转为分类问题,在模型中引入排序机制来帮助更准确地估计图像的深
13、度信息,并利用序数回归估计深度边界,其特征由空洞卷积池化金字塔(atrous spatiol pyramid pooling,ASPP)密 集 提 取6。张 涛 等7采 用Transformer8网络对解码器的输出特征进行全局分析,Transformer 网络中的多头注意力机制从解码器输出的深层特征中估计深度信息,提高深度估计网络对多尺度特征的提取能力进而提高深度图的精准度。虽然有监督单目深度估计的可靠性更高,但通常需要大量的真实深度标注数据,而数据标注是一项开销巨大的工程。Google Mind 团队将注意力机制应用于图像分类的循环神经网络(recurrent neural network,
14、RNN)模型中,指出注意力机制增强了主任务的性能并提高了神经网络的可解释性,因此注意力机制被广泛应用在基于 RNN 和卷积神经网络(convocational neural network,CNN)等神经网络模型中。WOO等9通过直接建立输入与输出之间的依赖关系,提出一种结合通道和空间的轻量型注意力机制的卷积注意力模块(convolutional block attention module,CBAN),使得并行化程度增强,同时提高运行速度。HOU 等10通过将位置信息嵌入到通道注意力中提出了一种新颖的移动网络注意力机制的协调注意力(coordinate attention,CA)。ZHANG
15、 和YANG 等11在空间注意力与通道注意力的基础上,引入特征分组与通道置换模块,提出一种超轻量型的注意力机制的置换注意力(shuffle attention,SA)。近年来,随着 Transformer 结构在各个领域的广泛应用,自注意力被引入到深度估计任务中并取得了良好的效果。自注意力机制不采用 RNN和长短期记忆网络的顺序结构,使得模型可以并行化训练,且拥有全局信息,但模型具有较高的复杂度,且需要海量的数据进行训练。通常,神经网络模型随着网络层数的叠加性能会有所提升,但是模型的训练代价也会越来越高,同时图像的卷积操作和下采样过程也会造成细节信息丢失。文献4提出的 Lapdepth作为目前
16、已知效果最好的室外深度估计模型之一,其通过在解码器中加入拉普拉斯算子以尽量减少细粒度信息的丢失。但该方法并未控制不同尺度以及不同层级特征对最终结果的贡献,这必然会引入冗余特征降低模型的性能。为了解决这些问题,本文提出了一种融合注意力机制的拉普拉斯金字塔单目深度估计网络,该网络继承了拉普拉斯金字塔的优点,对编码器各层级的特征图上采样,在控制模型复杂度的前提下融合注意力机制,获取的特征图作为解码器上采样时细节损失的补偿;在网络中加入包含空间注意力和通道注意力的混合注意力机制,达到了最先进的性能表现。通过组合数据损失和结构相似性损失,提高模型训练的稳定性及收敛速度,同时降低训练代价。730 图像处理
17、与计算机视觉 2023 年 1 网络架构 本文针对卷积操作和下采样过程会造成细节信息丢失的问题,在 Lapdepth 的基础上做出改进和优化。以单张RGB 图像作为输入,采用ResNext10112作为编码器提取特征,通过 ResNext101 深度叠加的卷积块对图像特征进行高度压缩,获得的特征空间是原空间的 1/16,其中蕴含了丰富的深度信息;在使用密集ASPP获取上下文信息时,网络融合了注意力机制用以弥补细粒度信息的丢失。解码器由多个拉普拉斯金字塔分支组成,如图1所示。Layer4为拉普拉斯金字塔最高层,其任务是恢复深度图的全局布局,其他分支通过编码特征结合拉普拉斯残差(L1到 L4)生成
18、深度残差(R1到 R4),其中拉普拉斯残差的结构如图2所示。为了加强对物体边缘信息的捕捉,在生成深度残差的过程中引入注意力机制。图 1 总体网络架构 Fig.1 Overall network architecture 图 2 拉普拉斯残差 Lk Fig.2 Laplace residual Lk 由图 1 所示,本文结构类似特征金字塔网络(feature pyramid network,FPN)与像素聚合网络(path aggregation network,PAN)结合的致密特征解码结构,学习 DenseNet13的致密特征提取方式,让编码器各层级特征图参与到解码器深度残差的生成,其结构如
19、图 3 所示。1.1 编码器 ResNext101 在 ImageNet14分类任务上优于ResNet101/152,ResNet20015,Inception-v3 和Inception-ResNet-v216,且较 Inception 模型在结构 图 3 致密特征解码结构 Fig.3 Dense feature decoding structure 上更为简单。此外,ResNext101 在分类任务上能够实现比ResNet200更高的精度,且参数量仅为其50%。因此,本文选择 ResNext101 作为深度估计网络的编码器。1.2 解码器 在解码过程中,不同的尺度及通道特征对最终结果的贡献
20、不同,本文通过引入注意力机制以引导模型选择,从而更好地恢复深度图的局部细节以及全局特征。具体地说,在深度恢复的过程中加入SA 和 CA,利用各尺度的编码特征引导深度估计,适当地强调各尺度编码特征的深度特性,并且保留更多的局部信息。1.2.1 注意力机制 在计算机视觉研究中有 2 种广泛使用的注意力机制:空间注意力和通道注意力,其分别用于捕获像素级成对关系和通道依赖性,将其融合在一起 第 4 期 余伟群,等:融合注意力的拉普拉斯金字塔单目深度估计 731 通常会获得更好的性能。本文增加了 SA 模块,相比其他混合注意力,SA 不仅有效控制了计算量,还提升了网络精度,其结构如图 4 所示。该模块采
21、用 Shuffle 单元有效地结合了 2 种类型的注意力机制。具体而言,SA 首先将特征分组为多个子特征,然后对每一个子特征按通道划分为2 个部分 Xk1和 Xk2,Xk1构建通道注意力,Xk2构建空间注意力。图 4 SA 结构图11 Fig.4 SA structure diagram11 通道注意力部分,如图 4 所示,首先使用全局平均池化获得全局信息,生成在通道维度上的全局信息统计,即 11111(,)(),HWkijgpkFxijWxijH(1)然后使用 Sigmoid 激活函数,得到各个通道对应的权重,通道注意力的最终输出为 11121(,)kgpkkXW Fxi jbX (2)空间
22、注意力部分,首先对 Xk2使用群组归一化(group normalization,GN)操作获取空间特征,然后使用 Sigmoid 激活函数,得到单个通道上逐个像素的权重,即 21222()kkkXWGN XbX (3)将空间和通道2个分支的输出在通道维度上连接之后,网络采用“Channel shuffle”实现子特征之间的信息通信,增强网络对全局信息的捕获能力。网络解码器生成深度残差时引入了CA模块,相对于兼顾通道与空间信息的SA,CA是一种更加注重空间信息的注意力机制,其在确保沿一个空间方向捕获远程依赖关系的同时,沿另一空间方向保留精确的位置信息,其结构如图5所示。全局平均池化通常用于通道
23、注意力的全局编码,但其将全局空间信息压缩到通道描述中,难以保存位置信息。CA能够获取图像宽度和高度上的注意力并对精确的位置信息进行编码,具体而言,CA将输入的特征图在宽度和高度2个方向上 图 5 CA 结构图10 Fig.5 CA structure diagram10 分别进行全局平均池化,以获得2个方向上的特征图,即 01()(,)hcci WZhx h iW(4)01()(,)wccj HZwxj wH(5)沿2个空间方向聚合特征,可以得到一对方向感知的特征图。这2种类型的特征图能够在捕捉某一空间方向的长期依赖关系的同时保留另一空间方向的精确位置信息,从而帮助网络更准确地定位局部特征,提
24、高解码器对细节特征的恢复。1.2.2 残差结构 本文引入了3种残差:拉普拉斯残差Lk、对编 732 图像处理与计算机视觉 2023 年 码器输出的特征上采样并融合的残差Xk以及深度残差Rk。Lk的作用在于引导编码特征生成深度残差,其结构如图2所示。图中Ik为输入图像下采样的结果,UP()为上采样操作。拉普拉斯残差Lk是指当前尺度下的特征图Ik与更小尺度下的特征图Ik+1上采样后的差值,并以此引导特征图恢复局部细节。Xk的作用在于强调全局细节,使得编码特征参与深度恢复时能保留更多的全局信息,即 1(,(),1,2,3kkkXconv layer UP CA layerk(6)其中,layerk为
25、编码器第k层输出的特征;CA()为CA模块。对于第k层金字塔的深度残差Rk,其计算过程如下:首先,将特征Yk,Lk与Rk+1上采样后的Rk+1进行融合,并送入堆叠的卷积块中,最后与相应的拉普拉斯残差Lk再次融合,即 1,1,2,3,4kkkkkkRBY LRLk(7)(),(),2,3,4,5kkkRconv UP RUP CA Rk (8)112112111,1,2,3,4kkkkkkkkkkconv UP YLRkYconvUP YLRXkconvUP YXk(9)其中,为拼接融合操作;Bk由堆叠卷积块组成,生成与Lk具有相同分辨率的单通道输出。值得注意的是,Lk引导解码过程精确恢复各种尺
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 注意力 拉普拉斯 金字塔 深度 估计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。