联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf
《联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf》由会员分享,可在线阅读,更多相关《联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年 6 月 10 日第 7 卷 第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1111112023.062023.06收稿日期:2023-01-04基金项目:唐山市市级科技计划项目(22130205H)联合引导式深度图像超分辨的单目深度估计方法刘鹏,王建龙,窦新宇(唐山学院 智能与信息工程学院,河北 唐山 063000)摘 要:针对基于编解码结构的单目深度估计网络模型,对细粒度深度信息估计精度差和算力需求大的问题,提出了一种联合引导式深度图像超分辨率的单目深度估计方法。该方法设计了一种基于选择性特征融合的引导式深
2、度图像超分辨率网络模型,并将其与单目深度估计网络模型结合在一个监督学习框架下估计深度。在 NYU-Depth-V2 数据集上,以三种单目深度估计网络模型开展实验,结果证明该方法具有更好的深度边界预测效果和较低的算力消耗指标。关键词:单目深度估计;深度图像超分辨;特征融合;编解码结构中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2023)11-0011-04Monocular Depth Estimation Method Combining Guided Depth Image Super-ResolutionLIU Peng,WANG Jianlong,DOU X
3、inyu(Intelligence and Information Engineering College,Tangshan University,Tangshan 063000,China)Abstract:Aiming at the problem of poor fine-grained depth information estimation precision and high demand for computational power in monocular depth estimation network models based on encoder-decoder str
4、ucture,a monocular depth estimation method combining guided depth image super-resolution is proposed.This method designs a guided depth image super-resolution network model based on selective feature fusion,and combines it with monocular depth estimation network model to estimate depth under a super
5、vised learning framework.This paper performs experiments with three monocular depth estimation network models on NYU-Depth-V2 dataset,and the results prove that the method has a better depth boundary prediction effect and lower computational power consumption index.Keywords:monocular depth estimatio
6、n;depth image super-resolution;feature fusion;encoder-decoder structure0 引 言深度图像每个像素点记录着摄像机与场景中物体之间的距离信息,能够准确反映出场景三维空间结构信息,在自动驾驶、场景理解、三维重建等领域有着广泛的应用。从单幅RGB 图像中恢复深度图像的单目深度估计方法,是移动设备感知环境的主要手段之一,但单目深度估计病态性的本质1,使其一直是计算机视觉领域的难点课题。目前效果较好的单目深度估计均采用的是基于深度学习的方法2,3,从大量单幅 RGB 图像到对应视角的深度图像的映射过程中提取深度线索,完成深度图像的单目
7、估计。其中,基于编解码结构的卷积神经网络(Convolutional Neural Network,CNN)是主流的设计模型。这类模型的设计思路是:编码器基于图像分类网络,通过在大型图像分类库(如ImageNet4)上的预训练完成参数的初始化,在对输入图像进行渐进下采样过程中,逐步增加感受野,将 RGB 图像低级特征分组为抽象的高级特征;解码器聚合来自编码器的特征,并将其转换为最终的深度估计。这类模型主要存在以下不足:1)编码器的下采样操作,会带来特征分辨率和粒度在模型的较深阶段丢失。尽管各种深度学习方法(如跳跃连接5、多尺度特征提取6,7、注意机制8-10等)被融入到了DOI:10.1985
8、0/ki.2096-4706.2023.11.003解码器的设计过程中,提高了特征的聚合质量,但对深度图像边界轮廓等细粒度信息的预测仍不够清晰。2)以更高分辨率的输入数据集进行训练和测试,可以减轻特征粒度损失11,12,但更高分辨率的模型有着更高的硬件算力需求,这大大限制了此类模型的应用场合。与深度估计类似,引导式深度图像超分辨也是针对深度图像的重要计算机视觉任务,受到了广泛的研究。引导式深度图像超分辨是提高深度图像分辨率的重要途径,通过将RGB 图像的特征信息有效融入深度图像的超分辨过程,来引导深度图像细粒度特征的修复。目前,基于深度学习的引导式深度图像超分辨方法13,14,能较好地实现深度
9、图像的高分辨率恢复。针对基于编解码结构的单目深度估计网络模型存在的不足之处,本文结合引导式深度图像超分辨的技术特性,提出一种联合引导式深度图像超分辨的单目深度估计方法,对现有单目深度估计网络模型进行改进。具体做法是:使现有单目深度估计网络模型负责估计包含场景深度一致性结构信息的低分辨率深度图像;设计一种基于选择性特征融合(Selective Feature Fusion)的引导式深度图像超分辨网络模型 SFFNet,负责从 RGB 图像中提取有效的高频细节信息,以弥补深度图像上采样过程中的细粒度结构损失;两个网络模型组合在一个监督学习框架内,完成深度图像的单目估计任务,从而使单目深度估计具有细
10、粒度估计效果的同时,也具有较少的算力需求。12122023.062023.06第 11期现代信息科技1 相关工作在单目深度估计研究领域,相比较传统的环境假设法和机器学习法,深度学习方法因其强大的特征学习和映射能力,使得单目深度估计性能得到了大范围的提升。Eigen 等15首次将 CNN 引入到深度图像的单目估计任务中,该方法首先用CNN对场景全局深度信息进行粗估计,再对深度图像局部信息进行精估计。随后,编解码结构的CNN 模型成为主流的设计模型,例如,Zheng 等6通过自定义的特征多尺度上卷积操作,将编码器不同分辨率的层次化特征进行有效整合,实现了编码器特征从粗到精处理的映射;Chen 等7
11、用一种自适应密集特征聚合模块融合多尺度特征,实现了场景深度图像结构信息的有效推断;Liu 等8使用跳跃连接将卷积神经网络不同阶段的相同分辨率特征进行有效融合,提高了深度图像边缘细节的估计精度;Huynh等9引入非局部共平面性约束和非局部注意机制来提高深度图像中平面结构区域的估计效果;Lee 等10在解码器的每个阶段特征的处理中,设计了一种局部平面约束的操作,提高了深度图像的整体估计效果。为了处理编码器下采样操作时,深度特征分辨率和粒度丢失的问题,Miangoleh11等设计了一种将多个分辨率深度预测结果进行融合的机制。最近,各类视觉转换器(Transformer)模型16,17也被应用在单目深
12、度估计任务中,通过RGB图像分块的方式,维持在较高分辨率下提取特征,进一步提高了深度估计效果。以更高分辨率的输入数据集进行训练和测试,可以减轻特征粒度损失,但如何合理设计网络模型,同时保证计算效率和预测精度,目前仍需进一步的研究。2 方法设计2.1 网络结构本文方法的网络结构如图 1 所示,包括单目深度估计和SFFNet 两个子网络。对分辨率为 WH 的 RGB 图像,单目深度估计子网络采用典型的单目深度估计模型结构,以降采样后的 RGB 图像为输入,完成 W/4H/4 分辨率深度图像的估计,此深度图像为最终输出的 WH 分辨率深度图像提供全局一致性结构信息。设计的 SFFNet 以单目深度估
13、计子网络估计出的深度图像和原始分辨率的 RGB 图像为输入,完成上采样率为 4 的深度图像重建。两个子网络相互配合,在一个监督学习框架内完成深度图像的单目估计任务。2.2 SFFNet 子网络模型本文设计的 SFFNet 采用了渐进式特征聚合的设计模式,结构如图 1 所示。首先,对深度图像和 RGB 图像进行浅层特征提取,这里采用了两个 33 卷积+ReLU 激活函数和一个11 卷积+ReLU 激活函数串联组合实现。然后,通过跨步卷积+ReLU 激活函数对 RGB 图像的浅层特征进行逐步下采样操作。接着,在深度图像逐步上采样操作过程中,先通过一个选择性特征融合模块实现相同分辨率 RGB 图像特
14、征和深度图像特征的融合,然后通过卷积+像素重组(Pixel Shuffle,PS)实现深度图像的上采样。最后,在到达目标分辨率后,通过 33 卷积实现对深度图像插值上采样残差的预测。选择性特征融合模块结构如图 2 所示,模块设计目的是通过特征空间域二维注意力图的获取,自适应地完成 RGB图像特征和深度图像特征的融合,达到细化特征处理以捕获细粒度信息的目的。这里,将包含场景结构上下文线索的深度图像特征,称为全局特征 Fglobal;将可弥补深度图像上采样过程中边界轮廓结构损失的 RGB 图像特征,称为局部特征 Flocal。对这些全局和局部特征,首先,通过 11 卷积操作将特征沿着信道维度合并起
15、来。然后,通过两个 33 卷积+批量归一化(Batch Normalization,BN)+ReLU 激活函数的操作,进行合并特征的融合和约减。接着,通过 33卷积和 Sigmoid 函数产生两个空间域二维注意力图,并将这两个注意力图与对应的局部和全局特征相乘,以达到对特征的细化处理。最后,将这些细化后的特征按元素相加以构建最后的融合特征。Conv 33 Conv 1 1 合并求积Conv 33 求和BNReLUSigmoidBNReLUglobalFlocalFCC图 2 选择性特征融合模块的结构图求和插值上采样单目深度估计子网络RGB图像HWH/4W/4深度图像HW插值下采样Conv 33
16、Conv 11SFFSFFSFFConv 33SFFNet子网络ReLUConv 33ReLUReLUStr Conv ReLUStr Conv ReLUConv 33ReLUConv 33ReLUConv 11ReLUConv 33PSConv 33PS图 1 网络模型结构图13132023.062023.06第 11期2.3 损失函数本文网络模型训练时,总损失函数为单目深度估计训练损失 LMDE和 SFFNet 训练损失 LSFFNet的和,即 L=LMDE+LSFFNet。其中,LMDE表示对应方法中典型单目深度估计子网络选择的损失函数,LSFFNet本文使用Charbonnier损失函
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联合 引导 深度 图像 分辨 估计 方法 刘鹏
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。