联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf

上传人：自信****多点

文档编号：287550

上传时间：2023-07-04

格式：PDF

页数：4

大小：1.51MB

《联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf》由会员分享，可在线阅读，更多相关《联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf（4页珍藏版）》请在咨信网上搜索。

1、2023 年 6 月 10 日第 7 卷第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1111112023.062023.06收稿日期：2023-01-04基金项目：唐山市市级科技计划项目（22130205H）联合引导式深度图像超分辨的单目深度估计方法刘鹏，王建龙，窦新宇（唐山学院智能与信息工程学院，河北唐山 063000）摘要：针对基于编解码结构的单目深度估计网络模型，对细粒度深度信息估计精度差和算力需求大的问题，提出了一种联合引导式深度图像超分辨率的单目深度估计方法。该方法设计了一种基于选择性特征融合的引导式深

2、度图像超分辨率网络模型，并将其与单目深度估计网络模型结合在一个监督学习框架下估计深度。在 NYU-Depth-V2 数据集上，以三种单目深度估计网络模型开展实验，结果证明该方法具有更好的深度边界预测效果和较低的算力消耗指标。关键词：单目深度估计；深度图像超分辨；特征融合；编解码结构中图分类号：TP391.4 文献标识码：A 文章编号：2096-4706（2023）11-0011-04Monocular Depth Estimation Method Combining Guided Depth Image Super-ResolutionLIU Peng,WANG Jianlong,DOU X

3、inyu(Intelligence and Information Engineering College,Tangshan University,Tangshan 063000,China)Abstract:Aiming at the problem of poor fine-grained depth information estimation precision and high demand for computational power in monocular depth estimation network models based on encoder-decoder str

4、ucture,a monocular depth estimation method combining guided depth image super-resolution is proposed.This method designs a guided depth image super-resolution network model based on selective feature fusion,and combines it with monocular depth estimation network model to estimate depth under a super

5、vised learning framework.This paper performs experiments with three monocular depth estimation network models on NYU-Depth-V2 dataset,and the results prove that the method has a better depth boundary prediction effect and lower computational power consumption index.Keywords:monocular depth estimatio

6、n;depth image super-resolution;feature fusion;encoder-decoder structure0 引言深度图像每个像素点记录着摄像机与场景中物体之间的距离信息，能够准确反映出场景三维空间结构信息，在自动驾驶、场景理解、三维重建等领域有着广泛的应用。从单幅RGB 图像中恢复深度图像的单目深度估计方法，是移动设备感知环境的主要手段之一，但单目深度估计病态性的本质1，使其一直是计算机视觉领域的难点课题。目前效果较好的单目深度估计均采用的是基于深度学习的方法2，3，从大量单幅 RGB 图像到对应视角的深度图像的映射过程中提取深度线索，完成深度图像的单目

7、估计。其中，基于编解码结构的卷积神经网络（Convolutional Neural Network,CNN）是主流的设计模型。这类模型的设计思路是：编码器基于图像分类网络，通过在大型图像分类库（如ImageNet4）上的预训练完成参数的初始化，在对输入图像进行渐进下采样过程中，逐步增加感受野，将 RGB 图像低级特征分组为抽象的高级特征；解码器聚合来自编码器的特征，并将其转换为最终的深度估计。这类模型主要存在以下不足：1）编码器的下采样操作，会带来特征分辨率和粒度在模型的较深阶段丢失。尽管各种深度学习方法（如跳跃连接5、多尺度特征提取6，7、注意机制8-10等）被融入到了DOI:10.1985

8、0/ki.2096-4706.2023.11.003解码器的设计过程中，提高了特征的聚合质量，但对深度图像边界轮廓等细粒度信息的预测仍不够清晰。2）以更高分辨率的输入数据集进行训练和测试，可以减轻特征粒度损失11，12，但更高分辨率的模型有着更高的硬件算力需求，这大大限制了此类模型的应用场合。与深度估计类似，引导式深度图像超分辨也是针对深度图像的重要计算机视觉任务，受到了广泛的研究。引导式深度图像超分辨是提高深度图像分辨率的重要途径，通过将RGB 图像的特征信息有效融入深度图像的超分辨过程，来引导深度图像细粒度特征的修复。目前，基于深度学习的引导式深度图像超分辨方法13，14，能较好地实现深度

9、图像的高分辨率恢复。针对基于编解码结构的单目深度估计网络模型存在的不足之处，本文结合引导式深度图像超分辨的技术特性，提出一种联合引导式深度图像超分辨的单目深度估计方法，对现有单目深度估计网络模型进行改进。具体做法是：使现有单目深度估计网络模型负责估计包含场景深度一致性结构信息的低分辨率深度图像；设计一种基于选择性特征融合（Selective Feature Fusion）的引导式深度图像超分辨网络模型 SFFNet，负责从 RGB 图像中提取有效的高频细节信息，以弥补深度图像上采样过程中的细粒度结构损失；两个网络模型组合在一个监督学习框架内，完成深度图像的单目估计任务，从而使单目深度估计具有细

10、粒度估计效果的同时，也具有较少的算力需求。12122023.062023.06第 11期现代信息科技1 相关工作在单目深度估计研究领域，相比较传统的环境假设法和机器学习法，深度学习方法因其强大的特征学习和映射能力，使得单目深度估计性能得到了大范围的提升。Eigen 等15首次将 CNN 引入到深度图像的单目估计任务中，该方法首先用CNN对场景全局深度信息进行粗估计，再对深度图像局部信息进行精估计。随后，编解码结构的CNN 模型成为主流的设计模型，例如，Zheng 等6通过自定义的特征多尺度上卷积操作，将编码器不同分辨率的层次化特征进行有效整合，实现了编码器特征从粗到精处理的映射；Chen 等7

11、用一种自适应密集特征聚合模块融合多尺度特征，实现了场景深度图像结构信息的有效推断；Liu 等8使用跳跃连接将卷积神经网络不同阶段的相同分辨率特征进行有效融合，提高了深度图像边缘细节的估计精度；Huynh等9引入非局部共平面性约束和非局部注意机制来提高深度图像中平面结构区域的估计效果；Lee 等10在解码器的每个阶段特征的处理中，设计了一种局部平面约束的操作，提高了深度图像的整体估计效果。为了处理编码器下采样操作时，深度特征分辨率和粒度丢失的问题，Miangoleh11等设计了一种将多个分辨率深度预测结果进行融合的机制。最近，各类视觉转换器（Transformer）模型16，17也被应用在单目深

12、度估计任务中，通过RGB图像分块的方式，维持在较高分辨率下提取特征，进一步提高了深度估计效果。以更高分辨率的输入数据集进行训练和测试，可以减轻特征粒度损失，但如何合理设计网络模型，同时保证计算效率和预测精度，目前仍需进一步的研究。2 方法设计2.1 网络结构本文方法的网络结构如图 1 所示，包括单目深度估计和SFFNet 两个子网络。对分辨率为 WH 的 RGB 图像，单目深度估计子网络采用典型的单目深度估计模型结构，以降采样后的 RGB 图像为输入，完成 W/4H/4 分辨率深度图像的估计，此深度图像为最终输出的 WH 分辨率深度图像提供全局一致性结构信息。设计的 SFFNet 以单目深度估

13、计子网络估计出的深度图像和原始分辨率的 RGB 图像为输入，完成上采样率为 4 的深度图像重建。两个子网络相互配合，在一个监督学习框架内完成深度图像的单目估计任务。2.2 SFFNet 子网络模型本文设计的 SFFNet 采用了渐进式特征聚合的设计模式，结构如图 1 所示。首先，对深度图像和 RGB 图像进行浅层特征提取，这里采用了两个 33 卷积+ReLU 激活函数和一个11 卷积+ReLU 激活函数串联组合实现。然后，通过跨步卷积+ReLU 激活函数对 RGB 图像的浅层特征进行逐步下采样操作。接着，在深度图像逐步上采样操作过程中，先通过一个选择性特征融合模块实现相同分辨率 RGB 图像特

14、征和深度图像特征的融合，然后通过卷积+像素重组（Pixel Shuffle，PS）实现深度图像的上采样。最后，在到达目标分辨率后，通过 33 卷积实现对深度图像插值上采样残差的预测。选择性特征融合模块结构如图 2 所示，模块设计目的是通过特征空间域二维注意力图的获取，自适应地完成 RGB图像特征和深度图像特征的融合，达到细化特征处理以捕获细粒度信息的目的。这里，将包含场景结构上下文线索的深度图像特征，称为全局特征 Fglobal；将可弥补深度图像上采样过程中边界轮廓结构损失的 RGB 图像特征，称为局部特征 Flocal。对这些全局和局部特征，首先，通过 11 卷积操作将特征沿着信道维度合并起

15、来。然后，通过两个 33 卷积+批量归一化（Batch Normalization,BN）+ReLU 激活函数的操作，进行合并特征的融合和约减。接着，通过 33卷积和 Sigmoid 函数产生两个空间域二维注意力图，并将这两个注意力图与对应的局部和全局特征相乘，以达到对特征的细化处理。最后，将这些细化后的特征按元素相加以构建最后的融合特征。Conv 33 Conv 1 1 合并求积Conv 33 求和BNReLUSigmoidBNReLUglobalFlocalFCC图 2 选择性特征融合模块的结构图求和插值上采样单目深度估计子网络RGB图像HWH/4W/4深度图像HW插值下采样Conv 33

16、Conv 11SFFSFFSFFConv 33SFFNet子网络ReLUConv 33ReLUReLUStr Conv ReLUStr Conv ReLUConv 33ReLUConv 33ReLUConv 11ReLUConv 33PSConv 33PS图 1 网络模型结构图13132023.062023.06第 11期2.3 损失函数本文网络模型训练时，总损失函数为单目深度估计训练损失 LMDE和 SFFNet 训练损失 LSFFNet的和，即 L=LMDE+LSFFNet。其中，LMDE表示对应方法中典型单目深度估计子网络选择的损失函数，LSFFNet本文使用Charbonnier损失函

17、数18，计算方法如下：（1）式中，y*表示真实深度值，y 表示重建深度值，n 表示每个训练批次的总像素个数，表示值为 110-3的常数。3 实验过程与结果分析3.1 数据集实验选择 NYU-Depth-V2 数据集19，进行模型的训练和测试。按照单目深度估计通用的分类方式，使用 249 个场景，约 5 万组 RGB-D 图像对用于网络的训练；使用 215 个场景，约 654 组 RGB-D 图像对用于网络的测试。训练集和测试集均居中剪切为 608456，以去除图像边缘区域相对准确率不高的深度值。3.2 实施细节网络的实现采用 PyTorch 深度学习框架。硬件平台使用四个 NVIDIA RTX

18、 2080 Ti 显卡，实现高性能的 GPU 并行运算。Adam 梯度优化算法作为网络的优化器，基本学习率设置为 0.000 1，并且每 5 个周期降低 10%，参数 1=0.9，2=0.999，使用 0.000 1 的衰减率。网络训练参数 Batch 的大小为 16。各种对比网络的训练次数均设置为 30 个 Epoch。3.3 评估指标选用单目深度估计任务常用的误差和精度评价指标，对模型进行定量对比分析。评价指标和对应计算公式为：1）均方根误差（RMSE）：2）绝对相对差（Abs Rel）：3）均方对数误差（Log10）：4）相对误差在 1.25k以内的像素比例，其中 3.4 实验结果为了验

19、证本文方法的通用性，选择 SARPN、JADN、BTS 三种典型单目深度估计网络模型为方法中的单目深度估计子网络。因为 SARPN 和 JADN 的输出分辨率是输入分辨率的一半，因此图 1 所示的本文方法对输入 RGB 图像进行 1/2 降采样，而 BTS 的输入和输出分辨率相同，因此图 1中使用的是 1/4 降采样。三种网络直接完成深度图像的单目估计时，各项指标如表 1 的一、三、五行所示。将三种网络分别联合本文设计的 SFFNet，进行单目深度估计，各项指标如表 1 的二、四、六行所示。表 1 同时给出了模型参数及算力需求的变化情况。可见，本文方法在保证三种典型模型获得同等水平评价指标的同

20、时，以非常小的参数代价（0.6 M），大幅度降低了模型对算力的需求，对于性能指标 GFLOPS，SARPN 降低了 66.7%，JADN 降低了 48.1%，BTS 降低了 40.7%。表 1 NYU-Depth-V2 数据集的性能评价指标定量对比结果单目深度估计子网络是否使用SFFNet模型参数/MGFLOPS误差（越小越好）准确率（越大越好）Abs RelRMSELog10123SARPN210.30643.150.1130.5140.0510.8720.9760.995210.90214.360.1110.5080.0490.8750.9770.995JADN139.20197.820.

21、1140.5160.0480.8780.9770.995139.80102.600.1130.5040.0480.8790.9790.996BTS179.29122.170.110 0.3920.0470.8840.9770.996179.6973.170.108 0.3890.0460.8850.9780.996图3显示了以BTS为方法中的单目深度估计子网络时，加入 SFFNet 前后，对 NYU-Depth-V2 测试数据集不同场景的定性比较结果，这里选择了厨房、卧室、餐厅三种典型应用场景。通过对比可以发现，用本文提出的方法改造后，对场景全局结构深度信息的预测变化不大，但深度图像具有更清晰

22、的边缘和更细节的信息，比如图 3 深度图像中框标出的厨房置物架、卧室酒瓶、餐厅家居等部分。这表明了通过本方法对原有网络模型的改进后，深度图像细粒度信息的预测效果得到了提升。4 结论本文提出了一种联合引导式深度图像超分辨的单目深度估计方法。该方法将常用单目深度估计模型与设计的 SFFNet网络模型进行合理结合，使常用的单目深度估计网络模型推断包含场景全局一致性结构信息的低分辨率深度图像，利用SFFNet 将从 RGB 图像中提取到的高频细节信息补充到深度图像的超分辨重建过程，两个网络在一个监督学习框架下。实验结果表明，提出的方法可保证深度估计精度的情况下，有效提升细粒度信息的预测效果，并降低模

23、型的硬件算力需求。刘鹏，等：联合引导式深度图像超分辨的单目深度估计方法14142023.062023.06第 11期现代信息科技参考文献：1 HE L，WANG G，HU Z.Learning depth from single images with deep neural network embedding focal length J.IEEE Transactions on Image Processing，2018，9（27）：4676-4689.2 罗会兰，周逸风.深度学习单目深度估计研究进展 J.中国图象图形学报，2022，27（2）：390-403.3 江俊君，李震宇，刘贤明.

24、基于深度学习的单目深度估计方法综述 J.计算机学报，2022，45（6）：1276-1307.4 DENG J，DONG W，SOCHER R，et al.ImageNet：A large-scale hierarchical image database C/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Miami：IEEE，2009：248-255.5 CHEN T，AN S，ZHANG Y，et al.Improving monocular depth estimation by

25、 leveraging structural awareness and complementary datasets C/Proceedings of the European Conference on Computer Vision.Glasgow：IEEE，2020：90-108.6 ZHENG Z，XU C，YANG J，et al.Deep hierarchical guidance and regularization learning for end-to-end depth estimation J.Pattern Recognition，2018，83：430-442.7

26、CHEN X，CHEN X，ZHA Z.Structure aware residual pyramid network for monocular depth estimation C/Proceedings of the International Joint Conference on Artificial Intelligence.Macao：AAAI Press，2019：694-700.8 LIU J，LI Q，CAO R，et al.A contextual conditional random field network for monocular depth estimati

27、on J.Image and Vision Computing，2020，98：103922-103934.9 HUYNH L，NGUYEN-HA P，MATAS J，et al.Guiding monocular depth estimation using depth-attention volume C/Proceedings of the European Conference on Computer Vision.Glasgow：IEEE，2020：581-597.10 LEE J H，HAN M K，KO D W，et al.From big to small：multi-scal

28、e local planar guidance for monocular depth estimation J/OL.arXiv:1907.10326 cs.CV.（2021-08-23）.https:/arxiv.org/abs/1907.10326.11 MIANGOLEH S M，DILLE S，MAI L，et al.Boosting monocular depth estimation models to high-resolution via content-adaptive multi-resolution merging C/2021 IEEE/CVF Conference

29、on Computer Vision and Pattern Recognition（CVPR）.Nashville：IEEE，2021：9685-9694.12 RANFTL R，BOCHKOVSKIY A，KOLTUN V.Vision transformers for dense prediction C/2021 IEEE/CVF International Conference on Computer Vision（ICCV）.Montreal：IEEE，2021：12159-12168.13 YE X，SUN B，WANG Z，et al.PMBANet：Progressive m

30、ulti-branch aggregation network for scene depth super-resolution J.IEEE Transactions on Image Processing，2020，29：7427-7442.14 LIU P，ZHANG Z，MENG Z，et al.PDR-Net：Progressive depth reconstruction network for color guided depth map super-resolution J.Neurocomputing，2022，479：75-88.15 EIGEN D，PUHRSCH C，F

31、ERGUS R.Depth map prediction from a single image using a multi-scale deep network C/Proceedings of the IEEE Conference and Workshop on Neural Information Processing Systems.Montreal：IEEE，2014：2366-2374.16 BHAT S F，ALHASHIM I，WONKA P.AdaBins：Depth estimation using adaptive bins C/2021 IEEE/CVF Confer

32、ence on Computer Vision and Pattern Recognition（CVPR）.Nashville：IEEE，2021：4009-4018.17 PATIL V，SAKARIDIS C，LINIGER A，et al.P3Depth：Monocular depth estimation with a piecewise planarity prior C/2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR）.New Orleans：IEEE，2022：1600-1611.1

33、8 BRUHN A，WEICKERT J，SCHNORR C.Combining local and global optic flow methods J.International Journal of Computer Vision，2005，61（3）：211-231.19 SILBERMANM N，HOIEM D，KOHLI D，et al.Indoor segmentation and support inference from RGBD images C/Proceedings of the European Conference on Computer Vision.Florence：Springer，2012：746-760.作者简介：刘鹏（1982），男，汉族，辽宁沈阳人，讲师，硕士，研究方向：深度学习、单目深度估计；王建龙（1983），男，汉族，河北唐山人，讲师，硕士，研究方向：图像处理、深度学习；窦新宇（1983），男，汉族，河北唐山人，副教授，博士，研究方向：深度学习。图 3 基于 BTS 的 NYU-Depth-V2 数据集定性对比效果

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 联合引导深度图像分辨估计方法刘鹏

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。