深度学习的2D-3D融合深度补全综述_白宇.pdf
《深度学习的2D-3D融合深度补全综述_白宇.pdf》由会员分享,可在线阅读,更多相关《深度学习的2D-3D融合深度补全综述_白宇.pdf(16页珍藏版)》请在咨信网上搜索。
1、随着自主导航、增强现实和无人机技术等领域对深度感知的需求不断增加,精确的深度感知成为许多计算机视觉应用的关键组件。深度图像的获取和估计深度图中每个像素到拍摄源的距离值是深度感知领域的关键技术。当在室内环境中面对光滑/明亮/透明/遥远场景时,获取的深度图往往会存在一些无效点组成的缺失区域。在室外环境中使用的激光雷达也无法提供密集的深度图,这难以满足自动驾驶、三维重建等高级应用的需求。最新研究1可以不受传感器类型的限制,只需要输入一张RGB加一张深度图,可以补全任意形式深度图的缺失。深度估计使用一个或多个视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。2013年以来,卷积神经网络(conv
2、olutional neural network,CNN)2在图像领域取得了巨大的突破和进展,2014年,Eigen等3首次提出使用CNN估计单张RGB的像素深度。然而复杂的光照条件对相机的基础感知系统影响很大常常导致图像中不规则的像素值。由于缺乏深度先验知识,直接从RGB估计场景深度通常产生较低的推理准确度和较差的可推广性,也容易产生过拟合的结果4。为了解决此问题,学术界开始研究基于深度数据的深度图补全工作。其作为深度估计的延伸,可以同时估计所有像素深度值得深度学习的2D-3D融合深度补全综述白宇,梁晓玉,安胜彪河北科技大学 信息科学与工程学院,石家庄 050018摘要:深度图补全的目的是从
3、深度传感器捕获的稀疏图预测密集像素级深度。它在自动驾驶、三维重建、增强现实和机器人导航等各种应用中发挥着至关重要的作用。最近在这项任务上的成功证明基于深度学习的2D-3D融合深度图补全技术成为该领域的主流方案。论述了该方法近年在业界的研究现状,分析了补全任务常用的数据集与评价指标以及对传感器获取的噪声和稀疏数据的处理方法。将两个模态外观特征的融合方式分为:早期融合、后期融合和多级融合,从提取几何线索和多任务学习角度出发进行归纳分析并对其优势和局限性进行对比。对深度图补全的发展前景和可能的研究方向进行了展望。关键词:深度学习;深度图补全;自动驾驶;三维重建;2D-3D融合文献标志码:A中图分类号
4、:TP399doi:10.3778/j.issn.1002-8331.2209-0284Review of 2D-3D Fusion Deep Completion of Deep LearningBAI Yu,LIANG Xiaoyu,AN ShengbiaoSchool of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang 050018,ChinaAbstract:The purpose of depth map completion is to pred
5、ict dense pixel-level depth from sparse maps captured by depthsensors.It plays a vital role in a variety of applications such as autonomous driving,3D reconstruction,augmented reality,and robot navigation.Recent success in this task proves that deep learning-based 2D-3D fusion depth map completionte
6、chnology has become a mainstream scheme in this field.This paper discusses the research status of this method in theindustry in recent years,analyzes the data sets and evaluation indicators commonly used in the completion task,and theprocessing methods of noise and sparse data obtained by sensors.Th
7、e fusion methods of the two modal appearancefeatures are divided into:early fusion,late fusion and multi-level fusion,and the characteristics and problems arecompared from the perspective of extracting geometric clues and multi-task learning.The development prospect and possibleresearch directions o
8、f depth map completion are prospected.Key words:deep learning;depth map completion;autonomous driving;3D reconstruction;2D-3D fusion基金项目:国家自然科学基金(61902108);河北省自然科学基金(F2019208305)。作者简介:白宇(1984),男,博士,讲师,CCF河北分会委员,研究方向为信息物理系统(CPS)、同步系统、深度学习、基于模型的系统设计;梁晓玉(1997),女,硕士,研究方向为计算机视觉;安胜彪(1978),通信作者,男,硕士,副教授,研究
9、方向为集成电子系统和集成电路,E-mail:。收稿日期:2022-09-19修回日期:2023-01-06文章编号:1002-8331(2023)13-0017-16Computer Engineering and Applications计算机工程与应用17Computer Engineering and Applications计算机工程与应用2023,59(13)到稠密深度图。综上所述,深度图补全技术对深度图像的获取和深度估计两方面都具有重要的研究意义。深度图补全作为深度感知的核心技术被列为KITTI5基准的排名任务之一。2018年,Ku等6通过形态图像处理技术人为地补全缺失的深度图,但
10、该方法在lidar帧中很容易出错。近些年,采用深度学习进行深度图补全已有大量研究成果7-18且被证明可以获得比传统算法6更高的预测精度。基于深度学习的深度图补全可分为两类:无RGB引导的深度图补全19-20和2D-3D融合的深度图补全21-24。以激光雷达为代表的深度传感器可以在不受光照条件的影响下提供高精度的3D几何线索,但仅依靠稀疏深度数据会导致缺乏丰富的场景结构信息。近些年的工作21-24表明,添加RGB信息可以显著提升深度图补全的预测精度。这是由于RGB可以提供丰富的语义或边界等强大的场景结构线索,其可以引导稀疏深度图学习缺失位置的深度信息,鼓励平滑区域内的深度连续性和边界处的不连续性
11、从而帮助完成深度图补全。因此基于2D-3D融合的深度图补全成为该领域的主流方法。此类方法大都遵循编码器-解码器的网络架构,可以明显提高深度图补全的密度和精度。目前,基于2D-3D融合的深度图补全仍然面临很多挑战:过滤深度传感器获取的噪声数据、高效标注密集真值、高效融合两个模态外观特征等都是需要解决的关键问题,使用几何线索和多任务学习的方法来增加补全精度也是该领域正在研究的方向。一些方法使用简单的卷积层20或自动编码器25提取深度特征完成预测,最近许多方法中通过加入法线信息1、局部邻域亲和度26和置信度21以及多任务分支27-29,通过无/自监督30学习或合成数据集31解决密集真值缺乏的问题,这
12、都极大地促进了深度图补全技术的发展。随着深度图补全技术的不断发展,部分学者对基于深度学习的深度估计方法32-39进行了梳理总结,但是目前缺少针对基于深度学习的2D-3D融合的深度图补全方法进行总结的文章,因此本文认为对其进行总结分析是必要的。本文首先介绍补全领域中常用的数据集以及解决密集真值标注困难的方法和评价指标。接着对深度传感器获取的噪声和稀疏数据的处理方法进行总结分析。然后针对基于2D-3D融合的深度图补全的精度提升问题将其主要面临的高效融合两个模态外观特征问题分为三种方式:早期融合、多级融合和后期融合,从提取几何线索和多任务学习角度出发进行归纳分析,对上述方法进行交叉比较。最后对深度图
13、补全的发展前景和可能的研究方向进行了展望。1深度补全数据集与性能指标1.1数据集随着深度图补全技术的不断发展,涌现出一系列相关的数据集。表1对这些相关数据集按真实与虚拟场景进行划分。深度图补全任务的中最常见的数据集有以下三种:KITTI5是在真实交通环境下获得的多任务属性数据集,其多被用于自动驾驶研究领域。该数据集的场景主要包括城市、住宅、道路、校园和人。其为目前深度图补全领域使用最广泛的室外数据集。NYU-V240数据集由 Silberman等40在 ECCV 2012上介绍,主要包括地下室、浴室、卧室、书店、咖啡厅、客厅、餐厅、厨房等场景。其为该领域目前使用最广泛的室内数据集。VOID30
14、数据集的深度帧由传感器出厂校准与RGB帧对齐,典型场景包括教室、办公室、楼梯间、实验室和花园,其同时包含室内和室外数据集,也常被用于无监督方法中验证方法的泛化性。表 1 所述的数据集中 DenseLivox、Aerial depth 与SYNTHIA仅用于少数特定方法中,该领域在其上的研究较少。由于室外环境的复杂性,室外的深度预测相比室内更具挑战性,也是目前该任务的各类方法中使用最多的应用场景。NYU-V2、Matterport 3D和VOID的深度数据均由深度相机获取,相比之下激光雷达可以获取更精确的深度信息。目前应用最广泛的KITTI5数据集的稀疏深度图密度仅5%,其提供的半稠密地面真值也
15、只达到30%左右。因此,密集真值标准困难变为深度图补全数据集中需要解决的关键问题。1.2密集真值标注问题的解决方法大多数基于学习的工作都依赖于像素级的地面真值训练。密集的地面真值深度通常不存在,而像素级标注的获取既需要大量的人力,又不可扩展。一些工作试图利用无/自监督的方法来解决缺乏密集真值的问题,通常使用序列化22或立体图像47结合光度损失作为额外的监督信号。文献22最先使用序列图像和稀疏深度图通过稀疏深度约束、光度和平滑损失来实现深度图补全。Wong等30,48使用光度一致性,前后位姿一致性和稀疏点云的几何兼容性,将扭曲图像和原始图像之间的SSIM差异49集成到光度损失中,使用相对少的网络
16、参数获得比文献22预测精度更好的效果。而光度损失与立体声或视频数据一起使用,对这些数据的依赖会导致如视线问题和不连贯移动物体的运动伪像的问题。一些方法29,31使用合成数据集来训练网络。Project-to-adapt31使用驾驶模拟器CARLA50生成的合成数据集来训练网络,后续训练中加入真实域的数据进行监督,结合领域自适应方法来解决没有地面真值的深度补全问题。但真实数据与合成数据之间的领域差距仍然阻碍这些方法的广泛应用。Wong等51寻求从合成数据集中的稀疏点学习拓扑结构,不需要RGB数据,避免了域差异问题。其利用SPP模块增加感受野致密稀疏输入,182023,59(13)但 SPP的最大
17、池化层会在近距离范围丢失细节信息。Wong等48同时实现最大和最小池化来解决该问题,并针对Wong等51提出一个完全可微的稀疏到稠密的模块学习密度和细节之间的权衡以保留远近结构。表2对深度图补全在缺乏密集真值数据集下的解决方法在优点、局限性以及在KITTI评估数据集中预测结果的对比。其中 S 表示有监督,U 表示纯无监督,S&U表示损失函数中包含基于有效输入深度值的监督和基于光度损失等的辅助监督信号。由于深度图补全任务中密集真值标注困难,出现一系列使用无/自监督或使用合成数据集的方法用于弥补这一缺陷。然而无/自监督方法受到如动态、透视对象的影响非常严重,这些情况在现实生活中无处不在,对
18、于使用光度损失作为辅助监督的方法,其只有在接近地面真值时才有效,从而导致其预测性能低于有监督方法。使用的合成数据集与真实数据集之间显著的领域差异也会导致在处理真实数据集时效果大打折扣。本文在后续介绍的技术方法中更多介绍有监督方法中的技术。1.3性能指标在深度图补全任务中,对于深度值的预测精度是其最主要的性能体现。该任务中常用的评价指标有RMSE(root mean square error)、MAE(mean absolute error)、iRMSE(inertial root mean square error)和 iMAE(inertial mean absolute error)。从深
19、度计算 RMSE 和MAE,从反深度计算iRMSE和iMAE。这4个评价指标的值越小说明模型预测准确性越高。其中,MAE又称为L1范数,RMSE又称为L2范数,异常值对RMSE的影响更大,大多数现有的方法23,35-36更倾向于使用 L2 损失。iRMSE与iMAE不是直接度量深度误差的指标,在反映模型精度方面不如RMSE可靠,所以RMSE成为深度图补全任务中最重要的性能指标,被选择在排行榜5上排名使得深度测量更具挑战性。本文将RMSE作为主要评价指标,其他的3个指标作为参考数值。如表3所示,对这4个指标进行介绍。表中公式,yi为第i个像素处的地面真值,y?为对应像素点预测的深度值,n为有效深
20、度像素总数。MAE与RMSE是衡量预测精度的两个最常用的指标,也是评价模型的两把重要标尺。一些方法试图从不表1深度图补全数据集介绍Table 1Introduction to depth map completion datasets场景真实场景虚拟场景数据集NYU-V240Matterprot3D41KITTI5VOID30DenseLivox42SceneNet RGB-D43Virtual KITTI44SYNTHIA45Aerial depth46环境室内室内室外室内+室外室内+室外室内室外室外室外拍摄工具来自Microsoft Kinect的RGB和深度相机记录的各种室内场景的视频序
21、列组成分布在上中下的3个彩色相机和深度相机高分辨率 RGB、灰度立体摄像头和3D激光扫描仪记录的数小时交通场景组成配置有同步的640480尺寸的RGB相机和30 Hz的realsense D435i摄像头采集Livox Horizon LiDAR和Intel RealSense D435i拍摄通过统一引擎克隆KITTI的5个视频数据1 449 对密集标记的对齐RGBD,关于3个城市的464个新场景194 400 张RGB-D图像构成超过93 000个深度图,具有相应的Lidar扫描和RGB图像共包括56个视频序列,其中48个是训练集,每个包括4万张图片,另外8个是测试集数据集包括稀疏深度图、密
22、集深度图、RGB和法线图。合并50帧稀疏点云以获得相机坐标中的密集点云该数据集包含来自15 000多条合成轨迹的500万张图像,分辨率为320240由35个虚拟视频(约17 000帧)组成虚拟RGB的13 400帧是在城市内随机获得的,200 000帧从不同季节的虚拟车辆中捕获83 797对RGB-D,19个轨迹用于训练,7个轨迹用于验证。共有67 435张训练图像和16 362张验证图像特点每个对象都标有一个类和一个实例编号包含90个真实建筑规模场景内的 10 800 个全景视图目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集所有测量值都有时间戳可扩展、低成本由于光线追踪,生成的图像
23、可以达到真实的照片级质量可在一定程度上缓解深度信息对光线的敏感问题应用不同的照明条件以提高虚拟RGB图像的多样性专门设计用于模拟在UV-a工作条件下采集的数据白宇,等:深度学习的2D-3D融合深度补全综述19Computer Engineering and Applications计算机工程与应用2023,59(13)同的方面将它们结合起来作为训练网络的损失函数。例如文献54将它们线性组合为损失函数,文献36采用结合 L1 和 L2 的 Huber 损失55来减少误差较大的问题。Huber损失是绝对误差,在误差很小时变为平方误差。超参数(delta)控制误差降到一定值时变为平方误差。当Hube
24、r损失在0,0+之间时,等价为MSE,而在,和,+时为MAE。其结合了MSE和MAE的优点,对异常点更加鲁棒。此外,一些研究31采用了Berhu损失56,它与Huber损失相反,BerHu显示了两种规范之间的良好平衡,这样会产生更加严格的监督,让模型尽量达到最好效果。除上述4种性能指标外,在许多深度评估方法中也经常使用其他一些指标,如REL(relative error):相对误差;REL_sqr(square relative error):平均相对误差;ML(logarithmic mean error):对数平均误差;LRMSE(loga-rithmic root mean square
25、 error):对数均方根误差;fcorrect:阈值准确率,其中REL与f常被用于NYU-V2数据集上评价网络。以上评价指标各自的计算方法为:REL=1Ni=1N|Di-D*iD*iREL_sqr=1Ni=1N|Di-D*i2D*iML=1Ni=1N|logDi-logD*i表2深度图补全在缺乏密集真值数据集时的研究Table 2Depth map completion studies in absence of dense truth datasets文献/年份文献22/2019文献47/2019文献30/2020文献51/2021文献48/2021文献53/2022文献31/2020机制
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 融合 综述 白宇
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。