三维点云语义分割:现状与挑战.pdf
《三维点云语义分割:现状与挑战.pdf》由会员分享,可在线阅读,更多相关《三维点云语义分割:现状与挑战.pdf(13页珍藏版)》请在咨信网上搜索。
1、三维点云语义分割:现状与挑战王艺娴1),胡雨凡1),孔庆群2,3),曾慧1),张利欣1),樊彬1)1)北京科技大学智能科学与技术学院,北京1000832)中国科学院自动化研究所,北京1001903)中国科学院大学,北京100049通信作者,E-mail:bin.fanieee.org摘要随着获取点云数据成本下降以及 GPU 算力的提高,众多三维视觉场景如自动驾驶、工业控制、MR/XR 对三维语义分割的需求日益旺盛,这进一步推动了深度学习模型在三维点云语义分割任务中的发展.近期,深度学习模型在网络架构上持续创新,如 RandLA-Net和 PointTransformer,并突破性地以更低的计算
2、成本提高了分割准确率,但已有的三维点云语义分割综述介绍的研究工作包含大量早期以及被舍弃的方法,没有系统地整理这些新型高效的方法,不能很好地体现研究现状.此外,这部分综述以输入网络的不同数据类型分类各点云语义分割方法,不能有效地体现各方法的演进关系,也不利于对比不同方法的分割性能.针对以上问题,本文面向近 3 年的研究成果和最新的研究进展,重点归纳了三维点云语义分割中基于不同网络架构的方法、面临的挑战及潜在研究方向,并从 3 个层面对三维点云语义分割进行了系统地综述.通过本文,读者可以较系统地了解三维点云语义分割的数据获取方式、常见数据集及模型的评价指标,对比基于不同网络架构的三维点云语义分割方
3、法的发展过程、分割性能和优缺点,并进一步认识三维点云语义分割现存的挑战和潜在的研究方向.关键词三维视觉;点云;语义分割;深度学习;网络架构分类号TP391;TP1833Dpointcloudsemanticsegmentation:stateoftheartandchallengesWANG Yixian1),HU Yufan1),KONG Qingqun2,3),ZENG Hui1),ZHANG Lixin1),FAN Bin1)1)SchoolofIntelligenceScienceandTechnology,UniversityofScienceandTechnologyBeijing
4、,Beijing100083,China2)InstituteofAutomation,ChineseAcademyofSciences,Beijing100190,China3)UniversityofChineseAcademyofSciences,Beijing100049,ChinaCorrespondingauthor,E-mail:bin.fanieee.orgABSTRACTDecreaseinthecostofacquiring3DpointclouddatacoupledwiththerapidadvancementsinGPUcomputingpowerhaveresult
5、edinanincreaseddemandfor3Dpointcloudsemanticsegmentationinnumerous3Dvisualapplications,includingbutnotlimitedtoautonomousdriving,industrialcontrol,andMR/XR,whichfurtheradvancesthedevelopmentofdeeplearningmethodsin3Dpoint cloud semantic segmentation.Recently,many novel deep learning network architect
6、ures,such as RandLA-Net and PointTransformer,havebeenproposedandhaveachievednotableimprovementsinsemanticsegmentationaccuracywhiledecreasingthecomputationalload.However,previousresearchon3Dpointcloudsemanticsegmentationmethodshasfocusedprimarilyonrelativelyearlyworks,whoseapproacheshavebeengradually
7、abandonedovertheyearsandcannotaccuratelyreflectthecurrentresearchstatus.Moreover,theexistingmethodshavebeencategorizedbasedontheirinputdatatypes,makingitdifficulttocomparethesegmentationperformance of different techniques and not providing a comprehensive view of the relationship between methods usi
8、ng differentnetworkarchitectures.Therefore,thispaperreviewsthemainstream3Dsemanticsegmentationmethodsdevelopedinthelastthreeyearsusingdifferentdeeplearningnetworkarchitecturesandisorganizedintothreelevels.First,thetwoprincipal3Dpointclouddataacquisitionmethods,includingtheircustomarydatasetsandmetri
9、cstoevaluatemodelperformance,areintroduced.Second,asystematic收稿日期:20221217基金项目:北京市自然科学基金资助项目(4202073);国家自然科学基金资助项目(62076026,61973029)工程科学学报,第45卷,第10期:16531665,2023年10月ChineseJournalofEngineering,Vol.45,No.10:16531665,October2023https:/doi.org/10.13374/j.issn2095-9389.2022.12.17.004;http:/reviewof3Ds
10、emanticsegmentationmethodsbasedondifferentnetworkarchitecturesisorganized,followedbyastatisticalanalysisoftheevaluationofperformancebetweendifferentmodelsontwo3DsegmentationdatasetsS3DISandScanNet.Theanalysisofmodelperformanceonthesetwocommonlyuseddatasetsincludesmodelstructurerelevance,strengths,an
11、dlimitations.Finally,aninsightfuldiscussionoftheremainingmethodologicalandapplicationchallengesandpotentialresearchdirectionsisprovided.Thispaperoffersanextensiveoverviewoftherecentthree-yearresearchprogressin3Dpointcloudsemanticsegmentationandsummarizesvariousnetworkarchitecturepipelines,elucidates
12、theirfundamentaloperations,comparesthemodelperformanceacrossmultiplearchitectures,discussestheirnotablestrengthsandlimitations,mostimportantly,concludesthecurrentchallengesandpromisingresearchdirectionsforfutureinvestigations.Furthermore,thispaperenablesresearcherstoeffortlesslyidentifytherelevantre
13、searchandresearchhotspotsamongdifferent3Dpointcloudsemanticsegmentationmethodsbasedontheanalysespresentedandaimstoupdatethereviewson3Dpointcloudsemanticsegmentationmethodswithabetterviewpointandhighlightkeypropertiesandcontributionsofproposedmethods,providingpromisingresearchdirectionsforthemainchal
14、lenges.KEYWORDS3Dvision;pointcloud;semanticsegmentation;deeplearning;networkframework三维点云语义分割是计算机视觉中一个基本问题,其主要任务是针对给定的描述三维场景的数据,如三维点云、颜色-深度(RGB-D)图,通过三维点云语义分割算法,输出三维场景中每个点的语义标签值.三维点云语义分割是自动驾驶导航规划、工业自动控制抓取等高级人工智能任务的基础任务,也是目前三维计算机视觉、深度学习中的研究热点.早期,由于直接获取大量三维点云的成本较高,点云一般需要由图像转化得到,因此许多传统点云语义分割方法,如条件随机场,是
15、让模型先学习图像特征,再将图像特征转化为深度信息,如点的三维坐标和语义标签,并将这些包含深度信息的二维像素投影为带有语义标签的三维点,实现三维点云语义分割1,我们称这些方法为传统方法.随着大场景点云数据集2的出现及 GPU 算力的提升,一些深度学习方法,如 PointConv3、DGCNN4、PointTransformer5,已逐渐代替传统方法成为主流.这些方法主要利用深度神经网络6学习更丰富的点云特征,从而得到更准确的语义信息来预测标签.但在应用这些方法的过程中也出现了如模型缺乏训练数据、模型的复杂度较高导致推理速度较慢、模型的占用计算机内存过高等挑战.现有综述如 Guo 等7,Xie 等
16、8都是面向所有三维视觉任务,并非针对三维点云语义分割,且其中介绍的点云语义分割工作包含大量早期以及被舍弃的方法,不能体现点云语义分割领域现阶段的主要关注点.针对三维分割的综述9则根据模型输入的数据类型来分类三维点云语义分割方法,不能很好地对比不同方法的分割准确率.此外,针对 Transformer 在三维视觉应用方面的综述1012,没有对比其他深度学习网络在三维点云语义分割上的应用,而这些方法在现阶段仍然属于该领域的研究热点.因此,本文从以下 3 个层面对三维点云语义分割进行综述:(1)如何获取点云数据并评价不同点云语义分割方法;(2)不同点云语义分割网络架构的出现原因及性能对比;(3)现有点
17、云语义分割方法在实际应用中存在的挑战,以及潜在的研究方向.其中,本文在第 2 部分详细介绍了不同类型点云语义分割网络要解决的问题并列举了代表性工作,结合图示阐明了不同网络的基本计算过程及演化关系,同时在两个常用的用于评估模型语义分割性能的点云数据集上做了详细的性能对比,分析了每类网络的优缺点;在第 3 部分针对不同网络架构的缺点,进一步总结了点云语义分割面临的 3 个挑战及潜在研究方向.1三维点云语义分割的常用数据集与评价指标p=p1,p2,pnT RnP=pi=pi1,pi2,pinT|i=1,m三维点云是三维点云语义分割问题的数据样本,是对一个三维空间中所有物体进行曲面采样而得到的一个点集
18、,用于描述特定的三维场景.若用一个矩阵 P 表示一个三维点云,用一个 n 维特征空间中的向量表示点云中的一个点,则一个由 m 个点组成的三维点云可表示为,其 中 pij可为点的三维坐标或 RGB 等特征值.不同于二维图像中像素的有序紧密排列,三维点云中的点是无序稀疏分布在三维空间中的,如图 1 为图像像素与三维点的对比.三维点云中的每个点根据不同的数据获取方式,对应激光雷达扫描空间的一个测量点,或对应 RGB-D 图的一个像素.由于点的坐标等信息与点间的排列顺序无关,因此要求点云语义分割方法具有置换不变性.同时点的语义1654工程科学学报,第45卷,第10期也不受三维坐标旋转、平移的影响,因此
19、还要求方法具有刚体不变性.1.1点云数据获取方式及常用数据集获取点云数据的方法有二维图像投影、激光雷达扫描等.早期,由于使用激光雷达的成本较高,点云数据基本由图像投影得到.随着雷达技术的发展,使用雷达扫描空间直接获取点云数据是目前常见的方法.随着深度学习技术的不断发展,基于深度神经网络的模型对大场景点云数据的需求日益急迫.因此,有研究人员陆续发布了公开的点云数据集,方便模型的性能评估和不同模型的对比.按照点云数据的获取方式,常见的点云数据集可分为激光雷达点云数据集和 RGB-D 数据集.1.1.1激光雷达点云数据集激光雷达点云数据是通过雷达发射的激光能量来测量传感器和被测物体之间的距离等信息而
20、直接生成的点云数据集.该类数据集主要由不同的激光扫描仪捕获帧或帧序列得到,数据的分辨率较高、连续范围广、噪音较小13.以下列举 3 个在点云语义分割研究中使用较多的雷达点云数据集,其中 S3DIS2和 Semantic3D14数据集中所有物体均为静态,SemanticKITTI15数据集中有静态和动态物体.(1)S3DIS2.S3DIS 数据集由美国斯坦大学、普林斯顿大学和芝加哥丰田技术大学的研究人员共同开发,并于 2016 年公开.它是一个室内雷达点云数据集,由固定的地面扫描仪扫描了总面积超过 6000m2,6 个大型建筑内的 272 个房间的室内场景得到.完整的 2D-3D-S3DIS 数
21、据集包含超过 70000 个 RGB图像,以及每个 RGB 图像对应的表面法线、语义注释、相机信息等.一般的 S3DIS 数据集指仅包含三维点云的空间坐标、RGB 和语义标签,其中点被划分为 13 类语义类别.(2)Semantic3D14.该数据集由瑞士苏黎世联邦理工学院的研究人员开发,并于 2017 年公开,是一个室外雷达点云数据集.它由固定的地面激光扫描仪在总面积超 115200m2的中欧区域内扫描得到,其中 15 个场景作为训练集,15 个场景作为测试集.数据集中的物体均为静态,包含三维点云的空间坐标、强度、颜色和标签信息,其中点被分为 8 类语义类别标签.(3)SemanticKIT
22、TI15.该数据集由德国波恩大学的研究人员开发,并于 2019 年公开,是一个室外雷达点云数据集.它基于 2012 年公开的 KITTI16数据集,注释了 KITTI所有 22 个序列中超过 43000 个德国城市的街区场景,其 中 序 列 00 到 10 作 为 训 练 集,序 列 11 到21 作为测试集;点被分为 28 个类别,有 6 个类别附加了移动或不移动的标签,1 个类别作为由于错误测量而无法识别的类.训练集包含点云的空间坐标和标签信息,测试集实施在线测评.理想的点云数据集中,不同类别样本差异大、数量分布均匀且样本类别无限多,但实际采集的数据集往往存在不同类别数据数量不平衡、数据总
23、体类别少等问题.目前针对此类问题,研究者尽可能使用数据量大、数据种类丰富的数据集来训练网络.而针对三维点云语义分割模型应用的不同场景,室内场景主要使用 S3DIS 训练模型,室外场景主要使用 Semantic3D 和 SemanticKITTI.1.1.2RGB-D 数据集RGB-D 数据集是通过 RGB-D 相机拍摄的,具有像素级颜色和深度信息的图像,计算每个像素的三维空间后,间接生成的点云数据集.由于RGB-D数据不如雷达点云数据准确,雷达点云比 RGB-D 数据更常用于三维点云语义分割,因此本文只介绍一个常用的 RGB-D 数据集ScanNet17.该数据集由斯坦福大学、普林斯顿大小和慕
24、尼黑工业大学的研究人员共同开发,并于 2018 年公开.它是一个实例级的室内RGB-D 视频数据集,收集了1513 个场景,其中 1201 个场景用于训练,312 个场景用于测试.数据集含 1513 张像素级语义标注的RGB-D 图像,以及由图像处理得到的三维数据(点云的空间坐标、颜色和体素级类别标签),其中体素被分为 21 个类别.ScanNetv2 是 ScanNet的最新版本.yyxxoozPi图图1二维图像中的像素(左)与三维点云中的点(右)Fig.1Pixelsina2Dimage(left)andpointsina3Dpointcloud(right)王艺娴等:三维点云语义分割:现
25、状与挑战1655表 1 汇总了常用的点云语义分割数据集信息,包含数据类型、传感器信息、场景信息等.1.2点云语义分割的评估指标总体准确率(OAcc),平均准确率(mOAcc)和平均交并比(mIoU)是评估三维点云语义分割精确度的常见指标.点云中的一个点作为一个训练样本,假设所有点分为 M 个语义类别,i 表示第 i 个语义类别,i 的值域为0,M.c 是一个 MM的混淆矩阵,cij的第一个下标表示样本的真实标签类别,第二个下标表示样本的预测标签类别,因此 cij表示真实标签为第 i 类,而预测标签为第 j 类的样本数量.每个类别的交并比称为 IoUi,各指标具体的计算方法如下式所示:OAcc=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 三维 语义 分割 现状 挑战
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。