分销赏收藏举报申诉 / 13

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 三维点云语义分割：现状与挑战.pdf

三维点云语义分割：现状与挑战.pdf

上传人：自信****多点

文档编号：582730

上传时间：2024-01-02

格式：PDF

页数：13

大小：1.54MB

《三维点云语义分割：现状与挑战.pdf》由会员分享，可在线阅读，更多相关《三维点云语义分割：现状与挑战.pdf（13页珍藏版）》请在咨信网上搜索。

1、三维点云语义分割：现状与挑战王艺娴1)，胡雨凡1)，孔庆群2,3)，曾慧1)，张利欣1)，樊彬1)1)北京科技大学智能科学与技术学院，北京1000832)中国科学院自动化研究所，北京1001903)中国科学院大学，北京100049通信作者，E-mail:bin.fanieee.org摘要随着获取点云数据成本下降以及 GPU 算力的提高，众多三维视觉场景如自动驾驶、工业控制、MR/XR 对三维语义分割的需求日益旺盛，这进一步推动了深度学习模型在三维点云语义分割任务中的发展.近期，深度学习模型在网络架构上持续创新，如 RandLA-Net和 PointTransformer，并突破性地以更低的计算

2、成本提高了分割准确率，但已有的三维点云语义分割综述介绍的研究工作包含大量早期以及被舍弃的方法，没有系统地整理这些新型高效的方法，不能很好地体现研究现状.此外，这部分综述以输入网络的不同数据类型分类各点云语义分割方法，不能有效地体现各方法的演进关系，也不利于对比不同方法的分割性能.针对以上问题，本文面向近 3 年的研究成果和最新的研究进展，重点归纳了三维点云语义分割中基于不同网络架构的方法、面临的挑战及潜在研究方向，并从 3 个层面对三维点云语义分割进行了系统地综述.通过本文，读者可以较系统地了解三维点云语义分割的数据获取方式、常见数据集及模型的评价指标，对比基于不同网络架构的三维点云语义分割方

3、法的发展过程、分割性能和优缺点，并进一步认识三维点云语义分割现存的挑战和潜在的研究方向.关键词三维视觉；点云；语义分割；深度学习；网络架构分类号TP391;TP1833Dpointcloudsemanticsegmentation:stateoftheartandchallengesWANG Yixian1)，HU Yufan1)，KONG Qingqun2,3)，ZENG Hui1)，ZHANG Lixin1)，FAN Bin1)1)SchoolofIntelligenceScienceandTechnology,UniversityofScienceandTechnologyBeijing

4、,Beijing100083,China2)InstituteofAutomation,ChineseAcademyofSciences,Beijing100190,China3)UniversityofChineseAcademyofSciences,Beijing100049,ChinaCorrespondingauthor,E-mail:bin.fanieee.orgABSTRACTDecreaseinthecostofacquiring3DpointclouddatacoupledwiththerapidadvancementsinGPUcomputingpowerhaveresult

5、edinanincreaseddemandfor3Dpointcloudsemanticsegmentationinnumerous3Dvisualapplications,includingbutnotlimitedtoautonomousdriving,industrialcontrol,andMR/XR,whichfurtheradvancesthedevelopmentofdeeplearningmethodsin3Dpoint cloud semantic segmentation.Recently,many novel deep learning network architect

6、ures,such as RandLA-Net and PointTransformer,havebeenproposedandhaveachievednotableimprovementsinsemanticsegmentationaccuracywhiledecreasingthecomputationalload.However,previousresearchon3Dpointcloudsemanticsegmentationmethodshasfocusedprimarilyonrelativelyearlyworks,whoseapproacheshavebeengradually

7、abandonedovertheyearsandcannotaccuratelyreflectthecurrentresearchstatus.Moreover,theexistingmethodshavebeencategorizedbasedontheirinputdatatypes,makingitdifficulttocomparethesegmentationperformance of different techniques and not providing a comprehensive view of the relationship between methods usi

8、ng differentnetworkarchitectures.Therefore,thispaperreviewsthemainstream3Dsemanticsegmentationmethodsdevelopedinthelastthreeyearsusingdifferentdeeplearningnetworkarchitecturesandisorganizedintothreelevels.First,thetwoprincipal3Dpointclouddataacquisitionmethods,includingtheircustomarydatasetsandmetri

9、cstoevaluatemodelperformance,areintroduced.Second,asystematic收稿日期:20221217基金项目:北京市自然科学基金资助项目（4202073）；国家自然科学基金资助项目（62076026,61973029）工程科学学报，第45卷，第10期：16531665，2023年10月ChineseJournalofEngineering,Vol.45,No.10:16531665,October2023https:/doi.org/10.13374/j.issn2095-9389.2022.12.17.004;http:/reviewof3Ds

10、emanticsegmentationmethodsbasedondifferentnetworkarchitecturesisorganized,followedbyastatisticalanalysisoftheevaluationofperformancebetweendifferentmodelsontwo3DsegmentationdatasetsS3DISandScanNet.Theanalysisofmodelperformanceonthesetwocommonlyuseddatasetsincludesmodelstructurerelevance,strengths,an

11、dlimitations.Finally,aninsightfuldiscussionoftheremainingmethodologicalandapplicationchallengesandpotentialresearchdirectionsisprovided.Thispaperoffersanextensiveoverviewoftherecentthree-yearresearchprogressin3Dpointcloudsemanticsegmentationandsummarizesvariousnetworkarchitecturepipelines,elucidates

12、theirfundamentaloperations,comparesthemodelperformanceacrossmultiplearchitectures,discussestheirnotablestrengthsandlimitations,mostimportantly,concludesthecurrentchallengesandpromisingresearchdirectionsforfutureinvestigations.Furthermore,thispaperenablesresearcherstoeffortlesslyidentifytherelevantre

13、searchandresearchhotspotsamongdifferent3Dpointcloudsemanticsegmentationmethodsbasedontheanalysespresentedandaimstoupdatethereviewson3Dpointcloudsemanticsegmentationmethodswithabetterviewpointandhighlightkeypropertiesandcontributionsofproposedmethods,providingpromisingresearchdirectionsforthemainchal

14、lenges.KEYWORDS3Dvision；pointcloud；semanticsegmentation；deeplearning；networkframework三维点云语义分割是计算机视觉中一个基本问题，其主要任务是针对给定的描述三维场景的数据，如三维点云、颜色-深度(RGB-D)图，通过三维点云语义分割算法，输出三维场景中每个点的语义标签值.三维点云语义分割是自动驾驶导航规划、工业自动控制抓取等高级人工智能任务的基础任务，也是目前三维计算机视觉、深度学习中的研究热点.早期，由于直接获取大量三维点云的成本较高，点云一般需要由图像转化得到，因此许多传统点云语义分割方法，如条件随机场，是

15、让模型先学习图像特征，再将图像特征转化为深度信息，如点的三维坐标和语义标签，并将这些包含深度信息的二维像素投影为带有语义标签的三维点，实现三维点云语义分割1，我们称这些方法为传统方法.随着大场景点云数据集2的出现及 GPU 算力的提升，一些深度学习方法，如 PointConv3、DGCNN4、PointTransformer5，已逐渐代替传统方法成为主流.这些方法主要利用深度神经网络6学习更丰富的点云特征，从而得到更准确的语义信息来预测标签.但在应用这些方法的过程中也出现了如模型缺乏训练数据、模型的复杂度较高导致推理速度较慢、模型的占用计算机内存过高等挑战.现有综述如 Guo 等7，Xie 等

16、8都是面向所有三维视觉任务，并非针对三维点云语义分割，且其中介绍的点云语义分割工作包含大量早期以及被舍弃的方法，不能体现点云语义分割领域现阶段的主要关注点.针对三维分割的综述9则根据模型输入的数据类型来分类三维点云语义分割方法，不能很好地对比不同方法的分割准确率.此外，针对 Transformer 在三维视觉应用方面的综述1012，没有对比其他深度学习网络在三维点云语义分割上的应用，而这些方法在现阶段仍然属于该领域的研究热点.因此，本文从以下 3 个层面对三维点云语义分割进行综述：(1)如何获取点云数据并评价不同点云语义分割方法；(2)不同点云语义分割网络架构的出现原因及性能对比；(3)现有点

17、云语义分割方法在实际应用中存在的挑战，以及潜在的研究方向.其中，本文在第 2 部分详细介绍了不同类型点云语义分割网络要解决的问题并列举了代表性工作，结合图示阐明了不同网络的基本计算过程及演化关系，同时在两个常用的用于评估模型语义分割性能的点云数据集上做了详细的性能对比，分析了每类网络的优缺点；在第 3 部分针对不同网络架构的缺点，进一步总结了点云语义分割面临的 3 个挑战及潜在研究方向.1三维点云语义分割的常用数据集与评价指标p=p1,p2,pnT RnP=pi=pi1,pi2,pinT|i=1,m三维点云是三维点云语义分割问题的数据样本，是对一个三维空间中所有物体进行曲面采样而得到的一个点集

18、，用于描述特定的三维场景.若用一个矩阵 P 表示一个三维点云，用一个 n 维特征空间中的向量表示点云中的一个点，则一个由 m 个点组成的三维点云可表示为，其中 pij可为点的三维坐标或 RGB 等特征值.不同于二维图像中像素的有序紧密排列，三维点云中的点是无序稀疏分布在三维空间中的，如图 1 为图像像素与三维点的对比.三维点云中的每个点根据不同的数据获取方式，对应激光雷达扫描空间的一个测量点，或对应 RGB-D 图的一个像素.由于点的坐标等信息与点间的排列顺序无关，因此要求点云语义分割方法具有置换不变性.同时点的语义1654工程科学学报，第45卷，第10期也不受三维坐标旋转、平移的影响，因此

19、还要求方法具有刚体不变性.1.1点云数据获取方式及常用数据集获取点云数据的方法有二维图像投影、激光雷达扫描等.早期，由于使用激光雷达的成本较高，点云数据基本由图像投影得到.随着雷达技术的发展，使用雷达扫描空间直接获取点云数据是目前常见的方法.随着深度学习技术的不断发展，基于深度神经网络的模型对大场景点云数据的需求日益急迫.因此，有研究人员陆续发布了公开的点云数据集，方便模型的性能评估和不同模型的对比.按照点云数据的获取方式，常见的点云数据集可分为激光雷达点云数据集和 RGB-D 数据集.1.1.1激光雷达点云数据集激光雷达点云数据是通过雷达发射的激光能量来测量传感器和被测物体之间的距离等信息而

20、直接生成的点云数据集.该类数据集主要由不同的激光扫描仪捕获帧或帧序列得到，数据的分辨率较高、连续范围广、噪音较小13.以下列举 3 个在点云语义分割研究中使用较多的雷达点云数据集，其中 S3DIS2和 Semantic3D14数据集中所有物体均为静态，SemanticKITTI15数据集中有静态和动态物体.(1)S3DIS2.S3DIS 数据集由美国斯坦大学、普林斯顿大学和芝加哥丰田技术大学的研究人员共同开发，并于 2016 年公开.它是一个室内雷达点云数据集，由固定的地面扫描仪扫描了总面积超过 6000m2，6 个大型建筑内的 272 个房间的室内场景得到.完整的 2D-3D-S3DIS 数

21、据集包含超过 70000 个 RGB图像，以及每个 RGB 图像对应的表面法线、语义注释、相机信息等.一般的 S3DIS 数据集指仅包含三维点云的空间坐标、RGB 和语义标签，其中点被划分为 13 类语义类别.(2)Semantic3D14.该数据集由瑞士苏黎世联邦理工学院的研究人员开发，并于 2017 年公开，是一个室外雷达点云数据集.它由固定的地面激光扫描仪在总面积超 115200m2的中欧区域内扫描得到，其中 15 个场景作为训练集，15 个场景作为测试集.数据集中的物体均为静态，包含三维点云的空间坐标、强度、颜色和标签信息，其中点被分为 8 类语义类别标签.(3)SemanticKIT

22、TI15.该数据集由德国波恩大学的研究人员开发，并于 2019 年公开，是一个室外雷达点云数据集.它基于 2012 年公开的 KITTI16数据集，注释了 KITTI所有 22 个序列中超过 43000 个德国城市的街区场景，其中序列 00 到 10 作为训练集，序列 11 到21 作为测试集；点被分为 28 个类别，有 6 个类别附加了移动或不移动的标签，1 个类别作为由于错误测量而无法识别的类.训练集包含点云的空间坐标和标签信息，测试集实施在线测评.理想的点云数据集中，不同类别样本差异大、数量分布均匀且样本类别无限多，但实际采集的数据集往往存在不同类别数据数量不平衡、数据总

23、体类别少等问题.目前针对此类问题，研究者尽可能使用数据量大、数据种类丰富的数据集来训练网络.而针对三维点云语义分割模型应用的不同场景，室内场景主要使用 S3DIS 训练模型，室外场景主要使用 Semantic3D 和 SemanticKITTI.1.1.2RGB-D 数据集RGB-D 数据集是通过 RGB-D 相机拍摄的，具有像素级颜色和深度信息的图像，计算每个像素的三维空间后，间接生成的点云数据集.由于RGB-D数据不如雷达点云数据准确，雷达点云比 RGB-D 数据更常用于三维点云语义分割，因此本文只介绍一个常用的 RGB-D 数据集ScanNet17.该数据集由斯坦福大学、普林斯顿大小和慕

24、尼黑工业大学的研究人员共同开发，并于 2018 年公开.它是一个实例级的室内RGB-D 视频数据集，收集了1513 个场景，其中 1201 个场景用于训练，312 个场景用于测试.数据集含 1513 张像素级语义标注的RGB-D 图像，以及由图像处理得到的三维数据(点云的空间坐标、颜色和体素级类别标签)，其中体素被分为 21 个类别.ScanNetv2 是 ScanNet的最新版本.yyxxoozPi图图1二维图像中的像素(左)与三维点云中的点(右)Fig.1Pixelsina2Dimage(left)andpointsina3Dpointcloud(right)王艺娴等：三维点云语义分割：现

25、状与挑战1655表 1 汇总了常用的点云语义分割数据集信息，包含数据类型、传感器信息、场景信息等.1.2点云语义分割的评估指标总体准确率(OAcc)，平均准确率(mOAcc)和平均交并比(mIoU)是评估三维点云语义分割精确度的常见指标.点云中的一个点作为一个训练样本，假设所有点分为 M 个语义类别，i 表示第 i 个语义类别，i 的值域为0,M.c 是一个 MM的混淆矩阵，cij的第一个下标表示样本的真实标签类别，第二个下标表示样本的预测标签类别，因此 cij表示真实标签为第 i 类，而预测标签为第 j 类的样本数量.每个类别的交并比称为 IoUi，各指标具体的计算方法如下式所示：OAcc=

26、Mi=0ciiMj=0cij（1）mAcc=1M+1OAcc=1M+1Mi=0ciiMj=0cij（2）mIoU=1M+1Mi=0IoUi=1M+1Mi=0ciiMj=0(cij)+Mj=0(cji)cii（3）2方法现状由于目前已有较多相关的综述介绍了早期点云语义分割方法，如 Guo 等7、Xie 等8的工作，因此本文主要介绍 2019 年至今较新的研究工作.本文根据深度学习方法使用的网络架构，将三维点云语义分割方法分为基于卷积神经网络(Convolu-tionalneuralnetworks,CNN)、基于图神经网络(Gra-phneuralnetworks,GNN)、基于注意力(Atte

27、ntion)网络、基于 Transformer 和基于其他网络的 5 类方法.图 2 为近 3 年按工作发表时间排序的点云语义分割领域的主要研究成果.2.1基于 CNN 的方法早期，由于获取激光雷达点云数据的成本较高，基于 CNN 的三维点云语义分割方法主要是让网络先完成对图像数据的分割，再将图像的分割结果投影为带有语义标签的点云数据57.但这样的方法容易引入噪声且内存开销大.近年来，由于使用激光雷达的成本不断降低，出现了如 PointNet58等直接将点云作为网络输入的研究成果.目前，基于 CNN 的方法主要可分为以下 2 类：(1)将点云转化为图像或体素后作为二维卷积或三维卷积的输入；(2

28、)重新定义一种点卷积，直接将点云作为点卷积的输入.在将点云转化为体素输入三维卷积的方法中，Choy 等20为了解决三维卷积性能差的问题的，提表表1点云语义分割常用数据集Table1PopularpointcloudsemanticsegmentationdatasetsDatasetnameDatasettypeSensorsScenetype#scenes#classesYearS3DIS2LiDARpointcloudsMatterportcameraindoor272132016Semantic3D14LiDARpointcloudsTerrestriallaserscannersout

29、door3082017SemanticKITTI15LiDARpointcloudsMobilelaserscannersoutdoor43552282019ScanNet17RGB-DimagesRGB-Dcameraindoor1513212018Note:“#”represents“thenumberof”.DeepGCNs262019PAN372021PCT42PointTransformer52022Point-McBert51StratifiedTransformer48Pix4Point542DPASS55D-former53SqueezeSegv333KPConv27SpSeq

30、uenceNet302020PointGCR29RandLA-Net31SegGCN32AGCN34SPH3D-GCN35CF-SIS36AttAN38P4Transformer41AWT-Net39PAConv40PVT43DGANet44PST245LFT-Net46Fast PointTransformer47SCSANet49Point-Bert50PointTransformer V256OthersTransformerCNNGNNAttentionRG-GCN52Rangenet+28Vv-Net25DGCNN4A-CNN24PointWeb23PointConv3Minkows

31、kiNet20PATs22GACNet21TGNet19HDGCN18图图2三维点云语义分割方法发展里程Fig.2Significantmilestonesin3Dpointcloudsemanticsegmentationmethods1656工程科学学报，第45卷，第10期出一种作用在稀疏张量上的广义三维稀疏卷积.其比二维卷积和二维三维混合卷积更能提高模型的鲁棒性，同时不会过多增加模型的计算和内存开销.Meng 等25设计了一种 Vv-net 将点云体素化.网络首先用一种基于核函数的插值变分自动编码器来编码每个体素内的局部几何形状，并进一步用径向基函数来计算每个体素内的局部连续表示，最后用

32、三维群等变CNN 学习体素特征.由于将点云转化为图像或体素不能有效利用点云的空间特征，且会不同程度地增加数据处理成本和结构化噪声，因此有不少研究人员在如何设计高效的点卷积上开展工作.PointConv3中引入了一种重加权采样密度的点卷积和一种提高模型内存效率的顺序求和技术.PointWeb23在具有子流形稀疏卷积和稀疏卷积的 U 形网络上，应用基于原始坐标和移位坐标的点聚类方法进行语义分割.Komarichev等24提出一种直接作用在点云上的环形卷积神经网络(Annularlyconvolutionalneu-ralnetwork,A-CNN)，其通过改变扩张型 K-最近邻图查询中的环形结构和

33、方向来对近邻点排序，再对这些有序的近邻点应用标准点卷积.Thomas 等27通过定义一种新的核点卷积(KPConv)来学习点云的局部特征，并提出一种学习核心点的局部偏移的可变形卷积，使模型可在点云的不同位置进行不同的位移.Xu 等40用一个动态的卷积权重矩阵来构造卷积核，并提出一种位置自适应卷积(Posi-tionadaptiveconvolution,PAConv)，其中权重矩阵的系数可由分数网络自适应地学习点的相对位置关系得到.SqueezeSegv259用上下文聚合模块改进Squee-zeSeg60，以提高其对脱落噪声的鲁棒性.Squeeze-Segv333在 SqueezeSegv2

34、的基础上增加了空间自适应卷积，从而针对不同空间位置采用不同的卷积核进行卷积.2.2基于 GNN 的方法针对点云语义分割中使用二维卷积或三维卷积时需要先将点云转化为图像或体素的问题，除了设计以点云作为输入的点卷积，还可以使用 GNN建立关于点云的特殊图结构4,1819,26,32,35,52,61，再使用图卷积来探索每个点的邻居信息，从而更好地利用点云的空间特征，提高分割精度.Liang 等18提出采用多层动态图卷积(Dynamicgraphconvolution,DGConv)构造的分层动态图卷积网络(Hierarchicaldepth-wisegraphconvolutionalneu-ra

35、lnetwork,HDGCN).DGConv 将深度图卷积和点卷积结合，深度图卷积用来降低内存消耗，同时学习跨通道的特征，点卷积用来学习每个通道的独立特征.Wang 等4设计的动态图卷积网络(Dynamicgraphconvolutionalneuralnetwork,DGCNN)以输入的 N 个点为中心，逐层计算出各自的 K 近邻点以动态构建局部邻域图，然后用边缘卷积计算中心点与近邻点间的边缘特征.但边缘特征的固定尺寸使模型在不同尺度和输入点数时不能有较好的性能.深度图卷积网络(DeepGCNs)26是将残差连接、密集连接和扩张卷积应用到图卷积网络(GCN)中，构建了比以往 GCN 都深的

36、56 层网络，解决了GCN 中叠加网络的梯度消失问题.球形核函数62具有平移不变性(不改变经过平移变换的输入结果)和非对称性(不同顺序顶点对的输出不同)的特点.Lei 等35用具有球形核函数的可分离图卷积网络(Sphericalkernelwithgraphneuralnetworksforpointcloud,SPH3D-GCN)，学习局部点云在空间的几何关系，并设计了适用于SPH3D-GCN 的池化和非池化操作，使模型更适用于大规模点云的语义分割.Lei等32提出一种基于模糊机制的球形核函数，并将其应用到深度可分离的图卷积网络中形成分割图卷积网络(SegGCN)，解决了点云空间边界不连续导

37、致的分割不准问题.TGNet19是在不同尺度的邻域中，用一系列泰勒加权的高斯核函数来学习由粗到细的局部图语义特征，使模型对变尺度的输入具有鲁棒性.2.3基于注意力的方法CNN 对不同特征进行各向同性的卷积操作在一定程度上限制了语义分割的准确性，而基于注意力的网络可以选择关注与中心点最相关的点，学习其与语义信息最相关的特征，从而降低计算成本，并快速获取最有效的信息.Wang等21设计了一个图注意力卷积网络(Gra-phattentionconvolutionalnetwork,GACNet)，它先给中心点的不同邻居点分配合适的注意力权重，在学习特征的同时学习注意力权重分布，并根据学习到的分布确定

38、卷积核的形状，从而使模型学习到最相关的邻居特征，避免对象之间的特征污染.注意力图卷积网络(AGCN)34作为一种基于注意力的 GCN，通过在 GCN 中叠加多层的点注意力层，来学习局部结构之间的关系，并附加一个全局点图，辅助点注意力层学习单点间的相关性，从而更好地聚合局部信息.Liang 等63在图卷积网络上定义了基于注意力的 K 近邻点，通过为每个近邻点分配不同的权重，自动选择并聚合最重要的近邻点特征.王艺娴等：三维点云语义分割：现状与挑战1657Ma等29提出一种点全局上下文推理方法(Point-GCR)，模型使用通道注意力来学习一个通道图，其中图节点为输入点在某个通道上的特征，图边为任意

39、两个通道特征间的相关性，同时学习点云的空间相关性和不同通道特征的相关性.Shi 等30为了解决四维点云(三维点云视频帧)语义分割中时间和空间信息丢失的问题，在三维稀疏卷积中添加跨帧全局注意模块和跨帧局部插值模块，设计出 SpSequenceNet.Zhang 等38提出注意力对抗学习网络，从而让网络更加关注不同的邻域信息.DGANet44通过集成由一种偏移注意力机制实现的扩张图注意力模块，进一步差异化构建的局部图的每条边，从而更好地学习边缘特征.为了设计一种高效轻量的网络，Hu 等31提出RandLA-Net，其使用类似 PointNet+64的分层结构，在每层的特征提取中使用具有注意力池化的

40、局部特征聚合模块来学习复杂的局部特征.PAN37基于一种新型局部注意力边缘卷积层和逐点空间注意力模块.其中，局部注意力边缘卷积层用来在沿多方向搜索的邻域中构建相邻点的局部图，逐点空间注意力用来生成所有点的互相关矩阵，学习更精确的长距离空间的上下文特征.2.4基于 Transformer 的方法尽管注意力机制可以让模型筛选学习最重要的信息65，但研究人员往往需要耗费很大精力为不同的任务设计特别的注意力模块，如通道注意力、空间注意力等66，且不同的注意力模块间的计算复杂度不同，不支持并行计算.为了提高注意力的鲁棒性和计算效率，Transformer使用多头自注意力(Multi-headself-a

41、ttention,MSA)来建立模型的关注点，其对输入的无序序列具有天然的输出不变性，当输入点云发生置换和刚体变换时，Transfor-mer 具有较稳定的输出.同时，Transformer 兼有并行计算和不同输入单元间最大路径短的特点，因此能让模型一次性为每个点建立起其与剩余所有点之间的最相关关系.相较于使用缩放点积注意力的模型(图 3(a)，基于 Transformer 的模型(图 3(b)融合了多头自注意力、残差连接(Add)和正则化(Norm)、前馈网络(Feed-forwardnetwork,FFN)等模块，其中自注意力用于建立相关关系，多头用于进一步聚合在不同特征空间建立的点的相关

42、关系，残差连接用于补充可能丢失的点的空间信息，正则化用于稳定模型的输入和输出，前馈网络用于转化点间的相关关系为每个点的特征.根据网络中是否混合使用除 Transformer 之外的其他网络，基于 Transformer的方法可进一步分为纯 Transformer 网络和混合Transformer 网络10.2.4.1纯 Transformer 网络纯 Transformer 采用编码器-解码器结构，不使用任何CNN 或GNN，其中编码器由多个Transformer层叠加，每个 Transformer 层的结构如图 3(b)所示.解码器也由多个 Transformer 层叠加，其输入为编码器最后

43、一层的输出.PATs22用低参高效的组混杂注意力取代高参低效的 MSA.PCT42在编码器加入邻域点的向量映射结构和 4 个连续的偏移注意力结构，增强模型学习局部上下文特征的能力.PVT43通过Transfor-InputQKVOutputLinearMLPMatrix productMatrix productLinear(a)LinearScale+Mask+SoftmaxQVOutput(b)InputKPositionalencodingAdd&Norm Feed-forward networkMulti-head self-attentionAdd&Norm ConcatLinear

44、LinearLinearLinearQKVOutputScaled dot-product图图3缩放点积注意力和单层 Transformer的结构(其中注意力模块的输入分为查询 Q,键 K 和值V,并得到带权重的输出.最右侧虚线框内为多头自注意力的结构).(a)缩放点积注意力;(b)单层 TransformerFig.3Structuresofscaleddot-productattentionandsingle-layerTransformerencoder(theattentionmodulehasthreeinputs:aqueryvectorQ,keyvectorK,valuevect

45、orV,andweightedoutput.Thestructureofmulti-headself-attentionisshowninsidetheright-mostdashedbox):(a)scaleddot-productattention;(b)single-layerTransformerencoder1658工程科学学报，第45卷，第10期mer 分别增强作用于点和作用于体素的特征提取，并提出一种线性复杂度的局部注意力算法，同时对相对位置编码来计算相对注意力.PointTransformer5在每个点的邻域中引入自注意力机制，并利用多层感知机(Multi-layerperce

46、ptron,MLP)对中心点与近邻点的相对位置编码，学习自注意力特征.PointTransformer类似 PointNet+64，在编码器中通过最远点采样下采样出最远点，减少深层网络需要计算的点云数量，同时用最远点最大程度地保留点云的特征信息；在解码器中通过线性插值将点云数量上采样到输入规模，从而预测逐点的类别标签.PointTransformerV256在 PointTransformer 的基础上提出具有权重编码层的分组向量注意力，让注意力之间可交互信息.同时在关系向量上增加位置编码，提高了模型的推理速度.为了降低计算成本，LFT-Net46仅在编码阶段使用 Transformer 来学

47、习点云高纬度的局部特征，并用自注意力加权的转换池化模块取代一般池化，避免过多局部特征的丢失.FastPointTransformer47提出一种低空间计算复杂度的局部自注意力模块，同时基于体素散列构建模型，使网络的推理速度比 PointTransformer 快 129 倍.2.4.2混合Transformer 网络由于纯 Transformer 在训练时需生成关于所有输入点的注意力图，其计算复杂度高.为降低 Trans-former 的使用成本，同时利用 CNN 等网络的优势，混合Transformer48,49,53,56结合了这些网络.StratifiedTransformer48仅在编

48、码器中使用Tran-sformer，并将编码器的第一层作为点的向量映射层，使用高效的 KPConv27学习点云的局部特征.其在 Transformer 中使用一种具有更好上下文学习能力的分层键采样策略，学习点云的多尺度特征.Segment-Fusion67是一种新的片段特征融合方法，先通过图割算法将点分组成片段，并将点特征融合成片段特征；然后利用基于 Transformer的片段融合网络，融合不同片段的上下文信息，同时将注意力矩阵与邻接矩阵相乘，限制不同分段之间的信息交互.D-former53以扩张的方式在局部和全局范围内交替进行自我注意，在不增加所涉及的补丁的情况下扩大感受野，从而降低计算成

49、本.图 4 总结了上述 4 种点云语义分割方法的异同，其中上半部分展示了应用于三维点云语义分割模型的常见编码器解码器结构，图 4(a)(d)为不同架构网络在编码器中每一层的基本操作.其中卷积网络需先从邻域搜索近邻点，再通过对近邻点卷积操作提取中心点特征；图卷积网络则在卷积之前构建点之间的图关系，再由卷积去学习中心点和近邻点间的相关性；注意力图网络是在图关系的基础上通过注意力机制如缩放点积注意力，提取到中心点与附近不同的近邻点更细微的相关信息；Transformer 用每个点的位置编码取代邻域搜索，在全域使用多头自注意力，再用前馈网络进行特征融合，建立所有点之间的复杂关系，进而学习到更丰富的语义

50、信息.2.5基于其他网络的方法2.5.1无/自监督网络无/自监督网络一般先在大规模未标注的预训练数据集上预训练，学习三维场景表征等代理任务，然后在特定点云数据集上正式训练，学习语义信息，又称“微调”；最后在带标签的测试集上，计算模型预测点级语义标签的准确性.因为这种方法使用的“监督信号”是点云自身的属性，模型的训练不需要人工标注的数据，因此被称为“无监督方法”.近年，Transformer 在点云语义分割上取得巨大进展.为了更好地将标准 Transformer 用跨模态数据训练，Point-BERT50在不改变 Transformer 的架构的前提下，设计了一种自监督训练方法.在预训练阶段，输

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 三维语义分割现状挑战

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。