基于对比边界学习的超面片Transformer点云分割网络.pdf
《基于对比边界学习的超面片Transformer点云分割网络.pdf》由会员分享,可在线阅读,更多相关《基于对比边界学习的超面片Transformer点云分割网络.pdf(7页珍藏版)》请在咨信网上搜索。
1、计算机时代 2023年 第9期0 引言点云语义分割对于3D环境理解至关重要,在机器人感知1、室内导航2、增强现实3等领域已受到广泛关注。为了实现大规模室内点云场景语义分割,一方面,考虑到点云边界信息的精确细分对于整体分割性能影响非常大。错误的语义分割不利于建筑工程师更好地理解建筑物的几何结构。另一方面,场景点云过于规模庞大导致其难以直接进行分割网络的有效训练。因此,不同物体边界点/非边界点的有效区分以及如何构建一个高效的语义分割模型是一个亟待解决的问题。近些年,随着大规模室内场景扫描数据集的出现4,针对点云处理的 PointNet网络5被提出,使得直接将点云数据作为神经网络的输入成为可能。随后
2、的PointNet+网络6使用多层级降采样结构以扩大采样点之间的感受野。Wang等7提出了基于动态边缘卷积EdgeConv模块的Dgcnn网络以有效学习邻域点的关系。Landrieu等8提出了一种基于 PointNet和图卷积的点云分割网络SPGraph。Guo等9提出了一种新的基于Transformer的点云学习框架PCT,通过偏移注意力可以更好地学习点云的上下文特征信息。实际上,室内场景中建筑结构和家具物体都具有超面片DOI:10.16644/33-1094/tp.2023.09.016基于对比边界学习的超面片Transformer点云分割网络章益民(浙江理工大学计算机科学与技术学院,浙江
3、 杭州 310018)摘要:为了高效地实现大规模室内点云场景语义分割,针对边界点云的特征信息难以区分、场景点云规模过于庞大而导致其难以直接进行分割网络的有效训练等问题,以超面片为数据表征,结合超面片Transformer模块(SPT)和对比边界学习模块(CBL),提出一种基于对比边界学习的超面片Transformer点云分割网络。针对数据集S3DIS进行训练,实验结果表明,该网络在分割精度上比Dgcnn网络高3.9%,在训练速度方面比SPGraph网络快近100倍,针对大规模室内点云场景分割效果尤为突出。关键词:点云;语义分割;自注意力;超面片Transformer;对比边界学习中图分类号:T
4、P391.41文献标识码:A文章编号:1006-8228(2023)09-75-06Contrastive boundary learning based Transformer network for point cloud segmentationZhang Yimin(School of Computer Science and Technology,Zhejiang Sci-Tech University,Hangzhou,Zhejiang 310018,China)Abstract:For the issue of semantic segmentation for large-sc
5、ale indoor point clouds scenes,it is difficult to distinguish the featureinformation of boundary point clouds and it is challenging to train deep neural networks efficiently due to the vast amount ofpoint clouds data.Taking scene super-patch as data representation,combining the super-patch Transform
6、er(SPT)module and thecontrastive boundary learning(CBL)module,a contrastive boundary learning based Transformer network is proposed.The networkis trained on public datasets S3DIS.The experimental results show that the overall accuracy of the network is 3.9%higher thanthe Dgcnn network,and the networ
7、k training speed is nearly 100 times faster than the SPGraph network.The segmentation effectis outstanding in large-scale indoor point cloud scenes.Key words:point clouds;semantic segmentation;self-attention;super-patch Transformer;contrastive boundary learning收稿日期:2023-04-17作者简介:章益民(1995-),男,浙江金华人,
8、硕士,主要研究方向:计算机图形学、机器学习与深度学习。75Computer Era No.9 2023形状,因此采用结合Transformer结构的场景超面片为数据表征,既可以提升模型学习能力,又能解决硬件资源不足问题。考虑到清晰的边界信息对整体网络分割性能至关重要,Tang 等人10提出了一个新颖的对比边界学习(CBL)框架,通过学习对比场景边界上的点特征,来改善点云全局特征。实验证明对比边界模块CBL 能有效地改善边界分割性能。因此,为了更好地优化网络边界的性能,本文引入对比边界学习模块Contrastive Boundary Learning10以解决语义分割中边界模糊问题。本文主要贡献
9、在于:提出一种适合场景超面片特征提取的Transformer模块(Super-Patch Transformer),该模块可以有效学习场景超面片之间的特征相似度并从几何语义角度提升场景分割的有效性;在Transformer框架中引入对比边界学习策略,有效地提升了场景物体边界点云与非边界点云之间的分割性能;基于CBL模块和SPT模块的超面片网络适合于大规模点云场景的语义分割。1 本文方法为了实现大规模室内场景语义分割,本文提出了基于对比边界学习的超面片 Transformer 分割框架。具体如图1所示。图1整体分割网络框架该网络首先以大规模室内场景点云数据作为输入,利用动态区域增长算法提取室内场
10、景中几何特征一致的点云作为场景超面片;其次在神经网络编码器中借助多尺度结构,有效聚合相邻场景超面片的特征信息,同时通过子场景边界检测模块学习下采样场景的边界标签;然后借助基于多头自注意力机制的超面片 Transformer模块(SPT),学习场景超面片全局特征以及超面片之间的特征相似度;最后在神经网络解码器中通过线性插值上采样操作,给每个超面片分配语义标签,其中上采样过程在边界超面片标签信息指导下,定义了边界超面片与非边界超面片样本对,结合对比边界学习CBL模块中的对比学习损失函数增强边界超面片之间的区分度,最终实现大规模室内场景语义分割。1.1 场景超面片Transformer模块本文采用场
11、景超面片作为场景点云的一种数据表征,可以解决神经网络难以直接训练大规模室内场景点云的问题。由于场景超面片比离散场景点云通常具有更强的几何模型表达能力,为了更好地提取全局特征信息,该模块采用了Transformer结构11。场景超面片Transformer模块可以将输入的场景超面片几何特征映射到更高维的语义隐空间中,从而能够在高维隐空间中有效学习场景超面片之间的相似度。借助Transformer结构学习超面片之间的上下文关系能高效地实现场景的语义分割。1.1.1 场景超面片的生成和特征描述观察发现,室内场景中的人造物体通常是由具有76计算机时代 2023年 第9期高度结构化的超面片构建而成。受到
12、Mattausch等12人工作的启发,本文通过聚类方法提取场景超面片。其中区域增长策略的核心思想是:首先将曲率最大的采样点s作为种子采样点,然后根据种子采样点选择出超面片i外的最近邻采样点p。假如最近邻采样点p满足以下条件:np ns t1(p-s)ns t2(p-q)nq t3#(i)t4则将最近邻采样点p添加到超面片i中,直到超面片中采样点数达到阈值上限t4则选择另外一个种子采样点重复上述操作,直至遍历完场景中所有点云数据为止。其中,q表示依次添加至超面片i中的最后一个采样点,n分别表示相应采样点的法向量,#表示点集中采样点数目。为了有效描述场景超面片特征信息,本文首先通过PCA方法13获
13、取超面片高度、面积、长宽比等;最后利用超面片边界框的质心代表超面片质心。同时,场景超面片特征还可以包括PCA法线、颜色、面积填充比等特征信息。具体描述如表1所示,包含丰富特征信息的超面片将有助于神经网络更好地学习场景超面片之间的语义关系。表1超面片特征描述符超面片特征PpPnPcPhPrPaPf含义质心PCA法向量颜色高度长宽比面积面积填充比1.1.2 超面片Transformer结构为了在高维语义隐空间中有效地学习场景超面片之间的相似度,本文堆叠了四个偏移注意力模块构造出超面片Transformer模块(SPT)用于学习超面片的几何特征。如图2所示,给定输入的场景超面片数据i RNi(3+d
14、i),其由Ni个包含di维特征信息和三维的质心坐标的场景超面片组成。借助四个自注意力层得到输出特征Fo RNo do,其中de=da=do/4,公式如下:F1=AT1(Fe)Fi=ATi()Fi-1,i=2,3,4Fo=concat(F1,F2,F3,F4)Wo其中,ATi代表第i层的注意力层,Wo代表线性层权重。图2超面片Transformer模块(SPT)自注意力机制的核心思想是首先通过对输入数据做线形变换得到查询矩阵和键值矩阵以及值矩阵,接着通过矩阵点乘运算与归一化操作计算输入数据之间的相关性得到注意力矩阵。如式所示,自注意力层输出向量Fsa是值向量V与相应的注意力矩阵权重A的加权和。如
15、式所示,为了加强输出特征与输入特征之间的关联性,将经过线性变换的自注意力特征Fsa与输入特征Fi进行相加得到最终的输出特征:Fsa=A VFo=SA()Fi=Relu(BN()MLP()Fsa)+Fi如图3所示,本文采用PCT网络9中偏移注意力代替自注意力方式加强点云在 Transformer 中的性能。偏移注意力层通过矩阵减法计算自注意力输出特征与输入特征之间的偏移量,算式如下:Fo=OA()Fi=Relu(BN()MLP()Fi-Fsa)+Fi图3偏移注意力模块偏移注意力采用softmax函数和归一化函数实现,具体公式如下:(o)i,j=softmax()oi,j)=exp(o)i,j)e
16、xp(o)k,j)()i,j=(o)i,jk(o)k,j采用偏移注意力模块具有以下几点明显的优势。可以有效地获取到输入特征与自注意特征的差异;77Computer Era No.9 2023支持并行计算的能力,将更多的算力运用到注意力高的特征中,提高了模型的解释性。1.2 对比边界学习模块为了改善边界分割性能,本文采用将边界信息嵌入到对比学习中。首先在下采样过程中采用子场景边界检测模块学习边界超面片语义标签,然后在各个阶段的超面片语义标签指导下,结合对比边界学习模块(CBL)10的损失函数进行模型的优化调整,最后实现边界超面片与非边界点超面片的良好区分,进而改善边界细分质量。1.2.1 对比边
17、界学习模块为了确定真实场景和预测场景中边界超面片。如式,在真实场景中,假如超面片i符合其邻域内存在三个不同语义类别的超面片j,本文将其定义为边界超面片Bl;相似地,在预测场景中,倘若一个超面片i邻域内存在不同语义类别的超面片j,本文将其则定义为边界预测超面片Bp。Bl=i|j Ni,lj liBp=i|j Ni,pj pp其中,Ni代表以超面片i为中心的邻域超面片。lj代表邻域超面片的真实标签,而pj代表邻域超面片的预测标签。为了更好地区分边界超面片与非边界超面片,本文采用InfoNCE loss14损失函数进行学习。其核心思想是通过计算超面片之间特征距离表示边界超面片与非边界超面片之间的差异
18、性,实现语义类别相同的邻域超面片相互靠近,而语义类别不同的邻域超面片严格区分。如下面公式所得:LCBL=-1|Bl|i Bllogj Nilj=liexp(-d(fi,fj)/)k Niexp(-d(fi,fk)/)其中,fi代表超面片i的面片特征,d是距离函数,是对比学习中的温度系数。本文将与中心超面片i的语义标签相同的邻域超面片j定义为正样本,而与i语义标签不同的邻域超面片j则定义为负样本。根据对比边界学习损失函数,计算损失以增强场景边界超面片之间的特征区分度。这极大地改善了边界区域分割效果。1.2.2 子场景边界检测模块针对点云降采样过程中使用最远点采样FPS15算法会导致下采样超面片的
19、语义标签难以确认的问题。本文采用在多尺度结构中嵌入子场景边界检测模块以确认每一个降采样阶段的真实的边界超面片语义标签。该模块的主要思路是针对第n个下采样阶段第i个超面片ni,其中上标表示阶段。首先通过Knn16算法为其在n-1下采样阶段中获取邻域超面片Nn-1(ni)(如图1中的黑色虚线圆);接着通过平均池化函数AVG,聚合邻域超面片的标签信息;最后通过迭代方式确定不同子采样阶段的真实语义标签。具体如下:lni=AVG(ln-1j|n-1j Nn-1(ni)本文采用 argmaxlni来评估公式 13 中的边界点。在子场景边界检测模块的帮助下,将下采样超面片ni的特征以及标签信息作为等式15对
20、比边界优化的输入参数。将对比边界学习CBL模块应用到每个阶段中,计算最终的损失为下列公式所示:L=Lcross-entropy+nLnCBL其中,Lcross-entropy是交叉熵损失函数,而LnCBL是第n阶段中的CBL损失。是损失权重,用于表征不同层产生损失的重要性。2 实验结果与分析2.1 数据集本文采用数据集S3DIS4中Area2与Area5分别作为测试集来验证网络框架的性能。该数据集中包含六个大规模的室内区域,共含 272个房间,每个房间都包含真实语义标注的 3D 点云,共 13种语义类别。其中Area2中包含千万规模级别的大剧院场景,每个剧院场景中具有较多重复结构的建筑元素。2
21、.2 本文网络的分割效果本文网络高效地实现了大规模场景语义分割效果。如图 4给出 Area2中剧院场景的语义分割效果。点云分割结果既保持场景的完整结构,又能保持不同物体形状的边界较清晰(详见椭圆处),如墙与地板、门与墙、墙与天花板之间的分割效果。尤其对于大量重复结构的椅子和墙以及天花板分割效果最佳。从走廊场景效果图中可以看出,绝大部分建筑元素均能被精确分割并能保证其结构信息的完整性。尤其对墙元素,在受到柱子和梁强干扰的情况下仍然能有效地分割出来,表现出网络强干扰性。同时(如图5),对于会议室、办公室、大厅等小规模点云场景点云场景,本文网络表现出较强的边界区分能力,分割效果呈现78计算机时代 2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 对比 边界 学习 超面片 Transformer 分割 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。