基于语义分割网络的动态场景视觉SLAM算法_赵凯.pdf
《基于语义分割网络的动态场景视觉SLAM算法_赵凯.pdf》由会员分享,可在线阅读,更多相关《基于语义分割网络的动态场景视觉SLAM算法_赵凯.pdf(7页珍藏版)》请在咨信网上搜索。
1、文章编号:1671-7872(2023)02-0191-07基于语义分割网络的动态场景视觉 SLAM 算法赵凯,李丹,程星,管玲,葛仕全(安徽工业大学 电气与信息工程学院,安徽 马鞍山 243032)摘要:针对传统即时定位与建图(SLAM)算法在动态场景中位姿估计精度不高的问题,提出一种动态场景下基于语义分割网络的视觉 SLAM 算法。通过 RGB-D 相机采集彩色图与深度图,将彩色图输入轻量级语义分割网络 LRASPP,剔除先验动态物体,同时获得语义图;采用多视角几何算法剔除非先验动态物体,分离动静态特征点后得到优化后的位姿,并结合语义图和深度图构建纯静态语义八叉树地图,提高对动态场景的适应
2、能力并直接用于导航系统。公开数据集 TUM 的实验测试结果表明:本文算法的最小绝对定位误差仅 0.007 6 m,相比于 ORBSLAM3 算法,在高动态场景中定位精度提升了 80%以上,并能获取精确的动态区域及准确的语义地图,本文算法在复杂动态场景中具有良好的定位精度和鲁棒性。关键词:即时定位与建图;语义分割;多视角几何中图分类号:TP 242.6文献标志码:Adoi:10.12415/j.issn.16717872.22273Dynamic Scene Vision SLAM Optimization Based on SemanticSegmentation NetworkZHAO Ka
3、i,LI Dan,CHENG Xing,GUAN Ling,GE Shiquan(School of Electrical&Information Engineering,Anhui University of Technology,Maanshan 243032,China)Abstract:Aiming at the problem that the traditional real-time location and mapping(SLAM)algorithm does nothave high accuracy in pose estimation in dynamic scenes
4、,a visual SLAM algorithm based on semantic segmentationnetwork in dynamic scenes was proposed.Firstly,the color map and depth map were collected by RGB-D camera,and the color map was input to the lightweight semantic segmentation network LR-ASPP to eliminate the a prioridynamic objects and obtain th
5、e semantic map at the same time.Then,the multi-view geometry algorithm was used toreject the non-prior dynamic objects,after separating the dynamic and static feature points,the optimized positionand pose was obtained,and the pure static semantic octree map was constructed by combining the semantic
6、map anddepth map to improve the adaptability to dynamic scenes and directly used in the navigation system.The test resultsof the public dataset TUM show that the minimum absolute localization error of the algorithm in this paper is only0.007 6 m.Compared with ORB-SLAM3,the localization accuracy in h
7、ighly dynamic scenes is improved by morethan 80%,and precise dynamic regions and accurate semantic maps can be obtained,which verifies that thealgorithm has good localization accuracy and robustness in complex dynamic scenes.Keywords:simultaneous localization and map building;semantic segmentation;m
8、ulti-view geometry 收稿日期:2022-10-31基金项目:安徽省自然科学基金项目(2108085MF225)作者简介:赵凯(1998),男,江苏南京人,硕士生,主要研究方向为图像处理、机器人建图与导航等。通信作者:李丹(1976),女,安徽马鞍山人,博士,教授,主要研究方向位图像处理与机器人视觉、自主导航等。引文格式:赵凯,李丹,程星,等.基于语义分割网络的动态场景视觉 SLAM 算法 J.安徽工业大学学报(自然科学版),2023,40(2):191-197.Vol.40 No.2安 徽 工 业 大 学 学 报 (自然科学版)第 40 卷 第 2 期April2023J.o
9、f Anhui University of Technology(Natural Science)2023 年4 月即时定位与建图(simultaneous localization and mapping,SLAM)技术作为移动机器人实现真正自主的核心技术之一,在智能移动机器人、无人驾驶等领域发挥着重大的作用1。常用的 SLAM 系统根据使用传感器的不同,可分为激光 SLAM 和视觉 SLAM。视觉 SLAM 主要依靠摄像机传感器数据,融合计算机视觉、深度学习等技术可更好地解决回环检测、语义场景构建等问题,具有简易便携、硬件成本低且定位精度高的优势,已逐步成为 SLAM 研究的主流趋势2。传
10、统视觉 SLAM 有 ORB(oriented fast and rotated brief)-SLAM3、DVO(dense visual odometry)SLAM4和 VINS(visual-inertial system)-SLAM5等,但传统 SLAM 框架皆采用静态环境的刚性假设。客观世界中,存在行人、动物、车辆等动态物体的环境是不可避免的,动态物体上的特征点会影响特征匹配结果,致使算法的鲁棒性和定位精度明显下降。学者们常采用传统机器视觉方法解决动态环境下视觉 SLAM 的定位建图问题。Kim 等6利用 IMU 数据对 RGBD 相机自身运动进行旋转分量的补偿,根据位姿变换后生成空
11、间的运动向量区分图像中的动态特征点;Alcantarilla 等7利用连续图像序列估计相机的粗略位姿,使用粗略位姿计算图像中的稠密 3D 光流,并根据测量的不确定度计算图像间匹配点的马氏距离并剔除外点;Wang 等8对连续图像之间的光流轨迹进行聚类分析,合并拥有相同运动趋势的区域,并假设图像中静态区域占多数,利用面积最大的区域计算出相应的基础矩阵,从而区分动态区域。传统机器视觉方法本身在正确率上存在限制,近年学者们利用卷积神经网络等深度学习方法解决动态环境下的 SLAM 定位建图问题。Yang 等9利用 YOLOv3 进行高动态性的目标分割及移除,在此基础上计算相应基础矩阵判断特征点的真实动态
12、性。以上方法均只能得到先验动态物体的信息,对非先验动态物体的鲁棒性较差。鉴于此,提出一种基于语义分割网络的动态场景下的视觉SLAM 算法,同时构建一个纯静态语义八叉树地图,以期实现复杂动态场景下的精度定位。1基于语义分割网络的 SLAM 算法基于 ORBSLAM310在静态环境下良好位姿估计和定位性能,选择 ORB-SLAM3 作为主体框架,在原有跟踪线程、局部建图线程、回环检测线程的基础上增加语义建图线程,提出一种动态场景下基于语义分割网络的视觉 SLAM 算法,其整体框架如图 1。图 1 中灰色部分为对 ORBSLAM3 的改进部分。利用 RGB-D 相机获取 RGB 图像和深度图像,RG
13、B 图像经 LR-ASPP11(lite reduced atrous spatial pyramid pooling)语义分割网络处理,获得像素级的语义信息,利用语义信息剔除图像中先验动态物体上的特征点;对于图像上剩余的特征点,通过轻量化追踪模块获得当前帧位姿的粗略估计,该模块只用于估计当前帧位姿,不参与后续建图过程;通过多视角几何算法进一步检测非先验动态物体对应的特征点,对多视角几何的检测结果和语义分割网络的检测结果进行交叉验证,得到完整的动态区域,过滤掉动态区域上的特征点后进入跟踪线程,得到更准确的位姿。如果产生关键帧,语义建图线程会根据关键帧的相关数据构建动态场景下的八叉树地图12。1
14、.1动态物体剔除算法语义分割网络可较好地剔除先验动态物体,但对场景中的非先验动态物体区分效果有限,采用多视角几何算法13做进一步处理。提出的动态物体剔除算法流程如图 2。根据关键帧(key frame,KF)之间的运动关系检测动态点,动态点被检测出来后,通过判断是否拥有语义 语义分割网络多视角几何特征点提取创建八叉树地图初始化、重定位或地图重建局部追踪关键帧轻量化追踪模块全局BA优化局部BA优化关键帧的剔除更新节点占据概率插入八叉树地图回环检测与多地图融合彩色图深度图图1系统框架Fig.1System framework192安 徽 工 业 大 学 学 报(自然科学版)2023 年 标签将动态
15、点分为拥有语义信息的动态点和没有语义信息的动态点;对拥有语义信息的特征点在语义图上进行语义轮廓搜索,对没有语义信息的动态点在深度图上进行区域生长,充分利用语义信息减少区域生长种子点的数量,提高系统的运行效率;融合没有语义的动态物体掩膜和拥有语义信息的动态物体掩膜,获得完整的动态物体掩膜。在 KF 间运动检测时,需根据当前帧(currentframe,CF)从 KF 数据库中选取与 CF 重叠度最高的若干 KF13。KF 数据库上限一般设置为 20 个,数据库越大,系统初始化越困难,并影响帧查找的速度;重叠 KF 的选取数同样会影响系统的运行速度和动态物体检测的准确度。本文实验中,设定 KF 数
16、据库上限为 20 个、重叠 KF 为 5 个,作为计算成本和动态物体检测准确性之间的折衷。重叠度的判断标准是 KF 与 CF 的距离和旋转。多视角几何算法的核xxxXx,x,Xlproj心原理如图 313。其中 为被挑选出的重叠 KF 上的关键点,在 CF 坐标系下的投影为,对应的三维点为,计算之间投影深度和角度。lx=lrx+t(1)lxx=0=lxrx+xt(2)xxllXrx理想情况下,式(1)可根据对极几何关系推理出,和 为特征点的归一化坐标,和 为三维点在对应帧坐标系下的深度,为 KF 到 CF 的旋转矩阵,t 为KF 到 CF 的平移向量。将式(1)左乘 的反对称矩阵ll得到式(2
17、),其中 代表反对称矩阵。根据式(2)的左半部分等式求得,根据右半部分等式求得。角度可由式(3)求得。cos =pt|p|t|(3)XpXxlprojll=lprojlzz根据式(2)可求得的深度信息,从而求得其三维坐标。设 为从 KF 相机光心指向的向量,则可根据式(3)求出,同理求出,从而求得。实验测试发现,当 大于某一阈值时,该关键点可能被遮挡,不做处理。小于角度阈值时,获得 CF 中 关键点的深度,并将其与深度图投影得到的 比较,如果超过阈值,即认定其为动态点。经过在 TUM 数据集上的实验测试,=30和=0.2 m。1.2八叉树建图算法ff Ra八叉树地图是通过概率更新地图。存储 来
18、表示节点是否被占据,体素的占据概率可通过反对数变换获得。设,为概率对数;为节点被占据的概率为 01 之间,他们之间的变换可由 logit 变换描述:f=logit(a)=log(a1a)(4)fff到时 afaa八叉树地图观测到某节点被“占据”时,增加,否则 减小。从+,从 0 变到 1。当某节点被反复观察到时,其 值会不断增加,从而 会不断增加,超过设定阈值时,该节点就会被判定为占用,并将在八叉树图中可视化。2实验与结果分析使用 TUM RGB-D 数据集14中关于动态物体的子数据集对本文算法的动态物体剔除、定位和建图效果 拥有语义标签?区域生长输入动态特征点语义轮廓检索动态物体掩膜a动态物
19、体掩膜b动态物体掩膜开始结束YN关键帧间运动检测图2动态物体剔除算法流程图Fig.2Flowchart of dynamic object rejection algorithm XKFCFxxlCFxxlKFXl=lprojlprojl图3多视角几何检测动态点的原理示意图Fig.3Schematic diagram of principle of multi-viewgeometry detection dynamic points第 2 期赵凯,等:基于语义分割网络的动态场景视觉 SLAM 算法193 进行实验评估。TUM RGB-D 数据集的动态物体类子数据集中,数据集 sitting
20、和 walking 的 8 个序列可代表多数动态环境,对传统的 SLAM 系统具有很大挑战性。其中:sitting 序列(下文简称 s 序列)属于低动态环境;walking 序列(下文简称 w 序列)属于高动态环境。对于 2 种类型的序列,相机有 4 种运动模式:按照半径 1 m的半球轨迹移动(halfSphere);相机沿 xyz 轴移动(xyz);相机在滚动、俯仰和偏航轴上旋转(rpy);相机手动保持静止(static)。实验均在 1 台 PC 上进行,CPU 为 AMD Ryzen 3700,内存为 16 GB,GPU 为 RTX 2080,显存为 8 GB,依赖于 OpenCV 4.3
21、.0,PCL 1.12.0 等第三方库。2.1动态物体剔除采用语义分割网络和本文动态物体剔除算法进行动态物体剔除实验的结果如图 4。比较图 4(a)(b)可看出:对于 w_static 序列中某帧场景,两人正从椅子上起身,并将椅子推入桌下,语义分割网络只分割出人的部分,并未分割出被人移动的椅子;语义分割网络增加多视角几何算法后,椅子也得到了有效分割,因在深度图上进行区域生长的,故椅子的下半部分并未得到有效划分。比较图 4(c)(d)可看出:对于w_rpy 序列中某帧场景,两人刚进入相机视野中,正准备移动椅子,因人在相机视野中占比过少,语义分割网络未能成功分割出人和被人拖动的椅子;本文算法同样能
22、够分割出被移动的椅子和人的手的部分,进一步证明了本文算法的有效性和鲁棒性。2.2位姿误差估计利用 evo 工具包对 ORBSLAM3 与本文算法在 w_half 序列上的位姿估计实验结果进行绘制,如图 5,包含整体轨迹、轨迹在xyz 坐标轴上和在rpy 旋转轴上的分量。其中groundtruth 代表真实轨迹,ORB camera trajectory代表 ORBSLAM3 的轨迹,camera trajectory 代表本文算法的轨迹。分析图 5 可看出:ORBSLAM3 的轨迹与真实轨迹偏差较大,两者不能重合,而本文算法的轨迹与真实轨迹基本保持重合;ORBSLAM3 的轨迹在x 和 y 轴
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语义 分割 网络 动态 场景 视觉 SLAM 算法 赵凯
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。