基于Mask R-CNN倾斜影像筛选的建筑物三维模型高效重建方法.pdf
《基于Mask R-CNN倾斜影像筛选的建筑物三维模型高效重建方法.pdf》由会员分享,可在线阅读,更多相关《基于Mask R-CNN倾斜影像筛选的建筑物三维模型高效重建方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、基于 Mask R-CNN 倾斜影像筛选的建筑物三维模型高效重建方法樊孝常,梁玉斌,杨阳,崔铁军(天津师范大学 地理与环境科学学院,天津 300387)摘要:为了解决村镇区域建筑实景三维建模效率低下的问题,提出一种基于影像筛选的三维模型重建方法.首先,利用网络开源的建筑检测数据集训练 Mask R-CNN 神经网络模型;其次,利用训练好的神经网络模型筛选包含建筑的倾斜影像;最后,使用下视影像和筛选的倾斜影像对研究区进行三维重建.本研究使用 Mask R-CNN 神经网络模型从 9 775 张无人机影像中自动筛选出 7 451 张包含建筑的影像.实验结果表明,基于影像筛选的增量式三维重建法比常规
2、方法节省了 49.4%的数据处理时间,其空三重投影均方根误差和密集重建结果与常规方法一致.关键词:无人机;倾斜摄影测量;Mask R-CNN 神经网络;影像筛选;运动结构恢复算法中图分类号:P231文献标志码:A文章编号:1671-1114(2023)05-0044-07收稿日期:2022-06-17基金项目:天津师范大学研究生科研创新资助项目(2022KYCX076Y);天津市研究生科研创新资助项目(2022SKYZ269).第一作者:樊孝常(1998),男,硕士研究生.通信作者:梁玉斌(1983),男,讲师,主要从事无人机摄影测量与三维激光扫描测量方面的研究.E-mail:.Efficie
3、nt 3D reconstruction of building models based on oblique imagefiltering using Mask R-CNN neural networkFAN Xiaochang,LIANG Yubin,YANG Yang,CUI Tiejun(College of Geographic and Environmental Sciences,Tianjin Normal University,Tianjin 300387,China)Abstract:To address the issue of low efficiency in the
4、 3D modeling of rural areas,a 3D model reconstruction method based onimagescreeningwasproposed.Tobegin,a MaskR-CNNneuralnetwork modelswastrained with the web忆sopen source buildinginspection dataset.The neural network model from the preceding phase was then used to filter the oblique images of the re
5、searchregionforimagescontainingbuildings.Finally,downviewimagesandfilteredobliqueimageswere usedtomodel the study area.7451imageswerefilteredfrom9775UAVimagestoparticipatein3DreconstructionbyMaskR-CNNneuralnetworkmodel.Theexperimentalresultsshowedthatthe proposedmethodsaves49.4%ofdataprocessingtimec
6、omparedwiththetraditionalmethod.The root mean square errorof the aerial triangulation reprojection result and dense reconstruction results of this research methodwereconsistentwithconventionalmethods.Keywords:unmanned aerial vehicle(UAV);oblique photogrammetry;Mask R-CNN neural network;image filteri
7、ng;stru-cture from motion(SFM)第 43 卷第 5 期2023 年 9 月天 津 师 范 大 学 学 报(自 然 科 学 版)Journal of Tianjin Normal University(Natural Science Edition)Vol.43 No.5Sep.2023doi:10.19638/j.issn1671-1114.20230507建筑物三维模型在城市规划、灾害分析和应急响应等领域具有广泛应用.常见的三维建模方式主要包括三维建模软件手工建模、三维激光扫描点云建模和摄影测量技术建模.手工建模需要研究人员基于点线面进行模型构建,建模过程耗时耗力
8、;而激光扫描建模设备昂贵,数据采集过程复杂1.随着无人机(unmanned aerial vehicle,UAV)技术的快速发展,其成本低、时效高、响应迅速的优势日益显现2-3.无人机数据在各领域的应用越来越广泛4-5.运动结构恢复算法(structure from motion,SFM)和多视图立体匹配算法(multi view stereo,MVS)的不断完善,使基于无人机影像的摄影测量技术能够更好地实现实景三维模型的重建6-7.无人机影像构建的实景三维模型在施工场地土方测量和公路边坡灾害识别等各个方面都有较强的实用性8.建筑物是三维模型的重要组成部分,倾斜影像增加了建筑物的立面纹理结构信
9、息,逐渐成为建筑实景三维建模的主要数据来源9-10.然而,与常规航空影像相比,倾斜影像显著增加了摄影第 43 卷第 5 期测量数据处理的复杂性,如何高效准确地构建建筑物三维模型成为摄影测量的研究热点11-13.李大军等14应用 Mask R-CNN 神经网络识别无人机影像中的建筑目标,发现它比传统航空影像的建筑识别更加高效与智能.陈丽君15改良传统 MaskR-CNN 算法,增加了训练模型的稳健性,提高了识别建筑影像的准确率.邵振峰16提出了一种基于航空立体像对的人工目标三维提取与重建方法,研究开发了一体化立体影像平台,通过平台实现了部分复杂建筑目标的三维提取与重建.传统倾斜摄影测量实景三维建
10、模方法利用全部影像进行建模,普遍适用于建筑密度高的城市区域,但对于建筑密度较低的村镇区域来说,该方法未能充分利用照片内含的语义信息,引入了大量非建筑区域的非必要同名点,降低了三维重建的效率.因此,本研究将深度学习技术与摄影测量技术结合,在图像匹配之前筛选包含建筑的影像,在不损失建筑物模型信息和精度的前提下,提高建筑物三维建模的效率.1研究方法本研究将深度学习技术与摄影测量技术相结合,首先利用深度学习技术构建并训练 Mask R-CNN 神经网络模型,使用该模型剔除倾斜影像中不包含建筑的影像,然后将筛选出的影像与下视影像结合,组成参与建模的影像集.利用摄影测量技术进行建模,研究出一种不降低最终建
11、模精度且有效减少模型构建时间的方法.本研究过程主要包括 6 个部分,分别为数据获取、数据准备、Mask R-CNN 神经网络模型的构建及训练、含建筑影像筛选、三维重建和对比评估,具体技术流程如图 1 所示.1.1影像筛选Mask R-CNN 神经网络结构识别建筑目标的流程主要包括 4 个部分:淤 特征提取,将影像输入 CNN 网络提取特征;于 获得建议框,通过区域生成网络得到影像目标的可能位置,用矩形建议框标记;盂 分类和回归,利用感兴趣对齐层对建议框微调,得到较为准确的目标位置及大小;榆 像素分割,以像素级形式分割 ROI,并按类别划分其像素,具体流程如图 2 所示.1.2摄影测量三维重建根
12、据构建方式的不同,将 SFM 分为增量式 SFM与全局 SFM.增量式 SFM 在三维重建过程中能够逐渐增加参与迭代计算的影像数量,直至所有影像都参与模型的构建.为使三维重建更具稳健性,本研究采用增量式 SFM 构建方法.首先对研究区进行影像识别,获取输入影像包含的内参数信息;然后进行特征提取与构建图像对.使用尺度不变特征变换算法(scale-invariantfeature transform,SIFT)及其改进算法进行特征提取,增强匹配的稳健性.本研究在特征匹配之前,根据POS 信息将影像两两生成匹配对,控制影像匹配的数量;之后进行特征匹配,按照生成的影像匹配对逐个进行匹配.影像匹配结束后
13、,利用 RANSAC 算法剔除误匹配的特征点,得到可靠的匹配点.在上述过程的基础上进行增量式重建,得到优化后的影像参数及初始的空间点;最后进行三维点上色与重新三角化,根据对应影像位置的颜色对三维点进行上色处理,得到三维稀疏点云模型.2实验与分析本研究的数据处理过程均在 Dell Precision Tower7810 工作站中完成,工作站操作系统为 Windows 10专业工作站版,处理器为 Intel Xeon E5-2630,内存为128 GB,同时配有 NVIDIA Quadro M4000 的显卡.使用图 1技术流程图Fig.1Technical scheme倾斜摄影测量数据获取POS
14、 数据下视影像集合倾斜影像集合预处理测量坐标系下的 POS 数据近邻计算影像匹配对相机检校参数同名点集合测区稀疏点云模型照片内外方位元素增量式 SFM 三维重建核线约束的特征点稳健匹配特征点及特征描述集合包含建筑的倾斜影像初始 Mask R-CNN神经网络模型训练用于影像筛选的神经网络模型特征点提取神经网络模型训练图 2Mask R-CNN 建筑目标检测流程图Fig.2Flowchart of Mask R-CNN detection影像特征图ROI 对齐层全连接层类型边框目标分割建议框1伊1 卷积1伊1 卷积3伊3 卷积主干提取网络区域生成樊孝常,等:基于 Mask R-CNN 倾斜影像筛选
15、的建筑物三维模型高效重建方法45窑窑天 津 师 范 大 学 学 报(自 然 科 学 版)2023 年 9 月Python3.6、CUDA9.0、cuDNN7.0.5、TensorFlow-GPU1.9.0和 Keras2.16 进行实验环境的搭建.2.1研究区概况与数据说明研究区位于广西省来宾市武宣县(23毅37忆9义N23毅39忆26义N,109毅39忆24义E109毅42忆27义E),东西长约为5.7 km,南北宽约为 4.7 km,总面积约为 9.1 km2.研究区是平坦的乡村区域,主要包含大片的农作物种植区、零散分布的村落、道路、裸地、树林和水塘等.研究区卫星影像信息如图 3 所示.2
16、018 年秋季,使用垂直起降的固定翼无人机搭载倾斜摄影系统采集影像数据.研究区每个镜头均拍摄 1 955 张影像,5 个镜头共获得 9 775 张影像.摄像机 15 号镜头分别对应无人机飞行方向的后、前、右、左、下 5 个方向.无人机同时搭载有 GPS/INS 组合系统,能够准确获取航测时曝光点位的 POS 数据.POS数据包含 2 部分内容:一部分记录每个曝光点位的绝对位置;另一部分记录无人机在每个曝光点位相对于导航坐标系的飞行姿态,即每个曝光时刻该无人机的侧滚角 渍、俯仰角 棕、偏航角 资.无人机影像在研究区的 POS 分布如图 4 所示.由图 4 可以看出,影像的曝光点位均匀分布于研究区
17、内,无人机每条航线间相互平行.本研究首先用 CrowdAI 官方提供的用于 MapChallenge 比赛的数据集(数据集 1)进行预训练17,该数据集包含了针对建筑物的大量人工标注完善的卫星影像瓦片,将这些数据用于神经网络的预训练,可使模型从卫星影像中初步识别包含建筑的区域.数据集 1 共包括训练集、验证集和测试集 3 个部分.训练集部分标注了 280 741 张影像瓦片,验证集部分标注了60 317张影像瓦片,测试集没有标注.卫星图像标注示例如图 5 所示.不同于数据集 1 的影像区域,研究区内不仅建筑分布分散,地表还增加了许多绿色植被,需要人工标注出具有研究区特色的数据集(数据集 2),
18、进一步训练神经网络模型.数据集 2 是对无人机下视影像进行人工标注后获得的瓦片数据,包括 2 306 张训练集瓦片,600 张验证集瓦片.无人机影像数据标注示例如图 6 所示.2.2建筑实例分割2.2.1神经网络模型的训练数据集 1 含有大量建筑密集的影像瓦片,故使用数据集 1 进行模型的预训练.预训练共包括 160 轮,每轮训练 1 000 步.预训练过程训练集及验证集的损失分布如图 7 所示.图 3研究区卫星影像图Fig.3Satellite image map of the studied area109毅39忆0义E109毅40忆0义E109毅41忆0义E109毅42忆0义E109毅4
19、3忆0义E109毅39忆0义E109毅40忆0义E109毅41忆0义E109毅42忆0义E109毅43忆0义E02km1研究区域图 4研究区 POS 分布图Fig.4POS distribution map of the studied area109毅39忆0义E109毅40忆0义E109毅41忆0义E109毅42忆0义E109毅43忆0义E109毅39忆0义E109毅40忆0义E109毅41忆0义E02km1研究区域图 5卫星图像数据标注示例Fig.5Example of satellite image annotation曝光点位N109毅42忆0义E109毅43忆0义E46窑窑第 43
20、 卷第 5 期由图 7 可以看出,模型训练在 065 轮之间损失值逐渐降低,准确度逐渐提升;而 65 轮之后的训练由于训练次数过多,出现模型过拟合的现象.其中,在第62 轮时取得最低验证集损失值,将第 62 轮得到的权重文件作为预训练部分的结果.使用数据集 2 进行模型的精准训练,将预训练获得的权重文件作为训练的初始权重文件,在此基础上进行 29 轮训练,每轮训练 100 步.精准训练过程训练集及验证集的损失分布如图 8 所示.由图 8 可以看出,模型在第 24 轮时取得最低验证集损失值,将第 24轮得到的权重文件作为精准训练部分的结果.Mask R-CNN 神经网络预测模型的最终训练集损失值
21、为0.683,验证集损失值为 1.033.2.2.2影像筛选将倾斜影像剪切成能够输入神经网络尺寸(300 伊300 像素)的瓦片,利用 Mask R-CNN 神经网络预测模型对倾斜影像进行筛选.为保证最终模型的完整性,该步骤只对后、前、右、左 4 个方向镜头的影像做筛选,下视影像全部保留参与重建.每个镜头筛选影像用时分别为 47.02、47.03、46.42 和 48.25 min,均在47 min 上下波动;每个镜头筛选出包含建筑的影像的数量分别为 1 359、1 367、1 361 和 1 409 张,共 7 451张无人机影像用于研究区三维模型的构建.图 9 为 2 组单幅影像神经网络建
22、筑识别的效果展示.由图 9 可以看出,神经网络识别出的建筑分布与影像中实际建筑分布情况基本一致,神经网络的建筑检测结果符合影像的真实情况.图 6无人机影像数据标注示例Fig.6Example of UAV image data annotation(a)训练集1.601.200.800.400训练轮数/轮1604060120(b)验证集1.501.301.100.900.700训练轮数/轮1604060120图 7预训练损失分布图Fig.7Distribution of pretraining loss(a)训练集1.301.100.900.700训练轮数/轮2551520(b)验证集1.26
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于Mask R-CNN倾斜影像筛选的建筑物三维模型高效重建方法 基于 Mask CNN 倾斜 影像 筛选 建筑物 三维 模型 高效 重建 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。