基于多任务联合学习的跨视角地理定位方法_王先兰.pdf
《基于多任务联合学习的跨视角地理定位方法_王先兰.pdf》由会员分享,可在线阅读,更多相关《基于多任务联合学习的跨视角地理定位方法_王先兰.pdf(11页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1625-1635ISSN 1001-9081CODEN JYIIDUhttp:/基于多任务联合学习的跨视角地理定位方法王先兰1,周金坤1,穆楠2,王晨3*(1.武汉邮电科学研究院,武汉 430074;2.四川师范大学 计算机科学学院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)(通信作者电子邮箱)摘要:针对现有跨视角地理定位方法中视点不变特征与视角转换方法割裂导致的性能提升瓶颈问题,提出多任务联合学习模型(MJLM)。MJLM由前置图像生成模型和
2、后置图像检索模型组成。前置生成模型首先使用逆透视映射(IPM)进行坐标变换,显式地弥合空间域差,使投影图像与真实卫星图的空间几何特征大致相同;然后通过提出的跨视角生成对抗网络(CVGAN)隐式地对图像内容及纹理进行细粒度的匹配和修复,并合成出更平滑且真实的卫星图像。后置检索模型由多视角多监督网络(MMNet)构成,能够兼顾多尺度特征和多监督学习的图像检索任务。在University-1652(无人机定位数据集)上进行实验,结果显示MJLM对无人机(UAV)定位任务的平均精确率(AP)及召回率(R1)分别达到 89.22%和 87.54%,与 LPN(Local Pattern Network)
3、和 MSBA(MultiScale Block Attention)相比,MJLM在R1上分别提升了15.29%和1.07%。可见,MJLM能在一个聚合框架体系内联合处理跨视角图像生成任务及检索任务,实现基于视角转换与视点不变特征方法的融合,有效提升跨视角地理定位的精度和鲁棒性,验证UAV定位的可行性。关键词:跨视角地理定位;无人机图像定位;视角转换;特征提取;深度学习中图分类号:TP391.4 文献标志码:ACross-view geo-localization method based on multi-task joint learningWANG Xianlan1,ZHOU Jinku
4、n1,MU Nan2,WANG Chen3*(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan Hubei 430074,China;2.College of Computer Science,Sichuan Normal University,Chengdu Sichuan 610101,China;3.Nanjing Fiberhome Tiandi Communication Technology Company Limited,Nanjing Jiangsu 210019,China)Abstract:Mu
5、lti-task Joint Learning Model(MJLM)was proposed to solve the performance improvement bottleneck problem caused by the separation of viewpoint-invariant feature and view transformation method in the existing cross-view geo-localization methods.MJLM was made up of a proactive image generative model an
6、d a posterior image retrieval model.In the proactive generative model,firstly,Inverse Perspective Mapping(IPM)for coordinate transformation was used to explicitly bridge the spatial domain difference so that the spatial geometric features of the projected image and the real satellite image were appr
7、oximately the same.Then,the proposed Cross-View Generative Adversarial Network(CVGAN)was used to match and restore the image contents and textures at a fine-grained level implicitly and synthesize smoother and more real satellite images.The posterior retrieval model was composed of Multi-view and Mu
8、lti-supervision Network(MMNet),which could perform image retrieval tasks with multi-scale features and multi-supervised learning.Experimental results on Unmanned Aerial Vehicle(UAV)dataset University-1652 show that MJLM achieves the Average Precision(AP)of 89.22%and Recall(R1)of 87.54%,respectively.
9、Compared with LPN(Local Pattern Network)and MSBA(MultiScale Block Attention),MJLM has the R1 improved by 15.29%and 1.07%respectively.It can be seen that MJLM processes the cross-view image synthesis and retrieval tasks together to realize the fusion of view transformation and viewpoint-invariant fea
10、ture methods in an aggregation,improves the precision and robustness of cross-view geo-localization significantly and verifies the feasibility of the UAV localization.Key words:cross-view geo-localization;Unmanned Aerial Vehicle(UAV)image localization;view transformation;feature extraction;deep lear
11、ning0 引言 跨视角地理定位(cross-view geo-localization)指从不同视角(如地面、无人机(Unmanned Aerial Vehicle,UAV)、卫星视角)检索相似度最高的图像,将无地理标记的图像与数据库中有地理标记的图像进行匹配,从而实现定位任务1-4,被广文章编号:1001-9081(2023)05-1625-11DOI:10.11772/j.issn.1001-9081.2022040541收稿日期:2022-04-18;修回日期:2022-07-04;录用日期:2022-07-05。基金项目:国家自然科学基金资助项目(62006165)。作者简介:王先兰
12、(1969),女,湖北荆州人,高级工程师,主要研究方向:人工智能、数据通信;周金坤(1995),男,湖北荆州人,硕士研究生,主要研究方向:深度学习、计算机视觉;穆楠(1991),男,河南南阳人,讲师,博士,主要研究方向:图像处理、计算机视觉;王晨(1979),男,江苏南京人,高级工程师,硕士,主要研究方向:网络安全、深度学习。第 43 卷计算机应用泛应用于航空摄影、机器人导航、精准交付5-6等领域。在数字地图时代,通常需要估计给定图像的空间地理位置,随着计算机视觉技术的发展,基于跨视角图像匹配的跨视角地理定位技术成为一种有效且稳定的解决方案。早期的跨视角地理定位研究是基于地面视图(平行视角)和
13、卫星视图(垂直视角)之间的图像匹配7-13。然而,这两个视图图像的成像方式有很大不同:摄像机于地面的拍摄角度近乎平行于地平线,与卫星的拍摄角度近乎垂直于地平线。由于地面和空中视图之间视点的剧烈变化会导致严重的空间域差(domain gap)问题,因此,跨视图地理定位仍然是一项非常具有挑战性的任务。随着无人机技术的发展,它已被广泛应用于各个领域,如植被细分14、车辆监测15、建筑提取16等。与传统的地面图像相比,无人机图像的遮挡物更少,它提供了接近45视角的真实视点。倾斜视角相较于平行视角更接近垂直视角,这更适合跨视角地理定位。因此,为了弥补地面-卫星跨视角地理定位方法的不足,Zheng 等17
14、引入无人机视角,通过无人机图像与卫星图像匹配解决跨视角地理定位的问题。此外,它还可适用于两个新应用:1)无人机定位,即给定无人机图像,在参考卫星图像中检索相同位置的图像;2)无人机导航,即给定卫星图像,在无人机图像中找到它经过的最相关位置图像,如图1所示。其中:A表示给定无人机视图,查询对应卫星视图,执行无人机定位任务;B表示给定卫星视图,查询对应无人机视图,执行无人机导航任务。然而,无人机视图(倾斜视角)和卫星视图(垂直视角)之间的图像匹配算法仍处于探索阶段。目前,用于上述两种应用的现有跨视角地理定位方法17-25大多只学习基于图像内容的视点不变特征,并没有考虑无人机与卫星视图之间的空间对应
15、关系。Zheng等17将无人机视角引入跨视图地理定位问题中提出的University-1652数据集包含了地面街景、无人机、卫星三个视图的图像。他们首次将跨视角图像匹配方法应用在无人机视图与卫星视图的匹配中,取得了不错的效果,实现了无人机定位和导航任务。但该方法忽略了邻近区域的上下文信息,因此Wang等18采用方形环特征切分策略实现了上下文信息的端到端学习。He等19基于显著性特征将特征划分为前景与背景,利用背景特征作为辅助信息,使图像更具鉴别性。Ding等20提出了一种基于位置分类的跨视角图像匹配方法,缓解了卫星图像与无人机图像之间输入样本不平衡带来的影响。为了减小图像缩放、偏移对图像匹配的
16、影响,Zhuang等21改进了Wang等18提出的方形环特征切分策略,此外还利用注意力机制提取更加有效的特征;Dai 等22引入Transformer作为骨干网,提取图像的热力图,然后基于热力图进行特征切分、对齐、匹配,以增强模型理解上下文信息和实例分布的能力。田晓阳等26首次将视角转换方法引入无人机-卫星跨视角地理定位中,在 LPN(Local Pattern Network)18检索模型基础上显著提升了无人机定位和导航性能;但该方法将视角转换模型割裂地视为视点不变特征检索模型和预训练模型,两个模型的训练彼此独立,未充分发挥神经网络的联合学习功能。周金坤等25在统一的网络架构下学习全局和局部
17、特征,以多监督方式训练分类网络并执行度量任务,同时提出多视角平衡采样策略以及重加权正则化策略来缓解数据集视角样本不平衡导致的训练问题。以上方法均直接提取无人机视图和卫星视图间几何一致且显著的视点不变特征,但依然难以消除域差过大带来的视觉外观畸变、空间布局信息缺失等影响。因此,本文将视角转换方法应用于无人机与卫星图像间的跨视角地理定位中,采用视角转换模型与视点不变特征提取模型联合训练的方式,为无人机定位和导航任务提供新的思路。本文针对视点不变特征与视角转换方法割裂导致的性能提升瓶颈问题,从决策级层面出发,以深度特征对抗决策为 基 础,提 出 了 多 任 务 联 合 学 习 模 型(Multi-t
18、ask Joint Learning Model,MJLM)。MJLM的主要思想是在一个聚合框架体系内联合处理跨视角(无人机-卫星视图)图像生成任务以及检索任务,实现基于视角转换与视点不变特征方法的融合。具体来说,本文将给定的一对无人机图像和卫星图像映射到它们的潜在特征空间并建立联系,使用这些特征来完成这两个任务。一方面,后置检索任务确保生成卫星图的内容和纹理无限接近于真实卫星图;另一方面,前置生成任务使MJLM在两个视域之间学习几何一致的特征,初步弥合空间域差,这将有利于无人机定位任务。MJLM是一个端到端的方法,通过无人机图像创建类似真实的卫星图,并同时匹配相应的真实卫星图从而实现无人机定
19、位任务。此外,不同于地面与卫星视图间的相关工作13,27-29,本文通过探索无人机-卫星目标场景的几何结构,使用经逆透视映射(Inverse Perspective Mapping,IPM)坐标变换后的无人机图像作为跨视 角 生 成 对 抗 网 络(Cross-View Generative Adversarial Network,CVGAN)的输入,因为透视变换后的图像与卫星图像的空间布局更为接近。本文的主要工作如下:1)提出了无人机视图与卫星视图间的跨视角图像生成模型。2)结合显式的基于 IPM 的坐标转换方法与隐式的生成对抗方法,在不依赖任何先验语义信息的情况下,基于无人机图像生成内容真
20、实、平滑且几何空间一致的卫星图像。3)提出了多任务联合学习模型 MJLM 实现无人机定位任务。该模型联合考虑图像生成和检索任务,将两个任务集成到一个聚合架构中,将视角转换方法应用在卫星与无人机间的跨视角匹配任务中,初步弥合了空间域差,实现了与视点不变特征方法的融合。4)在最新提出的无人机数据集University-1652上进行了大量实验验证,结果显示本文方法相较于基线方法有了很大的性能提升,相较于现有跨视角地理定位方法取得了最优性能。此外,实验结果表明本文方法可以作为现有工作的补充,与先进方法融合可以进一步提高性能。图1无人机图像定位和导航任务示意图Fig.1Schematic diagra
21、m of UAV image localization and navigation tasks1626第 5 期王先兰等:基于多任务联合学习的跨视角地理定位方法1 多任务联合学习模型 本文提出的多任务联合学习模型 MJLM 由前置图像生成模型(网络架构如图 2 所示)和后置图像检索模型组成。首先,通过IPM将无人机图像进行坐标转换,使它的内容映射到近似于卫星视角的投影卫星图,实现无人机图像从倾斜视角到垂直视角的初步转换;然后,将投影卫星图通过CVGAN生成内容保留、纹理真实的生成卫星图(垂直视角);最后,通过后置检索模型进行生成卫星图与真实卫星图的图像匹配,学习更显著的视点不变特征。MJLM
22、将这些模块聚合在一起,相互激励,实现端到端的无人机定位。1.1基于IPM的坐标变换无人机视图与卫星视图由于视角不同,存在着巨大的空间域差,直接采用神经网络隐式地学习不同视角域的映射可能会存在收敛过慢、拟合效果不好等问题。本文采用了一种基于IPM的坐标转换算法,显式地通过IPM将无人机图像映射为卫星图像,可以粗略地缩小两个视域的几何空间域差。透视变换可以看成是一种特定的单应性变换,可以将同一个三维物体分别投影到2个不同投影平面下的2幅图像联系起来。常采用逆透视映射实现这种二次投影变换。逆透视映射在数学上为透视变换的逆过程,可以消除由于透视效应引起的“近大远小”问题,将具有透视形变的斜投影图变为正
23、投影图。考虑到数据集University-165217中的图像并未提供摄像机参数或者平面位置的任何信息,无法根据摄像机参数模型进行逆透视映射。而数据集中提供了以每个目标建筑点为中心的无人机视图和卫星视图,所以本文可以利用对应点对单应变换法进行逆透视映射。令无人机图的像空间坐标系统绕Y轴旋转,绕X轴旋转,绕Z旋转后可以得到与卫星图像空间坐标系平行的坐标系(如图3所示),经平移即可实现两者重合。则两者关系如式(1)所示:|xy0=RRR|xy0+T(1)其中:T=xtytztT是平移矩阵;RRR为3 3的旋转矩阵,可表达为:|xy0=|a11a12a13xta21a22a23yta31a32a33
24、zt|xy01(2)经变换得:|xy1=|a11a12a13a21a22a23a31a32a33|xy1(3)其中:A=aij3 3为透视变换矩阵;x,y,1T为转换后的目标点坐标,即无人机图Is通过透视变换生成的投影卫星图Ips。将式(3)变换为等式形式,输入图像与输出图像的对应关系为:()x,y=()XZ,YZ=()a11x+a12y+a13a31x+a32y+a33,a21x+a22y+a23a31x+a32y+a33(4)其中:(x,y)为源图像坐标,即无人机图Iu(斜向视角)坐标;(x,y)为目标图像坐标,即投影卫星图Ips(垂直视角)坐标。按照对应点对单应变换法原理,只需要找到变换
25、前后的4个点对坐标并求出透视变换矩阵即可实现无人机视角到卫星视角的逆透视映射,其中4个点中任意3点不能在同一直线上。透视变换的实质是将图像重新投影到另一个平面上。为了便于透视变换的训练,前置生成模型将转换后的无人机图像大小限制为与卫星图像大小相同。本文会在在源图像和目标图像之间找到4个基本坐标点对,将透视变换矩阵A中的a33设为1,对8个未知量解8个方程,得到映射矩阵,最后对剩下的点进行反向映射插值。鉴于张建伟等30提出的对于不同倾斜视角,仅改变a31、a13两个参数即可实现各个角度的正投影结论,本文结合University-1652数据集的无人机图像数据特性,在找到可靠的其他 6个参数的情况
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 任务 联合 学习 视角 地理 定位 方法 王先兰
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。