基于重复性和特异性约束的图像特征匹配.pdf
《基于重复性和特异性约束的图像特征匹配.pdf》由会员分享,可在线阅读,更多相关《基于重复性和特异性约束的图像特征匹配.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 年 8 月 图 学 学 报 August2023第 44 卷 第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期:2022-11-28;定稿日期:2023-04-06 Received:28 November,2022;Finalized:6 April,2023 基金项目:科技创新2030-“新一代人工智能”重大项目(2021ZD0111902);国家自然科学基金项目(U21B2038,61876012,62172022);中国高校产学研创新基金项目(2021JQR023)Foundation items:Science and Technology I
2、nnovation 2030 “New Generation of Artificial Intelligence”Major Project(2021ZD0111902);National Natural Science Foundation of China(U21B2038,61876012,62172022);Foundation for China University Industry-University Research Innovation(2021JQR023)第一作者:郭印宏(1997),男,硕士研究生。主要研究方向为计算机视觉。E-mail: First author:
3、GUO Yin-hong(1997),master student.His main research interest covers computer vision.E-mail: 通信作者:王立春(1975),女,教授,博士。主要研究方向为计算机视觉、人机交互等。E-mail: Corresponding author:Wang Li-chun(1975),professo,Ph.D.Her main research interests cover computer vision and human-computer interaction,etc.E-mail: 基于重复性和特异性约束
4、的图像特征匹配 郭印宏,王立春,李爽(北京工业大学信息学部,北京 100124)摘要:图像特征匹配通过比较一对像素在特征空间的距离确定其是否可匹配,如何学习鲁棒的像素特征是基于深度学习的图像特征匹配要解决的关键问题之一,另外,像素特征表示的学习也受到源图像质量的影响。针对学习更鲁棒的像素特征表示的问题,对图像特征匹配网络 LoFTR 进行改进。针对粗粒度特征重构分支,定义特异性约束使得同一幅图像内像素的特征距离尽可能远,使不同像素间具有强区分性;定义重复性约束使得不同图像的匹配点对的特征距离尽可能近,使不同图像间的匹配像素点具有强相似性,以增强匹配的准确性。在 Backbone 的解码阶段增加
5、图像重建层,定义图像重建损失约束编码器学习更鲁棒的特征表示。在室内数据集 ScanNet 与室外数据集 MegaDepth 上的实验结果证明了本文方法的有效性,构建了不同质量图像数据并验证了方法能够更好地适应不同质量图像的特征匹配。关键词:深度学习;图像特征匹配;重复性;特异性;图像重建损失 中 图 分 类 号:TP 391 DOI:10.11996/JG.j.2095-302X.2023040739 文 献 标 识 码:A 文 章 编 号:2095-302X(2023)04-0739-08 Image feature matching based on repeatability and s
6、pecificity constraints GUO Yin-hong,WANG Li-chun,LI Shuang(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:Image feature matching ascertains whether a pair of pixels can be matched by comparing their distance in the feature space.Therefore,how to lear
7、n robust pixel features constitutes one of the primary concerns in the field of image feature matching based on deep learning.In addition,the learning of pixel feature representation is also affected by the quality of the source image.As a solution to the challenge of learning more robust pixel feat
8、ure representations,the proposed method improved the image feature matching network LoFTR.For the coarse granularity feature reconstruction branch,the specificity constraint was defined to maximize the feature distance between pixels within the same image,enabling strong distinguishability between d
9、ifferent pixels.The repeatability constraint was defined to minimize the feature distance between the matched pixels from different images,enabling strong similarity between the matched pixels across different images and thus enhancing the accuracy of matching.Additionally,an image reconstruction la
10、yer was incorporated into the decoding phase of the Backbone,and image reconstruction loss was 740 图像处理与计算机视觉 2023 年 1 defined to constrain the encoder to learn more robust feature representation.The experimental results on indoor dataset ScanNet and outdoor dataset MegeDepth show the effectiveness
11、of the proposed method.Furthermore,based on images with different qualities,it is verified that the proposed method can better adapt to image feature matching when the source images have different quality.Keywords:deep learning;image feature matching;repeatability;specificity;image reconstruction lo
12、ss 图像特征匹配是许多 3D 计算机视觉任务的基 础,如 同 步 定 位 与 地 图 构 建(simultaneous localization and mapping,SLAM)1、视觉定位等。给定一对要匹配的图像,大多数现有的匹配方法包括特征检测、特征描述和特征匹配 3 个独立的阶段。特征检测阶段将图像中的角点作为关键点;特征描述阶段基于关键点的邻域提取局部描述子,一对图像在特征检测和描述阶段产生 2 组关键点及对应的描述子;特征匹配阶段通常利用最近邻搜索或更复杂的匹配算法计算 2 幅图像中点和点的匹配关系。特征检测器的使用减小了特征匹配的搜索空间,且得到的稀疏匹配可以满足一些任务(如相
13、机位姿估计)的需求。但由于环境因素的影响,在图像纹理较弱、图像中存在重复的物体、视点或光照变化较大、运动模糊等情况下,基于检测器的图像特征匹配方法可能无法提供足够多的关键点,从而对位姿估计、视觉定位等任务产生不利影响。现有的基于深度学习的无检测器图像特征匹配方法在图像弱纹理区域、视点变化等情况下可以得到质量较好的匹配点对,如 LoFTR2方法。然而,当图像中弱纹理区域较多时,该方法的性能会有所降低,尤其对于模糊图像其性能下降明显。为此,本文提出了一种基于重复性和特异性约束的图像特征匹配方法,可以更好地适应不同质量图像的特征匹配任务,无论是弱纹理区域较多的图像,还是模糊图像,都有较好性能。本文实
14、现了一个无检测器的图像特征匹配网络,采用由粗到细的分层匹配策略,如图 1 所示。具体步骤如下:步骤 1.利用 Backbone 提取图像特征,并进行图像重建。步骤 2.步骤 1 提取的低分辨率(输入图像尺寸的 1/8)特征(11,ABFF)输入到粗粒度特征重构模块中进行特征重构,约束重构后的特征(11,ABtrtrFF)具有重复性和特异性。重复性指 2 幅图像中匹配点的特征之间相似度较高,约束匹配的一对点之间具有相似性。特异性指同一幅图像中不同像素特征之间的差异较大,约束不同像素之间具有较强的区分度。重构特征输入到可微匹配层计算得到粗粒度匹配点对集(,)Ci jM。步骤 3.将步骤 2 得到的
15、匹配点对映射到高分辨率(输入图像尺寸的 1/2)的特征图中,得到位置i和j。以i 和j为中心,将一定范围内的特征输入到细粒度特征重构模块进行特征重构,基于重构后的特征(22,ABtrtrFF)计算得到精细化的匹配点对集M=(i,j)。图 1 总体框架 Fig.1 Overview of framework 第 4 期 郭印宏,等:基于重复性和特异性约束的图像特征匹配 741 本文的贡献在于创新性地提出了一种无检测器图像特征匹配网络,能够有效地处理不同质量的图像。对使用自注意力和互注意力的 Transformer3重构得到的特征进行约束,提高特征描述子的重复性和特异性,从而实现更好的匹配效果。同
16、时,在网络的 Backbone 解码阶段增加图像重建层,有助于更好地适应不同质量图像的特征匹配。1 相关工作 1.1 基于检测器的图像特征匹配 基于检测器的方法是图像特征匹配的主要方法。在深度学习之前,图像特征匹配方法利用手工定义的局部特征取得了良好的表现,例如 SIFT4和 ORB5。ORB 改进了 FAST 检测子6不具有方向性的问题,并采用速度极快的二进制描述子BRIEF7加速图像特征提取环节。ORB 特征由关键点和描述子 2 部分组成,ORB 的关键点称为“Oriented FAST”,是一种改进的 FAST 角点。ORB特征用于视觉 SLAM 系统 ORB-SLAM8有效提高了系统的
17、定位和建图性能,但 ORB 在弱纹理、图像内容重复、视点变化较大等情形下不能够提取出足够多且准确的关键点。使用基于深度学习的方法可以显著提高视点及照明变化较大等情况下的特征表示能力,LIFT9和 MagicPoint10最早成功地实现了基于深度学习的局部特征表示和基于深度学习的 SLAM。SuperPoint11在 MagicPoint 的基础之上,引入 Homographic Adaptation11机制,创建了一个大规模的 pseudo-ground truth 数据集,利用关键点检测器而非人工标注做为监督。其缺点是,让当前模型模仿另一个关键点检测器导致其无法发现潜在的最佳关键点。虽然 S
18、uperPoint 相比传统方法显著提升了性能,但无法在图像弱纹理区域提取足够数量的关键点。上述方法均使用最近邻搜索算法计算关键点间的匹配,而 SuperGlue12提出一种基于学习的局部特征匹配方法。输入 2 幅图像中的关键点以及描述子(手工特征或深度学习特征均可),SuperGlue在图神经网络(graph neural networks,GNN)13基础上引入一种基于注意力的上下文聚合机制学习关键点的匹配。由于通过数据驱动方法学习特征匹配的先验,SuperGlue 实现了令人印象深刻的性能。SuperGlue 开创了特征匹配的新技术,使用自注意力和互注意力学习上下文以及基于最优传输实现匹
19、配的思想被后续相关研究灵活应用。然而,作为一种依赖检测器的方法,SuperGlue 关注的范围仅限于由检测器检测到的关键点。1.2 无检测器的图像特征匹配 无检测器的图像特征匹配方法不使用特征检测器,直接生成稠密特征描述子或稠密特征匹配。NCNet14是一种以端到端的方式直接学习稠密匹配关系的方法,构造 4D cost volumes15并枚举图像之间所有可能的匹配,基于网络识别可靠的匹配对并过滤不可靠的匹配,但是 4D 卷积的感受野仍然受限于每个匹配对的邻域。受 SuperGlue 的启发,LoFTR 使用具有自注意和互注意的 Transformer 处理基于卷积神经网络(convoluti
20、onal neural networks,CNN)提取的稠密局部特征,Transformer 的全局感受野和位置编码使得学习到的特征与上下文和位置相关。LoFTR 在弱纹理区域能够得到比较好的匹配,但仍存在一定的错误匹配。此外,对于模糊图像匹配,LoFTR 表现不佳。本文充分考虑参与匹配的特征点的重复性和特异性,以提高图像特征匹配的精度和鲁棒性。目前少有模糊图像特征匹配的研究,且没有能够适应不同质量图像的特征匹配方法。本文提出的图像特征匹配方法能够适应不同质量图像,可以应对机器人或无人车高速行驶时传感器故障或传感器发生快速位移可能导致的图像运动模糊情况。2 方法 本文总体框架如图 1 所示。首
21、先,提取输入图像的特征,并进行图像重建,以适应不同质量图像的特征匹配。其次,基于粗粒度特征重构模块对初步提取的特征进行特征重构,并约束重构的特征具有重复性和特异性。最后,基于粗粒度特征和细粒度特征依次执行由粗到细的匹配,最终得到匹配点对集。2.1 特征提取网络 图 1 所示的 Backbone 为特征提取网络,是基于 ResNet-1816和三层 FPN17构建的。与原始ResNet-18 不同的是,第一个卷积层的通道数为128,后续 3 个 Block 的通道数分别为 128,196 和256。FPN 具有 P1到 P3 3 个层级,P3的特征1AF和1BF是粗粒度特征重构模块的输入,1AF
22、和1BF表示大小为 1/8 原始图像尺寸的粗级特征;1P的特征2AF和2BF是细粒度特征重构模块的输入,2AF和2BF表示大小为 1/2 原始图像尺寸的精细级特征。742 图像处理与计算机视觉 2023 年 特征提取网络的最后一层为反卷积层,用于重建图像,使用图像重建损失约束网络学习更鲁棒的特征表示,以适应不同质量图像的特征匹配。图像重建损失函数为 11(,)|ABAaBbresIIIIII(1)其中,IA和 IB为重建之后的图像;Ia和 Ib为源图像。2.2 粗粒度特征重构及匹配 将 Backbone 输出的、尺寸为 hwc 的粗级特征展平为 chw 的特征图1AF和1BF并基于像素坐标进行
23、位置编码2,编码后的局部特征向量输入粗粒度特征重构模块进行特征重构,重构之后的特征输入可微匹配层得到粗匹配点对集。2.2.1 粗粒度特征重构 粗粒度特征重构模块使用 Transformer 编码器,采取自注意和互注意的方式对特征进行重构,其中自注意力层和互注意力层交错 Tc次。自注意力层的输入来自同一个特征图1AF或1BF,互注意力层的输入分别来自 2 幅特征图1AF和1BF。1AtrF和1BtrF表示大小为原始图像尺寸 1/8 的特征图1AF和1BF输入到粗粒度特征重构模块中得到的重构特征。粗粒度特征重构模块使用的 Transformer 编码器结构如图 2 所示,Multi-head at
24、tention 的输入向量通常被命名为查询、键和值。输入向量首先变换为 3 个不同的向量,即:查询向量 Q、键向量 K 和值向量 V。注意力层可表示为 T(,)Softmax()AttentionQ K VQKV(2)注意力层通过测量查询向量和关键向量之间的相似性来选择相关信息,其输出向量是由相似度评分加权的值向量之和。因此,如果相似度较高,可从值向量中提取较多信息。对重构之后的特征进行重复性和特异性约束,即 cos1112,1ABdisttrtr FF(3)111,cos,gtcABtrtri jdistijMFF 211,11,cos,cos,ABAAtrtri iIBBtrtrj jId
25、istiidistjjFF FF 其中,*1 trF为特征重构模块输出的某像素的特征向量;dist cos 为特征之间的余弦距离;gtcM为真实匹配的集合,是由真实的相机位姿以及与输入图像对应的深度图计算得到的;1为重复性约束,约束图像 A 和 B 中匹配点的特征的余弦距离尽可能近;2为特异性约束,约束图像 A 或 B 中某像素特征和其他像素特征的余弦距离尽可能远。图 2 Transformer 编码器层 Fig.2 Transformer encoder layer 式(3)定义的损失函数约束网络学习更高质量的像素特征,要求 2 幅图像中具有真实匹配关系的点的特征更加相似,同时保证同一幅图像
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 重复性 特异性 约束 图像 特征 匹配
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。