分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于重复性和特异性约束的图像特征匹配.pdf

基于重复性和特异性约束的图像特征匹配.pdf

上传人：自信****多点

文档编号：649900

上传时间：2024-01-23

格式：PDF

页数：8

大小：2MB

《基于重复性和特异性约束的图像特征匹配.pdf》由会员分享，可在线阅读，更多相关《基于重复性和特异性约束的图像特征匹配.pdf（8页珍藏版）》请在咨信网上搜索。

1、2023 年 8 月图学学报 August2023第 44 卷第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期：2022-11-28；定稿日期：2023-04-06 Received：28 November，2022；Finalized：6 April，2023 基金项目：科技创新2030-“新一代人工智能”重大项目(2021ZD0111902)；国家自然科学基金项目(U21B2038，61876012，62172022)；中国高校产学研创新基金项目(2021JQR023)Foundation items：Science and Technology I

2、nnovation 2030 “New Generation of Artificial Intelligence”Major Project(2021ZD0111902);National Natural Science Foundation of China(U21B2038,61876012,62172022);Foundation for China University Industry-University Research Innovation(2021JQR023)第一作者：郭印宏(1997)，男，硕士研究生。主要研究方向为计算机视觉。E-mail： First author：

3、GUO Yin-hong(1997),master student.His main research interest covers computer vision.E-mail：通信作者：王立春(1975)，女，教授，博士。主要研究方向为计算机视觉、人机交互等。E-mail： Corresponding author：Wang Li-chun(1975),professo,Ph.D.Her main research interests cover computer vision and human-computer interaction,etc.E-mail：基于重复性和特异性约束

4、的图像特征匹配郭印宏，王立春，李爽(北京工业大学信息学部，北京 100124)摘要：图像特征匹配通过比较一对像素在特征空间的距离确定其是否可匹配，如何学习鲁棒的像素特征是基于深度学习的图像特征匹配要解决的关键问题之一，另外，像素特征表示的学习也受到源图像质量的影响。针对学习更鲁棒的像素特征表示的问题，对图像特征匹配网络 LoFTR 进行改进。针对粗粒度特征重构分支，定义特异性约束使得同一幅图像内像素的特征距离尽可能远，使不同像素间具有强区分性；定义重复性约束使得不同图像的匹配点对的特征距离尽可能近，使不同图像间的匹配像素点具有强相似性，以增强匹配的准确性。在 Backbone 的解码阶段增加

5、图像重建层，定义图像重建损失约束编码器学习更鲁棒的特征表示。在室内数据集 ScanNet 与室外数据集 MegaDepth 上的实验结果证明了本文方法的有效性，构建了不同质量图像数据并验证了方法能够更好地适应不同质量图像的特征匹配。关键词：深度学习；图像特征匹配；重复性；特异性；图像重建损失中图分类号：TP 391 DOI：10.11996/JG.j.2095-302X.2023040739 文献标识码：A 文章编号：2095-302X(2023)04-0739-08 Image feature matching based on repeatability and s

6、pecificity constraints GUO Yin-hong,WANG Li-chun,LI Shuang(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)Abstract:Image feature matching ascertains whether a pair of pixels can be matched by comparing their distance in the feature space.Therefore,how to lear

7、n robust pixel features constitutes one of the primary concerns in the field of image feature matching based on deep learning.In addition,the learning of pixel feature representation is also affected by the quality of the source image.As a solution to the challenge of learning more robust pixel feat

8、ure representations,the proposed method improved the image feature matching network LoFTR.For the coarse granularity feature reconstruction branch,the specificity constraint was defined to maximize the feature distance between pixels within the same image,enabling strong distinguishability between d

9、ifferent pixels.The repeatability constraint was defined to minimize the feature distance between the matched pixels from different images,enabling strong similarity between the matched pixels across different images and thus enhancing the accuracy of matching.Additionally,an image reconstruction la

10、yer was incorporated into the decoding phase of the Backbone,and image reconstruction loss was 740 图像处理与计算机视觉 2023 年 1 defined to constrain the encoder to learn more robust feature representation.The experimental results on indoor dataset ScanNet and outdoor dataset MegeDepth show the effectiveness

11、of the proposed method.Furthermore,based on images with different qualities,it is verified that the proposed method can better adapt to image feature matching when the source images have different quality.Keywords:deep learning;image feature matching;repeatability;specificity;image reconstruction lo

12、ss 图像特征匹配是许多 3D 计算机视觉任务的基础，如同步定位与地图构建(simultaneous localization and mapping，SLAM)1、视觉定位等。给定一对要匹配的图像，大多数现有的匹配方法包括特征检测、特征描述和特征匹配 3 个独立的阶段。特征检测阶段将图像中的角点作为关键点；特征描述阶段基于关键点的邻域提取局部描述子，一对图像在特征检测和描述阶段产生 2 组关键点及对应的描述子；特征匹配阶段通常利用最近邻搜索或更复杂的匹配算法计算 2 幅图像中点和点的匹配关系。特征检测器的使用减小了特征匹配的搜索空间，且得到的稀疏匹配可以满足一些任务(如相

13、机位姿估计)的需求。但由于环境因素的影响，在图像纹理较弱、图像中存在重复的物体、视点或光照变化较大、运动模糊等情况下，基于检测器的图像特征匹配方法可能无法提供足够多的关键点，从而对位姿估计、视觉定位等任务产生不利影响。现有的基于深度学习的无检测器图像特征匹配方法在图像弱纹理区域、视点变化等情况下可以得到质量较好的匹配点对，如 LoFTR2方法。然而，当图像中弱纹理区域较多时，该方法的性能会有所降低，尤其对于模糊图像其性能下降明显。为此，本文提出了一种基于重复性和特异性约束的图像特征匹配方法，可以更好地适应不同质量图像的特征匹配任务，无论是弱纹理区域较多的图像，还是模糊图像，都有较好性能。本文实

14、现了一个无检测器的图像特征匹配网络，采用由粗到细的分层匹配策略，如图 1 所示。具体步骤如下：步骤 1.利用 Backbone 提取图像特征，并进行图像重建。步骤 2.步骤 1 提取的低分辨率(输入图像尺寸的 1/8)特征(11,ABFF)输入到粗粒度特征重构模块中进行特征重构，约束重构后的特征(11,ABtrtrFF)具有重复性和特异性。重复性指 2 幅图像中匹配点的特征之间相似度较高，约束匹配的一对点之间具有相似性。特异性指同一幅图像中不同像素特征之间的差异较大，约束不同像素之间具有较强的区分度。重构特征输入到可微匹配层计算得到粗粒度匹配点对集(,)Ci jM。步骤 3.将步骤 2 得到的

15、匹配点对映射到高分辨率(输入图像尺寸的 1/2)的特征图中，得到位置i和j。以i 和j为中心，将一定范围内的特征输入到细粒度特征重构模块进行特征重构，基于重构后的特征(22,ABtrtrFF)计算得到精细化的匹配点对集M=(i,j)。图 1 总体框架 Fig.1 Overview of framework 第 4 期郭印宏，等：基于重复性和特异性约束的图像特征匹配 741 本文的贡献在于创新性地提出了一种无检测器图像特征匹配网络，能够有效地处理不同质量的图像。对使用自注意力和互注意力的 Transformer3重构得到的特征进行约束，提高特征描述子的重复性和特异性，从而实现更好的匹配效果。同

16、时，在网络的 Backbone 解码阶段增加图像重建层，有助于更好地适应不同质量图像的特征匹配。1 相关工作 1.1 基于检测器的图像特征匹配基于检测器的方法是图像特征匹配的主要方法。在深度学习之前，图像特征匹配方法利用手工定义的局部特征取得了良好的表现，例如 SIFT4和 ORB5。ORB 改进了 FAST 检测子6不具有方向性的问题，并采用速度极快的二进制描述子BRIEF7加速图像特征提取环节。ORB 特征由关键点和描述子 2 部分组成，ORB 的关键点称为“Oriented FAST”，是一种改进的 FAST 角点。ORB特征用于视觉 SLAM 系统 ORB-SLAM8有效提高了系统的

17、定位和建图性能，但 ORB 在弱纹理、图像内容重复、视点变化较大等情形下不能够提取出足够多且准确的关键点。使用基于深度学习的方法可以显著提高视点及照明变化较大等情况下的特征表示能力，LIFT9和 MagicPoint10最早成功地实现了基于深度学习的局部特征表示和基于深度学习的 SLAM。SuperPoint11在 MagicPoint 的基础之上，引入 Homographic Adaptation11机制，创建了一个大规模的 pseudo-ground truth 数据集，利用关键点检测器而非人工标注做为监督。其缺点是，让当前模型模仿另一个关键点检测器导致其无法发现潜在的最佳关键点。虽然 S

18、uperPoint 相比传统方法显著提升了性能，但无法在图像弱纹理区域提取足够数量的关键点。上述方法均使用最近邻搜索算法计算关键点间的匹配，而 SuperGlue12提出一种基于学习的局部特征匹配方法。输入 2 幅图像中的关键点以及描述子(手工特征或深度学习特征均可)，SuperGlue在图神经网络(graph neural networks，GNN)13基础上引入一种基于注意力的上下文聚合机制学习关键点的匹配。由于通过数据驱动方法学习特征匹配的先验，SuperGlue 实现了令人印象深刻的性能。SuperGlue 开创了特征匹配的新技术，使用自注意力和互注意力学习上下文以及基于最优传输实现匹

19、配的思想被后续相关研究灵活应用。然而，作为一种依赖检测器的方法，SuperGlue 关注的范围仅限于由检测器检测到的关键点。1.2 无检测器的图像特征匹配无检测器的图像特征匹配方法不使用特征检测器，直接生成稠密特征描述子或稠密特征匹配。NCNet14是一种以端到端的方式直接学习稠密匹配关系的方法，构造 4D cost volumes15并枚举图像之间所有可能的匹配，基于网络识别可靠的匹配对并过滤不可靠的匹配，但是 4D 卷积的感受野仍然受限于每个匹配对的邻域。受 SuperGlue 的启发，LoFTR 使用具有自注意和互注意的 Transformer 处理基于卷积神经网络(convoluti

20、onal neural networks，CNN)提取的稠密局部特征，Transformer 的全局感受野和位置编码使得学习到的特征与上下文和位置相关。LoFTR 在弱纹理区域能够得到比较好的匹配，但仍存在一定的错误匹配。此外，对于模糊图像匹配，LoFTR 表现不佳。本文充分考虑参与匹配的特征点的重复性和特异性，以提高图像特征匹配的精度和鲁棒性。目前少有模糊图像特征匹配的研究，且没有能够适应不同质量图像的特征匹配方法。本文提出的图像特征匹配方法能够适应不同质量图像，可以应对机器人或无人车高速行驶时传感器故障或传感器发生快速位移可能导致的图像运动模糊情况。2 方法本文总体框架如图 1 所示。首

21、先，提取输入图像的特征，并进行图像重建，以适应不同质量图像的特征匹配。其次，基于粗粒度特征重构模块对初步提取的特征进行特征重构，并约束重构的特征具有重复性和特异性。最后，基于粗粒度特征和细粒度特征依次执行由粗到细的匹配，最终得到匹配点对集。2.1 特征提取网络图 1 所示的 Backbone 为特征提取网络，是基于 ResNet-1816和三层 FPN17构建的。与原始ResNet-18 不同的是，第一个卷积层的通道数为128，后续 3 个 Block 的通道数分别为 128，196 和256。FPN 具有 P1到 P3 3 个层级，P3的特征1AF和1BF是粗粒度特征重构模块的输入，1AF

22、和1BF表示大小为 1/8 原始图像尺寸的粗级特征；1P的特征2AF和2BF是细粒度特征重构模块的输入，2AF和2BF表示大小为 1/2 原始图像尺寸的精细级特征。742 图像处理与计算机视觉 2023 年特征提取网络的最后一层为反卷积层，用于重建图像，使用图像重建损失约束网络学习更鲁棒的特征表示，以适应不同质量图像的特征匹配。图像重建损失函数为 11(,)|ABAaBbresIIIIII(1)其中，IA和 IB为重建之后的图像；Ia和 Ib为源图像。2.2 粗粒度特征重构及匹配将 Backbone 输出的、尺寸为 hwc 的粗级特征展平为 chw 的特征图1AF和1BF并基于像素坐标进行

23、位置编码2，编码后的局部特征向量输入粗粒度特征重构模块进行特征重构，重构之后的特征输入可微匹配层得到粗匹配点对集。2.2.1 粗粒度特征重构粗粒度特征重构模块使用 Transformer 编码器，采取自注意和互注意的方式对特征进行重构，其中自注意力层和互注意力层交错 Tc次。自注意力层的输入来自同一个特征图1AF或1BF，互注意力层的输入分别来自 2 幅特征图1AF和1BF。1AtrF和1BtrF表示大小为原始图像尺寸 1/8 的特征图1AF和1BF输入到粗粒度特征重构模块中得到的重构特征。粗粒度特征重构模块使用的 Transformer 编码器结构如图 2 所示，Multi-head at

24、tention 的输入向量通常被命名为查询、键和值。输入向量首先变换为 3 个不同的向量，即：查询向量 Q、键向量 K 和值向量 V。注意力层可表示为 T(,)Softmax()AttentionQ K VQKV(2)注意力层通过测量查询向量和关键向量之间的相似性来选择相关信息，其输出向量是由相似度评分加权的值向量之和。因此，如果相似度较高，可从值向量中提取较多信息。对重构之后的特征进行重复性和特异性约束，即 cos1112,1ABdisttrtr FF(3)111,cos,gtcABtrtri jdistijMFF 211,11,cos,cos,ABAAtrtri iIBBtrtrj jId

25、istiidistjjFF FF 其中，*1 trF为特征重构模块输出的某像素的特征向量；dist cos 为特征之间的余弦距离；gtcM为真实匹配的集合，是由真实的相机位姿以及与输入图像对应的深度图计算得到的；1为重复性约束，约束图像 A 和 B 中匹配点的特征的余弦距离尽可能近；2为特异性约束，约束图像 A 或 B 中某像素特征和其他像素特征的余弦距离尽可能远。图 2 Transformer 编码器层 Fig.2 Transformer encoder layer 式(3)定义的损失函数约束网络学习更高质量的像素特征，要求 2 幅图像中具有真实匹配关系的点的特征更加相似，同时保证同一幅图像

26、中不同像素的特征之间更加具有差异性。高质量的像素特征可以避免由于相邻像素特征高度相似而导致误匹配，且有利于更准确地找到在另一幅图像中的匹配点。2.2.2 粗匹配如图 1 所示，粗粒度特征重构模块的输出1AtrF和1BtrF输入可微匹配层，计算得到得分矩阵 S，11,ABtrtri jCorr Fi FjS。与 LoFTR 一样，本文采用双 Softmax18-19算子，在 S 的 2 个维度上应用Softmax，得到匹配概率为 ,Softmax(,)Softmax(,)i jijCjiPSS(4)基于 Pc选择高于置信阈值c的匹配，然后使用相互最近邻算法得到粗粒度匹

27、配点对集(,)ci jM。粗粒度匹配的损失函数为交叉熵损失，即 (,)1(,)log(,)|gtccccgti jMcFLi ji j PP|M (5)其中，FL 为 focal loss，用于解决匹配对和非匹配对之间的数量不均衡问题。第 4 期郭印宏，等：基于重复性和特异性约束的图像特征匹配 743 2.3 细粒度特征重构及匹配对于每一个粗粒度匹配点对(,)i j，首先在细粒度特征图2AF和2BF上确定其位置(,)i j，然后裁剪 2 组分别以i 和j为中心，大小为 ww 的局部窗口，使用细粒度特征重构模块中的自注意力层和互注意力层将窗口内的特征变换 Tf次，生成以i 和j为中心

28、的局部特征图2AtrF和2BtrF。基于特征图2AtrF和2BtrF，计算i 的特征向量2 AtriF和以j为中心的局部窗口内所有像素对应的特征向量212()1,kBBtrtrrjregion jkrjjFF且的相关性。基于相关性生成热图，该热图表示i 与j邻域中每个像素的匹配概率，通过计算概率分布期望E()得到最终的精细匹配 M=(i,j)。3 实验本文进行了图像特征匹配的单应性估计和相对位姿估计实验，并验证了不同质量图像的特征匹配的有效性。3.1 实验设置本文在 ScanNet 数据集上训练室内模型，在MegaDepth 上训练室外模型。设置粗粒度特征重构模块中 Tc为 4，置信度分

29、数阈值c为 0.2，细粒度特征重构模块中 Tf为 1，窗口宽度 w 为 5。对于室内数据集 ScanNet，使用初始学习率设置为 0.004 的Adam 模型在 2 块 GTX 3090 上训练，共训练 30 个epoch，batch大小为8。对于室外数据集MegaDepth，初始学习率设置为 0.003，共训练 30 个 epoch，batch大小为 4。3.2 单应性估计 3.2.1 数据集及评价指标在单应性估计实验中，与 LoFTR2相同，本文使用 HPatches20数据集，其包含 52 个显著照明变化下的序列和 56 个视点变化较大的序列。在每个测试序列中，一个参考图像与其余 5

30、个图像配对，所有图像的短边的尺寸调整到 480。对所有图像对，本文使用在 MegaDepth21上训练的模型提取匹配点集，使用 OpenCV 中的 RANSAC 计算单应矩阵 H 22。为了与产生不同数量匹配的方法进行公平比较，本文计算估计的单应矩阵扭曲图像和真实的单应矩阵扭曲图像之间的角误差，报告阈值分别为 3，5 和 10 像素下的角误差累积曲线下的面积。3.2.2 与前沿方法的比较与分析基于检测器的图像特征匹配方法，包括R2D222，D2Net23，DISK24和 SuperGlue12；无检测器的图像特征匹配方法，包括 DRC-Net25和 LoFTR2，本文将匹配点对数量设置为 1

31、 K。表 1 中本文方法在不同角误差阈值下的单应性估计 AUC 明显优于其他方法。LoFTR 最早引入基于 Transformer 的自注意力与互注意力用于特征重构，其单应性估计AUC 明显优于其他已有方法。本文在 LoFTR 基础之上对网络进行修改，对重构之后特征进一步约束，使得单应性估计 AUC 达到最佳。表 1 HPatches 上单应性估计 Table 1 Homography estimation on HPatches 类别方法单应性估计 AUC 3px 5px 10px有检测器D2Net+NN 23.2 35.9 53.6 R2D2+NN 50.6 63.9 76.8 DIS

32、K+NN 52.3 64.9 78.9 SP+SuperGlue 53.9 68.3 81.7 无检测器DRC-Net 50.6 56.2 68.3 LoFTR 65.9 75.6 84.6 Ours 66.8 76.9 86.1 注：加粗数据为最优值 3.3 相对位姿估计 3.3.1 数据集及评价指标使用ScanNet和MegaDepth数据集证明本文方法用于位姿估计的有效性。ScanNet 为室内场景数据集，包含 1613 个带有真实位姿和深度图的单目序列。与 LoFTR2一样，本文选用 230 M 图像对进行训练，选择其中的 1 500 个测试对进行评估，所有的图像和深度图尺寸均调整为

33、 640480。ScanNet 数据集包含大量无纹理区域图像对。MegaDepth 由 196 个不同户外场景的图像组成，数据集提供了来自 COLMAP26的稀疏重建和由双目多视图计算得到的深度图。在和前沿方法比较时，与 LoFTR2一样随机抽取 1 500 对图像进行公平比较。训练和测试阶段需要调整图像大小，训练阶段图像的长边调整为 840，验证阶段图像的长边调整为 1 200。MegaDepth 数据集的特点是图像的视点变化较大且场景内容重复较多。相对位姿估计误差定义为旋转和平移的角度最大误差。744 图像处理与计算机视觉 2023 年 3.3.2 与前沿方法的比较与分析表 2 和表 3

34、展示了位姿估计误差 AUC 的值，本文方法取得了最优位姿估计精度。SP11+Superglue和 DRC-Net 仅考虑特征点周围局部图像块的信息，而 LoFTR 基于 Transformer 提取更大尺度区域的上下文信息，因此相对位姿估计的误差较小。本文方法计算得到的像素点特征包含更丰富的全局信息，同时通过对像素点特征实施重复性和特异性约束促使网络学习更高质量的像素特征，表 2 室内数据集 ScanNet 上的相对位姿估计 Table 2 Relative pose estimation on indoor dataset ScanNet 类别方法位姿估计 AUC 5 10 20有检测

35、器 SP11+Superglue 16.16 33.81 51.84无检测器 DRC-Net 7.69 17.93 30.49LoFTR 22.06 40.80 57.96Ours 22.87 41.75 59.10注：加粗数据为最优值表 3 室外数据集 MegaDepth 上的相对位姿估计 Table 3 Relative pose estimation on outdoor dataset MegaDepth 类别方法位姿估计 AUC 5 10 20有检测器 SP+Superglue 42.18 61.16 75.96无检测器 DRC-Net 27.01 42.96 58.31LoF

36、TR 52.81 69.19 81.18Ours 53.63 70.20 83.56注：加粗数据为最优值使得在弱纹理区域能够得到可靠的匹配点对，从而使相对位姿估计的误差更小。3.4 模糊图像特征匹配在 SLAM 和位姿估计任务中对模糊图像的特征匹配研究较少且缺少相应的数据集，本文构建了包含不同模糊程度图像的新数据集 MegaDepth-B，并基于构建的新数据集验证提出方法在模糊图像匹配任务上的有效性。本文构建模糊数据的方法是利用不同尺寸的模糊核对图像进行卷积，图 3所示为生成的模糊图像。(a)(b)(c)(d)图 3 模糊图像示例(a)原图像；(b)模糊核 55；(c)模糊核 1212；(

37、d)模糊核 2424)Fig.3 Examples of blurred image(a)Original image;(b)Blurring kernel 55;(c)Blurring kernel 1212;(d)Blurring kernel 2424)本文对数据集 MegaDepth 中的图像进行模糊处理，即采用大小为 55，1212 和 2424 的模糊核对图像进行卷积得到 3 种不同模糊程度的图像。表 4 给出了不同模糊程度下 LoFTR2和本文方法的位姿估计实验结果，第 2，4 和 6 行表明本文方法基于不同模糊程度图像的位姿估计AUC 均较 LoFTR 有很大程度提升，且基于不

38、同模糊程度图像的位姿估计 AUC 变化AUC 小于LoFTR，进一步证明了本文方法对模糊图像特征匹配的有效性。本文方法对模糊图像的特征匹配显著有效，原因在于采用了图像重建损失约束。该约束利用清晰图像作为真值监督模糊图像的重建，从而促使网络学习到更加鲁棒的特征表示。表 4 基于不同模糊程度图像的位姿估计对比 Table 4 Comparison of pose estimation using images with different blurriness 方法模糊核位姿估计 AUC 5 10 20 LoFTR 55 40.63 56.70 70.53 Ours 55 44.60 63.5

39、0 76.52 LoFTR 1212 32.37 47.32 61.68 Ours 1212 41.10 59.5 70.63 LoFTR 2424 18.86 31.86 47.18 Ours 2424 32.68 45.20 57.24 注：加粗数据为最优值 3.5 消融实验为了验证本文提出的图像重建模块和粗粒度特征重构模块中特异性和重复性约束的有效性，第 4 期郭印宏，等：基于重复性和特异性约束的图像特征匹配 745 本文在 MegaDepth数据集和 MegaDepth-B数据集上进行了消融实验，实验结果见表 5。具体实验如下：(1)验证图像重建模块的有效性时，在网络框架中去除粗粒

40、度特征重构模块的重复性和特异性约束。实验结果表明，本文提出的图像重建模块可有效提高基于不同质量图像的相机位姿估计的精度，尤其是基于模糊图像的位姿估计精度有明显提升。(2)验证粗粒度特征重构模块的重复性和特异表 5 消融实验 Table 5 Ablation Experiment 数据集图像重建重复性和特异性约束位姿估计 AUC 5 10 20MegaDepth 53.63 70.20 83.56-52.88 69.30 81.18-53.58 70.16 83.47-52.81 69.19 81.18MegaDepth-B(模糊核 1212)41.10 59.5 70.63-40.

41、56 58.4 69.03-33.96 49.12 63.98-32.37 47.32 61.68注：加粗数据为最优值性约束的有效性时，在网络框架中去除了图像重建模块。实验结果表明，粗粒度特征重构模块的重复性和特异性约束对清晰图像和模糊图像的特征匹配同样有效。此外，表 5 的实验结果表明，无论是清晰图像还是模糊图像，图像重建模块和重复性及特异性约束共存时，相机位姿估计精度达到最优。3.6 可视化结果图 4 展示了在室外数据集 MegaDepth 上的可视化结果，第一行、第二行分别为 LoFTR2和本文方法的可视化结果。红色的线表示极线误差2超过1104的匹配点对，很显然本文方法的正确匹配点

42、对更多，且相对位姿估计的角度误差远远小于LoFTR。如图 4(c)所示，当图像质量较差、模糊程度较高(模糊核 2424)时 LoFTR 表现更差，几乎不能得到正确的匹配，其中旋转的角度误差达到了51.55，而本文方法只有 26.54。在极线误差阈值为 1104时，图 4 所示本文方法得到的正确匹配点对更多(红色的线相对较少，绿色的线相对较多)，原因是图像重建模块的图像重建损失约束网络学习更鲁棒的特征表示，粗粒度特征重构模块的重复性和特异性损失约束网络学习更高质量的像素特征。LoFTR Ours (a)(b)(c)图 4 MegaDepth 数据集上可视化结果(a)MegaDepth 中的清晰图

43、像；(b)模糊程度适中(模糊核 1212)；(c)图像质量较差、模糊程度较高(模糊核 2424)Fig.4 Visualization results on MegaDepth dataset(a)Clear images in MegaDepth;(b)Moderate blurring (blurring kernel 1212);(c)Poor image quality and high blurring(blurring kernel 2424)4 结束语本文在现有图像特征匹配框架 LoFTR 的基础上，引入重复性约束和特异性约束，增强了同一幅图像内像素特征的区分度，并使不同图像的

44、可匹配点的特征具有更强的相似性。同时，在网络的解码阶段增加图像重建层，提高了网络学习到的特征表示的鲁棒性。在室内数据集 ScanNet 和室外数据集 MegaDepth 上的单应性估计和相对位姿估计实验结果表明，本文提出的重复性约束和特异性约束对于图像特征匹配具有显著的效果。基于不同质量图像数据的位姿估计实验结果验证了本文方法的鲁棒性。此外，在不同质量图像上的消融实验表明，本文提出的重复性和特异性约束以及图像重建模块对于图像特征匹配具有较好的效果。本文的网络模型规模较大，不利于部署到资源有限的应用场景，下一步将重点考虑优化网络结构。746 图像处理与计算机视觉 2023 年参考文献(Refe

45、rences)1 吴凡,宗艳桃,汤霞清.视觉 SLAM 的研究现状与展望J.计算机应用研究,2020,37(8):2248-2254.WU F,ZONG Y T,TANG X Q.Research status and prospect of vision SLAMJ.Application Research of Computers,2020,37(8):2248-2254(in Chinese).2 SUN J M,SHEN Z H,WANG Y A,et al.LoFTR:detector-free local feature matching with transformersC/20

46、21 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York:IEEE Press,2021:8922-8931.3 KATHAROPOULOS A,VYAS A,PAPPAS N,et al.Transformers are RNNs:fast autoregressive transformers with linear attentionEB/OL.2022-05-11.https:/arxiv.org/abs/2006.16236.4 LOWE D G.Distinctive image featu

47、res from scale-invariant keypointsJ.International Journal of Computer Vision,2004,60(2):91-110.5 RUBLEE E,RABAUD V,KONOLIGE K,et al.ORB:an efficient alternative to SIFT or SURFC/2011 International Conference on Computer Vision.New York:IEEE Press,2011:2564-2571.6 ROSTEN E,DRUMMOND T.Machine learning

48、 for high-speed corner detectionC/The 9th European Conference on Computer Vision-Volume Part I.New York:ACM,2006:430-443.7 CALONDER M,LEPETIT V,STRECHA C,et al.Brief:binary robust independent elementary featuresC/European Conference on Computer Vision.Heidelberg:Springer,2010:778-792.8 MUR-ARTAL R,T

49、ARDS J D.ORB-SLAM2:an open-source SLAM system for monocular,stereo,and RGB-D camerasJ.IEEE Transactions on Robotics,2017,33(5):1255-1262.9 YI K M,TRULLS E,LEPETIT V,et al.LIFT:Learned Invariant Feature TransformC/European Conference on Computer Vision.Cham:Springer International Publishing,2016:467-

50、483.10 ETONE D,MALISIEWICZ T,RABINOVICH A.Toward geometric deep SLAMEB/OL.2022-05-16.https:/arxiv.org/abs/1707.07410.11 DETONE D,MALISIEWICZ T,RABINOVICH A.SuperPoint:self-supervised interest point detection and descriptionC/2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Worksho

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于重复性特异性约束图像特征匹配

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。