AttentionRanker--基于排名优化的自-互注意力机制.pdf
《AttentionRanker--基于排名优化的自-互注意力机制.pdf》由会员分享,可在线阅读,更多相关《AttentionRanker--基于排名优化的自-互注意力机制.pdf(12页珍藏版)》请在咨信网上搜索。
1、Vol 30,No 4Aug.,2023第 30 卷,第 4 期2023年 8 月中国传媒大学学报(自然科学版)JOURNAL OF COMMUNICATION UNIVERSITY OF CHINA(SCIENCE AND TECHNOLOGY)AttentionRanker基于排名优化的自-互注意力机制赵艳明,林美秀*,曾姝瑶*(中国传媒大学信息与通信工程学院,北京 100024)摘要:图像匹配是精准估计相机位姿信息的关键,近年来基于深度学习注意力机制的图像匹配研究取得了较大进展,但如何降低Transformer类图像匹配网络的高计算复杂度仍是巨大挑战。为了提高匹配网络效率,本文提出一种基
2、于排名优化的自-互注意力机制。通过对位置编码后的一维输入特征图重塑形,采用类空间注意力机制挑选Top-m个活跃像素点的方法稀疏注意力图,成功地将点积注意力的时间复杂度从二次降为近线性。实验结果表明该方法在前向推理时耗时更短,并且能在一定程度上提升位姿估计精度。关键词:图像匹配;注意力机制;稀疏算法中图分类号:TP183 文献标识码:AAttentionRankerself-cross attention mechanism based on ranking optimizationZHAO Yanming,LIN Meixiu*,ZENG Shuyao*(School of Informati
3、on and communication Engineering,Communication University of China,Beijing 100024,China)Abstract:Image matching is the key to accurate camera pose estimation.In recent years,the research on image matching based on the attention mechanism of deep learning has made great progress,but it is still a gre
4、at challenge to reduce the high computational complexity of Transformer-like image matching networks.In order to improve the matching network efficiency,in this paper a self-cross attention mechanism based on ranking optimization was proposed.By reshaping the one-dimensional input feature map after
5、position encoding and using a spatial-like attention mechanism to pick Top-m active pixel points to sparse the attention map,the time complexity of dot product attention was successfully reduced from quadratic to nearly linear.Experimental results show that the method is less time consuming in forwa
6、rd inference and can improve the accuracy of pose estimation to a certain extent.Keywords:image matching;attention mechanism;sparse algorithm1 引言图像匹配在 40 年前由 David Marr1教授首次提出,旨在探索不同视觉对象之间的差异性和共同性,并且作为计算机视觉的底层任务连接着两个具有相同或相似属性的图像目标,是计算机视觉中最为重要的研究领域之一。相机位姿估计任务作为图像匹配的一个基础下游引用格式:赵艳明,林美秀,曾姝瑶.AttentionRan
7、ker-基于排名优化的自-互注意力机制 J.中国传媒大学学报(自然科学版),2023,30(04):2738.文章编号:16734793(2023)04002712基金项目:广播电视和网络视听中长期科技计划项目(2022AF0300)作者简介(*为通讯作者):赵艳明(1973-),女,博士,副教授,主要从事计算机三维视觉研究。email:;林美秀(2003-),女,本科生,主要从事计算机三维视觉研究。Email:;曾姝瑶(1998-),女,硕士研究生,主要从事计算机三维视觉研究。Email: 赵艳明第 4 期中国传媒大学学报(自然科学版)任务,需要匹配网络提供对应的点对匹配信息从而还原出相机的
8、旋转平移运动,如图 1所示,它作为低层视觉通往高层视觉的纽带,不但承接着三维重建、同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)等大型任务,同时也是实现信息识别与整合2-4以及从低维图像恢复高维结构5-6的重要途径。图1 位姿估计任务示意图目前大多数图像匹配算法通常包括三个独立的步骤:特征检测、特征描述和特征匹配。近年来随着深度学习的迅速发展,这三个步骤逐渐被整合到一个端到端网络当中,利用深度神经网络根据不同图像集特点在特征检测阶段学习到特征点之间的关系并进行匹配。然而由于很多室内数据集图像中的弱纹理区域或者重复区域往往会占据图像的大
9、部分空间,并且相机运动和光照条件会带来强视点变化和强光线变化,这使得特征检测器很难提取到可重复的特征点,从而无法找到正确的特征点对应关系。最近的一些研究工作直接通过建立像素级的密集匹配并在其中选择置信度高的匹配对,避免了特征检测器无法提取到足够多的特征点进行后续匹配的问题。针对原始Transformer结构处理长序列时带来的显存爆炸问题,虽然已经有很多研究提出了高效的Transformer变体,但其中绝大多数研究集中于自然语言处理的稀疏方法,在计算机视觉领域则通常直接引用前者思路,缺少针对性面向图像处理的注意力稀疏算法。围绕上述问题,本文展开研究工作,通过梳理自-互注意力机制在提取得到的密集局
10、部特征中进行信息交互的过程,提出了基于排名优化的自-互注意力方法-AttentionRanker。该算法创新性地通过对位置编码后的一维输入特征图进行重塑形,然后利用类空间注意力机制挑选少量活跃像素点,成功地将每层注意力的时间复杂度降为O()N lnN,对于不同图像生成不同的权值从而实现自适应优化。2 相关工作2.1 无特征检测器的图像匹配算法研究现状密集特征匹配思想可以追溯到 2010年的 Liu等人7提出的基于光流法的SIFT Flow。2018年Ignacio等人8针对弱纹理区域和图案重复区域用最近邻方法容易产生错误匹配的问题,提出邻域共识网络(Neighbourhood Consensu
11、s Network,NC-Net),它通过构造4D代价容量函数来枚举图像之间所有可能的匹配点对,然后利用4D卷积对代价容量进行正则化,以邻域共识思想约束所有的匹配点对。然而NC-Net中的4D卷积神经网络也带来了巨大的内存消耗和时间复杂度问题,2020年,Li等人9提出的双分辨率对应网络(Dual-Resolution Correspondence Networks,DRC-Net)同样通过构造四维卷积神经网络获取密集匹配,通过这种由粗到细的方式极大地提高了匹配的可靠性并且避免了整个网络都进行4D卷积运算所带来的巨大计算代价。2021年CVPR挑战赛中Sun等人10提出了在SuperGlue1
12、1的匹配思路下设计的基于Transformer的图像匹配网络LoFTR10。其整体可分为四个组成部分:特征金字塔、自-互注意力信息传递、粗匹配预测、多尺度特征融合匹配。首先输入两张图片IA、IB h w,然后构建一个具有三层结构的 ResNet-FPN网络,输出粗精度特征图F和细精度特征图F。然后将得到的一对粗精度特征图分别展平为一维向量FA、FB N d,融合位置编码后送入自-互注意力模块,得到图像内部的关键点信息以及图像之间的关键点信息。然后利用 Sinkhorn算法12-13或双Softmax(Dual-softmax)法得到粗精度匹配预测。最后是进行多尺度特征融合匹配,对于每一对粗匹配
13、(i,j),在细精度特征图F上定位其位置,然后裁剪两组大小为w w的网格窗口并展平,通过自-互注意力信息传递后,得到两个以粗匹配预测的定位点 i 和 j 分别作为FA和FB中心的细精度局282023年赵艳明,等:AttentionRanker基于排名优化的自-互注意力机制部特征表示。通过计算概率分布的期望,收集FA中所有特征点的对应匹配后,最终得到细精度特征图上的亚像素级匹配()i,j Mf。2.2 注意力矩阵的稀疏分解为了降低注意力模型的时间复杂度,Zaheer 等人14提出了两个假设的注意力模型,分别是空洞注意力模型(图2)和局部注意力模型(图3),这两种模型在计算上都有所简化。(a)空洞
14、注意力矩阵(b)空洞注意力元素间的关联关系图2 空洞注意力的注意力矩阵及其关联关系示意图(a)局部注意力矩阵(b)局部注意力元素间的关联关系图3 局部注意力的注意力矩阵及其关联关系示意图与这两种算法有相似之处,Sparse Transformer15在注意力的计算上直接将两个假设合并起来,也就是对于每一个元素来说,都只和与它距离不超过k,以及距离为mk()k 1的元素相关联,这样不仅可以学习紧密相关的局部信息,并且在全局关联性的计算中稀疏了一些注意力,降低计算复杂度。具体算法如下:定义一个集合S=S1,SN,N为向量长度。Si表示第i个输出向量对应于输入向量中的索引集合,即第i个元素可以关联到
15、的元素集合,输入向量X通过S与输出向量关联起来(公式(1)、(2):corr()X,S=()attention()xi,Sii 1,N(1)attention()xi,Si=softmax()()WqxiKTSidVSi(2)其中 KSi=Wkxj,VSi=Wvxj(j Si),Wq、Wk、Wv分别表示将给定输入元素xi转换为 query、key 和 value的权重矩阵,attention()xi,Si表示xi和可以关注的元素之间的注意力。当使用两个注意力头时,让每个注意力关注不同的位置,文中选取让其中一个注意力头只关注当前位置的距离为k=N以内的元素,让另一个注意力头只关注距离当前位置为m
16、k=mN的元素。这样就将计算复杂度由O()N2 d降低为O()NN d。29第 4 期中国传媒大学学报(自然科学版)3 本文方法3.1 自互注意力机制图像匹配任务的传统方法是在获取特征点后计算其视觉描述符信息,然后通过暴力匹配计算描述符欧氏距离获得匹配点对。近年来的匹配算法受Transformer16的启发,在图神经网络的基础上,利用注意力机制整合其他的上下文线索,从而给特征点或者特征图赋予更多的全局信息。使 用 卷 积 神 经 网 络 提 取 两 张 原 始 图 像IA、IB h w的局部特征图FA和FB,自-互注意力模块提取密集匹配过程如下:(1)使用绝对正弦-余弦位置编码为FA和FB中的
17、每个元素添加特定的位置信息,使得图像上的特征与其所在的位置相关联,提高在弱纹理区域找到对应匹配区域的能力。参考Carion等人17的位置编码方法,将第i个特征通道中(x,y)位置的正弦-余弦位置编码的二维扩展PEix,y定义为式(3):PEix,y=sin()k x,i=4kcos()k x,i=4k+1sin()k y,i=4k+2cos()k y,i=4k+3,k 0,h w4 (3)其中k=1 100002kd,d 是使用了位置编码后的特征通道数。(2)将特征图FA和FB展平为一维向量,分别与位置编码融合相加得到FApe和FBpe后输入自-互注意力模块。(3)对两个序列计算图注意力:对于
18、自注意力层,输入特征fi和fj相同,来自于FApe或FBpe;对于互注意力层,输入特征fi和fj则分别来自于FApe和FBpe(或者FBpe和FApe,具体情况视互注意力方向而定)。(4)将自-互注意力模块中的自注意力层和互注意力层交替Nc次,对输入特征进行变换,最终输出融合本张图片邻域信息与待匹配图像信息的特征FAtr和FBtr。图 4 给出了基于 Transformer 的自-互注意力流程。自注意力层使得每个点关注其周围所有点以及关联性,互注意力层使得每个点关注另一幅图上的所有点及其关联性。图4 特征图FA、FB的自-互注意力流程3.2 基于排名优化的自-互注意力机制因为直接使用普通的Tr
19、ansformer编码器结构对算力要求过高,为了能够轻量化使用Transformer,本小节根据输入图像的不同特点进行针对性处理,结合活跃像素点的注意力挑选策略,提出基于排名优化的自-互注意力机制。3.2.1 活跃像素点的挑选策略针对普通注意力机制中忽略稀疏性,对所有的query和key进行点积运算从而造成时间复杂度高的问题,一方面需要考虑不遗漏计算重要的注意力,另一方面需要考虑如何有效地减少计算量。对于每一个一维向量Fpe N d,通过线性映射后得到查询向量q d、值向量k d和键向量v d。如图 5 所示,本节跟随Informer18的实验结论定义两种查询类型,活跃查询qa(active
20、query)和非活跃查询ql(lazy query):302023年赵艳明,等:AttentionRanker基于排名优化的自-互注意力机制图5 活跃查询和非活跃查询的注意力分布示意图(1)qa是能在 key 中查询出更关键的信息的query,即qa-key点积对对于注意力有贡献,这种query在注意力中有一个或多个注意力分数的峰值,其他地方的分数则比较低。(2)ql是使 key 起平均值作用的 query,即ql-key点积对对于注意力仅仅起很微弱的贡献。这种query在注意力中注意力分数没有太大的起伏,整体分布比较平均。为了从所有query中量化区分“活跃性”,在每次进入自注意力层和互注意
21、力层之前首先将一维向量进行重新整合,转换为特征图大小的向量x ()h w d,此时的隐藏维度d可以看作是通道数,图像上的每个像素点经过特征提取和位置编码融合后,使得x不但带有丰富的位置信息,且携带了特征的抽象表达,而这种抽象表达的信息更多体现在“通道维度”上。如图6所示,利用Woo等人19-20提出的空间注意力思想,对通道进行降维操作,将隐藏维度带有的信息压缩后送入类空间注意力模块,实现对特征图x的重构。特征图x同时经过全局平均池化21和全局最大池化,得到两种不同的通道特征描述算子后将其进行拼接:x=ConcatAvgpool()x,Maxpool()x(4)其中特征图x ()h w 2。将拼
22、接得到特征图x经过输出通道数out_channels=1、卷积核大小为 77的卷积层实现降维和增大感受野后,使用Sigmoid激活函数得到通道信息的注意力权重矩阵MSA。图6 利用类空间注意力算法挑选活跃像素点如果某个像素位置的通道信息权重MSA越大,则表明此像素点在线性映射为query后,与key的点积结合越有可能查询出信息。基于此,将通道信息的注意力权重MSA作为qa的度量方法。对于自注意力层,对输入的每张图像分别进行同样的操作:将重构后的特征图X ()h w d再次 展 开 为 一 维 向 量 后,通 过 不 同 的 参 数 矩 阵Wq d d、Wk d d、Wv d d线性映射为查询矩
23、阵Q N d、键矩阵K N d、值矩阵V N d,将得到的注意力权重MSA从大到小进行排序,在Q中挑选出其中占主导地位的Top-m个qa(图7(a)),从而实现对所有 query的稀疏度评估。根据 Zhou等人22提出31第 4 期中国传媒大学学报(自然科学版)的策略对m进行定义(式(5)):m=c lnNQ(5)其中c为可调超参数。非活跃像素点形成空洞直接由value的平均值填充,最终得到与原始查询矩阵Q大小相同的稀疏矩阵Q,此时式(5)变为式(6):Attention=softmax()QKTdV(6)对于互注意力层,将得到的两个输入向量进行特征重构后,其中一个输出向量X1线性映射为K和V
24、,另一个输出向量X2线性映射为Q,同样使用注意力权重进行qa的挑选。其过程由图7(b)所示。因为只计算了稀疏度度量下的 Top-m 个 query,理论上每层注意力的时间复杂度降为O()N lnN。(a)自注意力层挑选活跃像素点(b)互注意力层挑选活跃像素点图7 自-互注意力层挑选活跃像素点3.2.2 AttentionRanker基于排名优化的自-互注意力机制上文活跃像素点的挑选策略已经确定了每层自注意力和互注意力的运行机制,其流程示意图如图8所示。对于每一张图像,与Sparse Transformer等启发式稀疏注意力方法不同,AttentionRanker会根据图像的特征自适应地生成不同
25、的空间注意力权重值,每层自注意力和互注意力的输入都会用Top-m思想评估出不同的qa,计算生成不同的QKT矩阵,从而使得在计算多头注意力时,每张图像上的重要像素点既不会因为注意力头不同而改变,对于每一层的输入又可以自适应选择活跃query从而采取不同的优化策略。在自注意力层中,其Qs、Ks、Vs的输入都来自于同一特征向量。在将重构后的特征向量展平并经过不同的线性层转换成表征长度相同的向量后,通过隐藏维度的信息压缩选出空间注意力权重最高的Top-m个qa,只计算这些qa和所有key的点积结果,其余的ql不再进行计算(即不再为value计算权重),而是直接对value取均值作为输出,从而保证输入输
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AttentionRanker 基于 排名 优化 注意力 机制
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。