基于多维注意力的立体匹配网络.pdf
《基于多维注意力的立体匹配网络.pdf》由会员分享,可在线阅读,更多相关《基于多维注意力的立体匹配网络.pdf(5页珍藏版)》请在咨信网上搜索。
1、 年第卷第期 传感器与微系统():()基于多维注意力的立体匹配网络孙国栋,张航,李超,杨雄(湖北工业大学机械工程学院,湖北武汉)摘要:针对基于深度学习的立体匹配算法在挑战区域(如细节区域、弱纹理区域)存在一些误匹配的问题,提出一种基于多维注意力的立体匹配方法。首先,设计空间金字塔注意()模块,通过将空间金字塔结构与注意力机制相结合,获取更有效的全局上下文信息,来提高匹配精度;然后,构建注意力堆叠沙漏聚合()模块,在堆叠沙漏结构中引入注意力机制(),对匹配代价体进行重新校准,以进行更精确的视差计算;同时,采用可微分的()方法,通过减少候选视差数量,构建轻量级匹配代价体,在保证模型匹配精度的同时,
2、降低了计算资源的消耗。在、和数据集上的实验结果表明,与基准方法相比,所提算法在减少运行时间的同时提高了匹配精度。关键词:深度学习;立体匹配;注意力机制;匹配代价体中图分类号:文献标识码:文章编号:(),(,):,(),(),(),(),:;引言双目视觉在无人驾驶、机器人学、遥感、位姿估计等领域中发挥着重要的作用。其中,立体匹配是双目视觉研究中的重点与难点,旨在从一对校正的图像中获取视差图。传统算法包括个步骤:代价计算、代价聚合、视差计算和视差校正。近年来,得益于深度学习的应用,立体匹配算法取得了较大的进展。和 首次将卷积神经网络()应用于立体匹配,提出的用深度度量替代了人工设计的匹配代价度量,
3、用一个深度暹罗网络来计算个图像块之间的相似度。等人通过滑动窗口的点积运算,获得了视差搜索范围内每个像素的相似性得分。等人构建了第一个用于视差预测的端到端网络,该网络的相关层用于度量左右图像特征的相似度。等人提出了一种称为级联残差学习()的二段结构,第一阶段给出初始预测,第二阶段学习残差。等人提出的,通过连接左右图像的一元特征来构造匹配代价体(高、宽、视差和特征尺寸),收稿日期:基金项目:国家自然科学基金资助项目()传 感 器 与 微 系 统第卷并且用卷积来提取基于高、宽和视差个维度的特征表示。等人提出的使用空间金字塔池化(,)模块来获取多尺度特征表示,并且使用堆叠沙漏结构的卷积来规则化匹配代价
4、体。基于端到端的立体匹配方法无需任何后处理,并且极大提高了匹配精度,但在细节区域、弱纹理区域等挑战区域的视差预测仍存在一些技术困难。本文在的基础上,建立一个基于多维注意力的立体匹配网络。在特征提取阶段,将空间金字塔结构与注意力机制(,)相结合,利用通道向量获得更有效的全局信息以丰富挑战区域特征,从而更好地进行视差预测。然后在堆叠沙漏结构中引入通道注意力,使模型聚焦于挑战区域内的有效特征。同时,考虑到许多模型精度的提高是以牺牲计算为代价的,采用可微分的()方法,通过减少候选视差的数量,构建一个轻量级匹配代价体,在保证匹配精度的同时减少了计算负担。基本原理整体网络架构本文网络结构如图所示,基本流程
5、如下:)将左右图像对输入权值共享的中得到特征图,然后使用空间金字塔注意力(,)模块来获取更丰富的全局上下文信息;)将左右特征在部分视差值处级联,构建轻量级匹配代价体;)在代价聚合中,使用注意力堆叠沙漏聚合()模块对匹配代价体进行重新调整;)通过视差回归函数对视差进行预测。预测视差图视差回归代价聚合构建轻量级代价体回归上采样ASA模块匹配代价体DPMSPA模块CNNCNN特征提取输入图像对右图左图SPA模块权值共享图所提算法的网络结构 模块本文借鉴语义分割的研究经验,将空间金字塔结构与相结合,设计模块,具体网络结构如图所示,该模块可以利用通道注意向量来提取像素级全局上下文信息。Conv11Con
6、v11Conv33Conv33Conv55Conv55Conv77Conv77Conv11Sigmoid输入+图 模块结构 模块通过形结构将种不同金字塔尺度下的特征进行融合,为了更好地从不同尺度中提取上下文信息,在金字塔结构中分别使用了卷积核大小为,的个连续的卷积层,而且每个金字塔尺度的卷积运算都是基于前一个尺度。由于高级特征图的分辨率较小,在这里使用较大尺寸的卷积核不会带来太大计算的负担。并且使用形结构增加了网络深度,提高了网络的匹配性能,更准确地融合了全局上下文信息特征。然后模块将经过 卷积和运算的输入与多尺度金字塔特征相乘,这样就可以使用通道注意向量有效地选择像素级全局信息。模块在代价聚
7、合中,使用的堆叠沙漏结构无法有效地关注匹配代价体的通道信息,并且对输入信息中的重要特征未进行高效利用和有效整合,这使得模型不能有效地关注重要特征。受通道注意力的启发,本文针对匹配代价体特征的属性,在堆叠沙漏结构中引入通道注意力,构建模块,具体的网络结构如图所示。该模块能够计算不同通道间的相互依赖性,感知不同通道特征的重要程度,细化了匹配代价体的特征,从而使重要的图像特征得到有效关注以进行更精确的视差预测。输出 3输出 2输出 1回归双线性回归双线性回归双线性3D注意力3D注意力3D注意力图 模块结构 实现通道注意力的单元结构如图所示,它将经由堆叠沙漏结构生成的匹配代价体作为输入,与通道获得的响
8、应值相乘,得到重新校准的代价体。级联校准后代价体WHDC11DCWHDC输入代价体堆叠沙漏SigmoidFC ReLU3D 全局平均池化FC图 通道注意力单元结构 首先,在通道维度上对输入匹配代价体 进行全局平均池化操作,将 压缩为 ,得到一个全局张量。这里采用全局平均池化操作可以使获得的全局视野,从而更好地整合全局空间信息。在得到后,为了降低单元的复杂度,提高泛化能力,本文接着采用个全连接()层。为了减少计算量,第一个层将特征维度压缩到,然后采用函数激活。第二个层将其输出结果恢复到原来的维度,经过函数得到通道响应值 。最后将响应值与输入匹配代价体相乘得到重新校准的匹配第期孙国栋,等:基于多维
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多维 注意力 立体 匹配 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。