基于空洞卷积与注意力模块的立体匹配算法.pdf
《基于空洞卷积与注意力模块的立体匹配算法.pdf》由会员分享,可在线阅读,更多相关《基于空洞卷积与注意力模块的立体匹配算法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于空洞卷积与注意力模块的立体匹配算法刘志浩,孟凡云,王金鹤,张楠(青岛理工大学 信息与控制工程学院,山东 青岛 266520)摘要:基于卷积神经网络的立体匹配算法大多需要较大的感受野,但多数算法在扩大感受野的同时参数量也容易剧增,导致算法对训练数据的规模要求较高。提出一种基于空洞卷积和注意力模块的立体匹配算法,采用空洞卷积模块,将残差结构和空洞卷积相结合,以在较少参数量的情况下扩大网络的感受野。使用注意力模块,通过不同层次的卷积整合多层次的信息,增加所提取信息的完整性。采用空间金字塔池化模块,通过帯权的金
2、字塔池化扩大模型的感受野,并赋予不同层次信息不同的重要性程度。实验结果表明,在相同数据集和训练次数的情况下,所提算法相对于 DispNetC等其他算法具有较快的收敛速度,且结构简单,参数量较少,适用于小样本数据。关键词:立体匹配;小样本数据;空洞卷积;注意力模块;金字塔池化开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):223-231.英文引用格式:LIU Z H,MENG F Y,WANG J H,et al.Stereo matching algorithm based on atrous convolution and atten
3、tion module J.Computer Engineering,2023,49(8):223-231.Stereo Matching Algorithm Based on Atrous Convolution and Attention ModuleLIU Zhihao,MENG Fanyun,WANG Jinhe,ZHANG Nan(School of Information and Control Engineering,Qingdao University of Technology,Qingdao 266520,Shandong,China)【Abstract】Most of t
4、he stereo matching algorithms based on convolutional neural networks require a large receptive field.However,the number of parameters in most algorithms is easy to increase when the receptive field is enlarged,which leads to high requirements on the scale of training data.A stereo matching algorithm
5、,based on atrous convolution and attention module,is proposed.An atrous convolution module is used to combine residual structure and atrous convolution to enlarge the receptive field of the network with fewer parameters.The attention module is used to integrate multiple levels of information via dif
6、ferent levels of convolution to increase the integrity of the extracted information.The spatial pyramid pool module is used to enlarge the receptive field of the model through the pyramid pool with the right,and different levels of information have different importance.The experimental results show
7、that the proposed algorithm has a faster convergence speed than DispNetC and other algorithms with the same data set and training times.Moreover,it has a simple structure,few parameters,and is suitable for small sample data.【Key words】stereo matching;small samples data;atrous convolution;attention m
8、odule;pyramid poolingDOI:10.19678/j.issn.1000-3428.00656280概述 立体匹配是计算机视觉领域的一个基本问题,在物体跟踪、三维重构、图像分割等领域应用广泛。近年来,深度学习领域发展迅速,特别是卷积神经网络的发展使立体匹配问题得到了很好的解决。传统的立体匹配方法大致可以分为代价计算、代价聚合、视差计算和视差细化 4个步骤1。传统方法经常采用滑动窗口的方式进行匹配,得到对应点,然后利用左右一致性、遮挡、连续性等关系设置约束来调整视差值。然而,传统的立体匹配方法存在一定的局限性,无法人为地设计出良好的约束条件使算法的性能受到一定限制。随着深度学习
9、的不断发展,将卷积神经网络与立体匹配相结合取得了较好的效果。卷积神经网络最初被用于匹配代价计算,文献 2-3 通过权重共享网络进行特征提取,同时计基金项目:山东省自然科学基金(ZR2019BA014)。作者简介:刘志浩(1997),男,硕士研究生,主研方向为立体匹配;孟凡云(通信作者),讲师、博士;王金鹤,教授、博士;张 楠,讲师。收稿日期:2022-08-30 修回日期:2022-10-14 Email:图形图像处理文章编号:1000-3428(2023)08-0223-09 文献标志码:A 中图分类号:TP391.412023年 8月 15日Computer Engineering 计算机
10、工程算匹配代价,并通过全连接层计算左右图片中提取特征的相似度。文献 4 通过点积的方式计算特征相似度,代替之前的全连接层,提高了算法的运行效率。近年来这类方法从各个角度不断被改进,如加强算法稳定性5-6、加入语义信息7、提升算法效率8等。但这类方法仍然需要复杂的后处理阶段,需要人工设计方法对异常区域、异常值进行处理,所以算法性能有待提高。为减少人工的参与,文献 1 提出一种端到端的立体匹配模型,将立体匹配的整个过程融入到网络结构中,去除了人工的参与。这种模型采用“编码器-解码器”结构,同时制作一个大型合成数据集用于网络模型的训练。随后,学者基于大型数据集从各 个 角 度 提 升 算 法 的 性
11、 能。文 献 9-10使 用 了3DCNN 网络,在特征提取之后能够更加直观地对比图像的信息,从更多角度整合信息,从而达到更好的效果;文献 11 通过设计空间金字塔池化扩大了网络的感受野,提升了整个网络的性能;文献 12将注意力机制加入立体匹配网络中;文献 13-14 使用空洞卷积来扩大网络感受野;文献 15 通过优化残差的方式侧面完善视差图,同时加入了较深层次的特征信息,提高了算法的精度;文献 16-17 对不同分辨率层级的图像分别进行处理,之后再将得到的结果相互融合;文献 18 提出一种新的代价量和自适应的匹配方法,可以应用于大多数网络中;文献 19 通过设计新的搜索方式提升了算法的收敛速
12、度和精度;文献 20-22 通过引入局部特征信息、边缘信息和语义信息获得更加精确的视差图。这些算法大多依赖于大型数据集的预训练模型,需要事先用大型数据集训练模型,然后再对训练过的模型进行微调,无法直接应用于小样本数据。这是因为这些算法大多使用 3DCNN,模型复杂且参数量较多,导致模型需要较大的数据集才能达到较好的效果。本文提出一种基于小样本数据的轻量级立体匹配算法,引入空洞卷积和注意力机制,采用“编码器-解码器”逐步恢复视差图。为了减少参数量,本文不采用 3D 卷积,通过使用普通的卷积层和一些功能性结构提升算法的性能,使算法能够适应小样本数据,降低算法运行时对硬件的要求。1网络结构 1.1整
13、体结构本文提出一种端到端的的网络结构来预测视差图,其 结 构 主 要 包 含 特 征 提 取 模 块(Feature Extraction Module,FEM)、初始视差模块(Disparity Initialization Module,DIM)和 视 差 细 化 模 块(Disparity Refinement Module,DRM)3 个 模 块。FEM 模块的作用是提取左右图像的特征,并计算匹配代价;DIM 模块的作用是将 FEM 模块提取的特征进行处理,得到初始视差图;DRM 模块的作用是对初始视差图进行进一步的优化,通过优化残差侧面完善视差图。本文立体匹配算法的架构如图 1 所示
14、。空 洞 卷 积 模 块(Atrous Convolution Module,ACM)是本文提出的一种功能性结构,主要作用是扩大网络的感受野。本文算法以双目图像为输入,预测视差图的基本流程如下:1)以双目图像为输入,使用权值共享的 FEM 进行学习,通过空洞卷积模块扩大网络感受野,提取更多的信息;2)采用“编码器-解码器”结构逐步还原视差图,使用注意力模块整合多层次信息,得到初始视差图;3)通过初始视差图和右图像得到重构图,将重构图和左图像对比得到重构误差图,使用 DRM 对重构误差图进行学习,最后将重构误差图和初始视差图进行整合。接下来将从 4 个部分详细介绍本文算法,包括空洞卷积模块、特征
15、提取模块、初始视差模块和视差细化模块。图 1本文立体匹配算法的架构Fig.1Architecture of stereo matching algorithm in this paper224第 49卷 第 8期刘志浩,孟凡云,王金鹤,等:基于空洞卷积与注意力模块的立体匹配算法1.2空洞卷积模块立体匹配存在弱纹理、重复、透明等问题,往往需要较大的感受野,而扩大感受野一般的方式是采用较大的卷积核,更深的网络层数。此外,使用空洞卷积也是一种扩大感受野的方式。但是,空洞卷积本身存在一定的问题。首先,空洞卷积会导致局部信息缺失,由于空洞卷积的结果是通过对上一卷积层独立计算得到的,相互之间没有依赖关系,
16、所以该层的卷积结果之间没有相关性,丢失了局部依赖关系;其次,单个空洞卷积的结果自身缺乏连续性,空洞卷积本身提取信息存在一定的间隔,随着膨胀因子的增大,得到信息的连续性减小,从而导致获得信息的关联性减小。为解决这些问题,本文提出了空洞卷积模块。空洞卷积模块是根据空洞卷积和残差网络23设计的小型网络结构,作用是模仿卷积核较大的卷积层,扩大网络的感受野,在增加提取信息连续性的同时尽量减少参数量。空洞卷积模块的具体结构如图 2所示,其中:AC(n,1)表示膨胀因子为 n,步长为 1,卷积核大小为 3的空洞卷积层;Conv(3,1)表示卷积核大小为 3,步长为 1的卷积层;Conv(1,1)表示卷积核大
17、小为 1,步长为 1的卷积层。每个卷积层后面都有一个正则化层24和 Leaky ReLU 激活函数层25(负斜率取值 0.1)。空洞卷积模块有两个特殊的结构,捷径连接和填充,如图 2所示。其中:捷径连接的作用是将整个模块整合起来,减少层数加深对网络的影响;填充是指当膨胀因子过大时,依次补充膨胀因子较小的空洞卷积层;超参数 T 表示空洞卷积模块膨胀因子的大小,t表示内部空洞卷积层的膨胀因子的大小,通过调节 T 的大小可以调节空洞卷积层数量。例如,当膨胀因子 T=4 时,无填充表示只含 1 个空洞卷积层,膨胀因子 t=4;有填充时,整个空洞卷积模块包含3个空洞卷积层,膨胀因子分别为 t=4,t=3
18、和 t=2,图 3表示膨胀因子 T=3时填充的类似作用。设计填充的原因是因为在空洞卷积层中当膨胀因子过大时,在卷积核大小不变的情况下,提取的信息过于分散,填充可以补充部分遗漏的信息,在一定程度上保证所提取信息的连续性,可以减少信息缺失对算法精度的影响。空洞卷积模块能较好地扩大感受野,相对于其他卷积核较大的卷积模块有较小的参数量,有利于加快模型的收敛速度。在加入捷径连接之后,空洞卷积模块成为一个整体,会减少网络层数的加深对网络性能的影响。填充是对空洞卷积层的一种补充,可以在一定程度上解决空洞卷积层提取信息不连续的问题,提取更多层次的信息。1.3特征提取模块FEM 模块的主要功能是获取左右图像的特
19、征,以获得视差图。图片的无纹理、弱纹理区域是立体匹配的难点,所以在立体匹配过程中需要网络有较大的感受野。本文采用空洞卷积模块来扩大网络感受野,主要原因是空洞卷积模块不仅可以扩大感受野,而且参数量较少,能适应小样本数据。FEM 模块包含 3个空洞卷积,膨胀因子 T依次为 2、3、3,步长均为 1;Corration 表示计算点积;其卷积层中卷积核大小 均 为 3,每 个 卷 积 层 后 面 都 有 一 个 正 则 化 层 和Leaky ReLU 激活函数层(负斜率取值 0.1)。FEM 模块的具体结构如图 4所示。FEM 模块的参数如表 1所示,其中:s表示步长;T 表示空洞卷积模块的膨胀因子;
20、“”表示不含该参数。图 3膨胀因子相同时有无填充的对比Fig.3Comparison of the same expansion factor with or without filling图 4特征提取模块的结构Fig.4Structure of feature extraction module图 2空洞卷积模块的结构Fig.2Structure of atrous convolution module2252023年 8月 15日Computer Engineering 计算机工程FEM 模块采用轻量级的结构,主要优点有两个:卷积层较少,且大部分卷积核为 33,在减少参数量的同时可以提高
21、算法的运行速度;使用了空洞卷积模块,具有较大的感受野,可以提取更多的信息,同时补充了所提取信息的连续性,缓解了空洞卷积提取信息的连续性问题。1.4初始视差模块DIM 模块的主要功能是通过提取的特征还原视差图。因为在计算视差时需要整合多层次的信息,所以本文采用“编码器-解码器”结构作为主要框架,以便于更好地还原视差图。同时在网络结构中加入特征金字塔注意(Feature Pyramid Attention,FPA)26模块。FPA 模块的作用是融合不同尺度的信息,扩大网络的感受野。本文对 FPA 模块进行了一定的修改,利用空洞卷积模块替换普通的卷积层,可以进一步扩大金字塔结构的感受野,获得更多的特
22、征信息。FPA模块的主要修改部分是将卷积核大小分别为77,55 的卷积层分别替换为膨胀因子为 T=3、T=2 的空洞卷积模块,FPA模块的结构如图 5所示。DIM 模块的整体结构如图 6 所示,其中空洞卷积模块的膨胀因子 T=2,步长为 2;普通卷积层中卷积核大小为 3,步长为 1。每个卷积层之后都有一个正 则 化 层 和 Leaky ReLU 激 活 函 数 层(负 斜 率 取值 0.1)。DIM 模块的参数如表 2所示,其中:s表示步长,T 表示空洞卷积模块的膨胀因子;“”表示不含该参数。DIM 模块首先通过空洞卷积模块获得较大的感受野,扩大提取信息的范围,然后通过 FPA 模块整合多层次
23、的信息,最后通过上采样逐步还原视差图。由于 3D 卷积结构参数量较大,不适用于小样本数据,所以本文算法没有使用 3D 卷积结构,而是采用基于 2D 卷积的“编码器-解码器”结构,以有效减少参数量。1.5视差细化模块DRM 模块的主要功能是将初始视差图进行优化,得到更加精确的视差图。本文借鉴了残差网络的思想,通过优化重构误差图的方式来优化视差图。重构误差是指通过右图像和初始视差图得到重构图,然后与左图像对照得到重构误差图。视差细化的作用是优化得到初始视差图,将其中视差值错误的像素点改正,而这些像素点大多属于异常区域,即遮挡、弱纹理、强光照等,所以去除这些异常点需要整个网络有较大的感受野。DRM
24、模块通过多个空洞 卷 积 模 块 和 尺 度 注 意 的 空 间 金 字 塔 池 化 模 块(Spatial Pyramid Pooling with Scale Attention,SPPSA)27扩大整个网络的感受野,从而获得更加优化的视差图。DRM 模块的结构如图 7所示,其中:卷积层的卷积核大小为 3,步长为 1;空洞卷积模块的膨胀因子均为 2,步长为 1;SPPSA 模块的作用是扩大感受野,同时调节不同层次信息的重要性程度;RE表示重构图。DRM 模块的参数如表 3所示,其中:s表示步长;T表示空洞卷积模块的膨胀因子;“”表示不含该参数。由于立体匹配的一些难点,如弱纹理、强光照、透明
25、重复等,初始视差图不够精确,所以在视差细化时需要较大的感受野和多尺度的特征,DRM 通过表 1FEM 模块的参数 Table 1Parameters of FEM module层号123和 456类型ConvACMACMConvConv输出32323264128s11121T23图 6DIM 模块的结构Fig.6Structure of DIM module图 5FPA模块的结构Fig.5Structure of FPA module表 2DIM 模块的参数 Table 2Parameters of DIM module层号79101121314类型ACMFPAConvConv输出128128
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 空洞 卷积 注意力 模块 立体 匹配 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。