融合序列影像相关区域信息的光流估计网络.pdf
《融合序列影像相关区域信息的光流估计网络.pdf》由会员分享,可在线阅读,更多相关《融合序列影像相关区域信息的光流估计网络.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 38 卷 第 10 期2023 年 10 月Vol.38 No.10Oct.2023液晶与显示Chinese Journal of Liquid Crystals and Displays融合序列影像相关区域信息的光流估计网络安彤1,贾迪1,2*,张家宝1,蔡鹏1(1.辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛 125105;2.辽宁工程技术大学 电气与控制工程学院,辽宁 葫芦岛 125105)摘要:针对现有光流估计方法在目标轮廓分割不清晰、缺乏细粒度的问题,本文提出融合序列影像相关区域信息的光流估计网络。通过特征编码器和全局编码器分别提取图像的编码特征和上下文特征,并通过下采样处
2、理缩减特征尺寸。在构建 4D相关体前,对输入的连续两帧特征图进行分区处理,以强弱相关的方式计算稠密的视觉相似度,建立更为精细的4D相关体积。在迭代更新阶段,提出残差卷积滤波器和细粒度模块,分别应用于处理相关体和光流传递,使得在融合相关体信息和光流信息前保留更多的局部小位移信息。在KITTI-2015数据集和MPI-Sintel数据集上与其他方法进行对比,光流估计评价指标分别提升了 8.2%和 6.15%。本文给出的网络模型可以更好地提高光流估计的准确性,有效解决了光流场过于平滑、缺乏细粒度和忽略小物体运动等问题。关键词:计算机视觉;深度学习;光流;区域匹配;迭代更新中图分类号:TP391.4
3、文献标识码:A doi:10.37188/CJLCD.2022-0384Optical flow estimation via fusing sequence image intensity correlation informationAN Tong1,JIA Di1,2*,ZHANG Jia-bao1,CAI Peng1(1.College of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China;2.College of Electrical and Contr
4、ol Engineering,Liaoning Technical University,Huludao 125105,China)Abstract:Aiming at the problems of unclear target contour segmentation and poor granularity in existing optical flow estimation methods,an optical flow estimation via fusing sequence image intensity correlation information is proposed
5、.First,The coding features and contextual features of the images are extracted by the feature encoder and the global encoder,respectively,and the feature sizes are reduced by downsampling processing.Then,before constructing 4D correlation volume,the input two consecutive frames of feature maps are d
6、ivided into regions to calculate dense visual similarity in the form of strong and weak correlation to build a more refined 4D correlation volume.Finally,in the iterative update stage,the residual 文章编号:1007-2780(2023)10-1434-11收稿日期:2022-11-18;修订日期:2023-01-18.基金项目:国家自然科学基金(No.61601213);辽宁省自然科学基金(No.L
7、J2020FWL004);中国博士后科学基金(No.2017M61125)Supported by National Natural Science Foundation of China(No.61601213);National Natural Science Foundation of Liaoning Province(No.LJ2020FWL004);China Postdoctoral Science Foundation(No.2017M61125)*通信联系人,E-mail:第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络convolution filter and
8、 the fine-grained module are proposed to be applied to process the correlation volume and optical flow transmission,respectively,which allows to retain more local small displacement information before fusing the correlation volume information and optical flow information.In comparison with other met
9、hods on the KITTI-2015 and MPI-Sintel,the optical flow estimation evaluation metric(Endpoint error,EPE)is improved by 8.2%and 6.15%,respectively.The network model given in this paper can better improve the accuracy of optical flow estimation and effectively solve the problems of the optical flow pre
10、diction field being over smooth,lacking of fine granularity and ignoring of small object motion.Key words:computer vision;deep learning;optical flow;region matching;iterative update1 引言光流估计是计算机视觉的核心问题之一,在视频理解1、动作识别2、目标跟踪3、全景拼接4等领域具有重要的应用,在各类视频分析任务中可以更好地反映目标的运动信息,被认为是一种重要的视觉线索。然而,目前的光流估计网络仍存在过度平滑、缺乏细
11、粒度、无纹理曲面难以准确估计的问题。传统光流估计方法常基于亮度一致性和空间平滑度能量最小化的方式获得光流估计结果。Horn等5采用全局方法估计图像的稠密光流场,基于亮度恒定与光流场平滑假设构造能量函数提出一种光流变分框架。Black 等6提出一种鲁棒的光流估计框架,对违反空间平滑和亮度恒定这两个约束条件进行统一处理。为了解决二次方惩罚项偏差较大的问题,TV-L17采用替换 L1数据项和总变差正则化较好地剔除了异常值。一些学者又通过结合能量最小化以及描述符匹配策略建立区域层次结构8,引入新的高阶正则化项解决了该框架中的相关问题。近年来,基于深度学习的光流估计方法取得了快速进展。可通过训练好的神经
12、网络直接对帧间光流进行预测,缺点是会产生局部噪声和模糊结果。针对该问题,Simonyan 等9采用变分法、Ilg10等采用叠加多网络的思想来进行改进,较好地解决了该问题。此后,Ranjan等11结合传统算法中的金字塔理念提出 SpyNet 网络,由粗到精地完成了光流估计,更好地处理了光流算法中的大位移问题。Sun 等12提出 PWC-Net 网络同样采用了由粗到精的金字塔思想,引入经典算法中的相关体处理(Cost Volume),以端到端的训练方式完成了网络性能的提升。Yang 等13提出的VCN 网络进一步改进了相关体处理方法,通过引入 4D 卷积提高了光流估计的准确性。这些方法均采用由粗到
13、精的金字塔处理方式进行迭代优化,并在迭代中不共享权重。与以上方法相比,建立在 FlownetS 和 PWC网络架构基础上的 IRR14网络能够细化网络间的共享权重,但由于该网络过大(38M 参数),只能完成 5次迭代。Devon等15给出一种更加精细的模块设计(2.7M 参数),在推理过程中可以进行上百次迭代,获得更加精确的结果。随着深度学习的发展,许多工作将视觉问题转化为优化问题,将优化的思想融入到网络体系结构中。Amos等16提出的 OptNet网络将优化问题作为单个层嵌入到深度网络中,并提供了更好的反向传播功能,使该网络具备较强的学习能力。Agrawal等17在求解优化过程中引入更为严格
14、的参数化编程,较好地避免了可微应用中使用凸优化存在的问题。Zachary Teed等18提出一种光流估计网络(RAFT),结合以上算法思想,提取像素级特征,为所有像素建立多尺度4D关联信息,循环迭代更新光流场,有效提高了光流估计的准确率。但 RAFT 也存在着一些待解决的问题:首先,由于 RAFT 在高分辨率和低分辨率的条件下为所有特征对都建立了相关体积,每次更新都需要获得全像素位移的信息导致引入过多误差信息,降低了后续光流估计的准确率。其次,在迭代更新模块部分,RAFT 依赖于静态滤波器融合光流和相关体积,这也使得最终的光流预测图产生过于平滑的结果。为了解决上述RAFT中存在的问题,本文在构
15、建 4D 相关体前,对输入的连续两帧特征图进行分区处理,以强弱相关的方式计算稠密的视觉相似度,以此计算建立更为精细的 4D相关体积。在迭代更新阶段,本文在卷积门循环单元(ConvGRU)模块的基础上加入了残差卷积滤波器和细粒度1435第 38 卷液晶与显示模块,在融合光流信息和相关体信息前尽可能地保留更多的局部小位移信息。本文通过特征提取模块、计算视觉相似度模块和光流迭代更新模块获得最终的光流估计结果,本文的主要贡献如下:(1)提出采用分区处理强弱相关信息的方法,能够较好地剔除误差,建立更为精细的 4D 相关体,从而获得更加准确的相关体信息;(2)引入残差卷积滤波器,使光流信息不会随着卷积滤波
16、器的迭代加深而出现过于平滑的结果;(3)采用 细 粒 度 模 块,在 尽 可 能 扩 大 感 受野的同时,使模块更加关注局部小位移的特征信息。2 本文方法图 1 为本文给出的光流估计网络结构,由特征提取模块、视觉相似度计算模块和迭代更新模块 3部分构成。特 征 提 取 器 模 块 由 特 征 编 码 器 和 全 局 编码器两部分构成。输入的前后帧图片经过特征提取器模块分别提取下采样 8 倍的特征图和上下文信息。视觉相似度计算模块由分区强弱相关计算和相关金字塔构成。分区强弱相关计算会对特征图进行特征权重的空间重构,并通过相关金字塔得到不同尺度的相关体积。迭代更新模块由基准移动编码模块和卷积门控循
17、环单元构成。光流信息会通过对不同尺度的相关体积进行按位查询,得到与预测光流位移相对应的相关体,查询得到的相关体和光流位移经过基准移动编码模块(图 1 中 B 标识模块)进行信息的融合。最终,输出融合结果将与上下文信息一起作为卷积门控循环单元的输入,迭代 12次后得到更为精细的光流预测图。对给定的输入连续两帧图像,分别表示为Ia与Ib。输入图像的宽和高分别记为 H 和 W。2.1特征提取模块特征提取模块由特征编码器和全局编码器两部分构成。特征编码器以权重共享的方式作用于Ia与Ib,并以 1/8 的分辨率输出编码后的特征Fa、Fb RH/8 W/8 D,其中Fa、Fb分别为图像Ia、Ib的输出,D
18、为特征图的维度。此外,全局编码器网络的体系结构与特征编码器网络相同。它将从第一张输入图像Ia上提取特征,并输出编码后的特征Fc RH/8 W/8 D。编码器的网络设计如图 2所示。2.2视觉相似度计算模块计算视觉相似度是光流估计中的一个核心步骤,在整体结构中起到了至关重要的作用,图 1光流估计网络结构Fig.1Optical flow estimation network structure图 2编码器结构Fig.2Encoder structure1436第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络但之前的许多工作并没有在这一步投入太多关注,计算方式大多以直接做全局特征向量的
19、內积为主。全局的特征匹配往往是直接对两张特征图以像素点为单位计算点积,即取所有特征向量对之间的点积形成相关体。当给定特征图Fa的像素坐标(u,v)和特征图Fb的像素坐标(x,y),相关体积C即可通过矩阵运算获得:C(u,v,x,y)=Fa(u,v)Fb(x,y).(1)在光流估计任务中,连续两帧图像间,大位移 的 像 素 点 占 比 极 少,远 距 离 的 像 素 相 关 性较小,即第一帧图像中位于上方的像素通常情况下不会位移到第二帧图像的下方。在这种情况下,做全局的相关计算就会引入许多误差信息。但若直接忽略远距离的特征点,一些大位移像素的相关关系将被完全清零,这可能导致一些更致命的误差。经过
20、上述的分析,本文提出了基于分区思想的强弱相关计算方法。该方法可以在构建相关金字塔的基础上,强化对局部区域的关注度,从而减少对全局信息的错误判断。如图 3 所示,输入的特征图会被横向切分成2n个区域(Region),通过区域间的范围阈值来设定两帧间像素的映射。在本文中,分条区域的个数被设置成偶数,这种做法的原因是当对图片进行分区处理时,选择偶数计算更为方便。对特征提取模块求出的特征图Fa和Fb,分区(Region)的表达方式如式(2)所示:Fa=i(1,2n)region(i)Fb=j(1,2n)region(j),(2)其中,i和j分别表示Fa和Fb的分条区域索引。对于不同映射关系的像素点,本
21、文通过设置相应的可学习相关因子来强化两帧区域内的强弱相关性。这种方法的好处在于既能获得全像素对的相关信息,降低对大位移像素离群值的敏感性,又能极大程度地减少区域外的误相关带来的误差。加入强弱关系后的相关体积Cfinal的计算方式如式(3)和式(4)所示:Cij=jregion()i region()jj=h()i,(3)Cfinal=i()1,2n,j()1,2nCij,(4)其中:h()表示帧间各个分条区域间的映射关系,与之对应的j是可学习的自适应相关因子,用来表示不同程度的相关性;为帧间对应区域内像素的点积;Cij表示区域i和区域j加入强弱关系后的相关体积。本模型利用 sigmoid 函数
22、将j的取值范围约束在 01之间。至此,对于Fa中的每一个特征点,均计算出Fb中所有特征点与它的相关关系,即相关体积Cfinal,其维度为w h w h。需要说明的是这里的w和h是原始图片的下采样 8 倍后的宽和高,即(w,h)=(W8,H8)。之后本文采用 4个不同大小(卷积步长分别为 1,2,4,8)的卷积核对相关体积的后两个维度进行降采样得到 4 层金字塔C0v,C1v,C2v,C3v,相关金字塔标号q与其维度的关系图 3横向切分做边缘区域点映射的强-弱相关与中心区域点映射的强-弱相关(以分条颜色的深浅表示相关的强度,对应位置区域认定为强相关,相关因子置 1,其余颜色越弱,相关性越弱)。F
23、ig.3Strength-weakness correlation of the edge-region point mapping with the center-region point mapping done by the horizontal cut(The strength of the correlation is indicated by the shade of the color of the bars,The correlation factor is set to 1 when the corresponding position area is identified
24、as strong correlation.The weaker the rest of the color,the weaker the correlation).1437第 38 卷液晶与显示如式(5)所示:Cqv h w h/2k w/2k.(5)如图 4所示,基于相关金字塔C0v,C1v,C2v,C3v,本文定义了查询操作。给定当前光流位移是(f1,f2),Ia中的每个像素点p(u,v)都可以被映射到Ib的估计值p(x,y),即(x,y)=(u+f1()u,)v+f2()v。设p的邻域点集为L(p)r,L(p)r的计算如式(6)所示:L(p)r=p+dp|dp Z2,|dp|r,(6)
25、其中:dp为查找范围且取整数;r为搜索半径,设定为 4像素;Z为正整数集。将该邻域内的所有点看作是Ia中像素点p在Ib上的潜在位置。后续在迭代更新光流的过程中,可借助插值查询操作从相关金字塔C0v,C1v,C2v,C3v中索引得到像素级别的相关特征信息,最后将不同金字塔层的查询结果在特征维度上进行合并,得到最终的相关体Clast。综上所述,本文以分条区域做强弱相关的方式计算视觉相似度,其好处在于既能获得全像素对的相关信息,又能极大减少由全局匹配所引入的错误信息,进而获得更加准确的相关体信息,为后续光流场迭代更新计算提供支持。2.3迭代更新模块本文主要通过迭代更新模块中的光流序列f1,fN完成光
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 序列 影像 相关 区域 信息 估计 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。