欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    融合序列影像相关区域信息的光流估计网络.pdf

    • 资源ID:716077       资源大小:25.43MB        全文页数:11页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    开通VIP
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    融合序列影像相关区域信息的光流估计网络.pdf

    1、第 38 卷 第 10 期2023 年 10 月Vol.38 No.10Oct.2023液晶与显示Chinese Journal of Liquid Crystals and Displays融合序列影像相关区域信息的光流估计网络安彤1,贾迪1,2*,张家宝1,蔡鹏1(1.辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛 125105;2.辽宁工程技术大学 电气与控制工程学院,辽宁 葫芦岛 125105)摘要:针对现有光流估计方法在目标轮廓分割不清晰、缺乏细粒度的问题,本文提出融合序列影像相关区域信息的光流估计网络。通过特征编码器和全局编码器分别提取图像的编码特征和上下文特征,并通过下采样处

    2、理缩减特征尺寸。在构建 4D相关体前,对输入的连续两帧特征图进行分区处理,以强弱相关的方式计算稠密的视觉相似度,建立更为精细的4D相关体积。在迭代更新阶段,提出残差卷积滤波器和细粒度模块,分别应用于处理相关体和光流传递,使得在融合相关体信息和光流信息前保留更多的局部小位移信息。在KITTI-2015数据集和MPI-Sintel数据集上与其他方法进行对比,光流估计评价指标分别提升了 8.2%和 6.15%。本文给出的网络模型可以更好地提高光流估计的准确性,有效解决了光流场过于平滑、缺乏细粒度和忽略小物体运动等问题。关键词:计算机视觉;深度学习;光流;区域匹配;迭代更新中图分类号:TP391.4

    3、文献标识码:A doi:10.37188/CJLCD.2022-0384Optical flow estimation via fusing sequence image intensity correlation informationAN Tong1,JIA Di1,2*,ZHANG Jia-bao1,CAI Peng1(1.College of Electronic and Information Engineering,Liaoning Technical University,Huludao 125105,China;2.College of Electrical and Contr

    4、ol Engineering,Liaoning Technical University,Huludao 125105,China)Abstract:Aiming at the problems of unclear target contour segmentation and poor granularity in existing optical flow estimation methods,an optical flow estimation via fusing sequence image intensity correlation information is proposed

    5、.First,The coding features and contextual features of the images are extracted by the feature encoder and the global encoder,respectively,and the feature sizes are reduced by downsampling processing.Then,before constructing 4D correlation volume,the input two consecutive frames of feature maps are d

    6、ivided into regions to calculate dense visual similarity in the form of strong and weak correlation to build a more refined 4D correlation volume.Finally,in the iterative update stage,the residual 文章编号:1007-2780(2023)10-1434-11收稿日期:2022-11-18;修订日期:2023-01-18.基金项目:国家自然科学基金(No.61601213);辽宁省自然科学基金(No.L

    7、J2020FWL004);中国博士后科学基金(No.2017M61125)Supported by National Natural Science Foundation of China(No.61601213);National Natural Science Foundation of Liaoning Province(No.LJ2020FWL004);China Postdoctoral Science Foundation(No.2017M61125)*通信联系人,E-mail:第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络convolution filter and

    8、 the fine-grained module are proposed to be applied to process the correlation volume and optical flow transmission,respectively,which allows to retain more local small displacement information before fusing the correlation volume information and optical flow information.In comparison with other met

    9、hods on the KITTI-2015 and MPI-Sintel,the optical flow estimation evaluation metric(Endpoint error,EPE)is improved by 8.2%and 6.15%,respectively.The network model given in this paper can better improve the accuracy of optical flow estimation and effectively solve the problems of the optical flow pre

    10、diction field being over smooth,lacking of fine granularity and ignoring of small object motion.Key words:computer vision;deep learning;optical flow;region matching;iterative update1 引言光流估计是计算机视觉的核心问题之一,在视频理解1、动作识别2、目标跟踪3、全景拼接4等领域具有重要的应用,在各类视频分析任务中可以更好地反映目标的运动信息,被认为是一种重要的视觉线索。然而,目前的光流估计网络仍存在过度平滑、缺乏细

    11、粒度、无纹理曲面难以准确估计的问题。传统光流估计方法常基于亮度一致性和空间平滑度能量最小化的方式获得光流估计结果。Horn等5采用全局方法估计图像的稠密光流场,基于亮度恒定与光流场平滑假设构造能量函数提出一种光流变分框架。Black 等6提出一种鲁棒的光流估计框架,对违反空间平滑和亮度恒定这两个约束条件进行统一处理。为了解决二次方惩罚项偏差较大的问题,TV-L17采用替换 L1数据项和总变差正则化较好地剔除了异常值。一些学者又通过结合能量最小化以及描述符匹配策略建立区域层次结构8,引入新的高阶正则化项解决了该框架中的相关问题。近年来,基于深度学习的光流估计方法取得了快速进展。可通过训练好的神经

    12、网络直接对帧间光流进行预测,缺点是会产生局部噪声和模糊结果。针对该问题,Simonyan 等9采用变分法、Ilg10等采用叠加多网络的思想来进行改进,较好地解决了该问题。此后,Ranjan等11结合传统算法中的金字塔理念提出 SpyNet 网络,由粗到精地完成了光流估计,更好地处理了光流算法中的大位移问题。Sun 等12提出 PWC-Net 网络同样采用了由粗到精的金字塔思想,引入经典算法中的相关体处理(Cost Volume),以端到端的训练方式完成了网络性能的提升。Yang 等13提出的VCN 网络进一步改进了相关体处理方法,通过引入 4D 卷积提高了光流估计的准确性。这些方法均采用由粗到

    13、精的金字塔处理方式进行迭代优化,并在迭代中不共享权重。与以上方法相比,建立在 FlownetS 和 PWC网络架构基础上的 IRR14网络能够细化网络间的共享权重,但由于该网络过大(38M 参数),只能完成 5次迭代。Devon等15给出一种更加精细的模块设计(2.7M 参数),在推理过程中可以进行上百次迭代,获得更加精确的结果。随着深度学习的发展,许多工作将视觉问题转化为优化问题,将优化的思想融入到网络体系结构中。Amos等16提出的 OptNet网络将优化问题作为单个层嵌入到深度网络中,并提供了更好的反向传播功能,使该网络具备较强的学习能力。Agrawal等17在求解优化过程中引入更为严格

    14、的参数化编程,较好地避免了可微应用中使用凸优化存在的问题。Zachary Teed等18提出一种光流估计网络(RAFT),结合以上算法思想,提取像素级特征,为所有像素建立多尺度4D关联信息,循环迭代更新光流场,有效提高了光流估计的准确率。但 RAFT 也存在着一些待解决的问题:首先,由于 RAFT 在高分辨率和低分辨率的条件下为所有特征对都建立了相关体积,每次更新都需要获得全像素位移的信息导致引入过多误差信息,降低了后续光流估计的准确率。其次,在迭代更新模块部分,RAFT 依赖于静态滤波器融合光流和相关体积,这也使得最终的光流预测图产生过于平滑的结果。为了解决上述RAFT中存在的问题,本文在构

    15、建 4D 相关体前,对输入的连续两帧特征图进行分区处理,以强弱相关的方式计算稠密的视觉相似度,以此计算建立更为精细的 4D相关体积。在迭代更新阶段,本文在卷积门循环单元(ConvGRU)模块的基础上加入了残差卷积滤波器和细粒度1435第 38 卷液晶与显示模块,在融合光流信息和相关体信息前尽可能地保留更多的局部小位移信息。本文通过特征提取模块、计算视觉相似度模块和光流迭代更新模块获得最终的光流估计结果,本文的主要贡献如下:(1)提出采用分区处理强弱相关信息的方法,能够较好地剔除误差,建立更为精细的 4D 相关体,从而获得更加准确的相关体信息;(2)引入残差卷积滤波器,使光流信息不会随着卷积滤波

    16、器的迭代加深而出现过于平滑的结果;(3)采用 细 粒 度 模 块,在 尽 可 能 扩 大 感 受野的同时,使模块更加关注局部小位移的特征信息。2 本文方法图 1 为本文给出的光流估计网络结构,由特征提取模块、视觉相似度计算模块和迭代更新模块 3部分构成。特 征 提 取 器 模 块 由 特 征 编 码 器 和 全 局 编码器两部分构成。输入的前后帧图片经过特征提取器模块分别提取下采样 8 倍的特征图和上下文信息。视觉相似度计算模块由分区强弱相关计算和相关金字塔构成。分区强弱相关计算会对特征图进行特征权重的空间重构,并通过相关金字塔得到不同尺度的相关体积。迭代更新模块由基准移动编码模块和卷积门控循

    17、环单元构成。光流信息会通过对不同尺度的相关体积进行按位查询,得到与预测光流位移相对应的相关体,查询得到的相关体和光流位移经过基准移动编码模块(图 1 中 B 标识模块)进行信息的融合。最终,输出融合结果将与上下文信息一起作为卷积门控循环单元的输入,迭代 12次后得到更为精细的光流预测图。对给定的输入连续两帧图像,分别表示为Ia与Ib。输入图像的宽和高分别记为 H 和 W。2.1特征提取模块特征提取模块由特征编码器和全局编码器两部分构成。特征编码器以权重共享的方式作用于Ia与Ib,并以 1/8 的分辨率输出编码后的特征Fa、Fb RH/8 W/8 D,其中Fa、Fb分别为图像Ia、Ib的输出,D

    18、为特征图的维度。此外,全局编码器网络的体系结构与特征编码器网络相同。它将从第一张输入图像Ia上提取特征,并输出编码后的特征Fc RH/8 W/8 D。编码器的网络设计如图 2所示。2.2视觉相似度计算模块计算视觉相似度是光流估计中的一个核心步骤,在整体结构中起到了至关重要的作用,图 1光流估计网络结构Fig.1Optical flow estimation network structure图 2编码器结构Fig.2Encoder structure1436第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络但之前的许多工作并没有在这一步投入太多关注,计算方式大多以直接做全局特征向量的

    19、內积为主。全局的特征匹配往往是直接对两张特征图以像素点为单位计算点积,即取所有特征向量对之间的点积形成相关体。当给定特征图Fa的像素坐标(u,v)和特征图Fb的像素坐标(x,y),相关体积C即可通过矩阵运算获得:C(u,v,x,y)=Fa(u,v)Fb(x,y).(1)在光流估计任务中,连续两帧图像间,大位移 的 像 素 点 占 比 极 少,远 距 离 的 像 素 相 关 性较小,即第一帧图像中位于上方的像素通常情况下不会位移到第二帧图像的下方。在这种情况下,做全局的相关计算就会引入许多误差信息。但若直接忽略远距离的特征点,一些大位移像素的相关关系将被完全清零,这可能导致一些更致命的误差。经过

    20、上述的分析,本文提出了基于分区思想的强弱相关计算方法。该方法可以在构建相关金字塔的基础上,强化对局部区域的关注度,从而减少对全局信息的错误判断。如图 3 所示,输入的特征图会被横向切分成2n个区域(Region),通过区域间的范围阈值来设定两帧间像素的映射。在本文中,分条区域的个数被设置成偶数,这种做法的原因是当对图片进行分区处理时,选择偶数计算更为方便。对特征提取模块求出的特征图Fa和Fb,分区(Region)的表达方式如式(2)所示:Fa=i(1,2n)region(i)Fb=j(1,2n)region(j),(2)其中,i和j分别表示Fa和Fb的分条区域索引。对于不同映射关系的像素点,本

    21、文通过设置相应的可学习相关因子来强化两帧区域内的强弱相关性。这种方法的好处在于既能获得全像素对的相关信息,降低对大位移像素离群值的敏感性,又能极大程度地减少区域外的误相关带来的误差。加入强弱关系后的相关体积Cfinal的计算方式如式(3)和式(4)所示:Cij=jregion()i region()jj=h()i,(3)Cfinal=i()1,2n,j()1,2nCij,(4)其中:h()表示帧间各个分条区域间的映射关系,与之对应的j是可学习的自适应相关因子,用来表示不同程度的相关性;为帧间对应区域内像素的点积;Cij表示区域i和区域j加入强弱关系后的相关体积。本模型利用 sigmoid 函数

    22、将j的取值范围约束在 01之间。至此,对于Fa中的每一个特征点,均计算出Fb中所有特征点与它的相关关系,即相关体积Cfinal,其维度为w h w h。需要说明的是这里的w和h是原始图片的下采样 8 倍后的宽和高,即(w,h)=(W8,H8)。之后本文采用 4个不同大小(卷积步长分别为 1,2,4,8)的卷积核对相关体积的后两个维度进行降采样得到 4 层金字塔C0v,C1v,C2v,C3v,相关金字塔标号q与其维度的关系图 3横向切分做边缘区域点映射的强-弱相关与中心区域点映射的强-弱相关(以分条颜色的深浅表示相关的强度,对应位置区域认定为强相关,相关因子置 1,其余颜色越弱,相关性越弱)。F

    23、ig.3Strength-weakness correlation of the edge-region point mapping with the center-region point mapping done by the horizontal cut(The strength of the correlation is indicated by the shade of the color of the bars,The correlation factor is set to 1 when the corresponding position area is identified

    24、as strong correlation.The weaker the rest of the color,the weaker the correlation).1437第 38 卷液晶与显示如式(5)所示:Cqv h w h/2k w/2k.(5)如图 4所示,基于相关金字塔C0v,C1v,C2v,C3v,本文定义了查询操作。给定当前光流位移是(f1,f2),Ia中的每个像素点p(u,v)都可以被映射到Ib的估计值p(x,y),即(x,y)=(u+f1()u,)v+f2()v。设p的邻域点集为L(p)r,L(p)r的计算如式(6)所示:L(p)r=p+dp|dp Z2,|dp|r,(6)

    25、其中:dp为查找范围且取整数;r为搜索半径,设定为 4像素;Z为正整数集。将该邻域内的所有点看作是Ia中像素点p在Ib上的潜在位置。后续在迭代更新光流的过程中,可借助插值查询操作从相关金字塔C0v,C1v,C2v,C3v中索引得到像素级别的相关特征信息,最后将不同金字塔层的查询结果在特征维度上进行合并,得到最终的相关体Clast。综上所述,本文以分条区域做强弱相关的方式计算视觉相似度,其好处在于既能获得全像素对的相关信息,又能极大减少由全局匹配所引入的错误信息,进而获得更加准确的相关体信息,为后续光流场迭代更新计算提供支持。2.3迭代更新模块本文主要通过迭代更新模块中的光流序列f1,fN完成光

    26、流估计,其迭代更新过程可以描述为:fk+1=fk+fk,(7)其中:fk为每次迭代后的更新量,fk为当前光流,fk+1为更新后的光流,k为迭代更新次数。迭代更新模块主要由基准移动编码模块和卷积门控循环单元(ConvGRU)构成。本文使用卷积门控循环单元对上下文信息和光流信息进行迭代更新,并且提出了基准移动编码模块来增强光流预测图的细粒度。如图 5 所示,在基准移动编码模块中,输入为:(1)根据当前光流位移(fk)在相关金字塔中检索出的相关体Clast;(2)当前光流位移(fk)。相关体Clast经过卷积滤波器来融合不同相关金字塔层的信息,但基于卷积的基准移动编码模块会产生过于平滑的结果。为了缓

    27、解小位移运动在卷积堆叠运算后难以维持局部细致化的问题,本文在卷积滤波器的基础上加入了残差连接(图5中的红色线),用于修正局部的小位移运动,增强最终光流预测图的细粒度。最终卷积滤波器的输出Coutput计算方式如式(8)所示:Coutput=Clast+relu(Conv3 3(relu(Conv3 3(Clast).(8)此外,对当前光流位移(fk)采用细粒度模块进行处理。细粒度模块由 3个核大小为 3的卷积核并行构成。并行 3个小卷积核不仅弥补了感受野小的不足,同时使得模块更加关注局部的小运动特征。具体处理方法如式(9)和式(10)所示:flow_i=relu(Conv3 3(fk),i=1

    28、,2,3,(9)Foutput=cat(flow_1,flow_2,flow_3),(10)其中:flow_i(i=1,2,3)为光流位移(fk)由 3 个并行的3 3卷积核经不同输出通道处理获得的光流特征,Foutput为光流特征拼接结果,cat()为拼接操作,relu为激活函数。卷积滤波器的输出Coutput和细颗粒模块的输出Foutput在特征维度上进图 4基于相关金字塔的查询操作。橙色部分为不同尺度下的查询点的邻域点集。Fig.4Lookup operator based on correlation pyramid.The orange part is the neighborhoo

    29、d dot product of the query points at different scales.图 5基准移动编码模块结构设计Fig.5Basic motion encoder module structure design1438第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络行拼接,成为基准移动编码模块的输出Boutput。ConvGRU 是门控激活单元(GRU)中的全连接层被卷积代替而形成的,同时也是迭代更新的核心算子。采用 ConvGRU 完成光流估计的主要过程如下:首先输入上一时刻的隐藏状态ht-1(初始化为 0)和当前时刻信息xt,之后经过重置门和更新门,最

    30、终输出当前时刻的隐藏状态ht,将该隐藏状态ht经过两层卷积即可得到f,完成光流的更新操作。具体如式(11)(14)所示:rt=(Conv3 3(ht-1,xt,Wr),(11)zt=(Conv3 3(ht-1,xt,Wz),(12)h=tanh(Conv3 3(rtht-1,xt,Wh),(13)ht=(1-zt)h+ztht-1,(14)其中:xt为第t时刻的基准移动编码模块的输出Boutput和上下文信息Fc在特征维度合并的结果,ht-1为t-1时刻的隐藏状态,ht为t时刻的隐藏状态,h为t时刻的候选隐藏状态,r为重置门,rt表示t时刻重置门状态,z为更新门,zt表示t时刻更新门状态,W为

    31、权重,()为激活函数,tanh为非线性激活函数。在 ConvGRU 的基础上融合基准移动编码模块可以捕获更多的细粒度特征,使结果更加有效地逼近真实光流,最终输出更为准确和精细的光流场。此外,由于在特征提取阶段输出的是1/8分辨率的特征图,因此,迭代更新部分得到的初始光流预测图的分辨率也是原图的 1/8。本文通过上采样操作得出与原图相同分辨率的光流场景,与此同时,ConvGRU利用了卷积操作学习上采样的权值。在上采样之后的光流结果中,每一个像素点的值都是其 9个粗分辨率邻接区域的凸组合。3 实验与分析3.1实验设计3.1.1数据集KITTI-2015 数据集19是在真实的交通环境下的街景数据集,

    32、其中包含 394 组训练数据集,395组测试数据集。MPI-Sintel光流数据集20 是一个基于动画电影的合成数据集,该数据库分为 Clean和 Final两个数据集。Clean数据集包括大位移、弱纹理、非刚性大形变等困难场景;Final数据集添加运动模糊、雾化效果以及图像噪声更加贴近现实场景。MPI-Sintel光流数据集包含 1 041组训练数据集,552组测试数据集。3.1.2评价指标在 KITTI-2015 数据集上,采用两种指标评估光流估计结果,分别为光流估计中的标准误差度量(EPE)和光流异常值百分比(Fl)。端点误差(end-point-error,EPE)是光流估计中标准的误

    33、差度量,表示所有像素点的真实标签值和预测出来的光流之间差别距离(欧氏距离)的平均值,公式如式(15)所示:EPE=i=1n()Fi-Fgi2,(15)其中:Fi表示预测的光流值,Fgi表示地面真实值。同时,Fl 是 KITTI-2015 数据集中图像整体区域中光流异常值(3 px或5%误差)的比率。在 MPI-Sintel数据集上,以 EPE 和 1,3,5 px为性能度量,其中 1,3,5 px分别表示整幅图像中EPE1、EPE3、EPE5的像素所占的比例。3.1.3训练本文网络采用端到端方式,对数据集进行常规数据增强(添加随机噪声、随机翻转等),并通过一次性训练构造样本集。运行环境采用 P

    34、yTorch和 Adamw 优化器,令 Adamw 优化器的参数值wdecay为 0.000 01,显卡为 NVIDIA3090,批量大小为 5,对 KITTI-2015 数据集进行 50 000 轮训练、MPI Sintel 数据集进行 120 000 轮训练,初始学习率为0.000 1,每5 000轮学习率减少0.000 01。通过预测值和地面真实流之间的l1距离来监督网络,损失函数如公式(16)所示:Loss=i-TFg-fi1,(16)其中:T 为 12表示迭代次数,初始化光流f0=0,fi为光流序列即f1,.,fN,Fg为地面真实流,初始权重设置为 0.8,由公式(16)可得权重随着

    35、迭代次数呈指数增长。3.2实验结果3.2.1KITTI-2015数据集的实验结果在 KITTI-2015 数据集上的评估结果如表 1所示,其中 4分条和 6分条分别在 EPE 和 Fl上表现较好。相较于先前结果最好的 RAFT(Zachary Teed 等人,2020),通过公式(17)、(18)计算可得,本文方法在 EPE 指标上降低了 8.2%,在 Fl指标1439第 38 卷液晶与显示上降低了 0.14%。EPE=()EPERAFT-EPEOur()nEPERAFT 100%,(17)PCTF1=()FlRAFT-FlOur()nFlRAFT,(18)其中:EPE表示 EPE 降低的比率

    36、,EPERAFT表示RAFT的EPE数值,EPEOur()n表示n分条时EPE数值,F1Our()n表示n分条的Fl数值,n取4,6,8。PCTFl表示Fl降低的百分点,FlRAFT表示RAFT的Fl数值。本文记录了 KITTI-2015数据集训练过程中EPE 指标和 Fl 指标的收敛曲线。以 8 分条方法为例,如图 6 所示,模型的 EPE 和 Fl指标在分别迭代 36 k 和 46 k 个 Epoches 后超过了 RAFT,并在训练结束时分别达到 0.707 347和 1.862 571。图 7 为在 KITTI-2015 验证集上的光流预测结果。由图 7 中的第二行图像可见,RAFT

    37、仅构建出栏杆的大致轮廓,而本文方法清晰地构建出栏杆处的细节,如图中红框所示。此外,由图 7中的后三行图像可见,在RAFT构建的光流图中,车的整体轮廓和边缘处均有缺陷,而本文方法预测得到的光流图无论是车身,还是车的细节方面均更贴近真实图像,且更为清晰、完整。3.2.2MPI-Sintel数据集的实验结果在 MPI-Sintel数据集上的评估结果如表 2所示,其中8分条和4分条分别在MPI-Sintel(Clean)和 MPI-Sintel(Final)上的 EPE 数值较好,相较图 6KITTI-2015 上的收敛曲线。(a)EPE 指标收敛曲线;(b)Fl指标收敛曲线。Fig.6Converg

    38、ence curve on KITTI-2015.(a)Convergence curve on EPE index;(b)Convergence curve on Fl index.表 1不同方法在 KITTI-2015测试集上的光流估计性能(:数值越小,表现越好)Tab.1Optical flow estimation performance of different methods on KITTI-2015 test set(:The smaller the value,the better the performance)方法VCN13DICL21RAFT18Ours(4)Ours(

    39、6)Ours(8)EPE1.417 4021.319 6550.769 7990.706 6510.712 9630.707 347Fl2.675 6032.679 8502.165 9651.850 6641.849 0311.862 571图 7KITTI验证集上的光流估计结果(4,6,8分别为本文提出的 4分条区域、6分条区域、8分条区域)。Fig.7Optical flow estimation results on the KITTI validation set(4,6,and 8 are the 4-point,6-point,and 8-point methods propos

    40、ed in this paper,respectively).1440第 10 期安彤,等:融合序列影像相关区域信息的光流估计网络于先前结果最好的 RAFT,通过公式(17)计算可得,EPE分别降低了6.15%和5.87%。除此之外,本文分条策略中的1,3,5 px相较于基准方法均有所提高,从性能度量上来看,本文得到的结果中小误差占比更大。从这个角度分析,本文方法得到的结果鲁棒性更强且在处理局部细粒特征时具有更强的竞争力。在MPI-Sintel(Final)数据集中,本文记录了训练过程中 8 分条方法的 EPE,1,3,5 px 指标的收敛曲线如图 8所示。为了便于描绘指标的变化趋势,图 8中

    41、红色阴影部分为实际记录的指标数据,红色折线则为局部平滑后的结果。模型在整个训练过程中逐步收敛,在 78k 个 Epoches后,EPE指标超过RAFT,并在训练结束时达到0.877 59。在 MPI-Sintel 验证集上预测得到光流结果如图 9所示。其中前五行为 Clean数据,由图 9可见,本文方法在手臂轮廓、腿部轮廓等边缘细节处结果明显优于 RAFT,尤其是第五行中 RAFT未捕捉到空中两只鸟的光流信息,而本文方法所捕获的鸟边缘信息更为准确。此外,由后两行的Final数据集的预测结果可见,即使面对带有运动模糊的场景,本文方法依然可以很好地将武器以及手部边缘光流信息完整地预测。3.3消融实

    42、验通过消融实验验证本文提出的各部分模块的有效性,包括分区强弱相关计算、细粒度模块以及图 8MPI-Sintel上的收敛曲线。(a)EPE指标收敛曲线;(b)1 px指标收敛曲线;(c)3 px指标收敛曲线;(d)5 px指标收敛曲线。Fig.8Convergence curve on MPI-Sintel.(a)Convergence curve on EPE index;(b)Convergence curve on 1 px index;(c)Convergence curve on 3 px index;(d)Convergence curve on 5 px index.表 2不同方法

    43、在 MPI-Sintel测试集上的光流估计性能(:数值越小,表现越好;:数值越大,表现越好)Tab.2Optical flow estimation performance of different methods on MPI-Sintel test set(:The smaller the value,the better the performance;:The greater the value,the better the performance)方法VCN13DICL21RAFT18Ours(4)Ours(6)Ours(8)CleanEPE1.291 9130.974 6820.8

    44、91 9260.840 8110.847 9120.837 0721 px0.829 4500.883 8690.901 7240.910 8940.911 2200.910 8543 px0.879 8560.935 7150.959 2830.962 3910.962 4030.962 2895 px0.896 3900.949 7040.972 9310.974 7160.974 7910.974 744FinalEPE1.768 7391.382 8321.278 3161.203 1681.206 4911.239 3961 px0.812 3060.857 1640.869 313

    45、0.878 0460.878 1680.877 5903 px0.882 6260.925 6160.938 7210.942 5200.942 8540.942 1265 px0.903 6310.945 2010.958 7460.961 3720.960 9200.960 5011441第 38 卷液晶与显示残差卷积滤波器,分别采用 MPI-Sintel和 KITTI-2015数据集进行消融实验。在消融实验中,所有不同的方法组合均采取了相同的训练参数设置和训练轮数。令A(4)、A(6)、A(8)代表 4分条区域、6 分条区域、8分条区域,B 代表使用细粒度模块,C 代表使用残差卷积滤波器

    46、。实验结果如表 3所示,其中 BC 代表模型使用细粒度模块和残差卷积滤波器的组合,BA(n)表示使用细粒度模块和强弱相关计算方法的组合,CA(n)表示使用残差卷积滤波器和强弱相关计算方法的组合,n取 4,6,8。表3中,在使用不同方法的组合进行训练的情况下,使用细粒度模块和残差卷积滤波器的组合构建的光流预测结果获得了最佳的表现。这表明细粒度模块和残差卷积滤波器不仅优化了后期光流和相关体的信息融合过程,并且保留了更多的光流局部的细粒度,使最终的光流预测图在局部小物体中表现得更好,如图 7 和图 9 所示。在细粒度模块和残差卷积滤波器组合的基础上,加入8分条的强弱相关计算较为明显地降低了端点误差,

    47、并且也获得了最多的最优指标。在 KITTI数据集中,BA(6)与 BCA(8)的实验结果相差最大,证明残差卷积滤波器在获得更精准的光流信息方面起到了重要的作用,其余实验结果相近。综表 3在 KITTI-2015和 MPI-Sintel数据集上的消融实验Tab.3Ablation experiments on KITTI-2015 and MPI-Sintel datasetsBCBA(4)CA(4)BA(6)CA(6)BA(8)CA(8)BCA(8)KITTI-2015EPE0.718 100.747 230.744 560.746 180.749 140.748 250.750 020.70

    48、7 34Fl1.880 422.056 191.976 672.097 802.034 942.122 271.997 001.850 66MPI-SintelClean(EPE)0.848 480.864 820.873 710.865 450.870 990.865 350.870 240.837 07Clean(1 px)0.900 940.907 660.905 160.908 040.906 350.907 420.906 370.910 85Clean(3 px)0.962 390.961 340.960 560.961 140.961 490.961 200.961 290.96

    49、2 28Clean(5 px)0.964 670.974 410.973 710.974 140.974 540.974 130.974 330.974 74Final(EPE)1.217 431.289 551.226 331.280 901.240 371.278 821.251 651.239 39Final(1 px)0.868 730.874 920.873 510.874 180.874 620.875 240.874 510.877 59Final(3 px)0.942 350.941 000.940 510.940 800.941 630.941 340.941 020.942

    50、 12Final(5 px)0.960 990.959 640.959 650.959 460.960 460.941 340.941 340.960 50图 9MPI-Sintel验证集上的光流估计结果(4,6,8分别为本文提出的 4分条区域、6分条区域、8分条区域)。Fig.9Optical flow estimation results on the MPI-Sintel validation set(4,6,and 8 are the 4-point,6-point,and 8-point methods proposed in this paper,respectively).144


    注意事项

    本文(融合序列影像相关区域信息的光流估计网络.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png