多阶段帧对齐的视频超分辨率重建网络.pdf
《多阶段帧对齐的视频超分辨率重建网络.pdf》由会员分享,可在线阅读,更多相关《多阶段帧对齐的视频超分辨率重建网络.pdf(14页珍藏版)》请在咨信网上搜索。
1、第 31 卷 第 16 期2023 年 8 月Vol.31 No.16Aug.2023光学 精密工程 Optics and Precision Engineering多阶段帧对齐的视频超分辨率重建网络王森,祝阳,张印辉*,王庆健,何自芬(昆明理工大学 机电工程学院,云南 昆明 650500)摘要:视频超分辨率(Video-Super Resolution,VSR)旨在将低分辨率视频帧序列重建为高分辨率视频帧序列。相较于图像超分辨率,VSR 由于增加了时间维度的信息,因此通常需要依赖邻近帧高度相关信息实现当前帧的重建。如何对齐相邻帧,并获取帧间高度相关信息,是 VSR 任务关注的重点问题。本文将
2、 VSR 任务分为去模糊、对齐、重建三个阶段。在去模糊阶段,将当前帧与相邻帧进行预对齐,获取与当前帧高度相关的特征信息,通过强化当前帧的细节以便实现初始阶段更多特征信息的提取。在对齐阶段,通过对输入特征进行二次对齐操作,利用相邻帧中高度相关信息进一步强化当前帧中特征信息。在重建阶段,通过聚合原始低分辨率帧以在网络末端提供更多特征信息。本文利用多层感知机(Multi-Layer Perceptron,MLP)代替传统卷积操作构造特征提取模块,同时对生成的特征信息进行二次对齐,以细化图像特征获得更优的视频帧重建效果。实验结果表明,本文提出的算法在多种公开数据集上的视频帧序列重建精度更高的同时,也取
3、得了更少的网络参数量和更连贯的视频序列重建表现。关键词:计算机视觉;视频超分辨率;多层感知机;注意力机制;光流;帧对齐中图分类号:TP391 文献标识码:A doi:10.37188/OPE.20233116.2430Multi-stage frame alignment video super-resolution networkWANG Sen,ZHU Yang,ZHANG Yinhui*,WANG Qingjian,HE Zifen(Faculty of Mechanical and Electrical Engineering,Kunming University of Science
4、 and Technology,Kunming 650500,China)*Corresponding author,E-mail:Abstract:Video-Super Resolution(VSR)aims to reconstruct low-resolution video frame sequences into high-resolution video frame sequences.Compared with single image super-resolution,VSR usually relies on the height-dependent information
5、 of neighboring frames to reconstruct the current frame because of the added information of temporal dimension.How to align adjacent frames and obtain highly correlated information between frames is the key issue of VSR task.In this paper,the VSR task is divided into three stages:deblurring,alignmen
6、t,and reconstruction.In the deblurring stage,the current frame is pre-aligned with adjacent frames to obtain feature information highly related to the current frame,and the details of the current frame are enhanced to achieve more feature information extraction in the initial stage.In the alignment
7、stage,the highly correlated information in adjacent frames is used to further strengthen the feature information in the current frame by performing a secondary alignment operation on the input features.In the reconstruction stage,raw low-resolution frames are aggregated to provide more feature infor
8、mation at the end of the network.In this paper,we use Multi-Layer Perceptron(MLP)instead of the traditional convo文章编号 1004-924X(2023)16-2430-14收稿日期:2022-12-14;修订日期:2023-01-13.基金项目:国家自然科学基金资助项目(No.52065035,No.62061022,No.62171206)第 16 期王森,等:多阶段帧对齐的视频超分辨率重建网络lution operation to construct a feature ext
9、raction module,and also perform a secondary alignment of the generated feature information to refine the image features to obtain better video frame reconstruction results.The experimental results show that the proposed algorithm achieves a higher accuracy of video frame sequence reconstruction on a
10、 variety of publicly available datasets while achieving a lower number of network parameters and a more coherent video sequence reconstruction performance.Key words:computer vision;video super-resolution;multi-layer perceptron;attention mechanism;optical flow;frame alignment1 引 言视频是传递信息的重要媒介之一,对低分辨率
11、(Low Resolution,LR)视频进行超分辨率重建可以有效提高图像和视频的清晰度。自从 Dong等人1首次将卷积神经网络(Convolutional Neural Network,CNN)引入图像超分(Single Image Super-Resolution,SISR)领域后,大量基于 CNN架构的优秀 SISR 网络2-7便得到不断衍生并取得了优异的成果。但大部分 SISR 网络仅对视频帧序列进行逐帧重建,可能会导致输出结果产生伪影或干扰,无法保证重建视频序列的连续性8。Kappeler 等人9在 SRCNN 的基础上首次提出了一种基于 CNN 的视频超分辨率网络,此后开 始 涌
12、现 出 大 量 基 于 CNN 架 构 的 VSR 网络10-12。对于一段视频序列而言,VSR 将 SISR一次处理单帧图像扩展到一次性处理多个连续帧。由于相邻帧中可能包含恢复当前帧的高度相关特征信息,合理利用这些高度相关信息可更好的对当前帧进行重建。但在一个视频帧序列中,同一特征在前后帧中的位置可能不同,如何准确的对齐相邻帧与当前帧之间的高度相关特征便成为了 VSR任务的核心问题。有学者采用运动估计和运动补偿10,13-15的方法提取帧与帧间的运动信息,并根据帧间运动信息进行帧与帧之间的图像变换操作,使相邻帧对齐8。这类方法多以光流法进行操作,但仅依靠光流法对相邻帧图像进行对齐会因估计误差
13、导致对齐后的帧存在伪影缺陷16。有学者利用可变卷积12,17-18计算两帧之间的偏移量,以实现帧间相关信息提取。或者凭借 3D 卷积19-21对输入帧序列在时-空域(Spatio-temporal domain)中进行处理,通过提取时间信息处理帧间相关性。但相比于二维卷积而言,可变卷积和 3D 卷积计算复杂度相对较高,限制了它们在实时视频超分辨率任务中的应用8。同时也有利用循环卷积神经网络22-24对视频中包含的时空信息进行建模,以实现相邻帧中相似特征提取的操作。但传统基于循环卷积神经网络的方法难以训练,甚至出现梯度消失的问题,尤其是当输入序列的长度太大时,这类方法可能无法获得很好的性能8。V
14、SR任务潜在的复杂性和网络框架不同的设计方法在体现各自优势的前提下,也为具体实施和扩展现有的方法带来了困难,阻碍了可重复性和公平的10。本文提出了一种多阶段帧对齐的视频超分辨 率 网 络(Multi-Stage Frame Alignment Video Super-Resolution Network,MSVSR),将 VSR 任务分解为去模糊、帧对齐以及特征重建三个阶段。通过对输入视频帧序列进行预对齐,可取得更优异的帧序列重建表现。在后续与其余 VSR网络的对比中,MSVSR 同样获取了最佳的重建效果。在下文的消融实验部分中,也证明了对视频帧序列进行预对齐操作,可在视频帧序列重建时提升 0
15、.01 dB的精度。鉴于同一帧图像在不同尺度下显示的特征信息不同,本文在去模糊阶段提出了一种编码-解码(Encoder-Decoder)架构的多尺度去模糊模块,更加精细化的提取不同尺度的细节特征和全局特征。引入 Shift-MLP25代替传统卷积的操作方式可以对同一帧图像的不同区域的特征信息进行交互,而本文设计的特征融合块可以对原始输入图像及深层特征进行有效融 合,以 便 进 一 步 获 得 图 像 更 为 详 细 的 特 征细节。2 本文算法本文提出的 MSVSR 架构如图 1所示。在去2431第 31 卷光学 精密工程模糊阶段对输入视频帧序列进行预对齐后,可以通过提取相邻帧与当前帧之间的高
16、度相关信息实现图像特征信息增强;将 Shift-MLP 作为后续特征提取的主要工具,可以使 MSVSR 模型在网络参数量更少的情况下获得更优的视频帧序列重建精度。对提取后的特征信息进行二次对齐操作后,本文对重建阶段进行了轻量化设计,将深层特征及原始输入图像进行特征聚合,通过弥补超分辨率流程中损失的特征信息以达到更优的视频帧序列重建效果。2.1视频帧去模糊同一图像在不同尺度下体现出的特征信息不同。因此,本文在去模糊阶段设计了一种编码-解码架构的多尺度去模糊模块。通过在模块中结合预对齐模块及特征融合块,以达到更好的图像特征提取效果。去模糊阶段架构如图2所示。2.1.1特征预对齐相较于 SISR 仅
17、从单张图像中进行特征提取,结合邻近帧进行特征提取的 VSR 可更有效的提取更多细节信息。本文在 VSR 任务初始阶段对当前帧与相邻帧进行对齐操作,以结合相邻帧中的高度相关信息从而对当前帧中特征进行增强,更丰富的特征细节可获取更佳的视频帧重建表现。鉴于相邻帧对齐操作的优势,本文采用对相邻帧进行运动估计和运动补偿的方法实现多尺度去模糊模块中的预对齐操作,凭借 SpyNet26光流法实现相邻帧的特征对齐。光流法的最大优势在于光流法将视频序列中目标的位移映射到一组特征图上,再将经光流估计的特征图输入到后续网络中进行运算。相较于其余对齐方法,采用光流法作为相邻帧对齐操作可降低部分计算开销。如图 3 所示
18、,本文在多尺度去模糊模块中利用光流法 SpyNet 对相邻帧进行运动估计,获取当前帧的前向传播光流flowforwardi以及反向传播光流flowbackwardi。将获取的flowforwardi和flowbackwardi与原始帧framei输入至光流对齐块进行对齐操图 1MSVSR网络架构Fig.1Architecture of MSVSR图 2去模糊阶段Fig.2Deblurring stage2432第 16 期王森,等:多阶段帧对齐的视频超分辨率重建网络作,可以得到以下的预对齐帧flowpre-alignedi:flowbackward,forwardi=SpyNet(Ii,Ii
19、1),(1)其中:Ii,Ii+1为输入的相邻两帧图像,SpyNet()为利用 SpyNet对相邻帧进行光流运算。预对齐图 像Ipre-aligned和 光 流 对 齐 块FA()可 分 别 表示为:Ipre-aligned=FA(Ii,flowforwardi,flowbackwardi-1),(2)FA=C(Ii,w(flowforwardi,Ii),w(flowbackwardi-1,Ii),(3)其 中:w()为 Wraping 操 作,C()为 Concat操作。2.1.2特征提取经过对目标帧进行预对齐操作后,本文将对齐后的帧进行进一步的特征提取操作。本文利用浅层特征提取块(Shall
20、ow Feature Extraction Block,SFEB)对 目 标 帧 进 行 浅 层 特 征 提 取,SFEB架构细节如图 4(c)所示。由于每帧图像在不同尺度下所蕴含的特征信息不同,因此在去模糊阶段中,本文利用编码块和解码块对图像进行尺度变化,以便提取图像在不同尺度下的特征信息,编码块和解码块的架构细节如图 4(a)和图 4(b)所示。图像中未被遮挡特征可能包含恢复遮挡处的重要特征。为解决视频帧序列中出现目标局部被遮挡而无法精细重建特征的情况,本文除在时域内进行相邻帧对齐外,同时对单帧图像进行不同区域的特征交互处理。CNN 需要依赖卷积核的移动来捕获图像中的目标特征,尤其是图像中
21、的两个特征距离较远时,CNN 受限于其有限的感受野可能会导致网络建模困难。利用多层感知机(Multi-Layer Perceptron,MLP)捕捉两目标物体时,计算量不会随着距离的增加而增大,这样可以很好地解决长距离依赖问题。通过对图像进行多方向上的滑动操作,可将图像中不同区域的信息进行交互,对交互后的图像数据进行计算后可实现跨区域间像素的信息交流,从而通过间接扩大了模型的感受野的方式提高信息的有 效 使 用 性。因 此,本 文 引 入 文 献25中 的Shift-MLP 操作,并融合卷积及 LayerNorm 等操作来构建如图 5 所示的深层特征提取核心模块Shift-MLP。其具体流程可
22、表示为:图 3预对齐模块Fig.3Pre-aligned module图 4去模糊阶段中的子模块Fig.4Sub-module in deblurring stage2433第 31 卷光学 精密工程FDF=Dropout(ShiftMLP(LN(Fpre-aligned)+LN(Fpre-aligned),(4)其中:LN()为 LayerNorm 操作,Fpre-aligned为经过前文预对齐后的帧。而 Shift-MLP可表示为:Xslip_w=Slipw(X);Tw=Tokenize(Xslip_w),(5)Y=Dropout(GELU(DWConv(MLP(Tw),(6)Yslip_
23、h=Sliph(Y);Th=Tokenize(Yslip_h),(7)Y=Dropout(MLP(Th),(8)其 中:Slipw()为 水 平 方 向 滑 动(Cross Slip),Sliph()为 垂 直 方 向 滑 动(Vertical Slip),DWConv()为深度卷积(Depth-Wise Convolution,DWConv),Tokenize()为对滑移后的图像进行编码操作以便后续计算。在 Shift-MLP操作中,本文采用深度卷积代替传统卷积,以便在视频帧序列重建精度类似的情况下取得更低的模型参数量表现。为有效融合不同尺度下图像特征信息,本文引入文献27中的自监督模块,对
24、其进行优化后作为特征融合模块(Feature Fusion Block,FFB)。FFB 的架构细节如图 6所示。本文将 Shift-MLP模块输出的特征图FShift-MLP_out与原始低分辨率视频帧ILR进行聚合,利用ILR中丰富的特征细节信息弥补在特征提取过程中损失的特征细节。由图 6 可以看出,相较于原始特征图FShift-MLP_out,融合后ILR后的的特征Ffusion在边缘细节上已变得更加清晰。2.2视频帧对齐相较于 SISR 任务,VSR 任务难点便在于帧对齐操作。通过对当前帧与相邻帧进行对齐操作,交互并提取当前帧与相邻帧之间的高度相关信息,强化当前帧缺失的特征细节。可提升
25、视频帧序列重建的精度及连贯性。现有 VSR 网络中的采用的对齐模块结构,大致可分为如图 7 所示的 4种28。(1)多帧融合15,29-30:输入一个视频序列,将整个视频序列视为多个独立的子过程。这些子过程在时间上不相关,可独立处理。因此,该种图 5Shift-MLP模块Fig.5Shift-MLP module图 6特征融合块Fig.6Feature fusion block2434第 16 期王森,等:多阶段帧对齐的视频超分辨率重建网络方法享有并行计算的优势31。然而这种迭代方法 忽 略 了 先 前 估 计 的 SR 输 出。而 多 帧 融 合(Multiple frames fusion
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阶段 对齐 视频 分辨率 重建 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。