![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于参数回归的快速全景图像拼接算法.pdf
《基于参数回归的快速全景图像拼接算法.pdf》由会员分享,可在线阅读,更多相关《基于参数回归的快速全景图像拼接算法.pdf(12页珍藏版)》请在咨信网上搜索。
1、2023 年 9 月 Journal on Communications September 2023 第 44 卷第 9 期 通 信 学 报 Vol.44 No.9基于参数回归的快速全景图像拼接算法 郭璠,李小虎,刘文韬,唐琎(中南大学自动化学院,湖南 长沙 410083)摘 要:现实场景中照相机获得的图像视场角范围往往是有限的,而目前对全景图像的需求日益增大,因此针对拍摄得到的全景图像序列,提出了一种基于参数回归的快速全景图像拼接算法。将传统的图像配准任务转化为深度学习结合机器学习的方式,设计一种基于高斯差分金字塔的多尺度深度卷积神经网络(MDCNN)对待拼接图像进行特征提取,并使用 Li
2、ghtGBM 回归模型对拼接参数进行预测,获得图像之间的变换矩阵和照相机焦距完成图像对齐,并设计了一种双曲线图像融合算法消除图像之间的拼接缝。实验结果表明,所提算法能够实现图像的快速拼接,获得比已有代表性算法更清晰自然的全景拼接效果,同时对红外图像也具有很好的适应性。关键词:图像拼接;全景图像;特征提取;参数回归;图像融合 中图分类号:TP391.41 文献标志码:A DOI:10.11959/j.issn.1000436x.2023182 Fast panoramic image stitching algorithm based on parameter regression GUO Fa
3、n,LI Xiaohu,LIU Wentao,TANG Jin School of Automation,Central South University,Changsha 410083,China Abstract:In reality,the field of view of images acquired by cameras was usually limited,and the demand for panoramic images was increasing.Therefore,a fast panoramic image stitching algorithm based on
4、 parameter regression was pro-posed for panoramic image sequences.The traditional image registration task was transformed into deep learning com-bined with machine learning,a multi-scale deep convolutional neural network(MDCNN)based on Gaussian difference pyramid was designed to extract features of
5、stitching images,and LightGBM regression model was used to predict stitching parameters.The transformation matrix and the focal length of the camera were obtained to align the images,and a hyperbolic image fusion algorithm was designed to eliminate the stitching seam between the images.The experimen
6、tal results show that the proposed algorithm can quickly mosaic images and obtain clearer and more natural panoramic mo-saic effects than the existing representative algorithms.It also has good adaptability for infrared images.Keywords:image stitching,panoramic image,feature extraction,parameter reg
7、ression,image fusion 0 引言 为了克服单幅图像的视场角限制,很多实际应用需要通过全景图像拼接技术快速生成 360全景图像。目前的图像拼接算法通常包括图像预处理、图像配准、图像对齐、图像融合等过程,其中图像配准是整个拼接流程的关键,是完成后续步骤的基础。尤其对于红外图像来说,由于红外图像中的特征点往往较少,难以找到匹配的特征点,因此图像配准难度较大,很大程度上会导致拼接失败。同时收稿日期:20230608;修回日期:20230905 基金项目:国家自然科学基金资助项目(No.61502537);长沙市自然科学基金资助项目(No.kq2208286);湖南省自然科学基金资助项
8、目(No.2023JJ30697)Foundation Items:The National Natural Science Foundation of China(No.61502537),Changsha Natural Science Foundation(No.kq2208286),The Natural Science Foundation of Hunan Province(No.2023JJ30697)第 9 期 郭璠等:基于参数回归的快速全景图像拼接算法 37 由于需要对每幅图像都进行特征提取和匹配,这往往需要消耗大量的空间和时间,因此算法抗干扰能力较弱,实时性也较差。图像配准
9、主要包括特征点的提取和匹配,通过图像配准可计算图像之间的位置变换关系。其原理是基于图像的显著特征完成特征点的提取,并将其表达为特征描述符,然后利用特征描述符的相似性进行关键点的匹配,最后根据匹配点的位置关系来建立两幅图像之间的几何变换关系。在特征点提取的研究中,最先被提出来的是 Harris 角点检测算法1,它的核心思想是基于图像局部灰度的变化差异来检测角点。近年来,为了实现多传感器遥感图像的快速自动配准,Shu2结合函数拟合方法对尺度不变特征变换(SIFT)算法进行改进和优化,能够有效提高遥感图像配准方法的精度和运行效率。图像对齐是指根据图像配准得到的图像之间的变换关系,将多幅图像进行映射,
10、构成一幅完整图像的过程。对齐的目的是消除图像拼接时可能出现的不连续、不匹配或重叠等问题,从而使图像拼接的结果更加自然和真实。早期的图像拼接研究往往假设照相机仅做平移和旋转运动,因此可通过全局单应性变换模型来完成图像拼接。Brown 等3提出了经典的全景图像拼接算法,并设计了一款软件AutoStitch。Zaragoza等4提 出 的APAP(as-projective-as-possible)算法将图像划分为多个网格,然后分别计算每个网格的局部单应性矩阵。APAP 通过对每个网格进行局部扭曲来对齐重叠区域,但非重叠区域也往往会被影响,产生较严重的畸变。为此,Chang 等5提出了 SPHP(s
11、hape-preserving half-projective)方法,该方法通过将图像划分为重叠区域、过渡区域和非重叠区域,并分别利用不同的变换方式,从而尽可能减少畸变。Lin等6提出了 AANAP(adaptive-as-natural-as-possible)算法,它通过结合全局相似性和局部优化的方式,可以有效消除伪影和扭曲,产生高质量的全景图像。Chen 等7提出了一种基于全局相似性先验的图像拼接(NISWGSP)方法,其核心思想是利用局部扭曲模型来引导每个网格的变形,通过设计特定的目标函数来尽可能减少扭曲的失真,使拼接后的全景图像看起来较自然。曾国奇等8利用SURF(speeded u
12、p robust feature)特征描述对连续图像进行匹配,并结合随机抽样一致性算法计算单应性变换矩阵。在此基础上,经过球形变换校正后利用单应性完成图像拼接。Zhu 等9提出了一种基于渐进变换矩阵的多图像拼接算法ISGTA(image stitching gradual transformation algorithm)以消除匹配过程中的形变扭曲。Khamiyev 等10采用多种基于深度神经网络的方式来挖掘单应性矩阵的特征相关性以最终生成全景图。Dai 等11提出了一个边缘引导合成网络(EGCNet,edge guided composition network),EGCNet 利用基于卷积
13、神经网络(CNN)的 HED(holistically-nested edge detection)算法来进行显式的边缘引导,给边缘变化的区域分配较大的权重,从而避免出现结构不一致的伪影。图像融合作为图像拼接的后处理算法,可以有效消除对齐后的拼接缝、重影,使图像呈现出更加自然的效果。最简单的方法是使用直接平均法,即对重叠区域中每个像素取均值。在此基础上,又逐渐演化出了加权平局融合算法。受拉普拉斯金字塔融合算法的启发,Zhang 等12提出了一种密集连接的多流融合网络,能够有效地融合来自不同尺度的前景和背景图像信息。Lu 等13提出了一种双向内容的迁移模块,通过循环神经网络对中间区域的特征表示进
14、行条件预测,除了保证融合过程中的空间和语义一致性外,还采用上下文注意力机制和对抗学习机制来提高融合图像的视觉质量。总体而言,目前关于全景图像拼接的大部分研究往往集中于传统图像配准算法,导致算法鲁棒性较差。在实际拍摄环境中,由于受到图像噪声、光照、曝光度、模型误差等因素的影响,拼接结果往往会出现鬼影、变形、配准、对齐失败等情况。另外,相关传统图像配准算法的实时性也较差,很难在实际工程系统中得到应用。而目前大部分基于深度学习的拼接算法主要针对两幅图像,针对多幅图像的全景拼接工作尚不多见。因此,迫切需要提出一种快速鲁棒且针对多幅图像的全景图像拼接算法。1 本文算法 1.1 算法框架 针对上述问题,本
15、文提出了一种基于参数回归的快速全景图像拼接算法,整体框架如图 1 所示。由图 1 可知,本文算法将特征提取和匹配的计算过程,即传统拼接算法图像配准步骤,使用深度学习结合机器学习的技术变成一个黑箱操作,从而简化了计算过程,提高了配准的效率,使算法的实时性38 通 信 学 报 第 44 卷 得到了很好的保证。整个算法分为在线和离线 2 个部分,离线部分主要进行回归模型的训练,回归模型的输出为变换矩阵和照相机焦距。在线部分主要进行图像的预处理和拼接后处理等步骤。其中,图像预处理主要进行图像滤波和光照补偿,拼接后处理部分包括柱面投影、图像对齐和图像融合等过程。在全景图像拼接中,变换矩阵的精确度直接影响
16、图像对齐,它是影响图像拼接效果的关键。为了使模型预测出的变换矩阵参数尽可能准确,本文提出一种多尺度的深度卷积神经网络进行特征提取,并联合 LightGBM回归模型完成拼接参数的回归学习。1.2 特征提取网络 针对全景图像拼接场景,本文设计出了一种基于高斯差分金字塔的多尺度深度卷积神经网络(MDCNN,multi-scale deep convolution neural net-work),如图 2 所示。由图 2 可知,该网络由一个基本骨架 backbone、衍生图(derived map)和高斯差分金字塔模块(DoGPM,difference of Gaussian pyramid mod
17、ule)组成。backbone 的输入为原图的 7 个衍生图,共包含6 个 block,block1由卷积层(Conv)、批归一化层(BN)和激活函数(ReLU)组成,其余 block 包含一个最大池化层和 2 个卷积层,并且每个 block 的输出会合并 DoGPM 的输出,网络最终会输出一个长度为25 088 位的一维特征向量。考虑到 VGG(visual geometry group)网络在特征提取方面的性能,MDCNN 的 backbone 部分和 VGG16 类似,为了在训练过程中加速网络的收敛,对 backbone 中的部分模块使用了 VGG16 的预训练参数。1)衍生图 MDCN
18、N 首先会对输入的图像进行不同操作以 图 1 全景图像拼接算法整体框架 图 2 多尺度深度卷积神经网络结构 第 9 期 郭璠等:基于参数回归的快速全景图像拼接算法 39 获得衍生图,从而利用衍生图来从多个维度获得输入图像的特征,这些图像处理操作包括双边滤波、伽马矫正、边缘检测以及小波变换。通过以上操作可以从多角度获取图像信息,有利于 backbone 更好地提取图像特征。其中,滤波操作可以更好地剔除图像中的噪声,本文主要采用双边滤波14进行图像去噪处理。尤其对于包含色彩信息较少的红外图像,双边滤波能有效去除噪声。其次,使用伽马矫正对图像进行非线性变换,可以改善图像的亮度信息,防止出现局部过明或
19、过暗的情况。经过矫正后的图像能够有效防止光线的影响,在一定程度上保证光照一致性。除了考虑图像的空间域信息,频域信息也值得关注。为此,衍生图还利用了图像小波变换的结果。小波变换是时间(空间)频率的局部化分析,它通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分、低频处频率细分,从而可聚焦到图像的任意细节,尽可能放大图像中的关键信息,如图 3 所示。图 3 可见光图像和红外图像的小波变换 图像的边缘是指图像中局部区域亮度变化显著的部分,反映了灰度值在相邻 2 个位置的阶跃。这部分往往集中了图像的重要特征,对图像场景的识别和理解十分重要。因此,本文采用 Canny 边缘检测算法
20、的结果作为其中一个衍生图。2)高斯差分金字塔模块 为了保留图像的多尺度信息,可通过构建图像金字塔的方式来实现。图像金字塔底部分辨率最高,顶部分辨率最低。本文使用高斯金字塔模型模拟肉眼近距离观察和远距离观察图像的差别。构建图像金字塔可以保证图像特征的尺度不变性。本文所构建的高斯金字塔共 5 组,每组 4 层,共 20 层。图像金字塔中,每幅图像用 L(x,y,)表示,即 ,()()(,),L x yx yx yGI(1)其中,(),G x y为高斯函数;,()I x y 为输入图像;为高斯函数的标准差,即模糊系数;表示卷积操作。每组由 4 层尺寸相同但模糊系数不同的采样图像组成,模糊系数的计算式
21、为 0(,)2roso r(2)其中,o 为组的索引序号,0,1,2,3,4o,r 为每组中层的索引序号,0,1,2,3r,s 为高斯金字塔中每组的层数,0为高斯模糊系数初始值,设置为1.6。仅进行高斯模糊并不能使图像中的关键点信息显露出来,需要进行高斯差分计算出尺度空间的极值,也就是对相邻两层的高斯模糊图像作差,构建高斯差分金字塔。将构建出的高斯差分金字塔依次并入 backbone 每个 block 的池化层之前,从而将图像的多尺度信息并入网络中进行挖掘,以提高网络特征提取的能力。衍生图和高斯差分金字塔模块的结果均来自对输入图像进行不同的处理操作,将金字塔的不同层级和衍生图作为模型的输入,以
22、获得更具丰富性的特征表示。这种输入方式允许模型同时考虑不同尺度和维度的信息,能够更好地捕捉图像的细节和上下文关系,有利于网络更好地提取特征。1.3 特征融合策略 对于全景图像拼接场景,由于需要拼接多幅图像,使用 MDCNN 对每幅图像完成特征提取后,需要对多组图像特征进行融合。对于网络输出的特征向量,若直接将每组特征向量依次拼接在一起,这种粗略的数据融合方式没有考虑到图像之间的位置关系,同时存在大量的数据冗余,不利于后续回归模型的学习。因此,需要结合拼接过程中的具体特性,设计相应的特征融合策略。在实际的 360全景拍摄场景下,以图 4 为例,如采集到 A、B、C 三幅图像,每相邻图像之间均包含
23、重叠区域,A、B、C 三幅图像经过 MDCNN 得到3 个特征向量 VA、VB、VC。在数据融合时,需要考虑图像之间的位置关系,若将融合后的特征向量直接合并为 VAVBVC,则忽略了图像 A 和 C 的位置关系。为了解决此问题,以牺牲存储空间为代价,选择将特征向量排列 VAVBVCVA,通过重复引入特征向量 VA,将图像之间所有的重叠关系均表达出来。40 通 信 学 报 第 44 卷 图 4 柱面展开示意 在上述位置关系的基础上,为了实现细粒度的特征数据融合,需要对特征向量中每个位置的特征值按照上述融合策略依次进行合并,对于包含 N 幅图像的特征向量,特征融合后的结果如图 5 所示。输入图像经
24、过 MDCNN 特征提取后,每幅图像特征向量的大小为 25 088 位,特征数据融合后大小为(N+1)25 088 位,存储这种高维度的特征向量不仅需要极大的存储空间,而且不利于后续回归模型的学习,同时发现这种高维度的特征往往存在大量的数据冗余。针对以上问题,本文利用主成分分析法(PCA)15进行特征压缩。PCA 是一种维度约减算法,能够把高维度数据在损失最小的情况下转换为低维度数据。实验结果也证明,利用 PCA 对特征向量进行压缩,能够减少信息冗余,从而在可控的失真范围内提高后续回归模型的运算速度。图 5 特征融合示意 1.4 Light GBM 回归模型 在获得全景图像序列的融合特征后,需
25、要根据特征向量进行拼接参数的预测,显然这是一个多变量的回归问题,目前常用的解决方案主要包括机器学习算法和深度学习算法,考虑到深度学习算法往往需要大规模的数据集训练,因此选择机器学习中的 GBDT(gradient boosting decision tree)16算法来解决此问题。GBDT 算法的核心在于决策树的迭代训练,具有容易训练、拟合效果好等优点,因而得到广泛的应用。传统的 GBDT 算法,如 XGBoost17在一些高维度、强耦合的领域已经逐渐无法满足要求。在此基础上,LightGBM18在训练效率、准确率和并行化学习等方面都得到了较大的提升,常被用来处理大规模数据集和高维度特征,因此
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 参数 回归 快速 全景 图像 拼接 算法
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。