基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf
《基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf》由会员分享,可在线阅读,更多相关《基于图注意力网络的全局图像描述生成方法_隋佳宏.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1409-1415ISSN 1001-9081CODEN JYIIDUhttp:/基于图注意力网络的全局图像描述生成方法隋佳宏1,毛莺池1,2*,于慧敏1,王子成3,平萍1,2(1.河海大学 计算机与信息学院,南京 210098;2.水利部水利大数据重点实验室(河海大学),南京 210098;3.中国电建集团昆明勘测设计研究院有限公司,昆明 650051)(通信作者电子邮箱)摘要:现有图像描述生成方法仅考虑网格的空间位置特征,网格特征交互不足,并且未充分利用图像的全局特征。为生
2、成更高质量的图像描述,提出一种基于图注意力网络(GAT)的全局图像描述生成方法。首先,利用多层卷积神经网络(CNN)进行视觉编码,提取给定图像的网格特征和整幅图像特征,并构建网格特征交互图;然后,通过GAT将特征提取问题转化成节点分类问题,包括一个全局节点和多个局部节点,更新优化后可以充分利用全局和局部特征;最后,基于Transformer的解码模块利用改进的视觉特征生成图像描述。在Microsoft COCO数据集上的实验结果表明,所提方法能有效捕捉图像的全局和局部特征,在CIDEr(Consensus-based Image Description Evaluation)指标上达到了133
3、.1%。可见基于GAT的全局图像描述生成方法能有效提高文字描述图像的准确度,从而可以使用文字对图像进行分类、检索、分析等处理。关键词:网格特征;图注意力网络;卷积神经网络;图像描述生成;全局特征中图分类号:TP183;TP391.1 文献标志码:AGlobal image captioning method based on graph attention networkSUI Jiahong1,MAO Yingchi1,2*,YU Huimin1,WANG Zicheng3,PING Ping1,2(1.College of Computer and Information,Hohai Un
4、iversity,Nanjing Jiangsu 210098,China;2.Key Laboratory of Water Big Data Technology of Ministry of Water Resources(Hohai University),Nanjing Jiangsu 210098,China;3.Power China Kunming Engineering Corporation Limited,Kunming Yunnan 650051,China)Abstract:The existing image captioning methods only focu
5、s on the grid spatial location features without enough grid feature interaction and full use of image global features.To generate higher-quality image captions,a global image captioning method based on Graph ATtention network(GAT)was proposed.Firstly,a multi-layer Convolutional Neural Network(CNN)wa
6、s utilized for visual encoding,extracting the grid features and entire image features of the given image and building a grid feature interaction graph.Then,by using GAT,the feature extraction problem was transformed into a node classification problem,including a global node and many local nodes,and
7、the global and local features were able to be fully utilized after updating the optimization.Finally,through the Transformer-based decoding module,the improved visual features were adopted to realize image captioning.Experimental results on the Microsoft COCO dataset demonstrated that the proposed m
8、ethod effectively captured the global and local features of the image,achieving 133.1%in CIDEr(Consensus-based Image Description Evaluation)metric.It can be seen that the proposed image captioning method is effective in improving the accuracy of image captioning,thus allowing processing tasks such a
9、s classification,retrieval,and analysis of images by words.Key words:grid feature;Graph ATttention network(GAT);Convolutional Neural Network(CNN);image captioning;global feature0 引言 图像描述生成是一项涉及计算机视觉和自然语言处理的跨领域研究任务,目标是为输入图像自动生成自然语言描述,主要包括视觉理解和描述生成两部分。在深度学习广泛应用之后,图像描述生成的视觉特征表示经历了两个主要阶段:在第一阶段,提出了一系列卷积神
10、经网络(Convolutional Neural Network,CNN)1-4,从中提取固定大小的网格特征表示视觉信息,如图1(a)所示,这些网格特征在图像分类等视觉任务和图像描述生成等多模态任务中取得了优异的性能;在第二阶段,基于 Faster R-CNN(Faster Region-Convolutional Neural Network)5提取的区域级特征显著提高了图像描述生文章编号:1001-9081(2023)05-1409-07DOI:10.11772/j.issn.1001-9081.2022040513收稿日期:2022-04-05;修回日期:2022-07-11;录用日期:
11、2022-07-14。基金项目:国家自然科学基金资助项目(61902110);江苏省重点研发计划项目(BE2020729);华能集团总部科技项目(HNKJ19-H12,HNKJ20-H46)。作者简介:隋佳宏(1998),女,山东烟台人,硕士研究生,CCF会员,主要研究方向:计算机视觉;毛莺池(1976),女,上海人,教授,博士,CCF高级会员,主要研究方向:边缘智能计算;于慧敏(1998),女,山西大同人,硕士研究生,CCF会员,主要研究方向:计算机视觉;王子成(1990),男,湖北荆州人,工程师,硕士,主要研究方向:数字图像处理、三维建模;平萍(1982),女,江苏吴江人,副教授,博士,C
12、CF会员,主要研究方向:数字图像处理。第 43 卷计算机应用成的性能,如图1(b)所示,此后区域特征被广泛研究6-10,并成为大多数视觉-语言任务的标准方法。然而,区域提取非常耗时,目前大多数使用区域特征的方法都直接在缓存的视觉特征上进行训练和评估。此外,区域特征的固有缺点是忽视图像中非目标的区域(如背景信息)以及大目标的小细节。然而,与目标检测器提取的区域特征相比,单个网格不能完全表示一个对象,它的语义层级较低,一旦忽略了图像的全局信息,就丢失了潜在的场景级语义上下文。例如,图 2(a)的正确分类应是图 2(b),而在仅存局部信息的情况下,图2(c)中将大部分图像误分类为鸟;在特征中添加整个
13、图像的上下文信息(可能包含猫的强信号)后结果如图2(d)所示,可以捕捉全局背景,纠正错误,有效提高任务准确度。现有的研究焦点是通过注意力机制(Attention)建模视觉和语言特征之间的相互作用,以获得更加丰富可靠的图像描述。虽然将 Attention 引入基于长短期记忆(Long Short-Term Memory,LSTM)网络的解码器可以使 LSTM 在描述生成过程中关注最相关的图像特征,但是没有充分利用图像特征 之 间 的 交 互 关 系。图 注 意 力 网 络(Graph ATtention network,GAT)常用于处理图结构数据,可以根据相邻节点的特征为图中的每个节点分配不同
14、的权值,更新节点的表示,但仅处理局部网络。本文利用网格特征作为图像描述生成方法的主要视觉表示,针对网格特征丢失空间和语义上下文信息,提出一种基于图注意力网络的全局图像描述生成方法,在提取图像特征时添加了全局上下文,将视觉特征提取转化为节点分类任务,以提高描述准确度。首先,为了充分利用网格之间的特征关系,构建网格特征交互图;其次,为了利用图像的全局特征,构建图注意力网络结合全局信息和局部信息;最后,将优化后的视觉特征输入语言模型,用于图像描述生成。本文的主要工作包括:1)构建网格特征交互图。在特征提取过程中对网格视觉特征进行融合编码,将特征提取任务作为图节点分类任务实现,能在不增加计算开销的同时
15、提高性能。2)利用图注意力网络更新网格特征交互图的节点信息,使模型可以捕捉整幅图像的全局视觉信息,并捕获网格特征的潜在交互,加深模型对图像内容的理解,从而生成优化的描述语句。3)为 探 究 本 文 方 法 的 优 势 以 及 各 模 块 的 贡 献,在Microsoft COCO 图像描述数据集上进行了实验与评估,通过详细的结果分析说明了本文方法的有效性。1 相关工作 在视觉表示方面,基于区域的视觉特征6已成为图像描述生成、视觉问答等视觉-语言任务的主要方法。最近,Jiang等11重新考察了视觉特征,发现区域特征效果更好的原因是使用了 Visual Genome 数据集12,大规模的对象和属性
16、标注给图片提供了更好的先验知识,并证明了通过改造区域特征检测器5提取出来的网格特征,在后续任务中的推理速度和图像描述生成的准确度堪比甚至超过区域特征,而且避免了区域特征的固有缺点。为了更好地使用网格特征作为图像描述生成方法的主要视觉表示,Zhang等13提出了网格增强(Grid-Augmented,GA)模块,该模块将相对位置之间的空间几何关系合并到网格中,解决将网格特征展平输入Transformer模型时造成的空间信息丢失问题,以便更全面地使用网格特征。然而空间关系特征对图像或目标的旋转、反转、尺度变化等比较敏感,实际应用中,仅仅利用空间信息往往不够,不能准确有效地表达场景信息,还需要其他特
17、征配合。Luo等14进一步提出同时使用图像子区域和网格11两种视觉特征生成描述文本,旨在利用两种特征之间的互补性,并提出了局部约束注意力机制解决两种特征源之间的语义噪声问题;然而,两种特征互补的效果不如只使用区域特征的方法,也减弱了网格特征耗时短的优势。为了进一步增强图像特征表示,一些研究通过在图像区域上构建图,将丰富的语义信息和空间信息连接到区域特征。Yao等15首次尝试构建空间和语义图,随后Guo等16提出利用图卷积网络(Graph Convolutional Network,GCN)17整合对象之间的语义和空间关系,语义关系图通过在 Visual Genome上预训练分类器来预测对象对之
18、间的动作或交互,空间关系图通过对象对的边界框之间的几何度量来推断(如交并比、相对距离和角度),然而这些方法针对区域特征,并不适用于附加全局信息的网格特征。Yao等18使用树来表示图像的层次结构,根节点表示图像整体,中间节点表示图像区域及其包含的子区域,叶节点表示区域中被分割的对象,然后将树送入TreeLSTM19中得到图像特征编码,但该方法没有考虑到子区域之间的交互关系。以上方法均无法充分利用网格特征的细节信息,同时忽略网格之间的交互以及全局特征会导致生成的描述受到错误的影响。对于交互特征的获取,现有方法直接将网格特征序列输入Transformer的编码器,利用带残差连接的多头自注意力机制(m
19、ulti-head attention mechanism)自动进行特征交互,通过自注意力的方式计算每个特征与其他特征的相似度,加权求和得到高阶的图1网格特征与区域特征Fig.1Grid features and region features图2图像分类结果比较Fig.2Comparison of image classification results1410第 5 期隋佳宏等:基于图注意力网络的全局图像描述生成方法交互特征。本文采用构建网格特征交互图的方式,将特征作为图的节点,使用注意力网络聚合邻居节点的信息,以此将特征之间的复杂交互转化为特征图的节点之间的交互。对于一幅网格数为NN的图
20、像,Transformer编码器的交互次数为N N,网格特征交互图的交互次数为4 N,在实际操作中N=7,基于图的特征交互并没有增加计算开销,但是在性能方面有了显著提高。综合以上分析讨论,网格特征作为图像描述生成的视觉表示具有一定的优势,引入全局特征指导优化更新网格特征可提高视觉表示的准确性。但传统的注意力机制不能满足网格特征复杂的交互关系,同时在整合全局图像信息方面也存在一些问题,因此,本文提出基于图注意力网络的全局图像描述生成方法借助全局图像特征增强视觉表示能力,利用图注意力网络将相邻的网格特征和全局特征相结合进行信息提取,以有效地捕获全局上下文信息和局部信息,然后解码相应描述。2 本文方
21、法的总体框架 图像描述生成的目标是能够识别并给出描述图像内容的自然语言语句。目前,提取图像的网格特征存在未充分利用空间关系特征和全局特征的情况,致使利用提取的图像特征生成的句子和人类描述存在明显差距,因此,增强网格特征的空间信息和语义信息对提高生成描述的质量具有重要的研究意义。本文提出了一种基于图注意力网络的全局上下文感知图像描述生成方法,由特征提取和特征交互两部分组成,用于增强网格特征。特征提取通过图中的全局节点机制充分利用全局上下文关系,整合图像中各个网格的局部视觉特征,以此优化生成的单词表示;特征交互依据网格特征交互图和图注意力网络,进一步建模图中邻域的空间上下文信息及其关系,更新节点特
22、征,提高节点分类的准确性。图3展示了本文方法的总体框架。在视觉编码阶段,首先,特征提取模块利用多层 CNN 分别提取给定图像的全局特征和网格特征;之后,构建网格特征交互图,将全局和局部视觉特征作为节点输入,图中的边表示视觉特征之间的交互,所有局部节点均与全局节点相连接;最后,利用图注意力网络更新优化网格特征交互图中的节点信息,得到新的全局图像特征和网格特征。描述生成阶段,基于Transformer的解码模块利用更新后的视觉特征序列生成图像描述。本文方法侧重于增强网格特征来优化视觉表示,进而提高生成描述的质量。3 图像描述生成框架描述 3.1视觉网格特征编码相对于整张图像来说,图像的网格特征包含
23、更细粒度的各类目标,对细粒度目标相关的图像内容进行编码无疑会优化图像编码,得到更具体、更精准的图像特征表示。然而网格特征的局部感受野较小,卷积神经网络只能学习到目标的局部特征,缺乏空间和全局信息。基于此,本文在融合各网格特征的基础上加入特征图的全局信息,提出一种具有全局特征的图像编码模块,该模块负责提取图像的全局特征和局部特征,如图3中虚线框所示。本文以与文献 11 中相同的方式提取图像的原始网格特征。具体来说,利用在 Visual Genome 数据集上预训练的Faster R-CNN模型5,它使用步长(Stride)为1的普通卷积层C5和带有两个全连接(Fully Connected,FC
24、)层的 11兴趣区域池化(Region of Interest Pool,RoIPool)作为检测头,其中C5层的输出保留为描述生成模型的视觉网格特征。因此,本文方法给定一组固定大小的图像网格Grids=(p1,p2,pn)和整幅图像p0=full_image,提取的图像嵌入如式(1)所示:IE0:n=CNN(p0:n;CNN)(1)其中:IE0:n=IE0,IE1,IEn Rn dmodel表示输出的图像嵌入,dmodel表示模型的尺寸,IEi表示CNN模型的第i个输出,n表示网格的个数;p0:n表示输入的图像部分,p0表示图像的全局信息,pi RH W 3表示图像的第i个网格,H表示网格的
25、高度,W表示网格宽度;CNN表示CNN模型的参数。每个图像和网格都是独立编码的,可以使用多个 CNN 同步得到全局图像嵌入和局部图像嵌入,不需要额外的训练、推理时间,提高了计算效率,如式(2)、(3)所示:IEGlobal=IE0(2)IELocal=IE1,IE2,IEn(3)3.2网格特征交互图建立在3.1节得到的图像嵌入基础上增加全局图像特征,然后引入网格特征之间的依赖关系和全局图像特征,借助全局节点机制建立网格特征交互图,构建过程如图4所示。图4网格特征交互图构建(与邻近4个网格进行交互)Fig.4Construction of grid feature interaction gra
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 网络 全局 图像 描述 生成 方法 隋佳宏
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。