用于图文检索的跨模态信息交互推理网络.pdf
《用于图文检索的跨模态信息交互推理网络.pdf》由会员分享,可在线阅读,更多相关《用于图文检索的跨模态信息交互推理网络.pdf(10页珍藏版)》请在咨信网上搜索。
1、2023,59(16)图像-文本检索1是指根据给定的图像或文本,检索到与之相匹配的文本或图像。在不同模态信息的理解和匹配的应用场景中发挥着重要的作用,例如医学、军事、教育等领域2。传统的跨模态检索的实值表示技术通常需要学习一个能够度量图像和文本之间距离的公共子空间,使得成对的特征之间的距离最小化,而不匹配的特征之间的距离最大化2-3。文献4对学习到的图像和文本特征进行标签预测、结构保持和模态分类,不仅保证最小化来自不同模态的所有语义相似项表示之间的距离,并且能够区分来自不同模态的特征。为了弥补跨模态异质性鸿沟,将视觉语义嵌入改进为更紧凑的表示5,从而更有效地计算跨模态相似度。但是由于不用于图文
2、检索的跨模态信息交互推理网络魏钰琦,李宁东北大学 理学院,沈阳 110819摘要:针对跨模态检索任务中图像与文本模态的语义特征复杂度不一致问题,提出了一种局部细粒度对齐与全局特征推理相结合的图文匹配方法。首先将图像和文本特征输入自适应交叉注意网络,该网络在交叉注意机制内设置门控单元,利用文本(图像)模态中的相关语义特征,自适应地引导图像(文本)模态的交叉注意。突出关键的局部对齐特征的同时及时高效地过滤掉冗余的交互信息,从而实现更精准的细粒度对齐。然后利用自适应交叉注意网络输出的包含文本(图像)引导信息的特征,在全局推理网络中逐步合成图像(文本)全局对齐特征。不仅利用这些特征之间的长短期记忆关系
3、灵活地将细粒度对齐特征融合为全局特征,并且在迭代更新当前全局特征时,能够根据跨模态交互信息加深对整体潜在语义信息的理解。最后采用交叉熵损失函数训练整个模型。提出的模型在公开数据集MS COCO和Flickr 30k上进行一系列实验,利用RecallK指标对比实验结果,证明该模型优于目前的先进模型。关键词:跨模态图文检索;交叉注意力;关系推理;多模态交互文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2205-0056Cross-Modal Information Interaction Reasoning Network for Image and
4、 Text RetrievalWEI Yuqi,LI NingCollege of Science,Northeastern University,Shenyang 110819,ChinaAbstract:An image-text matching strategy combining local fine-grained alignment and global feature inference is pre-sented to tackle the inconsistency of semantic feature complexity between image and text
5、modalities in cross-modalretrieval tasks.Firstly,the image and text features are input into an adaptive cross-attention network,which sets up gatingunits in the cross-attention mechanism and uses the relevant semantic features in the text(image)modalities to adaptivelyguide the cross-attention of th
6、e image(text)modalities.While highlighting key local alignment features,redundant inter-active information is filtered out in a timely and efficient manner,thereby achieving more accurate fine-grained align-ment.Then,the image(text)global alignment features are gradually synthesized in the global in
7、ference network by usingthe features output of the adaptive cross-attention network that contains text(image)guidance information.It not only uti-lizes the long-term and short-term memory relationship between these features to flexibly fuse fine-grained aligned fea-tures into global features,but als
8、o can deepen the understanding of the overall latent semantic information based on cross-modal interaction information when iteratively updating the current global features.Finally,the entire model is trained byusing the cross-entropy loss function.The proposed model conducts a series of experiments
9、 on the public datasets MSCOCO and Flickr 30k,and uses the RecallK indicator to compare the experimental results,proving that the model issuperior to the current state-of-the-art models.Key words:cross-modal image retrieval;cross-attention;relational reasoning;multimodal interaction作者简介:魏钰琦(1997),女,
10、硕士研究生,研究方向为跨模态图文检索,E-mail:;李宁(1980),女,博士,教授,研究方向为运筹学和控制论、大数据分析和人工智能、生物统计学。收稿日期:2022-05-05修回日期:2022-07-12文章编号:1002-8331(2023)16-0115-10Computer Engineering and Applications计算机工程与应用115Computer Engineering and Applications计算机工程与应用2023,59(16)同模态之间存在巨大的异质差异,如何在公共子空间中准确度量特征之间的相似度成为目前研究的热点问题。近几年,深度学习在图像-文本
11、跨模态检索上取得了很大的进展。文献6提出用图像(文本)特征生成近似真实的文本(图像),在排序损失的基础上加入了分类损失和对抗损失。文献7针对车联网中涌现的大量不同模态数据,提出利用注意力机制和对抗网络弥补跨模态语义特征之间的异构差距。文献8设计了一种双向网络结构,实现两种模态之间相互转换,并选择中间层特征,使得相似度最高。然而这些方法没有充分利用上下文信息,在度量两种模态相似程度时较难关注到显著特征之间的对齐。随着注意力机制研究的发展,基于注意力的跨模态检索技术可以根据上下文选择显著特征,进而更有效地实现模态间信息交互9-10。文献11设计两个子网络分别用来提取图像特征和文本特征,利用多头自注
12、意力机制提取每种模态的显著特征,度量显著特征之间的距离,避免具有歧义的潜在语义信息之间的匹配。文献12设计了一种互补注意力机制,包含了关注特征和非关注特征。文献13利用Transformer的编码层(transformerencoder,TE)思想,将图像和文本通过堆叠的TE层独立地进行编码,同时在TE层中加入两个线性投影层,使得图像和文本特征投影至相同纬度的特征空间。虽然这些注意力机制能够有效地捕捉到不同模态中的关键语义信息,但是独立地嵌入不同模态的特征并不能在模态间进行有效的交互。文献14模仿人类交替关注图像区域和文本单词能够选择出最显著的信息,并通过融入来自另一种模态的交互信息实现细粒度
13、匹配。上述方法已经在跨模态检索领域取得了显著成就。然而这些方法通常在两种模态之间执行交叉注意,再对显著特征进行过滤和融合,容易过多地关注次优特征和冗余信息,产生不必要的计算代价。并且融合全局特征时缺乏跨模态深层语义信息之间的交互,对于不同模态之间整体语义概念的理解和对齐仍然存在不足。针对上述问题,提出了一种用于图文检索的跨模态信息交互推理方法。该方法首先在交叉注意机制中加入门控单元,以自适应地筛选有意义的细粒度对齐特征,高效地实现局部特征对齐。然后对这些显著对齐特征进行全局关系推理,相比于在模态内部对局部特征迭代更新,在全局推理时利用包含另一种模态引导信息的特征作为输入,能够弥补两种模态全局表
14、示之间语义鸿沟,加深对整体语义信息的理解,从而更准确地对齐全局特征。本文主要贡献:(1)提出了一种用于图文检索的交互信息推理网络,该网络在局部特征和全局特征层面都利用了来自另一模态的引导特征,并且进行自适应的过滤筛选,实现了更精准的跨模态语义信息的对齐和融合。(2)提出了能够融合不同模态信息的自适应交叉注意模块,在用文本(图像)引导图像(文本)的关注时灵活地选择联合语义中的关键信息,实现更高效的交叉注意,获得融合文本(图像)关键交互信息的图像(文本)增强特征。(3)提出了一种结合跨模态交互信息的全局推理模块。基于更新门控和记忆机制的思想,将融合文本(图像)关键交互信息的图像(文本)增强特征作为
15、全局推理的输入,迭代更新全局语义特征,使其凸显关键语义信息,在细粒度对齐的基础上实现更精准的全局对齐。(4)本文模型的有效性在两个公开数据集MS COCO15、Flickr 30k16上得到了验证。1相关工作1.1图像-文本匹配图文检索任务实质上是探索图像到文本或文本到图像的潜在语义和整体概念的匹配,通常分为基于全局语义的粗粒度匹配和基于局部语义的细粒度匹配17。前者学习度量两种模态相似度的嵌入空间。文献18提出一种具有多层线性投影的双分支神经网络用于嵌入图像和文本特征,并以大边距目标进行训练。这种学习图像和文本联合嵌入的方法在双分支嵌入的基础上保持了深层嵌入结构,并大大减少了计算量。后来研究
16、人员转向用新的损失函数优化模型,如文献19针对跨模态图文匹配提出了投影匹配损失和分类损失,最小化投影的KL散度的同时对特征进行分类。这种针对投影特征的匹配和分类能够学习到两种模态特征更紧凑的表示。后者学习两种模态局部特征的细粒度匹配,在全局匹配的基础上考虑了局部特征的对齐。考虑到视觉特征的复杂性,VSRN(visual semantic reasoning network)模型20提出了一种可以捕捉视觉关键对象和语义概念的推理方法,根据视觉区域关系推理对视觉对象进行语义理解,实现与文本模态的细粒度匹配。证明了深入探索图像中复杂的语义关系能够挖掘更丰富的潜在语义信息。同样的,考虑到从多个视角描述
17、图像并与文本对齐问题,文献21提出了采用一个自适应自我注意机制捕捉上下文信息,增强文本和图像的特征表示,然后根据不同角度聚合图像区域特征,与文本进行多视角匹配。相比于只考虑图像的局部特征,关注图像局部特征之间潜在语义关系能够更精准地将图像与文本进行细粒度对齐。进一步地考虑两种模态语义信息的不同复杂性,IMRAM(iterative matching with recurrent attentionmemory)模型17在图像和文本的局部特征之间执行交叉注意,并设置带门控的融合机制循环记忆和迭代匹配的方法将图像和文本在多个步骤中对齐,以此来捕捉两种模态间的对应关系。与利用图像区域级别特征对齐不同
18、的是,文献22提出了一种将公共语义空间多级实例化的方法。首先利用神经网络多级特征映射提取视1162023,59(16)觉和文本的多个级别特征,分别映射到多个语义空间并计算相似度,然后利用多级注意机制关注视觉区域,并取其最优结果和文本进行比较。与早期的独立嵌入特征相比,这些考虑不同模态的交互作用的方法17,21能够更好地适应图文匹配任务。现有方法尚未高效利用细粒度对齐特征和全局对齐特征之间的关系,在精确度量不同模态语义特征相似度方面仍存在不足。本文提出的方法不仅能够在局部层面自适应地融合跨模态信息,并且能够在全局层面利用融合后的跨模态交互信息加深对整体语义信息的理解。1.2交叉注意力机制在深度学
19、习领域,注意力机制23被证明可以利用上下文信息捕获关键特征,而对于跨模态的各种任务,如跨模态检索14,21、视觉问答24、字幕生成25等,交叉注意机制可以利用不同模态的上下文信息实现关注,从而有效地促进不同模态之间的交互。文献26在自注意力机制的基础上融合了另一种模态的信息,能够有效地捕捉不同模态之间的长期依赖关系,并且整合来自不同模态的被关注信息用于参考图像分割。文献14利用图像和文本特征的亲和矩阵获取来自不同模态的交叉关注特征,并与原始特征自适应融合,证明了交替关注不同模态的显著特征能够提升跨模态检索的准确率。为了交叉关注图像和文本的所有显著局部特征,文献27提出了一种堆叠交叉注意用于图文
20、匹配。首先交叉关注图像和文本模态,得到两种模态各自被另一种模态关注的显著区域,然后确定两种模态对应的局部特征之间的相对重要性。堆叠的交叉注意机制能够学习到可对齐的完全潜在语义信息。文献28在局部交叉注意的基础上,学习了一种相似度的向量化表示,并对其进行推理,进一步推断全局度量和局部度量之间的关系。文献29设计了一种新颖的交叉注意力变体,计算两种模态中每个局部特征之间的跨模态注意分数,得到一对可比较的简化向量。这些方法通常利用来自另一种模态中整体上下文信息对目标模态执行交叉注意,对于全面精确地选择潜在语义特征仍然存在不足。为了提高跨模态交叉注意对显著对齐特征的选择效率,本文提出的方法在交叉注意机
21、制的内部设计了一个自适应门控过滤机制,高效地剔除冗余特征,在局部层面更精准地对齐两种模态的语义特征。1.3全局关系推理对于一系列彼此之间存在依赖关系的局部特征表示,如何利用这些潜在的相关语义信息作为指导推理出全局特征,成为目前计算机视觉和自然语言处理领域研究的热点。文献20在图文匹配任务中,将视觉区域作为节点,区域之间的关系作为边缘进行图卷积推理,再对增强后的节点特征通过全局推理进行整合,得到具有关键信息的全局特征表示。考虑到局部匹配特征之间的关系,文献30在图像描述生成时,利用前一时刻的注意力和全局上下文信息指导生成描述图像语义信息的文本。文献17进一步考虑全局语义信息匹配的重要性,使用具有
22、循环记忆的迭代匹配网络进行跨模态检索,并加入记忆蒸馏单元来动态聚集当前步骤和之前步骤的所有匹配信息,使得全局特征包含了更多潜在语义信息,从而促进相关特征之间的对齐。与之前仅考虑局部细粒度对齐相比,结合全局特征推理能够优化图像和文本特征的匹配效果。目前对局部特征聚合的方法通常利用交叉注意选择的显著特征在模态内进行更新,缺乏跨模态信息之间的交互,从而对全局语义概念的理解仍存在不足。针对此问题,提出利用自适应交叉注意机制输出的跨模态交互信息,进行有记忆的全局关系推理。这不仅能够进一步融合对整体语义起重要作用的细粒度对齐特征,并且在对齐全局特征时进一步弥补两种模态之间特征表示的异质性差距,增强对全局语
23、义概念的理解,在全局层面实现更精准的对齐。2跨模态信息交互推理网络本章详细介绍了跨模态信息交互推理网络(cross-modal information interaction reasoning network,CMIIRN)的细节部分。图像和文本局部特征的细粒度对齐能够有效地弥补不同模态中语义特征之间的异质性鸿沟,并且利用模态内显著特征之间长期依赖关系能够进一步精炼全局语义特征,从而实现两种模态全局特征的对齐。因此提出利用两种模态之间的信息交互,实现图像和文本的细粒度对齐和全局语义概念匹配。图1展示了网络的整体结构,它由特定于图像模态和文本模态的特征提取通道和两个具有相同结构的子网络构成。这
24、两个子网络分别用于提取融合文本信息的视觉特征和融合视觉信息的文本特征,其体系结构包含两个模块:(1)自适应交叉注意模块;(2)关系推理模块。自适应交叉注意模块不仅利用模态间的上下文信息进行交互关注,还在交叉注意的同时加入了门控机制,在来自另一融合视觉信息的文本特征提取子网络融合文本信息的视觉特征提取子网络自适应交叉注意模块关系推理模块全局特征(图像)匹配得分图像特征文本特征DDDNR图1信息交互推理网络整体框架Fig.1Overall framework of information interactionreasoning network魏钰琦,等:用于图文检索的跨模态信息交互推理网络117
25、Computer Engineering and Applications计算机工程与应用2023,59(16)种模态的引导信息进行关注的同时减弱冗余信息和嘈杂信息的影响。在关系推理模块中,迭代地加入融合后的增强信息,逐步推理全局语义信息,用最后一个隐层的输出作为全局特征表示。最后将两种模态全局特征匹配任务看作一个二分类问题,采用二元交叉熵损失训练整个模型。2.1图像和文本特征的提取及符号表示对于图像特征的提取,使用以ResNet-101网络为主干的Faster R-CNN模型,其由Andersonet等人31在VisualGenomes数据集32上进行预训练,可以用来预测实例和属性以学习更为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用于 图文 检索 跨模态 信息 交互 推理 网络
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。