基于跨模态多维关系增强的多模态模型研究.pdf
《基于跨模态多维关系增强的多模态模型研究.pdf》由会员分享,可在线阅读,更多相关《基于跨模态多维关系增强的多模态模型研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、收稿日期:;修回日期:基金项目:国家自然科学基金青年资助项目();河南省高等学校重点科研资助项目();东北师范大学应用统计教育部重点实验室资助项目()作者简介:成曦(),女,重庆人,硕士研究生,主要研究方向为多模态学习;杨关(),男(通信作者),陕西西安人,副教授,博士,主要研究方向为图像处理、机器学习();刘小明(),男,河南许昌人,讲师,博士,主要研究方向为自然语言处理、中文信息处理、机器学习;刘阳(),男,陕西西安人,讲师,博士,主要研究方向为机器学习和模式识别基于跨模态多维关系增强的多模态模型研究成曦 ,杨关 ,刘小明 ,刘阳(中原工学院 计算机学院;河南省网络舆情监测与智能分析重点实
2、验室,郑州 ;西安电子科技大学 通讯工程学院,西安 )摘要:针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系,导致多模态关系推理效果不佳的问题,提出了一个基于跨模态多维关系增强的多模态模型(,),用于提取潜层结构下图像各要素之间的空间关系信息,并推理出视觉语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征,从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系,实现跨模态关系对齐。在 数据集上的实验表明所提模型获得了更好的性能,其中 和 分数分别提升了 和 。将这种方法应用到视觉问答任务中,
3、在 数据集上性能得到了 的提升,证明了该方法在多模态任务方面的广泛适用性。关键词:图像描述;视觉问答;特征多样性;空间关系;上下文语义关系;特征融合;多模态编码中图分类号:文献标志码:文章编号:():,(,;,):,:;引言视觉和语言是描述和理解人类现实世界的主要方式。随着人工智能的发展,越来越广泛的研究工作致力于计算机视觉和自然语言处理的跨模态组合(例如图像描述 、视觉问答 、视觉关系检测 和其他跨模态任务 )。在这些多模态任务中,大多需要执行一些细粒度的视觉处理,甚至由多个推理步骤来生成高质量的输出结果。由于视觉和语言之间的语义鸿沟,使它们处于不同的抽象水平,导致不同模态间信息融合变得困难
4、。为了获取更细粒度的模态信息并缩小模态之间的差距,越来越多的学者致力于研究多模态信息的表示以及多模态关系推理。多模态视觉语言模型不仅要理解图像和语言的上下文,还要理解输入图像中的视觉区域与自然语言之间的潜在关系。大多数现有模型采用注意力方法 ,来模拟不同模态之间的密集相互作用,并推断出视觉和语言的跨领域潜在对齐关系,然而这些浅层结构模型只能实现多模态实例的粗略交互。等人 提出一种深度模块化共同注意网络,该网络由深度级联的模块化共同关注层组成,以实现语言到视觉的关系建模。由于注意力机制所学习的注意力矩阵是密集的且无法确定注意力向量间的相关程度,等人 提出了 网络来过滤掉不相关或者误导性的注意力结
5、果,仅将有用的注意力结果保留在解码器中。等人 发现现有模型都只利用了一阶特征交互,因此引入了 注意力模块,利用双线性池化来第 卷第 期 年 月计 算 机 应 用 研 究 捕获模态间的高阶甚至无限阶交互。这些方法着重于文本特征与细粒度图像特征之间的对齐,忽略了图像的潜层结构,导致关系推理效果不理想。考虑到图像中蕴涵丰富的结构化语义信息,而图可以将当前对象、对象的属性、对象间关系整合到一起,可以学习图像中对象间的关系和属性,实现视觉信息和语义信息对齐,因此一些研究利用图注意网络来实现跨模态关系推理。文献 提出一种关系感知图注意力网络(),它将每个图像编码为一个图,并通过图注意力机制对多类型对象间关
6、系进行建模,以实现视觉语言自适应关系表示。尽管先前的工作探索了如何利用对象关系和高阶多模态特征来提高多模态模型性能,但是它们仍然存在几个缺点:)现有多模态模型大多采用注意力机制提取相关图像,易忽略原始对象的外观特征,这是因为基于注意力机制的模型往往倾向于关注显著区域而忽略了蕴涵丰富语义信息的不显著但可区分区域,这些外观特征包含大量的视觉属性,可以提供对象之间的语义和空间关系。以图像描述任务为例,如图()第一幅图中传统注意力模型只识别了显著区域(站在水中的大象),而忽略了背景区域“一群大象”,影响描述语句的空间关系完整性。)语言的上下文中蕴涵丰富的关系信息,无论是在视觉问答还是在图像描述中,以前
7、的方法在进行相似性对齐时仅考虑单向对齐 ,未明确探索语言上下文在视觉上的关系。例如图 ()第二幅图中会忽略上文的“人”和下文的“雨伞”在图片中的关系,导致生成的描述语句出现上下文关系错误。针对以上问题,本文提出一种跨模态多维关系增强(,)的多模态模型,从对象间空间关系和上下文语义关系两个方面来增强模型对跨模态关系的推理能力。模型的设计思想如图 ()所示,利用一个特征多样性模块(,)来解决注意力关注目标区域不完整的问题。它可以学习区域之间的互补性,找到有关联的多个区域;为了对图像与语言表示之间的多模态关系建模,构建了一个上下文引导注意(,)模块,首先利用语言作为全局上下文,基于全局上下文和隐藏状
8、态,在每个时间步都利用上下文来引导注意图像,学习更准确的语义关系。为了证明所提方法的泛化能力,在图像描述任务和视觉问答任务中进行多次实验,结果表明利用多维关系能够提高模型的关系推理能力。图 传统模型在图像描述上的局限性与 模型示意图 相关工作 跨模态学习跨模态表示学习旨在学习不同模态之间的交互并产生语义丰富的多模态表示,现有的跨模态学习方法可以分为联合嵌入学习和协调嵌入学习两类。联合嵌入学习是将来自两种模态的数据嵌入到一个公共特征空间,并计算不同模态的相似性。早期的方法通过简单的连接从卷积神经网络()获得的视觉特征和从递归神经网络()获得的自然语言特征来解决多模态问题 ,但这种简单的融合方法缺
9、乏可解释性,并不能提供良好的性能。另外一些方法首先将所有模态转换为不同的表现形式,然后将多个表示形式嵌入到一个联合特征空间中。例如,文献 堆叠了多个编码器,用于单独学习每个模态的表示,并用共同注意机制以实现语言到视觉的关系建模;文献 将对象、属性、关系整合为场景图,以实现图像和句子之间的对齐;文献 将图像及其描述分解为不同的层次来学习视觉表示与文本语义的联合相似性。但是这些方法仅考虑每个模态的公共特征嵌入,忽略了两个模态之间的相互作用,因此它们缺乏表示复杂的异构模态数据能力。协同嵌入学习不是将模态数据投入到联合空间,而是分别学习每个模态的表示,并通过约束方法进行协调。文献 提出一个分层图形推理
10、模型,将视频和文本解耦成全局事件、局部动作、实体表示这些高级语义层次,然后通过注意力图来推理和对齐不同层次的视频和文本。多模态关系为了推断两个或多个对象间的复杂关系,已经有许多关系方法被提出,例如关系网络。早期的关系网络 利用一个神经网络块来计算任意两个对象间的关系;等人 利用图卷积网络对局部图像进行深度关系推理;等人 将模态内和模态间信息流动态融合,通过在多模态之间和跨模态之间交替传递信息来推理它们之间的关系。考虑到原始特征也包含丰富的关系信息,李雅红等人 将对象外观特征和边界框特征合并为关系特征来学习对象间的空间关系;等人 引入了一个网状 学习图像区域之间关系的多级表示;等人 引入全局和局
11、部信息探索和提取()方法来提取跨模态信息,捕获图像区域的空间关系。这些关系推理方法通常分为两个阶段:)结构化的表示提取,旨在与原始数据中的实体相对应;)如何利用这些表示来推理其内在关系。虽然目前的方法在获取图像内部对象的空间关系和语义关系方面取得了巨大进展,但是仍然存在获取多模态特征不充分、忽略视觉语言之间的语义关系对齐、特征间缺乏深入交互等问题,而本文的工作集中在如何获取更完整、更有用的模态数据表示,并对多模态间的关系建模。基于以上分析,本文提出基于跨模态多维关系增强的多模态表示模型,利用特征多样性的方法从潜层空间提取相关的视觉区域特征,同时利用上下文引导注意方法来动态感知各视觉特征和语言特
12、征间的关系,以此达到推理视觉对象间的空间关系和上下文语义关系的目的。本文将这种方法应用到了视觉问答和图像描述任务中,证明了该方法的广泛适用性。模型研究发现目前大多数多模态表示模型都倾向于使用注意力机制来捕获视觉特征中的显著特征信息,本文认为视觉特征中的非显著区域也能提供丰富的对象关系信息。为了获取较完整的视觉特征以及推理各视觉特征间的关系,本文提出一个跨模态多维关系增强()模型,从潜层空间关系和上下文语义关系两个角度来提高多模态模型的跨模态关系推理能力。首先,在潜层空间利用特征多样性模块提取与显著区域相关的非显著区域特征,并将其与基于注意力机制方法提取的视觉特计 算 机 应 用 研 究 第 卷
13、征融合,得到一个包含更多有用信息的细化特征;在视觉语言融合阶段为了准确推理视觉语言的对齐关系,设计了一个上下文引导注意模块来动态推理语言的上下文对象在图像中的对应关系。基于注意力机制的特征多样性模块注意力方法通常作为模型编码器的主要部分来获取图片和语言的高层语义信息。然而,基于传统注意力机制的多模态模型通常是选择性地关注图像中显著区域。具体过程为:在每个时间步上,通过查询键 可以获得一组键 的注意力分布,然后将分数传递给 层以生成注意力权重。()()()()其中:、为嵌入矩阵;表示 中的第 个元素;为归一化权重。最后注意力模块将所有输入特征 (个区域特征)加权求和得到关注后的图像特征,如图 (
14、)所示。()图 传统注意力机制与增加了特征多样性的注意力机制的比较 虽然传统的注意力机制很好地触发了图像区域间的交互,但是注意力机制的特性是关注显著区域,可能会忽略隐藏丰富语义信息的非显著区域,使得获取目标不完整,导致描述对象关系不完整。随着注意力块的叠加,视觉模型的性能会快速达到饱和,这是因为随着网络层的加深,注意力图逐渐变得相似,甚至在某些层之后变得相同,学到的信息较少,这也反映了注意力机制模型在关注到显著区域后就会停止关注其他区域。为了克服基于注意力机制的模型不能获取完整视觉特征的局限性,利用特征多样化模块()来聚合图像区域中与当前显著注意区域互补的区域信息,如图 ()所示,达到增强当前
15、注意区域的目的。(,)()其中:为增强后的特征;为传统注意力获取的特征;表示特征多样性模块。中的核心模块如图 所示,它主要是计算两个特征之间的相似度来学习语义上的互补信息。整个计算过程如下:)将经过注意力模块处理后的图像特征 与原始图像特征(表示图像中第 个区域的特征)联合计算它们的相似性:(,)()这里是利用内积来计算两个矩阵的相似度,代表特征与 的相似度,两个矩阵的相似度越低,互补性越强,所以采用 作为互补矩阵。然后对互补矩阵归一化处理得到 。()()()()将图像特征与互补矩阵相乘,得到该区域的互补信息。()其中:表示 与 的互补信息。然后求出图像区域特征 与 的所有互补信息和为()得到
16、增强的特征:()其中:为超参数,它控制特征多样化的程度。图 特征多样性模块()()上下文引导注意模块在图像描述任务中,基本注意力单元输出初步关注的特征向量,可以指导语言模型生成更多的名词并有效建立它们的关系,但是仅依赖于先前的单词来生成当前预测单词不能有效地利用未来信息来学习完整的语义关系。文献 利用语义注意来感知全局上下文关系,但是只考虑了单一模态(语言)间的关系。而本文的上下文引导注意模块,在进行过去信息与未来信息间关系推理时,不仅仅只回顾过去信息,还同时学习图像特征与语言特征的交叉模态相似性,使生成的语句关系更贴合图像内容,如图 所示。图 上下文引导注意模块()()在每个解码时间步长 ,
17、将上文隐藏状态 和全局上下文合并,随后与图像特征珓 一起执行引导注意生成上下文矢量 :,(,珓)(),()其中:为关系注意权重;,为拼接操作。多维关系增强的图像描述模型图像描述是多模态学习的一个重要应用场景,它要求根据图像生成相应的描述内容,图 为基于跨模态多维关系增强的图像描述模型,该模型以 模型 为基础,并将本文所提出的特征多样性模块 集成到图像编码层,将上下文引导注意模块 集成到语言解码层,以此提高模型的生成能力。图 多模态多维关系增强的图像描述模型整体框架 第 期成曦,等:基于跨模态多维关系增强的多模态模型研究 图像特征编码层图像编码器是将输入的图像区域特征集 转换为一系列中间状态的模
18、块,原始图像通过一系列状态转换使上下文信息得到增强。本文选择 注意模块 作为编码器端的图像特征提取器,因为 本身是注意力方法的改进,它同时利用空间和通道双线性分布来捕获输入的单模态或多模态特征之间的二阶交互,所以具有更强的特征表示能力。充分利用 注意力和特征多样性模块来构建图像编码器,通过捕获更全面的图像特征增强图像中对象间的空间关系。图像编码器部分有 层(本文实验中 ),每层包括一个 注意力模块和一个特征多样性模块,如图 ()所示。以第一层为例,首先输入图像特征 ,经过注意力模块来探索所有输入向量之间的交互,获取一个初步的区域信息;然后将 与原始图像特征 共同输入到 中得到互补特征;随后将互
19、补特征与注意力特征融合得到(),此处的融合方式采用两个特征相加的方式。整个过程可以定义为 ()()()(,)()之后,重复这个过程 次得到增强特征向量(),每个编码层的输入为前一个编码层的输出。最后,通过嵌入层进一步转换为全局特征:()()()其中:表示注意力函数;为增强后的图像特征;()为特征嵌入函数,它将特征映射到一个低维空间。语言解码层语言解码器以图像编码器增强的区域级视觉特征()作为输入,经过一系列解码生成句子 ,其中 为词汇表,是单词序列长度。为了进一步探索生成句子的上下文语义关系,本文将 模块集成到基于注意力的 解码器中来执行多模态关系探索,如图 ()所示。首先将平均池化视觉特征
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 跨模态 多维 关系 增强 多模态 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。