分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于跨模态多维关系增强的多模态模型研究.pdf

基于跨模态多维关系增强的多模态模型研究.pdf

上传人：自信****多点

文档编号：649439

上传时间：2024-01-23

格式：PDF

页数：8

大小：1.83MB

《基于跨模态多维关系增强的多模态模型研究.pdf》由会员分享，可在线阅读，更多相关《基于跨模态多维关系增强的多模态模型研究.pdf（8页珍藏版）》请在咨信网上搜索。

1、收稿日期：；修回日期：基金项目：国家自然科学基金青年资助项目（）；河南省高等学校重点科研资助项目（）；东北师范大学应用统计教育部重点实验室资助项目（）作者简介：成曦（），女，重庆人，硕士研究生，主要研究方向为多模态学习；杨关（），男（通信作者），陕西西安人，副教授，博士，主要研究方向为图像处理、机器学习（）；刘小明（），男，河南许昌人，讲师，博士，主要研究方向为自然语言处理、中文信息处理、机器学习；刘阳（），男，陕西西安人，讲师，博士，主要研究方向为机器学习和模式识别基于跨模态多维关系增强的多模态模型研究成曦，杨关，刘小明，刘阳（中原工学院计算机学院；河南省网络舆情监测与智能分析重点实

2、验室，郑州；西安电子科技大学通讯工程学院，西安）摘要：针对当前多模态模型不能充分挖掘图像中非显著区域的空间关系和上下文间的语义关系，导致多模态关系推理效果不佳的问题，提出了一个基于跨模态多维关系增强的多模态模型（，），用于提取潜层结构下图像各要素之间的空间关系信息，并推理出视觉语言间的语义相关性。设计了特征多样性模块用于挖掘图像中与显著区域相关的次显著区域特征，从而增强图像空间关系特征表示。同时设计了上下文引导注意模块来引导模型学习语言上下文在图像中的关系，实现跨模态关系对齐。在数据集上的实验表明所提模型获得了更好的性能，其中和分数分别提升了和。将这种方法应用到视觉问答任务中，

3、在数据集上性能得到了的提升，证明了该方法在多模态任务方面的广泛适用性。关键词：图像描述；视觉问答；特征多样性；空间关系；上下文语义关系；特征融合；多模态编码中图分类号：文献标志码：文章编号：（）：，（，；，）：，：；引言视觉和语言是描述和理解人类现实世界的主要方式。随着人工智能的发展，越来越广泛的研究工作致力于计算机视觉和自然语言处理的跨模态组合（例如图像描述、视觉问答、视觉关系检测和其他跨模态任务）。在这些多模态任务中，大多需要执行一些细粒度的视觉处理，甚至由多个推理步骤来生成高质量的输出结果。由于视觉和语言之间的语义鸿沟，使它们处于不同的抽象水平，导致不同模态间信息融合变得困难

4、。为了获取更细粒度的模态信息并缩小模态之间的差距，越来越多的学者致力于研究多模态信息的表示以及多模态关系推理。多模态视觉语言模型不仅要理解图像和语言的上下文，还要理解输入图像中的视觉区域与自然语言之间的潜在关系。大多数现有模型采用注意力方法，来模拟不同模态之间的密集相互作用，并推断出视觉和语言的跨领域潜在对齐关系，然而这些浅层结构模型只能实现多模态实例的粗略交互。等人提出一种深度模块化共同注意网络，该网络由深度级联的模块化共同关注层组成，以实现语言到视觉的关系建模。由于注意力机制所学习的注意力矩阵是密集的且无法确定注意力向量间的相关程度，等人提出了网络来过滤掉不相关或者误导性的注意力结

5、果，仅将有用的注意力结果保留在解码器中。等人发现现有模型都只利用了一阶特征交互，因此引入了注意力模块，利用双线性池化来第卷第期年月计算机应用研究捕获模态间的高阶甚至无限阶交互。这些方法着重于文本特征与细粒度图像特征之间的对齐，忽略了图像的潜层结构，导致关系推理效果不理想。考虑到图像中蕴涵丰富的结构化语义信息，而图可以将当前对象、对象的属性、对象间关系整合到一起，可以学习图像中对象间的关系和属性，实现视觉信息和语义信息对齐，因此一些研究利用图注意网络来实现跨模态关系推理。文献提出一种关系感知图注意力网络（），它将每个图像编码为一个图，并通过图注意力机制对多类型对象间关

6、系进行建模，以实现视觉语言自适应关系表示。尽管先前的工作探索了如何利用对象关系和高阶多模态特征来提高多模态模型性能，但是它们仍然存在几个缺点：）现有多模态模型大多采用注意力机制提取相关图像，易忽略原始对象的外观特征，这是因为基于注意力机制的模型往往倾向于关注显著区域而忽略了蕴涵丰富语义信息的不显著但可区分区域，这些外观特征包含大量的视觉属性，可以提供对象之间的语义和空间关系。以图像描述任务为例，如图（）第一幅图中传统注意力模型只识别了显著区域（站在水中的大象），而忽略了背景区域“一群大象”，影响描述语句的空间关系完整性。）语言的上下文中蕴涵丰富的关系信息，无论是在视觉问答还是在图像描述中，以前

7、的方法在进行相似性对齐时仅考虑单向对齐，未明确探索语言上下文在视觉上的关系。例如图（）第二幅图中会忽略上文的“人”和下文的“雨伞”在图片中的关系，导致生成的描述语句出现上下文关系错误。针对以上问题，本文提出一种跨模态多维关系增强（，）的多模态模型，从对象间空间关系和上下文语义关系两个方面来增强模型对跨模态关系的推理能力。模型的设计思想如图（）所示，利用一个特征多样性模块（，）来解决注意力关注目标区域不完整的问题。它可以学习区域之间的互补性，找到有关联的多个区域；为了对图像与语言表示之间的多模态关系建模，构建了一个上下文引导注意（，）模块，首先利用语言作为全局上下文，基于全局上下文和隐藏状

8、态，在每个时间步都利用上下文来引导注意图像，学习更准确的语义关系。为了证明所提方法的泛化能力，在图像描述任务和视觉问答任务中进行多次实验，结果表明利用多维关系能够提高模型的关系推理能力。图传统模型在图像描述上的局限性与模型示意图相关工作跨模态学习跨模态表示学习旨在学习不同模态之间的交互并产生语义丰富的多模态表示，现有的跨模态学习方法可以分为联合嵌入学习和协调嵌入学习两类。联合嵌入学习是将来自两种模态的数据嵌入到一个公共特征空间，并计算不同模态的相似性。早期的方法通过简单的连接从卷积神经网络（）获得的视觉特征和从递归神经网络（）获得的自然语言特征来解决多模态问题，但这种简单的融合方法缺

9、乏可解释性，并不能提供良好的性能。另外一些方法首先将所有模态转换为不同的表现形式，然后将多个表示形式嵌入到一个联合特征空间中。例如，文献堆叠了多个编码器，用于单独学习每个模态的表示，并用共同注意机制以实现语言到视觉的关系建模；文献将对象、属性、关系整合为场景图，以实现图像和句子之间的对齐；文献将图像及其描述分解为不同的层次来学习视觉表示与文本语义的联合相似性。但是这些方法仅考虑每个模态的公共特征嵌入，忽略了两个模态之间的相互作用，因此它们缺乏表示复杂的异构模态数据能力。协同嵌入学习不是将模态数据投入到联合空间，而是分别学习每个模态的表示，并通过约束方法进行协调。文献提出一个分层图形推理

10、模型，将视频和文本解耦成全局事件、局部动作、实体表示这些高级语义层次，然后通过注意力图来推理和对齐不同层次的视频和文本。多模态关系为了推断两个或多个对象间的复杂关系，已经有许多关系方法被提出，例如关系网络。早期的关系网络利用一个神经网络块来计算任意两个对象间的关系；等人利用图卷积网络对局部图像进行深度关系推理；等人将模态内和模态间信息流动态融合，通过在多模态之间和跨模态之间交替传递信息来推理它们之间的关系。考虑到原始特征也包含丰富的关系信息，李雅红等人将对象外观特征和边界框特征合并为关系特征来学习对象间的空间关系；等人引入了一个网状学习图像区域之间关系的多级表示；等人引入全局和局

11、部信息探索和提取（）方法来提取跨模态信息，捕获图像区域的空间关系。这些关系推理方法通常分为两个阶段：）结构化的表示提取，旨在与原始数据中的实体相对应；）如何利用这些表示来推理其内在关系。虽然目前的方法在获取图像内部对象的空间关系和语义关系方面取得了巨大进展，但是仍然存在获取多模态特征不充分、忽略视觉语言之间的语义关系对齐、特征间缺乏深入交互等问题，而本文的工作集中在如何获取更完整、更有用的模态数据表示，并对多模态间的关系建模。基于以上分析，本文提出基于跨模态多维关系增强的多模态表示模型，利用特征多样性的方法从潜层空间提取相关的视觉区域特征，同时利用上下文引导注意方法来动态感知各视觉特征和语言特

12、征间的关系，以此达到推理视觉对象间的空间关系和上下文语义关系的目的。本文将这种方法应用到了视觉问答和图像描述任务中，证明了该方法的广泛适用性。模型研究发现目前大多数多模态表示模型都倾向于使用注意力机制来捕获视觉特征中的显著特征信息，本文认为视觉特征中的非显著区域也能提供丰富的对象关系信息。为了获取较完整的视觉特征以及推理各视觉特征间的关系，本文提出一个跨模态多维关系增强（）模型，从潜层空间关系和上下文语义关系两个角度来提高多模态模型的跨模态关系推理能力。首先，在潜层空间利用特征多样性模块提取与显著区域相关的非显著区域特征，并将其与基于注意力机制方法提取的视觉特计算机应用研究第卷

13、征融合，得到一个包含更多有用信息的细化特征；在视觉语言融合阶段为了准确推理视觉语言的对齐关系，设计了一个上下文引导注意模块来动态推理语言的上下文对象在图像中的对应关系。基于注意力机制的特征多样性模块注意力方法通常作为模型编码器的主要部分来获取图片和语言的高层语义信息。然而，基于传统注意力机制的多模态模型通常是选择性地关注图像中显著区域。具体过程为：在每个时间步上，通过查询键可以获得一组键的注意力分布，然后将分数传递给层以生成注意力权重。（）（）（）（）其中：、为嵌入矩阵；表示中的第个元素；为归一化权重。最后注意力模块将所有输入特征（个区域特征）加权求和得到关注后的图像特征，如图（

14、）所示。（）图传统注意力机制与增加了特征多样性的注意力机制的比较虽然传统的注意力机制很好地触发了图像区域间的交互，但是注意力机制的特性是关注显著区域，可能会忽略隐藏丰富语义信息的非显著区域，使得获取目标不完整，导致描述对象关系不完整。随着注意力块的叠加，视觉模型的性能会快速达到饱和，这是因为随着网络层的加深，注意力图逐渐变得相似，甚至在某些层之后变得相同，学到的信息较少，这也反映了注意力机制模型在关注到显著区域后就会停止关注其他区域。为了克服基于注意力机制的模型不能获取完整视觉特征的局限性，利用特征多样化模块（）来聚合图像区域中与当前显著注意区域互补的区域信息，如图（）所示，达到增强当前

15、注意区域的目的。（，）（）其中：为增强后的特征；为传统注意力获取的特征；表示特征多样性模块。中的核心模块如图所示，它主要是计算两个特征之间的相似度来学习语义上的互补信息。整个计算过程如下：）将经过注意力模块处理后的图像特征与原始图像特征（表示图像中第个区域的特征）联合计算它们的相似性：（，）（）这里是利用内积来计算两个矩阵的相似度，代表特征与的相似度，两个矩阵的相似度越低，互补性越强，所以采用作为互补矩阵。然后对互补矩阵归一化处理得到。（）（）（）（）将图像特征与互补矩阵相乘，得到该区域的互补信息。（）其中：表示与的互补信息。然后求出图像区域特征与的所有互补信息和为（）得到

16、增强的特征：（）其中：为超参数，它控制特征多样化的程度。图特征多样性模块（）（）上下文引导注意模块在图像描述任务中，基本注意力单元输出初步关注的特征向量，可以指导语言模型生成更多的名词并有效建立它们的关系，但是仅依赖于先前的单词来生成当前预测单词不能有效地利用未来信息来学习完整的语义关系。文献利用语义注意来感知全局上下文关系，但是只考虑了单一模态（语言）间的关系。而本文的上下文引导注意模块，在进行过去信息与未来信息间关系推理时，不仅仅只回顾过去信息，还同时学习图像特征与语言特征的交叉模态相似性，使生成的语句关系更贴合图像内容，如图所示。图上下文引导注意模块（）（）在每个解码时间步长，

17、将上文隐藏状态和全局上下文合并，随后与图像特征珓一起执行引导注意生成上下文矢量：，（，珓）（），（）其中：为关系注意权重；，为拼接操作。多维关系增强的图像描述模型图像描述是多模态学习的一个重要应用场景，它要求根据图像生成相应的描述内容，图为基于跨模态多维关系增强的图像描述模型，该模型以模型为基础，并将本文所提出的特征多样性模块集成到图像编码层，将上下文引导注意模块集成到语言解码层，以此提高模型的生成能力。图多模态多维关系增强的图像描述模型整体框架第期成曦，等：基于跨模态多维关系增强的多模态模型研究图像特征编码层图像编码器是将输入的图像区域特征集转换为一系列中间状态的模

18、块，原始图像通过一系列状态转换使上下文信息得到增强。本文选择注意模块作为编码器端的图像特征提取器，因为本身是注意力方法的改进，它同时利用空间和通道双线性分布来捕获输入的单模态或多模态特征之间的二阶交互，所以具有更强的特征表示能力。充分利用注意力和特征多样性模块来构建图像编码器，通过捕获更全面的图像特征增强图像中对象间的空间关系。图像编码器部分有层（本文实验中），每层包括一个注意力模块和一个特征多样性模块，如图（）所示。以第一层为例，首先输入图像特征，经过注意力模块来探索所有输入向量之间的交互，获取一个初步的区域信息；然后将与原始图像特征共同输入到中得到互补特征；随后将互

19、补特征与注意力特征融合得到（），此处的融合方式采用两个特征相加的方式。整个过程可以定义为（）（）（）（，）（）之后，重复这个过程次得到增强特征向量（），每个编码层的输入为前一个编码层的输出。最后，通过嵌入层进一步转换为全局特征：（）（）（）其中：表示注意力函数；为增强后的图像特征；（）为特征嵌入函数，它将特征映射到一个低维空间。语言解码层语言解码器以图像编码器增强的区域级视觉特征（）作为输入，经过一系列解码生成句子，其中为词汇表，是单词序列长度。为了进一步探索生成句子的上下文语义关系，本文将模块集成到基于注意力的解码器中来执行多模态关系探索，如图（）所示。首先将平均池化视觉特征

20、与（）拼接并进一步经过嵌入层得到特征珓：珓，（），（）（）其中：是嵌入矩阵，以第个时间步长的嵌入词和全局图像特征珓输入到视觉中，生成隐藏状态：（，珓，）（）之后将视觉的输出作为模块的输入，通过上下文状态来引导模型注意图像，学习上下文在图像中的关系：（，珓，珓，：）（）其中：、分别代表珓和珓，：为生成的全局上下文。语言的输入由的加权特征和串联得到隐藏状态：（，）（）因此，在时间步长得到预测单词的概率分布为（：）（）（）其中：?为权重参数；为当前预测单词；：为生成的部分单词序列。训练和目标本文整个训练过程包括两部分：）采用交叉熵损失（）对模型进行预训练，使模型达到最优；

21、）在此基础上用自临界训练方法对生成序列进行微调，使生成的描述语句更接近真实描述。首先，通过最小化交叉熵来训练本文的模型：（）（：）（）其中：为模型的参数；：为真实描述序列；为预测单词，表示交叉熵损失训练。在强化学习阶段，通常采用自临界训练方法来解决暴露偏差问题，本文主要优化指标：（）：（：）（）其中：表示自临界序列训练；（：）是随机采样句子的奖励。其梯度可以近似为（）（：）（：）（：）（）其中：，表示采样单词；（）表示通过贪婪采样获得的奖励分数。多模态多维关系增强的视觉问答模型整体框架如图所示。整个模型过程的算法流程如算法所示。算法算法训练流程输入：图像特征，和对应的语义嵌入

22、向量，参数。输出：更新模型参数。）图像编码层将视觉特征输入到层来获取图像中重要的特征信息（式（）（）；将视觉特征与、参数共同输入到特征多样性层中，以获取操作遗漏的较重要特征信息（式（）（）；将特征与特征融合得到最终的完整特征信息（）（式（）（）；）语言解码层将编码层的输出特征珓与语义嵌入向量联合输入中获得隐藏状态（式（）；上下文引导注意模块基于隐藏状态、生成的全局上下文：、图像特征珓来动态学习上下文对象在图像中的关系（式（）；利用分类器计算各单词的概率分布（式（）；计算损失函数并更新模型参数（式（）（）。多维关系增强的视觉问答模型视觉问答同样是多模态学习的一个重要应

23、用场景，视觉问答要求模型根据图片和问题得出相关答案。这里通过视觉问答和回答示例来对所提模型的广泛适用性进行分析。具体来说，给定图像特征和相应的问题语义嵌入，首先特征多样性模块生成与问题相关的视觉特征，然后利用上下文引导注意模块学习问题中对象之间的关系。整个模型结构如图所示。在此过程中，模型会得到多个候选答案，最后通过分类器输出得分最高的答案。图多维关系增强的视觉问答模型整体框架本文的多维关系增强的视觉问答模型主要以模型为基础，它的共同注意层是由多个自注意力块堆叠而成，可以对模态内关系进行建模，但同时也存在注意力关注区域不完整和多模态关系不准确的问题，因此在此模型上验证本文方法的有效性

24、。给定图像特征，同样使用注意力机制与特征多样性模块的组合获得更完整的空间特征，并将问题表示作为上下文，基于问题上下文信息来动态注意图像，获得关系注意信息。（，）（）（：，）（）最后，使用多模态线性融合函数计算最终的融合特征：（）（）计算机应用研究第卷其中：、是线性投影矩阵。将融合特征映射成分类向量，并用二值交叉熵进行分类损失训练：（）（）（）其中：为预测答案；为真实答案；为二值交叉熵损失训练，用来衡量真实值与误差值的距离。实验及分析数据集）数据集，是目前最大的英文图像描述数据集，包含张图片，每个图片标有个人类注释。其中训练集包含张图片，测试集包含张图片，验证

25、集包含张图片。与大多图像描述方法一样，采用划分方法获得张图像进行训练，张图像进行验证和张图像进行测试。）数据集，是最常用的视觉问答任务的基准数据集，包括数据集上的图像相关的人工注释问答对，每个图像有个问题，每个问题有个候选答案；它还有两个测试子集称为和，用于在线评估模型性能。评价指标包括、。在图像描述任务上的实验详细参数设置和评估方法首先利用在和上训练好的来提取图像区域特征。每个原始图像区域特征是一个维的向量，本文将其转换为维的输入特征。每个单词都表示为向量，向量维度为维。在图像编码器中堆叠了四层注意力模块和模块，其中中的特征多样性参数值设为；而句

26、子解码器中配备了一个模块，解码器的隐藏层维度设为维，预热步（）设为。整个架构用实现，并使用进行优化，其中将和的值分别设置为和。训练阶段采用交叉熵（）损失来优化整个架构，训练的批次大小为，初始学习率为，整个模型的丢弃率设为，由于基线模型收敛速度较慢，所以设置最大迭代轮次为；在强化学习阶段，最小批量为，学习率为，最大迭代轮次为，使用强化学习方法进一步优化整个模型；在推理阶段采用束搜索策略，并将波束大小设为。本文使用、来评估模型性能。实验结果为了验证本文模型的性能，在数据集上进行实验，实验结果如表所示。其中表示本文重新复现的基线模型，为本文模型

27、；、分别表示、和。表在数据集上的结果指标提升指标提升由表可知相对于基线模型，模型在各个评价指标上均有提升，特别是在指标上表现明显，分别提升了、，这说明在图像识别准确度上，模型能识别更完整的区域。在最接近人类评价的指标上提升了，说明在整体语言生成上更准确，更具逻辑性，符合人类描述标准。为了对比模型的效果，将其与近年较为经典的图像描述方法进行比较，对比结果如表所示。对比的方法包括：）经典的强化学习方法，目前大部分模型的优化都用到它，其解决了传统训练策略导致的暴露偏差问题；）则是根据注意力来识别图像区域并生成句子；）增强了注意力结果和查询结果的相关性，更好地建模图像中不

28、同对象之间的关系；）则通过挖掘多模态间的二阶甚至高阶交互实现图像的细粒度识别；）利用网状学习图像区域间的多级关系；）用发散收敛注意力从多角度来引导模型更精确地关注局部区域，实现细粒度的语义信息及视觉区域的交互；）利用核心对象的语义特征对视觉特征进行引导，并在推理阶段引入外部知识来增强视觉理解能力；）提出一种多层次的动态提前退出方法，解决跨模态表示不足和内部分类器决策不佳的问题；）引入语境融合门，通过选择性融合视觉概念和词嵌入信息来计算文本语境，并通过序列决策来训练模型以克服暴露偏差问题。表不同方法在数据集实验性能对比方法（）（）（）（）（）（）（）（）（）（）（）（）（）（）（）（）

29、（）（）（）（）注：其中加粗数值为每列最优，下画线“”为每列次优，“”表示没有数值，“”表示交叉熵损失训练，“”表示对分数进行优化训练。由表可知，模型与其他经典模型方法相比有较大优势，经过训练后模型在、指标上都达到最优，得分分别为、。经过得分优化训练后，模型在上达到最优为；在、指标上达到次优，分别为、。虽然模型在、这几个指标上得分略低于文献中的结果，但是仍高于本文复现的官方发布的预训练模型的结果。证明了通过本文的特征多样化和上下文关系引导可以让模型关注图像区域更完整，生成描述语言更关注上下文逻辑关系，符合人类描述标准。特别是经过分数优化后相对于

30、模型在指标上提升了，在指标上提升了，在指标上提升了。这是因为模型在考虑区域间关系的同时也考虑了关注区域的完整性，确保模型第期成曦，等：基于跨模态多维关系增强的多模态模型研究学习到更多语义相关区域。相较于主流的注意力模型、，本文的模型可以检测到更多区域，弥补了基于注意力方法带来的信息遗漏问题。从实验结果可以看出本文方法的有效性。消融实验为了全面分析特征多样性模块、上下文引导注意模块在图像编码阶段和句子解码阶段中对描述生成的影响，将不同模块组合进行了消融实验，结果如表所示。第一个消融实验表示仅在图像编码器端加上特征多样性模块，由实验可知，相对于基线模型获得了更好的性能，特别

31、是在衡量准确率的指标上获得的提升，说明模型获取了更完整的图像区域，使描述更完整。第二个消融实验表示只在解码器端添加上下文引导注意模块，由实验结果可知，在衡量整体语义质量的指标上得到的提升，反映了本文中的上下文引导注意机制可以提高图像描述的质量。而整体模型则在指标上获得的提升，证明了和可以联合提升模型的性能。表消融实验方法为了探究式（）中参数的大小对特征多样性化的影响，设置，进行六组实验观察不同大小的参数对整个实验结果的影响，如表所示。结果表明，当时，模型性能达到最优，说明模型可以学到最好的图像信息；当时，结果不仅没有提升，还降低了性能，这表示过大会带来更多

32、噪声；当时，模型性能提升较小，说明学到的互补信息越少。表中的参数分析可视化分析为了可视化地分析特征多样性模块性能，在图中将仅添加注意力机制和增加了的注意力机制生成的对象区域可视化，各对象可视化结果如红色框所示（参见电子版）。由图可知可以关注到更多相关的区域“”，使生成的描述空间关系更完整，而普通注意力机制生成的区域则只注意到明显区域，忽略非显著区域，导致关注区域不完整。图特征多样性模块效果可视化为了可视化分析上下文引导注意块的性能，在图中，将仅利用注意力和模块分别可视化，结果如红色框所示（见电子版）。由图可知，模块能正确注意到“”和“”，且准确描述了它们之间的关系“”，而普

33、通注意力的区域则注意到其他不相关区域，导致区域间关系不准确。由此证明模块可以准确识别区域间关系，使生成的描述更准确。图上下文引导注意模块效果可视化样例展示与分析图展示了基线模型与本文模型的生成示例，可以发现基线模型生成的描述基本符合语言逻辑，但是存在图像内容描述不完整、对象间关系出错、出现重复描述等问题；而模型可以生成语义更完整、逻辑更清晰的语句。更具体地说，模型在以下两个方面具有优势：）找到图像中更多有关联的区域，使整个句子描述更完整、流畅，对象之间的空间关系更完整。例如图（）中只识别了显著区域的“”，忽略了“”，导致生成语言描述不完整，对于整张图像来说“”与“”是有相关性的

34、；图（）中模型也是关注到显著区域的“”而忽略了墙上的“”。这些例子都直接表明模型能识别除显著区域外的更多区域，促进整个句子描述的完整度。）全局感知能力，找出各对象之间的联系，使上下文关系更准确，同时避免自回归模型容易出现的重复生成问题。例如图（）中模型重复生成“”，这是典型的自回归模型的生成错误，而模型可以避免这种问题；在图（）中模型错误地感知了“小女孩”和“棒球”之间的关系，而模型则对对象间关系感知更准确。图模型和模型生成的示例，以及相应的真实描述（，），（）在视觉问答任务上的实验为了验证跨模态多维关系增强模型的可扩展性，本文还在数据集上验证了视觉问答任务。为了公平比较

35、，使用相同的自下而上的注意视觉特征，而且本文重新实现了文献中的模型。由于篇幅限制，这里省略了具体计算机应用研究第卷的参数设置，详细的参数设置参考文献。唯一不同的是为了减少深度级联模块对特征多样性方法的影响，本文将层数设为。实验结果为了验证本文方法在视觉问答任务上的效果，分别将和方法应用到基线模型上，结果显示和都使模型获得了进一步的提升。实验结果表明在数据集上，方法在回答数量（）方面有着绝对的优势，相较于模型提升了，方法在回答其他（）类型问题方面相较于提升了，方法总的（）准确率提升了，整体结果如表所示。在数据集上，方法回答数量方面提升了，总的

36、准确率提升了，方法在回答其他类型问题方面，方法总的准确率提升了，整体结果如表所示。表在上的实验结果方法表在上的实验结果方法结果展示图为本文方法在视觉问答任务上的表现示例，包含基线模型与模型的回答结果。从图中结果可以看出，模型在推理问题的上下文关系时更准确，例如图（）中“”与“”的关系，图（）中“”与“”的关系，且能够关注到更多有用的信息，例如图（）中人数识别更多，进一步验证了所提模型的可扩展性和有效性。图在视觉问答上的表现结果不足性分析虽然模型在视觉问答和图像描述应用场景上取得提升，但是在部分指标上性能提升不大，经过分析有两个原因：）训练的数据集不平衡

37、，存在偏见问题，例如性别偏见、属性偏见等导致模型识别错误，错误示例如图所示。在识别人物性别上，由于数据集中有大量描述都是关于“”，导致模型在生成语言时直接根据语言先验生成描述或答案，这在一定程度上影响了多维关系增强模型的性能。）本文的多维关系增强的图像描述模型的词向量采用的是“”编码，无法描述词与词在上下文语境下的关系，最终使模型对图像语义的描述产生偏差。针对上述两个问题，下一步的工作从因果推理角度来解决视觉特征和某些表达间的关系，同时改进词嵌入方式。图偏见问题示例结束语针对现有基于注意力方法的多模态任务模型在学习区域特征时倾向于关注显著区域而忽略一些蕴涵丰富信息的非显著区域，导致获取特

38、征不完整，且描述目标时孤立对待不同区域特征，不能准确描述上下文对象间关系的问题。本文提出一种跨模态多维关系增强模型，从对象空间关系和语义关系两个方面来增强多模态模型的推理能力，利用特征多样性模块提取与注意区域相关的区域来增强当前注意区域，获得更完整的特征表示，通过上下文引导注意模块来学习跨模态关系，促进视觉与语言的关系对齐。实验表明，本文方法对图像中的目标检测更完整，对上下文对象间关系感知也更为准确。同时在视觉问答任务上也验证了本文的有效性，证明该方法可以应用于广泛的多模态任务中。在未来的工作中将从因果推理角度来解决视觉特征和某些表达（例如“长发”和“女人”的视觉特征关系）之间的虚假相关问题，

39、帮助模型更好地理解图像，缓解语言与图像不一致的问题。参考文献：，：，：，：，：，：，（）：吝博强，田文洪基于层次注意力机制的高效视觉问答模型计算机应用研究，（）：（，（）：）第期成曦，等：基于跨模态多维关系增强的多模态模型研究，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，：李雅红，周海英，徐少伟基于对象关系网状转换器的图像描述模型计算机工程，（）：（，（）：），：，：，：，：，：，：，：，：，：，：，（）：，：，：，：，：，：，（）：，：，：，：，：，：，：，：，：，：，：，：，：，：，：，（）：，：，：，：，：，：，（）：计算机应用研究第卷

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于跨模态多维关系增强多模态模型研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。