分销赏收藏举报申诉 / 14

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 多模态语义通信研究综述_秦志金.pdf

多模态语义通信研究综述_秦志金.pdf

上传人：自信****多点

文档编号：282455

上传时间：2023-06-28

格式：PDF

页数：14

大小：990.28KB

《多模态语义通信研究综述_秦志金.pdf》由会员分享，可在线阅读，更多相关《多模态语义通信研究综述_秦志金.pdf（14页珍藏版）》请在咨信网上搜索。

1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期通信学报 Vol.44 No.5多模态语义通信研究综述秦志金1，赵菼菼2，李凡2，陶晓明1（1.清华大学电子工程系，北京 100084；2.西安交通大学信息与通信工程学院，陕西西安 710049）摘要：随着人工智能与通信的交叉融合，文本、图像、音频、视频等多模态数据处理技术蓬勃发展，模态语义的共享维度被深度挖掘，多模态语义信息的高度抽象、智能简约等特性被充分利用，为语义通信带来了全新的思路和手段。首先，介绍了语义通信的基础理论和分类，分别针对文本、图像、音频、视频综述

2、了单模态语义通信的研究现状；然后，综述了多模态语义通信的研究现状，介绍了多模态数据融合技术和安全语义通信的研究；最后，总结了多模态语义通信面临的挑战。关键词：语义通信；多模态数据融合；多模态语义通信中图分类号：TN919.8 文献标志码：A DOI:10.11959/j.issn.1000436x.2023105 Survey of research on multimodal semantic communication QIN Zhijin1,ZHAO Tantan2,LI Fan2,TAO Xiaoming1 1.Department of Electronic Engineering

3、,Tsinghua University,Beijing 100084,China 2.School of Information and Communication Engineering,Xian Jiaotong University,Xian 710049,China Abstract:With the cross-integration of artificial intelligence and communications,technologies for processing multi-modal data such as text,image,audio,and video

4、 are booming,the shared dimension of modal semantics is deeply exca-vated,and the characteristics of multimodal semantic information such as high abstraction,intelligence and simplicity are being fully utilized,which brings new ideas and means to semantic communications.First,the fundamental theorie

5、s and classifications of semantic communication were introduced,and the research status of single-modal semantic communi-cation was reviewed for text,image,audio,and video respectively.Then,the research status of multimodal semantic communication was reviewed,and multimodal data fusion technology an

6、d secure semantic communication were intro-duced.Finally,the challenges faced by multimodal semantic communication were summarized.Keywords:semantic communication,multimodal data fusion,multimodal semantic communication 0 引言过去几十年，通信领域的研究主要集中在如何准确有效地将符号从发送端传输到接收端，也称为语法通信。随着无线通信系统的发展，系统容量逐渐接近香农极限。然而，

7、在万物智能互联的时代，通信的最终目的是交换语义信息而不是准确传输符号。目前，语义通信已经引起了工业界和学术界的广泛关注，有望成为“达意”通信的一种新范式1。区别于语法通信，语义通信的主要目的是实现收发端语义信息的准确交互，利用先进的人工智能（AI,artificial intelligence）技术提取出原始数据中与接收端特定的智能任务最相关的信息进行传输，可有效压缩数据冗余，提升信息传输的有效性，减轻网络传输的压力，降低智能任务的处理时延2。随着 6G 技术与 AI 技术的飞速发展和深度融收稿日期：20230111；修回日期：20230506 基金项目：国家自然科学基金资助项目（No.619

8、25105）；清华大学中国移动联合研究院基金资助项目 Foundation Items:The National Natural Science Foundation of China(No.61925105),Tsinghua University-China Mobile Com-munications Group Co.,Ltd.Joint Institute 第 5 期秦志金等：多模态语义通信研究综述 29 合，包括文本、图像、音频、视频等在内的多模态服务必然成为各类场景（如电子医疗、数字孪生、人体感应护理系统、零售店自动结账等）的主流。为了给用户提供比较好的体验，开发面向多模态信号

9、的高效传输和精确处理的系统级通信架构是很有必要的，语义通信有望支持多模态通信架构的实现。高质量的多模态服务可以利用多模态信号的时间、空间和语义关系来保证，在这些跨模态关系中，语义包含反映多模态信号含义的丰富信息，将成为打破模态壁垒的有力媒介，因此，多模态语义通信受到研究者的广泛关注3。本文旨在综述已有单模态语义通信、多模态语义通信的相关工作，介绍多模态数据融合技术，总结现有多模态语义通信面临的挑战，整体框架如图 1 所示。本文的主要贡献如下。1)分别针对文本、图像、音频、视频综述单模态语义通信的研究现状。2)综述多模态语义通信的研究现状，介绍多模态数据融合技术和安全语义通信研究。3)总结多模态

10、语义通信面临的主要挑战，旨在为多模态语义通信后续研究提供可供参考的思路和方向。本文所述语义通信发展路线如图 2 所示。接下来，对图 2 中每个部分展开详细介绍。1 语义通信基础理论和分类 1.1 语义通信基础理论语义的概念起初是在符号学的研究中出现的4。Morris5把符号学定义为语法、语义和语用的三重组合。语法关注符号（视觉和语言）的形式特征之间的相互关系，而不考虑含义。语义专门研究不同层次的符号含义。语用关注符号系统中符号效用与用户之间的关系。类似于符号的三重定义，Shannon 等6确定以下 3 个层面的通信来进一步刻画通信的语法、语义和语用特征7。1)语法层面：通信符号如何被精确地传

11、输？2)语义层面：传输的符号如何准确地传达预期的语义？3)有效性层面：接收到的语义如何有效地以预期的方式影响行为？Carnap 等8重新审视了香农研究工作中绕过的语义问题，并对语义信息进行了初步定义。Bao 等9首次提出了语义通信的理论以实现语义级别的通信，并定义了语义噪声、语义信道、语义熵和语义信道容量。设信源消息集合为 X，语义信息集合为W，背景知识为 K，推测为 I，信宿消息集合为 Y。用香农熵 H(W)来量化信源的语义信息量，即语义熵。语义熵 H(W)和信源熵 H(X)之间的关系为 ()()()()H WH XH W XH X W(1)其中，()H W X衡量编码的语义模糊度，()H

12、X W衡量编码的语义冗余。与经典信息论最大的不同在于，语义信息的衡量基于背景知识和推测决定的逻辑概率，而不是统计概率。离散无记忆信道的语义信道容量取决于 3 个要素。第一个是 X 和Y 之间的互信息(;)I X Y，也是经典信息论的信道容量；第二个是用sK和sI进行语义编码时引入的语义模糊度，即,()ssKIHW X；第三个是接收消息的平均逻辑信息，即,()ddKIHY，由dK和dI决定。如果()ssKI和()ddKI不匹配，将会产生过多的语义噪声。假设sdKK且sdII，则语义信道容量为 ()sup(;)()()P W XCI X YH W XH Y(2)从式(2)可知，设计合理的语义编解码

13、方案()P W X对于高效语义通信系统的实现至关重要。语义级别的率失真理论可以为此提供很好的理论指导。图 1 本文整体框架 30 通信学报第 44 卷具体地，广义的率失真理论为 min(;)(;)I X ZD X Z(3)其中，(;)I X Z表示语义特征Z保留的关于信源X的信息量，衡量语义编码对语义信息的压缩量；(;)D X Z表示语义特征Z和信源X的差异，衡量语义编码带来的语义失真量；表示权重因子10。面向任务的信息瓶颈理论可以形式化率失真理论的折中关系11，具体表示为 min(;)(;)I X ZI Z Y(4)其中，Y为任务标签。特别地，用语义信息的负值(;)I Z Y度量语

14、义失真，失真(;)I Z Y尽可能小意味着语义信息(;)I Z Y尽可能大，表示语义特征Z中尽可能多地保留任务相关的语义信息10-11。以上关于语义通信的基础理论可以为高效语义通信的设计和实现提供很好的指导，能够根据应用场景和任务需求进行灵活变换，为满足6G通信高谱效和高可靠的要求提供新的技术思路12。1.2 语义通信分类由于强大的AI技术，现代语义通信的研究已图 2 语义通信发展路线第 5 期秦志金等：多模态语义通信研究综述 31 经出现在多种应用中。经典通信系统仅关注由Shannon等6确定的语法层，语义通信则把余下的2个更高层融入通信系统的设计中。如图3和图4所示，语义通信主要分为

15、两类：面向语义的通信（关注语义层面）和面向目标的通信（关注有效性层面）13。图 3 面向语义的通信图 4 面向目标的通信 1.2.1 面向语义的通信不同于忽略传输内容的经典通信系统，面向语义的通信设计中重要的是信源数据语义内容的准确率，而不是与源数据的统计概率相关的平均信息。因此，语义通信系统的主要改变在于发送前和接收后的数据处理阶段。传统的信源编码是寻求一种将信源数据转换为短码的方法，同时，因为发送的消息对潜在的含义视而不见，一个好的信源编码方法意味着它可以处理信源数据更多的可能性。然而，在语义通信中，需要重新定义“信息”，并在编码前引入语义表征模块，负责捕获嵌入在信源数据中的核心信息，

16、过滤不必要的冗余信息，特别地，面向目标的通信中的语义滤波模块负责进一步过滤与下游智能任务无关的信息。很多研究工作把语义表征和语义编码功能集成在一个模块里，称为语义编码，联合发挥与传统通信中信源编码类似的作用。类似地，语义推理和语义解码的联合作用等价于信源解码的作用。在一般的语义通信场景中，解码是编码的逆过程，可通过AI驱动的解码算法实现，如具有强大先验知识的Transformer和自编码器（Autoencoder）。语义推理模块基于解码得到的语义信息推理出目标语义或者直接根据语义信息采取行动，完成特定的智能任务。由于语义通信的目标是使接收机成功获取语义信息，因此，可以将联合语义编码和解码过程统

17、一看作“语义提取”。此外，正如人类对话一样，有效的对话要求双方具有关于语言和文化的共同知识。语义通信中，为了确保所有的信源数据能被很好地理解和推理，通信参与方需要及时共享局部知识。如果局部知识不一致，就会产生语义噪声，即使在物理传输没有语法错误的情况下也会导致语义模糊。1.2.2 面向目标的通信在面向语义的通信的基础上，面向目标的通信旨在使所涉及的通信参与方能够共同完成一个通信目标或任务。回顾通信的3个层面：语法层面、语义层面、有效性层面。在面向语义的通信中，语义提取关注语义信息，而在面向目标的通信中，捕获语用信息是很有必要的。Zhong4说明了3种信息的相互关系，语用信息可以看作所有能用语

18、法信息传达的语义信息的一部分，且与通信的特定目标相关。对于通信目标频繁改变的各类场景，每次传输时构建局部知识以进一步过滤不相关的语义信息尤其重要，所以，在面向目标的通信中，目标或任务在语义提取中发挥着很重要的作用。面向目标的通信关注有效性层面，在给定有限网络资源的情况下，旨在以预期的方式完成任务，而面向语义的通信关注语义层面的语义信息准确率。此外，类似于面向语义的通信，面向目标的通信中所有通信参与方的局部知识和通信目标需要保持一致，否则，产生的语义噪声会导致任务失败。1.3 单模态语义通信的研究现状信源数据主要有文本、音频、图像和视频等各种模态。大多数现有的语义通信研究都围绕上述几种模态展开

19、。其中，可以通过说话或打字来感知的文本是引起最多关注的信源数据类型。在关于文本语义通信的研究中，研究者通常采用语义符号来表征语义，一个语义符号表示单词、短语和句子等数据的子集。如单词“bike”和“bicycle”以及短语“a two-wheeled tool for mobility and transportation”可以映射到同一个语义符号，这也是语义通信可以显著减少带宽的主要原因14。然而，这也不可避免地导致一些信息的损失。由此可见，语义编码的压缩比应该由特定应用场景决定。上述思想可以应用到音频数据传输的语义通信中。近些年，随着声控智能家居应用的兴起，音频通32 通信学报第

20、44 卷信不再局限于人与人的对话15，语音识别成为一种流行的应用。相比于文本数据，音频数据包含更多的特性，如语速和语气。在一些关于语音识别的语义通信研究中，为了避免其他语音特征的影响，语音信号在进行语义提取之前被转换为文本数据16。此外，通信任务对于视觉数据更加多变，如图像分类、目标识别和视频会议。不同于广义的传统图像和视频压缩及编码，特征提取需要针对通信任务和源数据的特性进行量身定制。以视频会议为例，由于视频会议的背景帧几乎是静止的，Jiang等17把基于关键点的视频恢复技术融入语义通信中，仅关键点（如关于面部表情和行为改变的信息）被实时地编码和传输给接收端，关于背景图片和发言者面部特征的

21、其他信息只是在会议开始时被分享给接收者。这种方式可在保持高水平分辨率的同时实现高压缩比。由于语义通信允许在有限的带宽内传输更多的相关数据，因此，语义通信相比于传统通信可获得更好的性能。1.3.1 文本语义通信受到深度学习在自然语言处理（如机器翻译）的启发，Farsad等18率先设计了一个文字传输系统模型，发送者使用有限的比特数通过擦除信道向接收者发送句子。在该模型中，Farsad等18首先使用Glove19把单词表征为嵌入向量，其中，Glove是可用于提取语义信息的预训练查找表；然后，受到机器翻译中序列到序列学习框架的启发20-21，Farsad等18应用基于长短期记忆（LSTM,long

22、short-term memory）的编码器和解码器，把先前估计单词的嵌入向量作为下一步的输入并利用束搜索算法找到最可能的单词序列22。这种方式可以在句子恢复过程中嵌入语义信息。然而，诸如Glove或Word2Vec23的词表征模型仅能捕获单词之间的关系，不能描述句法信息24。因此，Farsad等18所提模型仅可以描述一个句子中某个单词在另一个单词后出现的概率，很难处理长句子，且未考虑通信环境对文字传输的影响。面对这个挑战，研究者提出了Transformer的新框架并引起了大量的关注，Transformer可以从整个句子中有效地提取语义信息和语法24。具体地，Transformer网络与允许并

23、行提取句子多个特性的多头注意力机制结合25。因此，与诸如LSTM这种基于循环神经网络（RNN,recurrent neural network）的结构相比，Transformer网络具有更低的计算复杂度，能够实现更多的并行计算，同时具备学习输入序列长期依赖关系的能力。因此，Xie等24提出了基于Transformer的联合语义信道编码方法，用于去除信道噪声及语义噪声对语义通信系统的影响，并将信道模型由擦除信道扩展到加性白高斯噪声（AWGN,additive white Gaussian noise）信道和衰落信道。在低信噪比（SNR,signal-to-noise ratio）范围内，基于Tr

24、ansformer的语义通信在BLEU（bilingual evaluation understudy）和句子相似性度量下具有更明显的优势。然而，Transformer的注意力结构是固定的。实际上，在一个句子处理系统中，由于多义或噪声干扰，某些单词或短语比其他单词或短语更可能引起语义模糊。考虑到这一点，Zhou等26进一步提出一种灵活的基于通用Transformer27的语义提取方法，这种方法通过在Transformer中引入一个自适应循环机制来打破原始的固定结构。相比于标准Transformer，通用Transformer与自适应计算时间模型28结合，可以根据每步预测的停止概率动态调整所需的

25、计算步骤数，处理RNN中的每个输入符号。这种动态的每位置停止机制允许基于通用Transformer的语义提取可以循环利用自己的机制，实现在不同的周期响应不同的语义信息和变化的物理信道。在仿真中，Zhou等26比较了传统的信源编码和信道编码级联方案、基于通用Transformer的语义提取方案和基于标准Transformer的语义提取方案的BLEU性能。实验结果表明，相比于传统的信源编码和信道编码级联方案，上述2种基于Transformer的语义通信方案在不同信道条件下可以获得更高的BLEU分数。具体地，随着信噪比的变化，2种方案下BLEU的分数趋势是相同的，但是由于自适应

26、循环机制，基于通用Transformer的方案得分始终高于基于标准Transformer的方案得分。1.3.2 图像语义通信对于图像数据，Lee等29考虑了一个简单的图像传输场景，一个物联网（IoT,Internet of things）设备发送图像到服务器完成识别任务，IoT设备与服务器之间保持直接的点对点无线连接，信道模型为AWGN信道和瑞利衰落信道。不同于传统的多个模块级联的通信模型，Lee等29提出了基于深度学习的以识别准确率为性能指标的联合传输识别方案，采用了性能良好且参数较少的ResNet结构30。为了在第 5 期秦志金等：多模态语义通信研究综述 33 传输前完成特征提取，Re

27、sNet深度神经网络（DNN,deep neural network）被分割为2个部分，前6层函数作为发送端的特征提取器，即语义提取器，其余层作为接收端的识别器。此外，为了完成噪声信道中的自适应语义提取，Lee等29使用DNN作为信道编码器和解码器来实现联合语义信道编码（JSCC,joint seman-tic-channel coding）。为了证明所提方案的有效性，Lee等29将基于DNN的联合传输识别方案与其他3种级联压缩识别方案分别在模拟和数字传输模式下进行对比。实验结果表明，所提方案在识别准确率和复杂度方面具有最好的性能。通过有效的语义提取，所提方案的识别准确率可以在信噪比高于0 d

28、B时达到0.9。此外，使用训练有素的DNN模型，所提方案的运行时间在模拟传输模式下低于410 s。然而，所提方案仅能在特定SNR下运行。在传统通信系统中，通用信源编码器和解码器能根据SNR实现自适应压缩比和信道编码，在给定带宽时达到最优的性能。为了解决这个问题，Xu等31在有SNR反馈时考虑点对点的图像传输系统，将广泛应用于计算机视觉的注意力机制融入特征提取。在Xu等31的设计中，JSCC在一个单独的网络中执行，网络包含特征学习模块和注意力特征模块。特征学习模块负责从输入图像中学习特征，然后，注意力特征模块把特征学习模块的输出和SNR作为输入，产生一系列可伸缩参数。特别地，特征学习模块和注意力

29、特征模块输出的乘积可以看作特征学习模块输出的滤波版本。解码器也是类似的设计。在仿真中，Xu等31将基于注意力的深度JSCC方案与5种基本深度JSCC方案进行了对比，实验结果显示，Xu等所提方案的峰值信噪比（PSNR,peak signal-to-noise ratio）是其他基准方案PSNR曲线的上包络线，从而证明了基于注意力的深度JSCC方案具有更好的鲁棒性、通用性和对宽范围SNR的适应性。此外，考虑到图像数据有更多的空间冗余，Hu等32为图像分类任务提出了资源节约型特征提取模型。在编码过程中，Hu等32使用带有视觉Transformer结构33的掩码自编码器（MAE,masked auto

30、encoder），并采用一个对称编码解码器结构。MAE可以从部分观测中重构一个图像。具体地，首先，一部分原始图像被遮蔽和忽略；然后，在没有被遮蔽的部分嵌入它们在原始图像中的位置信息；最后，送入Transformer模块完成图像特征的提取33。由于编码器只需要处理未遮蔽块，从而显著减少了内存消耗。相反，解码器的输入是由未遮蔽块的编码特征和遮蔽标记组成的完整标记集，遮蔽标记是一个表明预测块存在的共享学习矢量32。1.3.3 音频语义通信随着针对文本和图像传输的端到端语义通信系统的发展，Tong等15和Weng等16进一步研究了面向音频信号传输的语义通信。Tong等15基于深度学习的自然

31、语言处理（NLP,natural language processing）语言模型设计了一个被称为Wav2Vec的音频特征提取器。语义编码器由2个级联的卷积神经网络（CNN,convolutional neural network）构成，分别被称为特征提取器和特征聚合器34。特征提取器负责提取原始音频向量中的粗略音频特征，特征聚合器负责把粗略音频特征融入包含上下文音频特征之间语义关系的高层隐变量34。相应地，语义解码器与编码器对称，也是基于Wav2Vec结构。然而，在仿真中，语义提取模型在固定信道系数的AWGN信道下进行训练，这使在更复杂的信道条件下保证良好的性能变得更具挑战。类似于文本

32、语义编码器的演进，Weng等16,35进一步将被称为SE-ResNet的注意力机制融入特征提取，编码器和解码器由一个或多个顺序连接的SE-ResNet模块构成。SE-ResNet模块中的特征提取是一个具有挤压和激发功能的独立网络单元，负责在训练阶段为与基本信息对应的权重分配较大的值。特别地，挤压操作聚合每个输入特征的二维空间维度，激发操作通过捕获相互依赖关系输出每个特征的注意力因子。同时，采用残差网络缓解由网络深度产生的梯度消失问题。从仿真结果可以看出，Weng等所提特征提取方法在各种衰落信道和SNR下获得了优于传统方法的性能。Weng等36进一步关注针对英语的语音识别任务，将原始语音样本序列

33、在输入发射机之前转换为频谱。此外，Weng等36引入了单个语音样本序列的转录，每个标记代表字母表中的一个字符或一个单词边界。基于频谱和转录，Weng等36设计了编码器和解码器。语义编码器由CNN和基于门控单元的双向RNN37组成。CNN实现数据压缩，双向RNN在传输前提取文本相关的语义特征。信道编码和解码由全连接层实现，语义解码负责将恢复的文34 通信学报第 44 卷本相关语义特征解码为文本转录。考虑到英文字母表中的字母数量有限，Weng等36设计了一个贪婪的语义解码器，首先，索引所有步骤中的最大概率；然后，使用相应的标记来构建最终的转录。1.3.4 视频语义通信除了文本、图像、音

34、频信号，视频逐渐成为人们工作和生活的重要组成部分。Tung等38开发了深度强化学习支持的端到端可变带宽视频传输框架DeepWiVe，仿真结果表明，DeepWiVe的多尺度结构相似性指标测度（MS-SSIM,multi-scale struc-tural similarity index measure）性能在所有信道条件下平均优于H.264视频压缩和低密度奇偶校验码高达0.046 2，同时平均优于H.265+LDPC高达0.005 8。Wang等39设计了一类新的深度联合信源信道编码方案DVST（deep video semantic trans-mission），实现视频的无线信道端到端高效

35、传输。整个DVST的设计以感知质量和机器视觉任务性能为指标，以最小化端到端的传输率失真为目标。实验结果表明，在标准视频源测试序列和各种通信场景下，DVST方案的性能优于传统的无线视频编码传输方案，由于它具备视频内容感知和机器视觉任务集成的能力，因此，可以支持未来的语义通信。Jiang等17提出了一种带有新颖语义错误检测器的视频会议语义传输方案，发言者的照片作为先验信息被共享以帮助构建发言者的面部表情。Jiang等17提出的方案大大降低了对无线传输资源的要求。Tao等40开发了一种移动视频传输框架来保证体验质量，通过建立一个大的数据集来寻求主观体验质量得分和神经网络参数之间的关系以引导语义视频传

36、输。Fried等41提出了通过编辑文本来编辑谈话视频。Tandon等42提出了仅传输文本而非视频的方案，大大降低了网络流量。2 多模态语义通信的研究现状及面临的挑战由于多义性和模糊性两大语义问题，针对单模态的语义通信系统很难满足多模态服务的可靠性要求。多义性问题为如何获取真正的语义。文本、图像、音频、视频等模态的源信号本质上是多义的。如果没有相关的背景知识或上下文信息，很难识别源信号试图表达的含义。因此，对于语义编码器而言，仅提取出明确的显示语义是不充分的，应高度关注揭示潜在真实含义的隐含语义。语义模糊性问题为如何精确解释语义。由于语义编码器和无线信道不可避免地存在噪声，恢复信号表达的语义也

37、许无法精确解释发送者真正的语义。同时，由于语义特征的数据量远小于源信号，因此即使很少的比特级传输错误也会导致严重的语义失真。对于语义解码器而言，不仅需要处理比特错误，更重要的是能够精确恢复发送者的预期语义。由于单模态信号的语义很难克服以上问题，充分利用多模态信号的有效语义，设计针对多模态数据的高效语义编解码器是很有必要的。此外，为了满足用户的极致沉浸式体验，非常有必要开发一种系统级通信架构，以实现文本、图像、音频、视频等多模态数据的精确处理和高效传输。在这种环境下，多模态语义通信应运而生。它可以利用多模态信号的时间、空间和语义联系保证高质量的多模态服务，成为打破模态壁垒的强有力范式，同时，多模

38、态数据融合技术的快速发展将为此范式的成功建立提供强有力的支持。2.1 多模态数据融合技术多模态数据是指对于同一个现象，通过不同领域或视角获取到的数据，一般包括文本、图像、音频、视频等。获取这些数据的每一个领域或视角被叫作一个模态43-44。由于自然现象的丰富特性，很少有单一的模态提供对感兴趣现象的完整知识。由不同领域或视角获取的关于同一个现象的多模态数据的可用性，为提升任务性能引入了新的自由度45。多模态数据融合是指以相关特征或中间决策的形式对不同模态数据的信息进行组合。不失一般性，图5为双模态融合网络的通用结构。多模态数据集由输入输出数据对(,;)x y z组成，其中，x和y分别表示2种模

39、态，z表示监督标签；函数()f x和()g y分别以x和y为输入，输出xz和yz，作为真实标签z的估计值；函数f和g分别由M层和N层组成，子函数表示为lf和lg，第l层的输出分别为1()()llxffx和1()()llyggy。在标准神经网络中，子函数为卷积、池化、乘矩阵和非线性等，这些子函数的输出就是进行跨模态融合的特征。那么，跨模态融合需要解决的问题就是融合哪些特征以及怎样融合这些特征46。建立好的融合结构需要找到多个单模态数据融合的合适位置47。按照融合位置的深浅可以将融合方法分为早期融合和后期融合，分别融合低层特征和预测层特征。后期融合在很多情况下的表现优于早期融合48。后期融合被定义

40、为多个单模态分支第 5 期秦志金等：多模态语义通信研究综述 35 最终得分的组合。这种组合可以是加权得分平均49、双线性乘积50或者更加鲁棒的秩最小化51。图 5 双模态融合网络的通用结构多模态融合的另一种架构基于注意力机制52-54。注意力机制采用一个额外的神经网络严格地选择某些特征或为原始神经网络中的不同特征分配不同的权重。视觉注意力机制包括多模态双线性池55、堆叠注意力网络56和自底向上/自顶向下注意力机制57。不同于视觉注意力机制，应用于视觉问答（VQA,visual question answering）任务的共同注意力机制同时建模视觉注意力和问题注意力，利用图像和问题的对称性来

41、实现图像表征引导问题注意力和问题表征引导图像注意力58。不同于使用浅层模型，由深度级联的模块化共同注意力层组成的深度模块化共同注意力机制在VQA任务中表现更佳59。双重注意力网络联合利用视觉和文本注意力机制捕获视觉和语言之间的相互作用，允许视觉和文本注意力在协作推理的过程中相互引导，通过关注图像和句子的共享语义来估计它们之间的相似性，从而有利于VQA任务的执行60。2.2 多模态语义通信研究现状 Xie等61以VQA为例研究了面向任务的多模态数据传输的语义通信系统。在一个VQA任务中，一些用户发送图像，另一些用户发送文本来查询图像信息，在接收端获得回答。Xie等61考虑了带有一个图像发送机、一

42、个文本发送机和一个接收机的简单通信场景。类似于上述针对图像和文本的语义通信研究工作，Xie等所提图像发送机采用ResNet-101网络和预训练的ImageNet62，而所提文本发送机采用双向长短期记忆（Bi-LSTM,bi-directional long short term memory）网络。尽管如此，解码器的设计依然没有得到很好的研究。因为来自2个用户的语义信息是相关的，解码器需要融合文本和图像的语义信息同时回答视觉问题。为了解决这个问题，Xie等61采用记忆力、注意力和合成（MAC,memory,attention,and composition）神经网络63

43、来处理相关数据。具体地，每个MAC区由控制单元、读取单元和写单元组成。首先，控制单元基于接收到的文本语义信息通过注意力模块生成查询；然后，读取单元接收查询并通过另一个注意力模块从图像语义信息中搜索相应的答案；最后，写单元融合信息并输出问题的预测答案。此外，Xie等64基于Transformer统一图像发送器和文本发送器的语义编码结构。同时，Xie等64提出一个新的语义解码网络，由查询模块和信息融合模块构成。查询模块采用逐层Transformer，由Transformer编码层和Transformer解码层构成。不同于经典Transformer，逐层Transformer首先把每个编码层的输出表

44、征作为每个解码层的输入；然后，解码层利用文本信息中更多的关键词和图像信息中的相应区域；最后，融合模块融合这2个信息来获取回答。尽管如此，上述工作依然要求为每个任务训练模型，这限制了它们的应用。因此，Zhang等65设计了一个深度学习支持的统一语义通信系统来服务各类传输任务。为了能用一个模型框架联合服务多个任务，Zhang等65采用领域自适应来降低传输开销。此外，由于每个任务有不同的难度，要求不同数量的层，Zhang等65提出了一种多出口结构，为相对简单的任务提供早出结果。Li等3提出了一种跨模态语义通信范式，通过对音频、视频和触觉信号的跨模态融合和处理来提升语义通信系统的可靠性，包括3个模块：

45、跨模态知识图，负责提供基本背景知识和信号块来实现编码和解码；跨模态语义编码器，负责推断潜在的隐式语义以减少编码多义性；跨模态语义解码器，负责保证信源信号和恢复信号在比特级别和语义级别上的一致性，减少解码模糊性。Luo等66通过考虑无线信道传输的性质，提出了一种全新的基于多用户语义通信系统的多模态数据融合方案，即信道级信息融合。在所提方案中，Luo等66将无线信道作为融合多模态数据的媒介且把接收信号看作融合信息，因此，在接收端不需要执行多用户信号检测就能恢复出语义信息。此外，Luo等66设计了语义预编码方案来降低无线信道在融合中的随机效应。在仿真中，Luo等66利用包含RGB图像和红外图像2种模

46、态的语义分割例子36 通信学报第 44 卷来证明所提信道级信息融合的可行性和有效性。多模态语义通信的研究依然处于初级阶段，但是，语义通信在支持各类应用的多模态数据传输、利用多模态数据融合技术充分挖掘多模态数据之间的相关性来降低传输的数据量以及提升语义通信系统的可靠性方面具有巨大的潜力，为充分利用多模态语义通信技术给用户提供具有极致沉浸式体验的多模态服务提供了可行的思路。2.3 安全语义通信研究随着通信网络的持续发展，安全已经成为一个重要的课题。作为6G网络的新核心范式，语义通信系统在设计时也需要考虑安全性问题，以满足6G通信网络的强安全要求。无论是单模态还是多模态语义通信，安全问题

47、都不容忽视。联邦学习、对抗学习、添加人工噪声和语义加密等技术有助于构建有效的安全机制来保证语义通信的安全。相比于传统的通信方法，语义通信能够提升传输中的隐私性和安全性，因为通信参与方仅交换根据通信任务提取的语义信息而不是完整的信源数据，这在很大程度上加强了网络的安全1。然而，旨在提升语义提取模型泛化能力的通用知识库的构建引发了隐私问题。因此，Yang等67提出了联邦学习支持的语义提取模型训练方案，以隐私保护的方式提升了模型性能。具体地，Yang等67首先根据终端设备的接入点和传输要求将它们聚集到不同的组；然后，被分组的终端设备在边缘服务器的调度下，基于各自组的共享背景知识参与特定语义提取任务的

48、预训练或微调。由于不同的组用不共享的知识背景为一个共同的通信目标进行模型参数交换和联邦聚合，因此，在保证模型参数质量的同时保护了隐私。由于深度神经网络复杂的决策过程易受对抗输入的影响，对抗扰动通过欺骗深度神经网络做出错误任务决策，引发深度神经网络支持的语义通信的安全威胁68。数据隐私和语义隐私同等重要，因此，Zheng等69首先介绍了衡量数据隐私泄露和语义隐私泄露的2个新指标，具体地，数据隐私泄露用互信息(;)I X Z来衡量，其中，X为真实定位，Z为失真定位，语义隐私泄露用真实定位和失真定位的感兴趣点分布概率的互信息(),()I P XP Z来衡量；然后，提出了语义感知信息论隐私方案来保护数

49、据隐私和语义隐私，同时保留语义感知的数据效用。随着网络环境的日益复杂，负责复杂模型训练的服务器不总是可信的，这意味着它们对隐私信息是诚实但好奇的。边缘智能协作中，原始数据不会离开边缘设备，只有中间特征被传输和进行进一步的处理。一般而言，通过模型反演和属性推断型攻击能够从这些中间特征中重建出一些隐私数据。所以，如果接收端的解码服务器是诚实但好奇的，就可以由接收到的中间特征通过模型反演和属性推断无差错地重构出原始数据，造成隐私数据泄露。3种可能的隐私保护方法被用来保护隐私免受不可信服务器的侵害70，第一种方法是设计能够增加关于隐私信息不确定性（熵）的损失函数，同时减少（或折中）主要任务的错误；第二

50、种方法是制造可以添加到中间特征的噪声来提升隐私71；第三种方法是利用对抗学习策略72来保护隐私，判别器尝试从中间特征中推测隐私信息，而生成器尝试创建保护它的特征。此外，加密方法也被用来保护语义通信的安全，Tung等73针对无线图像传输，首次提出了可以防止窃听者的深度联合信源信道编码方案，被称为深度联合信源信道加密编码。Tung等所提方案不仅保留了深度联合信源信道编码的有利特性，还提供了针对来自窃听者的选择明文攻击的安全性。具体地，通过在发送端编码模块后进行加密以及接收端解码模块前进行解密的方式来保护语义通信安全。Luo等74提出了用于隐私保护的加密语义通信系统，同时考虑了模型的通用性和保密性。

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多模态语义通信研究综述秦志金

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。