多模态语义通信研究综述_秦志金.pdf
《多模态语义通信研究综述_秦志金.pdf》由会员分享,可在线阅读,更多相关《多模态语义通信研究综述_秦志金.pdf(14页珍藏版)》请在咨信网上搜索。
1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期 通 信 学 报 Vol.44 No.5多模态语义通信研究综述 秦志金1,赵菼菼2,李凡2,陶晓明1(1.清华大学电子工程系,北京 100084;2.西安交通大学信息与通信工程学院,陕西 西安 710049)摘 要:随着人工智能与通信的交叉融合,文本、图像、音频、视频等多模态数据处理技术蓬勃发展,模态语义的共享维度被深度挖掘,多模态语义信息的高度抽象、智能简约等特性被充分利用,为语义通信带来了全新的思路和手段。首先,介绍了语义通信的基础理论和分类,分别针对文本、图像、音频、视频综述
2、了单模态语义通信的研究现状;然后,综述了多模态语义通信的研究现状,介绍了多模态数据融合技术和安全语义通信的研究;最后,总结了多模态语义通信面临的挑战。关键词:语义通信;多模态数据融合;多模态语义通信 中图分类号:TN919.8 文献标志码:A DOI:10.11959/j.issn.1000436x.2023105 Survey of research on multimodal semantic communication QIN Zhijin1,ZHAO Tantan2,LI Fan2,TAO Xiaoming1 1.Department of Electronic Engineering
3、,Tsinghua University,Beijing 100084,China 2.School of Information and Communication Engineering,Xian Jiaotong University,Xian 710049,China Abstract:With the cross-integration of artificial intelligence and communications,technologies for processing multi-modal data such as text,image,audio,and video
4、 are booming,the shared dimension of modal semantics is deeply exca-vated,and the characteristics of multimodal semantic information such as high abstraction,intelligence and simplicity are being fully utilized,which brings new ideas and means to semantic communications.First,the fundamental theorie
5、s and classifications of semantic communication were introduced,and the research status of single-modal semantic communi-cation was reviewed for text,image,audio,and video respectively.Then,the research status of multimodal semantic communication was reviewed,and multimodal data fusion technology an
6、d secure semantic communication were intro-duced.Finally,the challenges faced by multimodal semantic communication were summarized.Keywords:semantic communication,multimodal data fusion,multimodal semantic communication 0 引言 过去几十年,通信领域的研究主要集中在如何准确有效地将符号从发送端传输到接收端,也称为语法通信。随着无线通信系统的发展,系统容量逐渐接近香农极限。然而,
7、在万物智能互联的时代,通信的最终目的是交换语义信息而不是准确传输符号。目前,语义通信已经引起了工业界和学术界的广泛关注,有望成为“达意”通信的一种新范式1。区别于语法通信,语义通信的主要目的是实现收发端语义信息的准确交互,利用先进的人工智能(AI,artificial intelligence)技术提取出原始数据中与接收端特定的智能任务最相关的信息进行传输,可有效压缩数据冗余,提升信息传输的有效性,减轻网络传输的压力,降低智能任务的处理时延2。随着 6G 技术与 AI 技术的飞速发展和深度融收稿日期:20230111;修回日期:20230506 基金项目:国家自然科学基金资助项目(No.619
8、25105);清华大学中国移动联合研究院基金资助项目 Foundation Items:The National Natural Science Foundation of China(No.61925105),Tsinghua University-China Mobile Com-munications Group Co.,Ltd.Joint Institute 第 5 期 秦志金等:多模态语义通信研究综述 29 合,包括文本、图像、音频、视频等在内的多模态服务必然成为各类场景(如电子医疗、数字孪生、人体感应护理系统、零售店自动结账等)的主流。为了给用户提供比较好的体验,开发面向多模态信号
9、的高效传输和精确处理的系统级通信架构是很有必要的,语义通信有望支持多模态通信架构的实现。高质量的多模态服务可以利用多模态信号的时间、空间和语义关系来保证,在这些跨模态关系中,语义包含反映多模态信号含义的丰富信息,将成为打破模态壁垒的有力媒介,因此,多模态语义通信受到研究者的广泛关注3。本文旨在综述已有单模态语义通信、多模态语义通信的相关工作,介绍多模态数据融合技术,总结现有多模态语义通信面临的挑战,整体框架如图 1 所示。本文的主要贡献如下。1)分别针对文本、图像、音频、视频综述单模态语义通信的研究现状。2)综述多模态语义通信的研究现状,介绍多模态数据融合技术和安全语义通信研究。3)总结多模态
10、语义通信面临的主要挑战,旨在为多模态语义通信后续研究提供可供参考的思路和方向。本文所述语义通信发展路线如图 2 所示。接下来,对图 2 中每个部分展开详细介绍。1 语义通信基础理论和分类 1.1 语义通信基础理论 语义的概念起初是在符号学的研究中出现的4。Morris5把符号学定义为语法、语义和语用的三重组合。语法关注符号(视觉和语言)的形式特征之间的相互关系,而不考虑含义。语义专门研究不同层次的符号含义。语用关注符号系统中符号效用与用户之间的关系。类似于符号的三重定义,Shannon 等6确定以下 3 个层面的通信来进一步刻画通信的语法、语义和语用特征7。1)语法层面:通信符号如何被精确地传
11、输?2)语义层面:传输的符号如何准确地传达预期的语义?3)有效性层面:接收到的语义如何有效地以预期的方式影响行为?Carnap 等8重新审视了香农研究工作中绕过的语义问题,并对语义信息进行了初步定义。Bao 等9首次提出了语义通信的理论以实现语义级别的通信,并定义了语义噪声、语义信道、语义熵和语义信道容量。设信源消息集合为 X,语义信息集合为W,背景知识为 K,推测为 I,信宿消息集合为 Y。用香农熵 H(W)来量化信源的语义信息量,即语义熵。语义熵 H(W)和信源熵 H(X)之间的关系为 ()()()()H WH XH W XH X W(1)其中,()H W X衡量编码的语义模糊度,()H
12、X W衡量编码的语义冗余。与经典信息论最大的不同在于,语义信息的衡量基于背景知识和推测决定的逻辑概率,而不是统计概率。离散无记忆信道的语义信道容量取决于 3 个要素。第一个是 X 和Y 之间的互信息(;)I X Y,也是经典信息论的信道容量;第二个是用sK和sI进行语义编码时引入的语义模糊度,即,()ssKIHW X;第三个是接收消息的平均逻辑信息,即,()ddKIHY,由dK和dI决定。如果()ssKI和()ddKI不匹配,将会产生过多的语义噪声。假设sdKK且sdII,则语义信道容量为 ()sup(;)()()P W XCI X YH W XH Y(2)从式(2)可知,设计合理的语义编解码
13、方案()P W X对于高效语义通信系统的实现至关重要。语义级别的率失真理论可以为此提供很好的理论指导。图 1 本文整体框架 30 通 信 学 报 第 44 卷 具体地,广义的率失真理论为 min(;)(;)I X ZD X Z(3)其中,(;)I X Z表示语义特征Z保留的关于信源X的信息量,衡量语义编码对语义信息的压缩量;(;)D X Z表示语义特征Z和信源X的差异,衡量语义编码带来的语义失真量;表示权重因子10。面向任务的信息瓶颈理论可以形式化率失真理论的折中关系11,具体表示为 min(;)(;)I X ZI Z Y(4)其中,Y为任务标签。特别地,用语义信息的负值(;)I Z Y度量语
14、义失真,失真(;)I Z Y尽可能小意味着语义信息(;)I Z Y尽可能大,表示语义特征Z中尽可能多地保留任务相关的语义信息10-11。以上关于语义通信的基础理论可以为高效语义通信的设计和实现提供很好的指导,能够根据应用场景和任务需求进行灵活变换,为满足6G通信高谱效和高可靠的要求提供新的技术思路12。1.2 语义通信分类 由于强大的AI技术,现代语义通信的研究已图 2 语义通信发展路线 第 5 期 秦志金等:多模态语义通信研究综述 31 经出现在多种应用中。经典通信系统仅关注由Shannon等6确定的语法层,语义通信则把余下的2个更高层融入通信系统的设计中。如图3和图4所示,语义通信主要分为
15、两类:面向语义的通信(关注语义层面)和面向目标的通信(关注有效性层面)13。图 3 面向语义的通信 图 4 面向目标的通信 1.2.1 面向语义的通信 不同于忽略传输内容的经典通信系统,面向语义的通信设计中重要的是信源数据语义内容的准确率,而不是与源数据的统计概率相关的平均信息。因此,语义通信系统的主要改变在于发送前和接收后的数据处理阶段。传统的信源编码是寻求一种将信源数据转换为短码的方法,同时,因为发送的消息对潜在的含义视而不见,一个好的信源编码方法意味着它可以处理信源数据更多的可能性。然而,在语义通信中,需要重新定义“信息”,并在编码前引入语义表征模块,负责捕获嵌入在信源数据中的核心信息,
16、过滤不必要的冗余信息,特别地,面向目标的通信中的语义滤波模块负责进一步过滤与下游智能任务无关的信息。很多研究工作把语义表征和语义编码功能集成在一个模块里,称为语义编码,联合发挥与传统通信中信源编码类似的作用。类似地,语义推理和语义解码的联合作用等价于信源解码的作用。在一般的语义通信场景中,解码是编码的逆过程,可通过AI驱动的解码算法实现,如具有强大先验知识的Transformer和自编码器(Autoencoder)。语义推理模块基于解码得到的语义信息推理出目标语义或者直接根据语义信息采取行动,完成特定的智能任务。由于语义通信的目标是使接收机成功获取语义信息,因此,可以将联合语义编码和解码过程统
17、一看作“语义提取”。此外,正如人类对话一样,有效的对话要求双方具有关于语言和文化的共同知识。语义通信中,为了确保所有的信源数据能被很好地理解和推理,通信参与方需要及时共享局部知识。如果局部知识不一致,就会产生语义噪声,即使在物理传输没有语法错误的情况下也会导致语义模糊。1.2.2 面向目标的通信 在面向语义的通信的基础上,面向目标的通信旨在使所涉及的通信参与方能够共同完成一个通信目标或任务。回顾通信的3个层面:语法层面、语义层面、有效性层面。在面向语义的通信中,语义提取关注语义信息,而在面向目标的通信中,捕获语用信息是很有必要的。Zhong4说明了3种信息的相互关系,语用信息可以看作所有能用语
18、法信息传达的语义信息的一部分,且与通信的特定目标相关。对于通信目标频繁改变的各类场景,每次传输时构建局部知识以进一步过滤不相关的语义信息尤其重要,所以,在面向目标的通信中,目标或任务在语义提取中发挥着很重要的作用。面向目标的通信关注有效性层面,在给定有限网络资源的情况下,旨在以预期的方式完成任务,而面向语义的通信关注语义层面的语义信息准确率。此外,类似于面向语义的通信,面向目标的通信中所有通信参与方的局部知识和通信目标需要保持一致,否则,产生的语义噪声会导致任务失败。1.3 单模态语义通信的研究现状 信源数据主要有文本、音频、图像和视频等各种模态。大多数现有的语义通信研究都围绕上述几种模态展开
19、。其中,可以通过说话或打字来感知的文本是引起最多关注的信源数据类型。在关于文本语义通信的研究中,研究者通常采用语义符号来表征语义,一个语义符号表示单词、短语和句子等数据的子集。如单词“bike”和“bicycle”以及短语“a two-wheeled tool for mobility and transportation”可以映射到同一个语义符号,这也是语义通信可以显著减少带宽的主要原因14。然而,这也不可避免地导致一些信息的损失。由此可见,语义编码的压缩比应该由特定应用场景决定。上述思想可以应用到音频数据传输的语义通信中。近些年,随着声控智能家居应用的兴起,音频通32 通 信 学 报 第
20、44 卷 信不再局限于人与人的对话15,语音识别成为一种流行的应用。相比于文本数据,音频数据包含更多的特性,如语速和语气。在一些关于语音识别的语义通信研究中,为了避免其他语音特征的影响,语音信号在进行语义提取之前被转换为文本数据16。此外,通信任务对于视觉数据更加多变,如图像分类、目标识别和视频会议。不同于广义的传统图像和视频压缩及编码,特征提取需要针对通信任务和源数据的特性进行量身定制。以视频会议为例,由于视频会议的背景帧几乎是静止的,Jiang等17把基于关键点的视频恢复技术融入语义通信中,仅关键点(如关于面部表情和行为改变的信息)被实时地编码和传输给接收端,关于背景图片和发言者面部特征的
21、其他信息只是在会议开始时被分享给接收者。这种方式可在保持高水平分辨率的同时实现高压缩比。由于语义通信允许在有限的带宽内传输更多的相关数据,因此,语义通信相比于传统通信可获得更好的性能。1.3.1 文本语义通信 受到深度学习在自然语言处理(如机器翻译)的启发,Farsad等18率先设计了一个文字传输系统模型,发送者使用有限的比特数通过擦除信道向接收者发送句子。在该模型中,Farsad等18首先使用Glove19把单词表征为嵌入向量,其中,Glove是可用于提取语义信息的预训练查找表;然后,受到机器翻译中序列到序列学习框架的启发20-21,Farsad等18应用基于长短期记忆(LSTM,long
22、short-term memory)的编码器和解码器,把先前估计单词的嵌入向量作为下一步的输入并利用束搜索算法找到最可能的单词序列22。这种方式可以在句子恢复过程中嵌入语义信息。然而,诸如Glove或Word2Vec23的词表征模型仅能捕获单词之间的关系,不能描述句法信息24。因此,Farsad等18所提模型仅可以描述一个句子中某个单词在另一个单词后出现的概率,很难处理长句子,且未考虑通信环境对文字传输的影响。面对这个挑战,研究者提出了Transformer的新框架并引起了大量的关注,Transformer可以从整个句子中有效地提取语义信息和语法24。具体地,Transformer网络与允许并
23、行提取句子多个特性的多头注意力机制结合25。因此,与诸如LSTM这种基于循环神经网络(RNN,recurrent neural network)的结构相比,Transformer网络具有更低的计算复杂度,能够实现更多的并行计算,同时具备学习输入序列长期依赖关系的能力。因此,Xie等24提出了基于Transformer的联合语义信道编码方法,用于去除信道噪声及语义噪声对语义通信系统的影响,并将信道模型由擦除信道扩展到加性白高斯噪声(AWGN,additive white Gaussian noise)信道和衰落信道。在低信噪比(SNR,signal-to-noise ratio)范围内,基于Tr
24、ansformer的语义通信在BLEU(bilingual evaluation understudy)和句子相似性度量下具有更明显的优势。然而,Transformer的注意力结构是固定的。实际上,在一个句子处理系统中,由于多义或噪声干扰,某些单词或短语比其他单词或短语更可能引起语义模糊。考虑到这一点,Zhou等26进一步提出一种灵活的基于通用Transformer27的语义提取方法,这种方法通过在Transformer中引入一个自适应循环机制来打破原始的固定结构。相比于标准Transformer,通用Transformer与自适应计算时间模型28结合,可以根据每步预测的停止概率动态调整所需的
25、计算步骤数,处理RNN中的每个输入符号。这种动态的每位置停止机制允许基于通用Transformer的语义提取可以循环利用自己的机制,实现在不同的周期响应不同的语义信息和变化的物理信道。在仿真中,Zhou等26比较了传统的信源编码和信道编码级联方案、基于通用Transformer的 语 义 提 取 方 案 和 基 于 标 准Transformer的语义提取方案的BLEU性能。实验结果表明,相比于传统的信源编码和信道编码级联方案,上述2种基于Transformer的语义通信方案在不同信道条件下可以获得更高的BLEU分数。具体地,随着信噪比的变化,2种方案下BLEU的分数趋势是相同的,但是由于自适应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多模态 语义 通信 研究 综述 秦志金
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。