多智能体自组织语音识别.pdf
《多智能体自组织语音识别.pdf》由会员分享,可在线阅读,更多相关《多智能体自组织语音识别.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 21 卷 第 9 期2023 年 9 月Vol.21,No.9Sept.,2023太赫兹科学与电子信息学报Journal of Terahertz Science and Electronic Information Technology多智能体自组织语音识别陈俊淇,张晓雷(西北工业大学 航海学院,陕西 西安 710072)摘要:语音感知是无人系统的重要组成部分,已有的工作大多集中于单个智能体的语音感知,受噪声、混响等因素的影响,性能存在上限。因此研究多智能体语音感知,通过多智能体自组织、相互协作,提高感知性能非常必要。假设每个智能体输出一个通道的语音流条件下,本文提出一种多智能体自组织语
2、音系统,旨在综合利用所有通道提高感知性能;并进一步以语音识别为例,提出能处理大规模多智能体语音识别的通道选择方法。基于 Sparsemax 算子的端到端语音识别流注意机制,将带噪通道权重置零,使流注意力具备通道选择能力,但 Sparsemax 算子会将过多通道权重置零。本文提出 Scaling Sparsemax 算子,只将带噪较强的通道权重置零;同时提出了 多 层 流 注 意 力 结 构,有 效 降 低 了 计 算 复 杂 度。在 30 个 智 能 体 的 无 人 系 统 环 境 下,基 于conformer 架构的识别系统实验结果表明,在通道数失配的测试环境下,提出的 Scaling Sp
3、arsemax在仿真数据集上的文字差错率(WER)相比 Softmax 降低 30%以上,在半真实数据集上降低 20%以上。关键词:多智能体语音识别;通道选择;注意力;Scaling Sparsemax 算子中图分类号:TP391.4 文献标志码:Adoi:10.11805/TKYDA2021247Multi-agent ad-hoc speech recognitionMulti-agent ad-hoc speech recognitionCHEN Junqi,ZHANG Xiaolei(School of Marine Science and Technology,Northwester
4、n Polytechnical University,Xian Shaanxi 710072,China)AbstractAbstract:Speech perception is an important part of unmanned systems.Most of the existing work focuses on the speech perception of a single agent,which is affected by factors such as noise and reverberation,and the performance has an upper
5、limit.Therefore,it is necessary to study multi-agent speech perception,and improve perception performance through multi-agent self-organization and mutual cooperation.A multi-agent ad-hoc speech system is proposed under the assumption that each agent outputs a channel of speech stream.The multi-agen
6、t ad-hoc speech system aims to comprehensively utilize all channels to improve perception performance.Taking the speech recognition as an example,a channel selection method that can handle large-scale multi-agent speech recognition is proposed.Specifically,an end-to-end speech recognition stream att
7、ention mechanism based on Sparsemax operator is proposed to force the channel weights of noisy channels to zero,and make the stream attention bear the function of channel selection.Nevertheless,Sparsemax would punish the weights of many channels to zero harshly.Therefore,Scaling Sparsemax is propose
8、d,which punishes the channels mildly by setting the weights of strong noise channels to zero only.At the same time,a multilayer stream attention structure is proposed to effectively reduce computational complexity.Experimental results in an unmanned system environment with up to 30 agents under the
9、conformer speech recognition architecture show that the Word Error Rate(WER)of the proposed Scaling Sparsemax is lower than that of Softmax by over 30%on simulation data sets,and by over 20%on semi-real data sets,in test scenarios with mismatched channel numbers.KeywordsKeywords:multi-agent speech r
10、ecognition;channel selection;attention;Scaling Sparsemax文章编号:2095-4980(2023)09-1163-08收稿日期:2021-06-14;修回日期:2021-08-09太赫兹科学与电子信息学报第 21 卷近年来,智能家居等无人系统发展迅猛,语音感知是其中一个重要的组成部分。但大多数语音感知相关工作只针对单个智能体研究,每个智能体通常只有一个麦克风或一个麦克风阵列进行拾音1-3。在现实场景下,当说话人移动到与单个智能体距离较远的位置时4,接收到的语音质量会急剧下降,并且由于受到噪声、混响等因素的影响,其语音感知性能极其有限5。因此
11、,为了使说话人在一定区域内移动都能获得较好的语音感知性能,有必要引入多智能体系统。多智能体系统是分布式人工智能领域中的一个热点,是多个可以相互协作的简单智能体为完成某些全局或局部目标使用相关技术组成的分布式智能系统6。目前,多智能体系统在许多领域都得到了充分的应用,如云计算、智能交通、机器人集群、智能电网等7。近来,智能家居等对语音感知需求较大的应用受到越来越多的关注,而基于多智能体下的语音感知技术还没有深入的研究。本文提出一种多智能体自组织语音系统,考虑每个智能体包含一个麦克风,输出一个通道的语音流,多智能体自组织语音系统旨在使多个随机分布的智能体协同工作,综合利用所有通道的信息以提升语音感
12、知性能。进一步以语音识别为例,构建多智能体自组织语音识别系统,且考虑单个智能体包含单个通道。针对多智能体的协同控制,需要考虑两大问题:多智能体系统的一致性8;用于协同控制的多智能体技术。后者的核心在于通道选择,即利用通道权重分配和通道选择,自动将说话人附近的智能体组织为一个局部的多智能体系统9-10,从而获得更好的语音识别性能。已有的针对语音识别任务的通道选择和权重分配标准可以划分为两类:a)基于信号层面的标准11-14,如信噪比等;b)基于识别层面的标准11-12,15-16,如词错误率等。对于前者,基于信号层面的评价指标虽然与语音识别性能有较强的关联性,但优化语音质量指标并不能得到最优的语
13、音识别性能;后者基于优化语音识别性能设计通道选择和通道融合。较早的方法考虑选择语音识别解码后输出似然概率最大的通道11-12。深度学习出现后,更多方法考虑在语音识别模型中加入通道选择模型,R Li 等15提出了流注意力模型,利用注意力机制对所有通道进行权重分配和融合;同时提出了一种两阶段的训练方法16:第一步采用所有多通道数据训练单个语音识别系统;第二步将训练好的识别系统的参数分享到其他通道的识别系统上并将参数固定,再利用多通道数据微调流注意力模型。然而,上述方法都只考虑少量智能体的情况,并没有探究大规模多智能体语音识别情况下通道选择算法的泛化能力,且没有考虑丢弃某些被噪声影响过大的通道。为解
14、决上述问题,本文搭建了基于 conformer17的多智能体自组织语音识别系统,并提出了 2 种新的通道选择算法。本文核心方法是将流注意力中的 Softmax 算子替换为 2 种新的算子,分别为 Spasemax 和 Scaling Sparsemax,这 2 种算子可以将对识别系统性能提升没有贡献的带噪通道权值置零。针对多智能体的时滞一致性,借鉴 R Li等15的思想,搭建了基于 conformer 架构下的双层注意力模型,其中第一层注意力用于将各个智能体的输出语音流对齐,第二层则是用于通道选择的流注意力。针对多智能体的收敛一致性,本文对 R Li 等的训练方法16做出改进,首先用干净语音数
15、据训练单个智能体的语音识别系统,使所有智能体被成功训练且收敛到同一状态;再用多通道带噪数据训练基于 Sparsemax 和 Scaling Sparsemax 的流注意,使多智能体可以协同工作。在包含至多 30个智能体的自组织语音识别系统下的实验结果证明,本文提出的方法能有效用于仿真和半真实场景中。1基于 conformer 的自组织语音识别系统考虑单个智能体输出一个通道的语音流,分别设计了单通道和多通道系统,图 1 为提出的 conformer 结构下的单通道和多通道语音识别系统。为表示清晰,省去了残差连接和位置编码模块。在多智能体自组织语音识别系统训练中,第一阶段训练单通道识别系统,第二阶
16、段训练多通道识别系统。下文中一个通道指代单个智能体。1.1 基于 conformer 的单通道语音识别系统图 1(a)为干净语音下训练的单通道识别系统。给定一个语料的输入声学特征X RT Dx及其目标输出文本序列O RL Dv,其中T和Dx分别是输入X的长度和特征维度,L和Dv分别是输出的长度和字典大小。首先,输入X经过卷积下采样层,得到下采样后的输入X RT Dx;然后经过编码器Enc()和解码器Dec():H=Enc1:N1(X)(1)cl=Dec1:N2HEmb(y1:l-1)(2)式中:H RT Dh是由编码器提取得到的高维表征;下标N1和N2分别代表编码器和解码器的块数量;Emb()
17、代表线性变换和位置编码。给定当前解码时间步l之前的输出y1:l-1 Rl-1 Dv后,可以得到解码时间步l的语义向量1164第 9 期陈俊淇等:多智能体自组织语音识别cl RDh;最后,通过一个线性变换将cl映射为输出向量yl。基于 conformer 的自动语音识别(Automatic Speech Recognition,ASR)优化目标最大化如式(3)所示:L=l=1Llog(yTlol)(3)式中ol为输出文本序列O的第l个时间步的文本向量。多头注意力(Multi-Head Attention,MHA)机制在编码器和解码器中都具有重要的作用,同时也是 conformer 结构相较于双向
18、长短时记忆结构16的关键不同点。多头注意力机制表达为:MHA(QKV)=Concat(U1U2Un)WO(4)式中:Q RT1 Dh、KV RT2 Dh分别为质询矩阵、键矩阵和值矩阵;Concat()为矩阵拼接操作;n为头的数量;WO RDh Dh为可学习的变换矩阵。第i个头Ui的运算可表达为:Ui=Attention(QWqiKWkiVWvi)(5)Attention(QKV)=Softmax()QKTDkV(6)式中:Wqi、Wki、Wvi RDh Dk都是可学习的变换矩阵,Dk=Dh/n是每个头的特征向量维度,上标 qi、ki、vi分别代表该参数属于第 i 个头的质询矩阵、键矩阵和值矩阵
19、。1.2 基于 conformer 的多通道语音识别系统图 1(b)为多通道系统,图中的编码器、除最后一层的其他解码器以及输出层由单通道识别系统预训练得到,并在训练多通道系统时,这些模块的参数将会固定且被所有通道共享,图中虚线直角矩形框内为流注意力模块,在第二阶段使用多通道带噪数据训练。多通道系统的结构描述如下:给定一个语料所有通道的输入声学特征Xk RT Dxk=12C,其中下标k指定某个特定通道,C代表总输入通道数,可以分别得到每一个通道的高维表征Hk:Fig.1 Conformer-based ad-hoc ASR systems图1 基于conformer的自组织语音识别系统1165太
20、赫兹科学与电子信息学报第 21 卷Hk=Enc1:N1(Xk)k=12C(7)然后将在时间步l得到的每个通道的语义向量进行拼接:Cl=Concat(cl1cl2 clC)(8)式中:clk=DecN2(cN2-1lkHkHk)(9)cN2-1lk=Dec1:N2-1(HkEmb(y1:l-1)(10)式中:cN2-1lk为经过解码器第1到N2-1层后的输出;DecN2代表缺少前向输出层的第N2层解码器。同时,由之前时间步的输出向量提取导向矢量gl RDh:gl=MHAEmb(yTl-1)Emb(y1:l-1)Emb(y1:l-1)(11)导向矢量gl一方面作为解码器块的输入,另一方面将作为流注
21、意力的输入。2流注意力及其变体2.1 流注意力简述流注意力的计算定义为:Stream Attention(QKV)=Z+FeedForward(Z)(12)式中:Z=MHA(QKV);FeedForward()是前向输出模块。流注意力将每个通道的高维语义向量Cl和式(11)中定义的导向矢量gl作为输入,得到融合语义向量rl:rl=Stream Attention(gTlClCl)(13)最后,将融合语义向量rl通过输出层,获取当前时间步的输出向量yl。图 2(a)为基于 Softmax 的流注意力结构,该结构将 R Li 等16提出的循环神经网络架构更换为 conformer 架构。2.2 基
22、于 Sparsemax 的流注意力基 于 Softmax 的 流 注 意 力 在 多 智 能 体 自 组 织 语 音 识 别 任 务 下 存 在 一 定 的 局 限:对 于 任 意 的z和i,Softmaxi(z)0,导致这个方法不能进行通道选择。为解决这个问题,本文提出了基于 Sparsemax18的流注意力,Fig.2 Three kinds of stream attention architectures图2 三种流注意力结构1166第 9 期陈俊淇等:多智能体自组织语音识别其结构如图 2(b)所示,其中 Sparsemax 的定义如下:Sparsemax(z)=argmin pDK-
23、1p-z2(14)式中DK-1=p RK|i=1Kpi=1pi 0代表一个K-1维的单纯形,p 是定义在 K 维空间中的向量。Sparsemax 本质上是将输入向量z投影到设定的单纯形上,由于单纯形的特性,可以得到一个稀疏的输出向量。同时,这个输出向量有一个近似解:Sparsemaxi(z)=max(zi-(z)0)(15)式中:RK R代表一个搜寻软阈值的函数。2.3 基于 Scaling Sparsemax 的流注意力从上一节得知,Sparsemax 的输出与输入向量和单纯形的维度密切相关。由于麦克风位置的随机性,导致输入向量的值会在较大范围内波动。同时,单纯形的维度与输入通道数相关,也是
24、一个变量。因此,在某些情况下,Sparsemax 的泛化能力可能会下降。为此,本文提出了 Scaling Sparsemax,如图 2(c)所示。加入一个可训练的可缩放因子 s,重新标定 Sparsemax:s=1+ReLULinear()z CT(16)式中:z为输入向量的 L2 范数;Linear()为两层可学习线性变换,其维度分别为2 2和1 2。Scaling Sparsemax 算子的流程如下。当s=1时,Scaling Sparsemax 退化为 Sparsemax。Require:z,s Sort z as z(1)z(K)Initialize kK while k0 do if
25、 z(K)()i=1kz(i)-s/k then (z):=()i=1kz(i)-s/k Break end if kk-1 end while Ensure:p where pi=max(z(i)-(z),0)/s2.4 多层流注意力在多智能体的应用中,降低计算复杂度也是一个重要的研究方向。实验中发现 Scaling Sparsemax 学习的可缩放因子具备对不同通道和不同向量 L2 范数的泛化能力,图 3展示了它们的关系。从图中可以看出,缩放因子大小与通道数量成正比,缩放因子越小,最终保留的通道也越少。基于上述关系,本文设计了一个多层的流注意力结构。相对于单层流注意力通过 N 层解码器后再
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 组织 语音 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。