一种基于聚类的门控卷积网络语声分离方法.pdf
《一种基于聚类的门控卷积网络语声分离方法.pdf》由会员分享,可在线阅读,更多相关《一种基于聚类的门控卷积网络语声分离方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 42 卷 第 5 期Vol.42,No.52023 年 9 月Journal of Applied AcousticsSeptember,2023 研究报告 一种基于聚类的门控卷积网络语声分离方法罗 宇胡维平吴华楠(广西师范大学电子工程学院桂林541000)摘要:基于深度聚类的语声分离方法已被证明能有效地解决混合语声中说话人输出标签排列的问题,然而,现有关于聚类进行说话人分离方法,大多数是优化嵌入使每个源的重建误差最小化。该文以时域卷积网络为基础网络设计了一种改进基于聚类的门控卷积语声分离方法,在时域上通过堆叠的门控卷积网络,实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网
2、络中,提取语声信号的深层次特征;同时在高维特征空间中聚类对语声信号的特征进行表示和划分,为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语声信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出,该方法在信号失真比和尺度不变信号噪声比指标上分别达到了16.72 dB和16.33 dB的效果。关键词:深度聚类;门控卷积;语声分离中图法分类号:TN912.3文献标识码:A文章编号:1000-310X(2023)05-1099-07DOI:10.11684/j.issn.1000-310X.2023.05.024Clustering-based speech
3、 separation method for gated convolutional networksLUO YuHU WeipingWU Huanan(Electronic Engineering,Guangxi Normal University,Guilin 541000,China)Abstract:Deep clustering-based speech separation methods have been shown to be effective in solving theproblem of speaker output label alignment in mixed
4、speech,however,most of the existing methods on clusteringfor speaker separation optimize the embedding to minimize the reconstruction error of each source.In thispaper,we design an improved gate-convolutional cluster speech separation method based on the time-domainconvolutional network as the base
5、network.The framework uses nonlinear gated activation in time-domainconvolutional networks to extract deep features of speech signals;and clustering in a high-dimensional featurespace to represent and segment the features of speech signals,providing a long-term speaker representationinformation for
6、recovering different sources.The framework solves the speaker output label alignment problemand models the long-term dependency of speech signals.Experiments with the Wall Street Journal dataset yieldthat the method achieves 16.72 dB and 16.33 dB in the signal distortion ratio and scale invariant si
7、gnal-to-noiseratio metrics,respectively.Keywords:Deep clustering;Gated convolution;Speech separation2022-08-16收稿;2022-09-20定稿国家自然科学基金项目(NSFC 61861005)作者简介:罗宇(1999),男,江西吉安人,硕士研究生,研究方向:语声信号处理。通信作者 E-mail:11002023 年 9 月0 引言语声分离任务源于鸡尾酒会问题1。传统学习方法存在计算复杂度高和区分性训练困难的问题。与上述相比,深度学习为语声分离任务提供了快速准确的方法,其高效的建模能力将掩
8、码推断视为一个分类问题。在以往的频域语声分离中,需要考虑分离语声的说话人排列问题2。因为频域中将语声分帧,再进行语声分离,可能会将一个说话人的语声帧分离到另一个说话人上,造成网络分离的语声信息混乱。深度聚类是最早基于深度学习的语声分离体系结构,使用经过区别训练的嵌入,在高维嵌入的特征空间中进行聚类来解决语声分离输出排列问题。说话人聚类的语声分离可以看作是一种矩阵分解任务,输入的混合语声作为输入矩阵,是若干个输出矩阵之和,基于此理论来利用掩码方法。深度聚类训练目标是理想二值掩码(Ideal binarymask,IBM),每个时频单元对应一个源信号,由此可将掩码估计等同于时频单元聚类分类的问题。
9、陆续有很多研究人员采取聚类方法来进行说话人分离。Hershey等3提出了深度聚类(Deep cluster-ing,DPCL),训练了一个深层网络,将对比嵌入向量分配给频谱图的每个时频区域,输出标签的匹配转换为亲和力矩阵的匹配,最小化同一人的时频单元嵌入向量之间的距离,最大化不同人之间的距离,其高度依赖于嵌入形成的低秩成对亲和力矩阵。Chen等4提出了深度吸引子网络(Deepattractor network,DANet),通过在混合信号的高维嵌入空间中创建吸引子点,吸引子是由嵌入向量动态计算得到,将每个声源对应的时频单元聚集在一起,通过学习聚类中心来对不同的说话人生成不同的掩码,这样就可以得
10、到一种可学习的聚类中心,与DPCL 相比更加灵活,得到的结果也更加理想。Luo等5提出了独立说话人的吸引子网络(Speaker-independent speech separation with deepattractor network,ADANet),利用嵌入空间的一组辅助点(锚定点),使用嵌入和每个吸引子之间的相似性来估计混合物中每个源的掩码。ADANet解决了DANet中两种创建吸引子方法的问题,但是网络引入一个期望最大化(Expectation maximization,EM)迭代过程,需要对于每一种取法计算锚框和吸引子,因此计算开销增大。Wang等6提出了嵌合体网络(Chimer
11、a),该结构将深度聚类与掩码推理网络结合在多目标训练方案中,提出了多个备选损失函数来训练深度聚类网络,在训练掩码推理网络以实现最佳分离时,深度聚类损失可作为正则化项,防止训练过拟合。然而以上基于频域的聚类方法存在如下缺点:第一,定义的目标损失函数是在嵌入式向量上,而不是真正的目标语声的幅值谱,从而无法进行端到端训练;由于损失函数中嵌入式向量和目标语声存在一定的误差,会影响分离性能。第二,没有考虑对实际混合语声信号建模,忽略了语声信号潜在特征参考,而在后续Luo等7提出的时域声频分离网络(Time-domain audio separation network,TasNet)直接对时域语声波形建
12、模,避免重建源相位问题的同时,将特征提取与分离一起隐含在网络体系结构中。时域卷积网络(ConvTasNet)是一种全卷积声频分离网络,在序列建模和声频处理任务中展现了优越的性能8。本文利用ConvTasNet的时域卷积网络(Temporal convolutional networks,TCN)结构,设计了基于聚类的门控卷积网络(Gate-convcluster)框架,编解码器分别是一维卷积和一维转置卷积,在分离网络中,用堆叠的门控卷积(Gate-conv)来提取语声信号的深层次特征;同时在特征空间中搭建聚类模块,对长时语声特征进行映射分离。聚类定义的损失函数是负尺度不变信源噪声比(-SISN
13、R),对目标语声信号进行端到端训练。该框架很好地解决了传统聚类方法无法做到端到端训练和时域卷积网络语声建模中短时依赖的问题。1模型设计及方法介绍语声分离是指从给定的混合语声信号中提取所有重叠的信号源9。对于给定的线性混合单通道信号yt,单通道语声分离提取所有C 个说话人的源信号为Xct,c为说话人索引。yt=Cc=1Xct,c=1,C.(1)第42卷 第5期罗宇等:一种基于聚类的门控卷积网络语声分离方法11011.1Gate-conv clusterGate-convcluster 是 在 convtasnet 的 tcn 结构78,10上提出的编码器-解码器框架,编码器是一维卷积,并行编码计
14、算混合语声的时域特征;然后将其送入一维非线性Gate-conv堆叠的嵌入网络中,在高维度的特征空间中进行聚类,估计出目标语声的掩蔽值;后利用编码后的混合语声与估计出来的掩蔽值做点乘,最后通过一维转置卷积重构得到纯净的语声信号。图1显示了搭建的Gate-convcluster框架以及gate-conv结构。1-D Conv?1-D TransConv?Linear11-ConvLayer-NormEmbeddingMask?Gate-conv?Embedding?11 ConvSigmoid?PReLUNorm?NormPReLUskip-connection?Sigmoid(a)Gate-co
15、nv cluster?(b)Gate-conv?Gate-convGate-convGate-convGate-convGate-convGate-convGate-convGate-convGate-convd/nd/d/11 ConvDeepwiseConv DeepwiseConv PReLUNorm11 Conv11 ConvClusteringClustering图1Gate-conv cluster框架及gate-conv结构Fig.1 Block diagram of Gate-conv cluster and Gate-conv structure1.2编码器ytEncoder
16、 Yconv=ReLU(Conv1D(yt),(2)其中,Yconv是混合信号yt的时域特征表示,ReLU()是用于确保非负输出的元素整流线性单元;Conv1D()是由可学习权重参数的1 1卷积核。1.3Gate-conv分离网络由门控卷积网络和嵌入空间中的聚类组成。受Chimera聚类集群框架6启发,语声经过深度神经网络,结合门控支路提取的非线性信息对于在聚类空间中时频单元生成掩码具有更好的性能。Gate-conv在ConvTasNet中一维卷积块1-D-conv中增加了非线性门控卷积支路8,11,每个一维卷积模块增加两个Sigmoid门,一个对应于一维卷积模块中的第一个1 1 卷积层即1
17、1_conv,另一个对应于从深度可分离卷积depthwise_conv到输出1*1_conv的所有层,depthwise_conv中的卷积层是大小为 K 的卷积核。Gate-conv结构块中,门控卷积块的不同颜色表示不同的膨胀因子,特征映射首先通过一个通道数为256的1 1_conv块,然后是8个剩余的通道数为512的Gate-conv块,膨胀率为1,2,128,重复4次;其中Gate-conv中卷积核大小为3,步长stride为1。其中在每两个卷积操作之间添加激活函数和归一化,经过depthwise_conv后的1 1_conv的Output作为下一个门控卷积块的输入;剩下的1 1_conv
18、块的跳跃连接总和作为Gate-conv结构块的输出8。1.4嵌入空间中的聚类在门控卷积网络后端搭建了聚类框架,经过门控卷积网络的混合声音的特征单元,被投射到一个高维空间12。特征单元在和不同源分配生成的吸引子距离计算上,任意两点的距离都可能极为相近,导致难以将其区分出来;同时高维数据集的簇可能存在于不同的维度集合里。所以确定一定维数的特征空间很有必要,特征空间使用嵌入尺寸参数embed_size为的深度神经网络实现。为了将每个嵌入的特征单元分配给混合特征矩阵中的不同说11022023 年 9 月话人,沿着时间追踪嵌入空间中说话人的质心,其中来自不同声源的质心被称为吸引子点At(i,),i是说话
19、人的源分配,是特征空间维度,是时间步长,该吸引子点用于确定当前说话人的特征向量分配。吸引子的位置在每个时间步都会更新。首先,吸引子的先前位置用于确定当前特征单元的说话人分配。然后通过聚类操作,基于先前吸引子的加权平均值和说话人分配定义的当前特征向量中心更新吸引子13。其中分离模型U(),在特征空间中,属于同一源的所有嵌入的特征单元表示会互相吸引14。嵌入特征空间中的特征单元和每个吸引子之间的距离(通常表示为点积)决定了该特征单元的源分配,然后使用该分配为每个说话人定义一个掩码,该掩码乘以经过一维卷积编码器后的混合源语声的时域特征表示来恢复该源。图2显示了嵌入空间中聚类来恢复源信号的操作。?Ga
20、te-convGate-convLinearLinearEmbeedingSpeakerassignmentMaskAttractorsMask?spk1spk2?EmbeedingSpeakerassignmentAttractorsLinear?Speakerassignment?Attractors?图2嵌入空间中聚类分离源信号示意图Fig.2 Schematic diagram of clustering separated source signals in the embedding space其中,U()是由分离网络参数定义的掩码估计模型。Mc=U(Xc(t,k);At(i,);
21、).(3)在基于掩蔽Mask的解决方案中1516,根据式(4)推导出恢复源信号Xc的特征向量Xc(t,k)由估计掩码Mc与混合信号经过编码器后的Yconv点乘得到。Xc(t,k)=Mc(t,k)Yconv,(4)其中,t和k分别是时间步长和特征向量索引,而Yconv通过混合信号yt经过一维卷积编码的潜在特征表示;Mc(t,k)是为说话人c通过聚类生成的掩码;是元素乘法运算。1.5解码器为了在时域中重建信号,估计源信号的特征向量Xc(t,k)送入一维转置卷积Conv1D()中。XctDecoder ReLU(TransConv1D(Xc(t,k).(5)2训练目标本文以尺度不变信噪比为训练目标8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 门控 卷积 网络 语声 分离 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。