分销赏收藏举报申诉 / 7

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 一种基于聚类的门控卷积网络语声分离方法.pdf

一种基于聚类的门控卷积网络语声分离方法.pdf

上传人：自信****多点

文档编号：753270

上传时间：2024-03-04

格式：PDF

页数：7

大小：448.72KB

《一种基于聚类的门控卷积网络语声分离方法.pdf》由会员分享，可在线阅读，更多相关《一种基于聚类的门控卷积网络语声分离方法.pdf（7页珍藏版）》请在咨信网上搜索。

1、第 42 卷第 5 期Vol.42,No.52023 年 9 月Journal of Applied AcousticsSeptember,2023 研究报告一种基于聚类的门控卷积网络语声分离方法罗宇胡维平吴华楠(广西师范大学电子工程学院桂林541000)摘要：基于深度聚类的语声分离方法已被证明能有效地解决混合语声中说话人输出标签排列的问题，然而，现有关于聚类进行说话人分离方法，大多数是优化嵌入使每个源的重建误差最小化。该文以时域卷积网络为基础网络设计了一种改进基于聚类的门控卷积语声分离方法，在时域上通过堆叠的门控卷积网络，实现端到端深度聚类的源分离。该框架将非线性门控激活用于时域卷积网

2、络中，提取语声信号的深层次特征；同时在高维特征空间中聚类对语声信号的特征进行表示和划分，为恢复不同信号源提供了一个长期的说话者表示信息。该框架解决了说话人输出标签排列问题并对语声信号的长期依赖性进行建模。通过华尔街日报数据集进行实验得出，该方法在信号失真比和尺度不变信号噪声比指标上分别达到了16.72 dB和16.33 dB的效果。关键词：深度聚类；门控卷积；语声分离中图法分类号:TN912.3文献标识码:A文章编号:1000-310X(2023)05-1099-07DOI:10.11684/j.issn.1000-310X.2023.05.024Clustering-based speech

3、 separation method for gated convolutional networksLUO YuHU WeipingWU Huanan(Electronic Engineering,Guangxi Normal University,Guilin 541000,China)Abstract:Deep clustering-based speech separation methods have been shown to be effective in solving theproblem of speaker output label alignment in mixed

4、speech,however,most of the existing methods on clusteringfor speaker separation optimize the embedding to minimize the reconstruction error of each source.In thispaper,we design an improved gate-convolutional cluster speech separation method based on the time-domainconvolutional network as the base

5、network.The framework uses nonlinear gated activation in time-domainconvolutional networks to extract deep features of speech signals;and clustering in a high-dimensional featurespace to represent and segment the features of speech signals,providing a long-term speaker representationinformation for

6、recovering different sources.The framework solves the speaker output label alignment problemand models the long-term dependency of speech signals.Experiments with the Wall Street Journal dataset yieldthat the method achieves 16.72 dB and 16.33 dB in the signal distortion ratio and scale invariant si

7、gnal-to-noiseratio metrics,respectively.Keywords:Deep clustering;Gated convolution;Speech separation2022-08-16收稿;2022-09-20定稿国家自然科学基金项目(NSFC 61861005)作者简介:罗宇(1999),男,江西吉安人,硕士研究生,研究方向:语声信号处理。通信作者 E-mail:11002023 年 9 月0 引言语声分离任务源于鸡尾酒会问题1。传统学习方法存在计算复杂度高和区分性训练困难的问题。与上述相比，深度学习为语声分离任务提供了快速准确的方法，其高效的建模能力将掩

8、码推断视为一个分类问题。在以往的频域语声分离中，需要考虑分离语声的说话人排列问题2。因为频域中将语声分帧，再进行语声分离，可能会将一个说话人的语声帧分离到另一个说话人上，造成网络分离的语声信息混乱。深度聚类是最早基于深度学习的语声分离体系结构，使用经过区别训练的嵌入，在高维嵌入的特征空间中进行聚类来解决语声分离输出排列问题。说话人聚类的语声分离可以看作是一种矩阵分解任务，输入的混合语声作为输入矩阵，是若干个输出矩阵之和，基于此理论来利用掩码方法。深度聚类训练目标是理想二值掩码(Ideal binarymask,IBM)，每个时频单元对应一个源信号，由此可将掩码估计等同于时频单元聚类分类的问题。

9、陆续有很多研究人员采取聚类方法来进行说话人分离。Hershey等3提出了深度聚类(Deep cluster-ing,DPCL)，训练了一个深层网络，将对比嵌入向量分配给频谱图的每个时频区域，输出标签的匹配转换为亲和力矩阵的匹配，最小化同一人的时频单元嵌入向量之间的距离，最大化不同人之间的距离，其高度依赖于嵌入形成的低秩成对亲和力矩阵。Chen等4提出了深度吸引子网络(Deepattractor network,DANet)，通过在混合信号的高维嵌入空间中创建吸引子点，吸引子是由嵌入向量动态计算得到，将每个声源对应的时频单元聚集在一起，通过学习聚类中心来对不同的说话人生成不同的掩码，这样就可以得

10、到一种可学习的聚类中心，与DPCL 相比更加灵活，得到的结果也更加理想。Luo等5提出了独立说话人的吸引子网络(Speaker-independent speech separation with deepattractor network,ADANet)，利用嵌入空间的一组辅助点(锚定点)，使用嵌入和每个吸引子之间的相似性来估计混合物中每个源的掩码。ADANet解决了DANet中两种创建吸引子方法的问题，但是网络引入一个期望最大化(Expectation maximization,EM)迭代过程，需要对于每一种取法计算锚框和吸引子，因此计算开销增大。Wang等6提出了嵌合体网络(Chimer

11、a)，该结构将深度聚类与掩码推理网络结合在多目标训练方案中，提出了多个备选损失函数来训练深度聚类网络，在训练掩码推理网络以实现最佳分离时，深度聚类损失可作为正则化项，防止训练过拟合。然而以上基于频域的聚类方法存在如下缺点：第一，定义的目标损失函数是在嵌入式向量上，而不是真正的目标语声的幅值谱，从而无法进行端到端训练；由于损失函数中嵌入式向量和目标语声存在一定的误差，会影响分离性能。第二，没有考虑对实际混合语声信号建模，忽略了语声信号潜在特征参考，而在后续Luo等7提出的时域声频分离网络(Time-domain audio separation network,TasNet)直接对时域语声波形建

12、模，避免重建源相位问题的同时，将特征提取与分离一起隐含在网络体系结构中。时域卷积网络(ConvTasNet)是一种全卷积声频分离网络，在序列建模和声频处理任务中展现了优越的性能8。本文利用ConvTasNet的时域卷积网络(Temporal convolutional networks,TCN)结构，设计了基于聚类的门控卷积网络(Gate-convcluster)框架，编解码器分别是一维卷积和一维转置卷积，在分离网络中，用堆叠的门控卷积(Gate-conv)来提取语声信号的深层次特征；同时在特征空间中搭建聚类模块，对长时语声特征进行映射分离。聚类定义的损失函数是负尺度不变信源噪声比(-SISN

13、R)，对目标语声信号进行端到端训练。该框架很好地解决了传统聚类方法无法做到端到端训练和时域卷积网络语声建模中短时依赖的问题。1模型设计及方法介绍语声分离是指从给定的混合语声信号中提取所有重叠的信号源9。对于给定的线性混合单通道信号yt，单通道语声分离提取所有C 个说话人的源信号为Xct，c为说话人索引。yt=Cc=1Xct,c=1,C.(1)第42卷第5期罗宇等：一种基于聚类的门控卷积网络语声分离方法11011.1Gate-conv clusterGate-convcluster 是在 convtasnet 的 tcn 结构78,10上提出的编码器-解码器框架，编码器是一维卷积，并行编码计

14、算混合语声的时域特征；然后将其送入一维非线性Gate-conv堆叠的嵌入网络中，在高维度的特征空间中进行聚类，估计出目标语声的掩蔽值；后利用编码后的混合语声与估计出来的掩蔽值做点乘，最后通过一维转置卷积重构得到纯净的语声信号。图1显示了搭建的Gate-convcluster框架以及gate-conv结构。1-D Conv?1-D TransConv?Linear11-ConvLayer-NormEmbeddingMask?Gate-conv?Embedding?11 ConvSigmoid?PReLUNorm?NormPReLUskip-connection?Sigmoid(a)Gate-co

15、nv cluster?(b)Gate-conv?Gate-convGate-convGate-convGate-convGate-convGate-convGate-convGate-convGate-convd/nd/d/11 ConvDeepwiseConv DeepwiseConv PReLUNorm11 Conv11 ConvClusteringClustering图1Gate-conv cluster框架及gate-conv结构Fig.1 Block diagram of Gate-conv cluster and Gate-conv structure1.2编码器ytEncoder

16、 Yconv=ReLU(Conv1D(yt),(2)其中，Yconv是混合信号yt的时域特征表示，ReLU()是用于确保非负输出的元素整流线性单元；Conv1D()是由可学习权重参数的1 1卷积核。1.3Gate-conv分离网络由门控卷积网络和嵌入空间中的聚类组成。受Chimera聚类集群框架6启发，语声经过深度神经网络，结合门控支路提取的非线性信息对于在聚类空间中时频单元生成掩码具有更好的性能。Gate-conv在ConvTasNet中一维卷积块1-D-conv中增加了非线性门控卷积支路8,11，每个一维卷积模块增加两个Sigmoid门，一个对应于一维卷积模块中的第一个1 1 卷积层即1

17、1_conv，另一个对应于从深度可分离卷积depthwise_conv到输出1*1_conv的所有层，depthwise_conv中的卷积层是大小为 K 的卷积核。Gate-conv结构块中，门控卷积块的不同颜色表示不同的膨胀因子，特征映射首先通过一个通道数为256的1 1_conv块，然后是8个剩余的通道数为512的Gate-conv块，膨胀率为1,2,128，重复4次；其中Gate-conv中卷积核大小为3，步长stride为1。其中在每两个卷积操作之间添加激活函数和归一化，经过depthwise_conv后的1 1_conv的Output作为下一个门控卷积块的输入；剩下的1 1_conv

18、块的跳跃连接总和作为Gate-conv结构块的输出8。1.4嵌入空间中的聚类在门控卷积网络后端搭建了聚类框架，经过门控卷积网络的混合声音的特征单元，被投射到一个高维空间12。特征单元在和不同源分配生成的吸引子距离计算上，任意两点的距离都可能极为相近，导致难以将其区分出来；同时高维数据集的簇可能存在于不同的维度集合里。所以确定一定维数的特征空间很有必要，特征空间使用嵌入尺寸参数embed_size为的深度神经网络实现。为了将每个嵌入的特征单元分配给混合特征矩阵中的不同说11022023 年 9 月话人，沿着时间追踪嵌入空间中说话人的质心，其中来自不同声源的质心被称为吸引子点At(i,)，i是说话

19、人的源分配，是特征空间维度，是时间步长，该吸引子点用于确定当前说话人的特征向量分配。吸引子的位置在每个时间步都会更新。首先，吸引子的先前位置用于确定当前特征单元的说话人分配。然后通过聚类操作，基于先前吸引子的加权平均值和说话人分配定义的当前特征向量中心更新吸引子13。其中分离模型U()，在特征空间中，属于同一源的所有嵌入的特征单元表示会互相吸引14。嵌入特征空间中的特征单元和每个吸引子之间的距离(通常表示为点积)决定了该特征单元的源分配，然后使用该分配为每个说话人定义一个掩码，该掩码乘以经过一维卷积编码器后的混合源语声的时域特征表示来恢复该源。图2显示了嵌入空间中聚类来恢复源信号的操作。?Ga

20、te-convGate-convLinearLinearEmbeedingSpeakerassignmentMaskAttractorsMask?spk1spk2?EmbeedingSpeakerassignmentAttractorsLinear?Speakerassignment?Attractors?图2嵌入空间中聚类分离源信号示意图Fig.2 Schematic diagram of clustering separated source signals in the embedding space其中，U()是由分离网络参数定义的掩码估计模型。Mc=U(Xc(t,k);At(i,);

21、).(3)在基于掩蔽Mask的解决方案中1516，根据式(4)推导出恢复源信号Xc的特征向量Xc(t,k)由估计掩码Mc与混合信号经过编码器后的Yconv点乘得到。Xc(t,k)=Mc(t,k)Yconv,(4)其中，t和k分别是时间步长和特征向量索引，而Yconv通过混合信号yt经过一维卷积编码的潜在特征表示；Mc(t,k)是为说话人c通过聚类生成的掩码；是元素乘法运算。1.5解码器为了在时域中重建信号，估计源信号的特征向量Xc(t,k)送入一维转置卷积Conv1D()中。XctDecoder ReLU(TransConv1D(Xc(t,k).(5)2训练目标本文以尺度不变信噪比为训练目标8

22、。网络训练目标函数是标准信号重建误差，这使得在训练和测试阶段都可以进行端到端操作。Lloss=(SI-SNR)=10lg?s,ss,ss?2?s,ss,ss s?2,(6)其中，s和s分别是估计的语声信号和干净的语声信号；代表向量之间的点积。3实验结果及分析3.1数据集设置实验采用的原始语声数据集来自WSJ0语料库8。利用该语料库创建双说话人混合数据集WSJ0-2mix：首先从WSJ0语料库中 si_tr_s 文件夹中随机选择两个说话者的语声，并以5 5 dB之间随机选择的信噪比(Signal to noise ratio,SNR)第42卷第5期罗宇等：一种基于聚类的门控卷积网络语声分离方法

23、1103进行混合，建成包括49名男性和51名女性说话人、总量为30 h的训练集。此外，10 h验证集和5 h测试集来自WSJ0的si_dt_05文件夹和si_et_05文件夹的16个说话人的言语(与训练集不同)。最后，经过8 kHz降采样，得到精度为16 bit的20000条语声训练集、5000条语声验证集、3000条语声数据测试集3。3.2参数设置该网络的编码器与解码器即一维卷积，卷积核大小均为20，网络在4 s长的片段上进行训练。初始学习速率设置为1 103，如果在连续3个时期内验证集的准确性没有提高，学习率将减半，优化器使用Adam进行训练17。通过信号失真比改善(Signal dist

24、ortion ratioimprovement,SDRi)18和尺度不变信噪比改善(Scale invariant SNR improvement,SI-SNRi)8来评价该方法，其中指标数值越大表明语声分离性能越好。3.3双支路非线性门控卷积的验证分析为了验证双支路非线性门控卷积对于TCN结构的改进作用，在后端均不添加聚类操作的情况下，Gate-conv和ConvTasNet，在WSJ0-2mix数据集下，使用相同实验设置，分别使用Gate-conv和使用ConvTasNet的1-D-conv再进行聚类后端分离，运行50个epoch，实验结果如表1所示。表1使用非线性双支路门控卷积与一维卷积

25、的分离结果对比Table 1 Comparison of separation resultsusing nonlinear bipartite gated convolu-tion with one-dimensional convolution模型结构迭代次数/epochSDRi/dBSI-SNRi/dB1-D-conv5014.9214.56Gate-conv5015.2714.88从表1可以看出，在基线原有ConvTasNet中1-D-conv上增加双支路非线性门控激活后的Gate-conv，分离结果均有不同程度的提升，其中SDRi提升了0.35 dB，SI-SNRi提升0.32 dB

26、。由此可得出，非线性双支路门控卷积提高了卷积网络的非线性表达能力，在序列建模工作控制更多的信息流，能够有效地提取语声信号的深层次特征，对于语声分离效果有着一定的改善。3.4高维聚类和不做聚类直接估计mask方法的验证分析基于Gate-conv，在WSJ0-2mix数据集下，使用相同实验设置，分别进行高维空间聚类(Gate-convcluster)和不做聚类(Gate-conv)直接估计mask分离，运行50个epoch，实验结果如表2所示。表2高维空间聚类和不做聚类方法的分离结果对比Table 2Comparison of separation resultsbetween high-dime

27、nsional spatial clusteringand no clustering methods模型结构迭代次数/epoch SDRi/dB SI-SNRi/dBGate-conv5015.2714.88Gate-conv cluser5016.3015.89从表2可以看出，在Gate-conv后端进行聚类(Gate-conv cluster)，其中SDRi提升了1.03 dB，SI-SNRi提升1.01 dB。经过实验研究发现，Gate-convcluster在高维空间中聚类，通过说话人分配和吸引子进一步使网络训练每个说话人更长时间序列的特征向量表示，克服了ConvTasNet语声建模

28、的短时依赖性问题，进一步提高了语声分离的性能。3.5最优嵌入空间维数研究在门控卷积网络后端使用嵌入尺寸参数em-bed_size为的深度神经网络生成高维度的特征空间，在WSJ0-2mix数据集下，使用相同实验设置，运行50个epoch进行分离，进行最优嵌入空间维数的研究，实验结果如表3所示。表3不同嵌入空间维数的分离结果对比Table 3 Comparison of separation resultsfor different embedding space dimensions嵌入空间维数迭代次数/epochSDRi/dBSI-SNRi/dB105016.0715.65155016.191

29、5.76205016.3015.89255016.2115.78305016.1615.7511042023 年 9 月从表3可以看出，在进行验证不同嵌入空间维数时，随着嵌入空间维数的增加有助于提高网络分离性能，但当维数增加到一定值时，网络分离效果显著下降；当为20时，SDRi和SI-SNRi达到最佳，分别为16.30 dB和15.89 dB。实验研究表明了在不同维度嵌入空间的接近度会影响不同源信号特征单元聚类的性能19，同时也证明了在最优维度特征空间中Gate-conv cluster框架能够在语声分离任务中表现得更好。3.6与不同聚类方法和基线ConvTasNet的研究比较通过以上实验验证

30、分析研究，Gate-conv clus-ter在运行100个epoch后，与不同聚类方法和基线ConvTasNet在同一数据集wsj0-2mix下进行说话人分离的研究比较，实验结果如表4所示。表4与不同聚类方法和基线ConvTasNet 的分离结果对比Table 4 Comparison of separation resultsof different clustering methods and base-line ConvTasNet模型CausalSDRi/dBSI-SNRi/dBDPCL+3x10.8DANet4x10.310.5ADANet5x10.810.4Chimera+6x1

31、2.011.5TasNet7x13.613.2ConvTasNet6x15.615.3Gate-conv cluster16.7216.33从表4所示，在时域上，Gate-conv cluster与ConvTasNet的TCN结构的基线8相比，在因果任务中实现了端到端训练，SDRi和SI-SNRi分别能提高1.12 dB和1.03 dB；与之前聚类操作的网络架构相比，性能明显优之前无语声建模的聚类框架，其中SDRi和SI-SNRi分别达到16.72 dB和16.33 dB的效果。实验证明了本文提出Gate-conv cluster，通过堆叠的门控卷积对语声进行深层次的建模，然后在最优维度的空间

32、中，聚类对映射的特征单元进行表示和划分，为恢复不同信号源提供了一个长期的说话者表示信息，能够进一步提高语声分离性能。4结论本文介绍了在时域上用于单通道语声分离任务的Gate-conv cluster，首先将使用改进的堆叠双支路非线性门控卷积对编码后的语声进行建模，然后通过实验研究了最优嵌入空间的维数，在高维特征空间中进行聚类，追踪不同源信号的长时特征表示；同时网络训练使用了基于目标语声的尺度不变信噪比作为损失函数，实现端到端信号分离。实验结果表明，与基线ConvTasNet和以往传统聚类分离的方法相比，Gate-conv cluster框架具有更好的分离性能。由于时域卷积更关注语声的局部信息，

33、因此，下一阶段工作将使网络能够学习全局说话人信息，提高语声分离模型的鲁棒性。参考文献1 Wang D L,Chen J.Supervised speech separation basedon deep learning:an overviewJ.IEEE/ACM Transac-tions on Audio,Speech,and Language Processing,2018,26(10):17021726.2 Zeghidour N,Grangier D.Wavesplit:end-to-end speechseparation by speaker clusteringJ.IEEE/A

34、CM Transac-tions on Audio,Speech,and Language Processing,2021,29:28402849.3 Hershey J R,Chen Z,Le Roux J,et al.Deep clustering:discriminative embeddings for segmentation and separa-tionC/2016 IEEE International Conference on Acous-tics,Speech and Signal Processing(ICASSP).IEEE,2016:3135.4 Chen Z,Luo

35、 Y,Mesgarani N.Deep attractor network forsingle-microphone speaker separationC/2017 IEEE In-ternational Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2017:246250.5 Luo Y,Chen Z,Mesgarani N.Speaker-independent speechseparation with deep attractor networkJ.IEEE/ACMTransactions on Au

36、dio,Speech,and Language Process-ing,2018,26(4):787796.6 Wang Z Q,Le Roux J,Hershey J R.Alternative objectivefunctions for deep clusteringC/2018 IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2018:686690.7 Luo Y,Mesgarani N.TasNet:time-domain audio sepa-ration net

37、work for real-time,single-channel speech sepa-rationC/2018 IEEE International Conference on Acous-tics,Speech and Signal Processing(ICASSP).IEEE,2018:696700.8 Luo Y,Mesgarani N.Conv-TasNet:surpassing ideal time-frequency magnitude masking for speech separationJ.第42卷第5期罗宇等：一种基于聚类的门控卷积网络语声分离方法1105IEE

38、E/ACM transactions on Audio,Speech,and LanguageProcessing,2019,27(8):12561266.9 刘文举,聂帅,梁山,等.基于深度学习语音分离技术的研究现状与进展J.自动化学报,2016,42(6):819833.Liu Wenju,Nie Shuai,Liang Shan,et al.Deep learn-ing based speech separation technology and its develop-mentsJ.Acta Automatica Sinica,2016,42(6):819833.10 Lea C,Vi

39、dal R,Reiter A,et al.Temporal convolu-tional networks:a unified approach to action segmen-tationC/European Conference on Computer Vision.Springer,Cham,2016:4754.11 Dauphin Y N,Fan A,Auli M,et al.Language model-ing with gated convolutional networksC/InternationalConference on Machine Learning.PMLR,20

40、17:933941.12 郝敏,刘航,李扬,等.基于聚类分析与说话人识别的语音跟踪J.计算机与现代化,2020(4):713.Hao Min,Liu Hang,Li Yang,et al.Speech tracking basedon cluster analysis and speaker recognitionJ.Computerand Modernization,2020(4):713.13 Han C,OSullivan J,Luo Y,et al.Speaker-independentauditory attention decoding without access to clea

41、nspeech sourcesJ.Science Advances,2019,5(5):eaav6134.14 黄雅婷,石晶,许家铭,等.鸡尾酒会问题与相关听觉模型的研究现状与展望J.自动化学报,2019,45(2):234251.Huang Yating,Shi Jing,Xu Jiaming,et al.Research ad-vances and perspectives on the cocktail party problem andrelated auditory modelsJ.Acta Automatica Sinica,2019,45(2):234251.15 Bahmani

42、nezhad F,Zhang S X,Xu Y,et al.A unifiedframework for speech separationJ.arXiv Preprint,arXiv:1912.07814,2019.16 刘航,李扬,袁浩期,等.基于生成对抗网络的语音信号分离J.计算机工程,2020,46(1):302308.Liu Hang,Li Yang,Yuan Haoqi,et al.Speech signal sep-aration based on generative adversarial networksJ.Com-puter Engineering,2020,46(1):

43、302308.17 Kingma D P,Ba J.Adam:a method for stochastic opti-mizationJ.arXiv Preprint,arXiv:1412.6980,2014.18 Le Roux J,Wisdom S,Erdogan H,et al.SDRhalf-bakedor well done?C/ICASSP 2019-2019 IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019:626630.19 Gu W,Tandon A,Ahn Y Y,et al.Principled approach tothe selection of the embedding dimension of networksJ.Nature Communications,2021,12(1):110.

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种基于门控卷积网络语声分离方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。