面向语音分离的GA_FastICA算法_兰朝凤.pdf
《面向语音分离的GA_FastICA算法_兰朝凤.pdf》由会员分享,可在线阅读,更多相关《面向语音分离的GA_FastICA算法_兰朝凤.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 27 卷第 6 期2022 年 12 月哈 尔 滨 理 工 大 学 学 报JOUNAL OF HABIN UNIVESITY OF SCIENCE AND TECHNOLOGYVol.27No.6Dec.2022面向语音分离的 GA_FastICA 算法兰朝凤,陈英淇,林小佳,刘岩,陈旭奇(哈尔滨理工大学 测控技术与通信工程学院,哈尔滨 150080)摘要:随着语音处理技术的发展,新的语音分离算法不断地被提出。针对观测信号中噪声而导致分离效果不理想的问题,将几何运算(GA)方法和快速独立成分分析(FastICA)算法结合提出了 GA_FastICA 算法。为探究 GA_FastICA 算法
2、的有效性,绘制了分离后语音信号的时域波形,给出了分离前后语音信号的相关系数。当信噪比为 4 dB 时,分离后语音信号与原始语音信号的相关系数为0.785 2。仿真实验结果表明,在信噪比为 12 dB,factory、babble 噪声条件下,GA_FastICA 算法相较于 FastICA 算法相关系数提高了0.021 2和0.030 4;信噪比为 8 dB 的条件下,相关系数提高了0.137 4和0.132 8。GA_FastICA 算法可有效分离语音信号,在噪声环境下具有较好的语音分离效果。关键词:语音处理;语音分离;独立成分分析;信噪比DOI:10 15938/j jhust 2022
3、06 010中图分类号:TN912.3文献标志码:A文章编号:10072683(2022)06008008GA_FastICA Algorithmfor Speech SeparationLAN Chao-feng,CHEN Ying-qi,LIN Xiao-jia,LIU Yan,CHEN Xu-qi(School of Measurement and Communications Engineering,Harbin University of Science and Technology,Harbin 150080,China)Abstract:With the development
4、of speech processing technology,new speech separation algorithms areconstantly proposed.The GA _ FastICA algorithm is proposed by combining the Geometric Approach(GA)algorithm and Fast Independent Component Analysis(FastICA)algorithm for the problem of unsatisfactoryseparation due to the noise in th
5、e observed signal and combining the geometric operation method.The time domainwaveforms of the separated speech signals are plotted,and the correlation coefficients of the original and separatedspeech signals are given to investigate the effectiveness of the GA algorithm.When the signal-to-noise rat
6、io is 4 dB,the correlation coefficient of the separated speech signal and the original speech signal is 0.785 2.The experimentalsimulation results show that under the signal-to-noise ratio of 12 dB,factory and babble noise conditions,the GA_FastICA algorithm improves the correlation coefficient by 0
7、.021 2 and 0.030 4 compared with the FastICAalgorithm,and the correlation coefficients were improved by 0.137 4 and 0.132 8 for a signal-to-noise ratio of8 dB.The GA_FastICA algorithm can effectively separate the speech signal,and the noisy environment GA_FastICA algorithm can effectively separate s
8、peech signals and has a better speech separation effect.Keywords:speech processing;speech separation;independent component analysis;signal to noise ratio收稿日期:2021 09 17基金项目:国家自然科学基金青年基金(11804068);黑龙江省自然科学基金(LH2020F033).作者简介:陈英淇(1998),男,硕士研究生;刘岩(1995),男,硕士.通信作者:兰朝凤(1981),女,博士,副教授,博士研究生导师,E-mail:lanch
9、aofeng .0引言随着智能家居设备的发展,通过音频信号控制智能设备变成了一种必然趋势,同时也对语音处理技术提出了更高要求1。为了更好的将语音处理技术应用到实际生活中,相关研究人员就语音分离技术、语音识别技术及语音降噪技术等进行了大量研究。语音分离问题最早起源于著名的鸡尾酒会问题2,就如何构建出类似于人脑听觉处理机制,进而从混合语音信号中分离出重点关注的语音部分,以对特定语音识别的目的进行了研究。根据观测信号和源信号数目的不同,可以分成单通道盲源分离算法和多通道盲源分离算法3 6。独立成分分析(Independent Component Analysis,ICA)是多通道分离中一种典型的算法
10、,最早在 20 世纪 80 年代被Jutten 等7 提出,并成功应用在盲源分离领域。此后,许多研究人员在 ICA 的基础上,对提高混合语音分离质量和降低算法计算复杂度等方面提出了一些改进算法8。1999 年,Hyvarinen 等9 提出 FastI-CA 算法,此算法提高了传统 ICA 算法的处理速度。Tahir Ahmad 等10 利用八阶牛顿算法对 FastICA 算法进行了改进,并将此应用到了语音信号分离中,研究表明改进算法具有迭代次数少、收敛速度快的优势。南开大学的朱立娟等11 提出将观测信号特征矩阵联合对角化的预处理的操作,得到初步分离的语音信号,并利用 FastICA 算法对初
11、步分离的语音信号进行处理,得到分离语音信号,研究表明所提出算法在保证分离质量的前提下,减少了算法计算量。非负矩阵分解算法(Non-negative Matrix Factoriza-tion,NMF)同样被广泛地应用在语音分离相关领域。其最早是由 DD.Lee 等12 提出的一种矩阵分解方式,基本思想是将混合矩阵在满足非负约束的限制下分解成两个矩阵乘积,并使其乘积尽可能的接近于混合矩阵13。NMF 算法分离过程简便,且分离结果解释性更强,相对于其它算法具有占用更小存储空间的优点14。典型的 NMF 算法有梯度投影算法和拟牛顿算法15 16。李煜等17 针对传统NMF 算法计算量大收敛速度慢的问
12、题,提出了一种基于投影梯度的 NMF 算法,通过增加相关约束条件减小了信号的重构误差,提高了算法的收敛速度和信号分离效果。刘忠健等18 针对基于乘性迭代NMF 算法收敛速度慢的问题,提出了一种非负矩阵分解的 NMF 算法,提高了 NMF 算法的收敛速度。卢宏等19 针对 NMF 算法在欠定盲源分离方面的限制,在 NMF 算法中增加行列式约束及稀疏性约束的限制条件,实现了 NMF 应用于欠定盲源目标的分离。王艳芳等20 将 NMF 和 FastICA 算法相互结合,利用 NMF 算法,通过观测信号幅度谱得到源混合信号的估计矩阵,而后利用 FastICA 算法实现源信号的分离,研究表明比传统 Fa
13、stICA 算法提高了算法的运行速度。在语音分离的过程中难免会混有噪声干扰,如何有效去除和抑制噪声是语音增强技术探究的目标,有学者对低信噪比(signal-to-noise ratio,SN)条件下,提高目标语音的可懂度和质量做出了研究。常用语音增强方法主要分为时域方法和频域方法。时域处理方式在语音分离过程中,难以在低SN 环境下做到对滤波器参数的准确预测,语音增强效果不理想;频域常用的算法有谱减法、维纳滤波、自适应滤波法等。其中,传统谱减法是当噪声信号与短时平稳语音信号相互独立时,利用混合语音功率谱和噪声语音功率谱做减法得到纯净语音功率谱,但在实际应用过程中,传统谱减法会在 SN 为0 dB
14、左右出现信号失真情况,但针对此问题可应用语音增强的几何运算(geometric approach,GA)方法21,重新构造出纯净功率谱和带噪功率谱间的增益函数,利用此增益函数求解纯净语音功率谱,弥补了传统谱减法信号失真的弊端。上述学者的研究使语音分离、语音增强技术取得了巨大的进步,但语音增强技术主要讨论的是在低 SN 环境下对噪声的抑制效果,没有考虑将目标语音信号进行分离,更加没有考虑分离多路有用语音信号情况。同样,语音分离问题也没有考虑到在观测信号中混有噪声时算法的适用性。本文针对上述研究内容存在的缺陷,考虑到人们运用语音分离技术控制智能设备时并不能保证周围环境完全安静的情况,基于 GA 算
15、法进行第一阶段降噪处理,将处理后信号利用 FastICA 算法进行音源分离,提出了GA-FastICA 算法,用于探讨含噪声情况下的语音分离问题,实验研究了不同 SN 环境下本文算法与FastICA 算法、基于二值掩蔽的语音信号分离算法(ideal binary mask,IBM)及四阶矩 盲 识 别 算 法(fourth-order blind identification,FOBI)的语音分离效果。1GA_FastICA 算法1.1FastICA 算法假定输入语音信号为 s(t),则观测信号 x(t)可18第 6 期兰朝凤等:面向语音分离的 GA_FastICA 算法表达为x(t)=As(
16、t)(1)式中:A 为 n n 矩阵(n 为通道数),称为语音信号混合矩阵,s(t)为 n 个元素构成的向量,可表达为s(t)=s1(t),s2(t),sn(t)T。观测信号可写为x(t)=x1(t),x2(t),xn(t)T。FastICA 算法实现的最终目标是找到解混矩阵W,使分解后的信号能够重新恢复出原始输入语音信号,满足如下关系:y(t)=Wx(t)=WAs(t)s(t)(2)式中:y(t)为恢复出来的原始语音信号,其可表达为:y(t)=y1(t),y2(t),yn(t)T。计算过程中,主要使解混矩阵 W 作用在观测信号 x(t)上,令得到结果 y(t)的非高斯性达到最大,达到接近原始
17、信号 s(t)的目的。利用负熵来衡量 y(t)的非高斯性,负熵越大,表示信号的非高斯性越强。负熵可表达为J(y)=E(G(y)E(G(v)2(3)其中:G 代表非线性函数;v 代表的是满足均值为 0、方差为 1 的高斯随机变量。若令 y(t)=WTz(t),z(t)代表的是观测信号经白化处理过的信号,则式(3)可表达为J(y)=E(G(WTz)E(G(v)2(4)通常,设定独立成分的方差为E(G(WTz)2)=1(5)则在此约束条件下,得到解混矩阵 W 的迭代公式,可表达为W(k)=E zG(W(k 1)Tz)E G(W(k 1)Tz)W(k 1)(6)式(6)在计算过程中,直到满足收敛条件,
18、迭代运算过程停止,此时可得到解混矩阵 W 的最优解。对 W 进行归一化处理,令 W 作用于式(2)即可得到还原后的原始语音信号,从而达到盲源分离目的。1.2GA_FastICA 算法在传统谱减法中假定噪声信号为 d(n),纯净的语音信号为 f(n),则带噪混合信号 h(n)可表达为h(n)=f(n)+d(n)(7)对 h(n)进行短时傅里叶变换,H(wk)代表h(n)经过短时傅里叶变换后得到的结果,可以表示为H(wk)=F(wk)+D(wk)(8)式中:F(wk)为 f(n)经过短时傅里叶变换后的频谱;D(wk)为 d(n)变换后的频谱。wk=2k/N,k 的取值范围是 k=1,2,3,N 1
19、,N 代表观测信号的帧长度。式(8)两端乘以 H*(wk),得到噪声语音的短时功率谱,在考虑到交叉项影响时,式(8)可以转换成下式:|H(wk)|2=|F(wk)|2+|D(wk)|2+H(wk)=|H(wk)|2+H(wk)(9)式中:H(wk)代表交叉项,在忽略交叉项条件时,会引入相对误差。相对误差的表示如式(10)所示:(k)=|H(wk)|2|H(wk)|2|H(wk)|2=|H(wk)|H(wk)|2(10)通过式(10)可以得到结论,交叉项误差通过语音噪声功率谱进行归一化,探究(k)随 SN 变化趋势为本文重点关注之处,该部分在 LU 等撰写论文中已经进行详细阐述22,相关结果如图
20、 1 所示。图 1(k)随 SN 变化示意图Fig.1Variation of(k)with SN通过图 1 可以得到结论,在 SN 为 0 dB 左右时,(k)达到最大值,并不接近于 0,所以交叉项不能被忽略,在利用传统谱减法进行信号处理时,出现信号失真现象。在假定满足交叉项为零条件下,则估计的纯净语音信号功率谱可表达为|F(wk)|2=|H(wk)|2|D(wk)|2(11)设 I(wk)代表增益函数,则式(11)可以表达为|F(wk)|2=I2(wk)|H(wk)|2(12)其中 I(wk)=(k)1)/(k)。并且,在该式中,(k)=|H(wk)|2/|D(wk)|2。式(12)在 S
21、N 为 0 dB 左右时,不满足谱减法交叉项为 0 的假设,所以通过式(12)的增益函数I2(wk)估算纯净语音功率谱时出现了信号失真情况,故有学者提出了 GA 方法对谱减法进行改进,其28哈尔滨理工大学学报第 27 卷通过几何计算的方式来重新构建出带噪语音功率谱和纯净语音功率谱间的增益函数,通过新的增益函数计算纯净语音功率谱,弥补了传统谱减法在 0 dB左右 交 叉 项 不 为 零 的 缺 陷,解 决 了 信 号 失 真问题23。由式(8)可以看出,混合信号在某个频率下的频谱由右侧两路信号频谱相加求得,如图 2 所示。这个过程同样可以在复平面中写成向量和的形式,式(8)的极坐标形式可以表达为
22、ahejh=afejf+adejd(13)式中:ah,af,ad分别对应于式(8)中的幅值,其在复平面中代表向量长度;h,f,d分别代表观测信号、纯净信号、噪声信号相位,在复平面中对应各路信号和实轴之间的夹角。传统谱减法基于交叉项为 0 的假设,也就是做出了 f d=/2 的假设,但 GA算法并不对二者相位差值做出任何假设。经过 GA 算法推导,新的增益函数 IGA可以表达为IGA=ahaf=(1 c2hd)/(1 c2fd)(14)其中:chd=cos(h d),cfd=cos(f d)。式(14)中,chd,cfd的计算需要依赖于信号间相位的差值,这在程序运行过程中并不能准确得到,所以 G
23、A 算法利用混合信号相位和噪声信号相位之间的显性关系,结合三角函数公式得到式(14)中参数的计算公式为chd=a2h+a2d a2f2ahad(15)cfd=a2h a2f a2d2afad(16)之后,利用 GA 算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系,计算过程如下式:|F(wk)|2=IGA|H(wk)|2(17)将式(17)得到纯净语音信号的功率谱,通过短时傅里叶逆变换可还原成原始语音信号。综上可知,GA 算法在语音增强方面较谱减法弥补了谱减法信号失真的缺陷,FastICA 算法可以完成适定盲源分离任务。因此,考虑到实际观测信号中可能混有噪声的情况,将两种算法结
24、合提出了GA-FastICA 算法。首先利用 GA 算法对混合信号进行降噪处理,然后将处理后的信号再运用 FastICA算法进行语音分离,近而获得分离后语音信号。图 2复平面混合语音信号频谱关系图Fig.2Spectral relationship of complex planemixed speech signal2仿真实验及结果分析2.1GA_FastICA 和 FastICA 算法分离效果研究为分析本文所提出 GA_FastICA 算法有效性,在带噪环境下对比了传统 FastICA 算法和提出算法分离结果。通过实验验证不同信噪比条件下,GA_FastICA 算法和 Fast_ICA 算
25、法分离效果。使用 TIM-IT 语音库作为实验样本,该数据库由麻省理工学院和斯坦福研究院合作构建。作为一个声学音素连续语音语料库,其在语音信号研究中被广泛使用,该语音库大约包含6 000个说话人语句,其中约 70%来自于男性,30%来自于女性,语音信号采样频率统一设置为 16 kHz。参与语音录制的说话人大约有 600人,分别来自于美国不同的 8 个方言地区,每个说话人给出 10 句话,语音库中的句子都在音素级别上进行了手动分割和标记。在 TIMIT 语音库中随机选取两路语音作为原始语音信号,原始信号经过线性混合后得到观测信号,随后在观测信号中引入不同信噪白噪声模拟现实环境观测信号中存在噪声干
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 语音 分离 GA FastICA 算法 兰朝凤
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。