基于听觉特性和发声特性的语种识别.pdf
《基于听觉特性和发声特性的语种识别.pdf》由会员分享,可在线阅读,更多相关《基于听觉特性和发声特性的语种识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、基于听觉特性和发声特性的语种识别华英杰,朵琳*,刘晶,邵玉斌(昆明理工大学信息工程与自动化学院,云南昆明650500)摘要:针对现有的方法在低信噪比环境下语种识别性能不佳,提出了一种耳蜗滤波系数和声道冲激响应频谱参数相互融合的语种识别方法.该方法表征了人的耳蜗听觉特性和发声特性,首先提取模拟人耳听觉特性的耳蜗滤波系数,再融合表征人的发声特性的声道冲激响应频谱参数,最后采用高斯混合通用背景模型对所提方法在语种识别上进行测试.实验结果表明,在 4 种信噪比环境下,该方法优于其他对比方法;相对于基于深度学习的对数 Mel 尺度滤波器能量特征,识别正确率提升了 16.1%,与其他方法相比有较大程度的提
2、升.关键词:语种识别;耳蜗滤波系数;声道冲激响应频谱参数;高斯混合通用背景模型中图分类号:TN912.3文献标志码:A文章编号:02587971(2023)04080708语种识别(LanguageIdentification,LID)是通过计算机判断某段未知语音的所属类别,是跨语言智能语音处理系统的前端1,其被广泛应用于各种实际场景,如:国际会议、军事监听、出国旅游等.目前,语种识别技术在无噪环境和长语音上已经达到工业水准,但是在嘈杂环境、短语音和高度混淆语种等情况下,识别性能依然不佳.传统的语种识别主要基于声学特征和音素层特征.底层声学特征主要包括感知线性预测系数(PerceptualLi
3、nearPredictive,PLP)2、梅尔频率倒谱系数(Mel-frequencyCepstralCoefficient,MFCC)3、伽玛通频率倒谱系数(GammatoneFrequencyCep-strumCoefficient,GFCC)4、对数 Mel 尺度滤波器能量(LogMel-ScaleFilterBankEnergies,Fbank)5等.目前主流的语种识别模式主要是支持向量机(SupportVectorMachines,SVM)6和混合高斯模型全局背景模型(GaussianMixtureModel-UniversalBack-groundModel,GMM-UBM)7等.
4、基于音素层特征主要解决的是不同语种的不同音素集合问题.其主流模型包括并行音素识别器后接语言模型(Parallel Phone Recognition followed by LanguageModeling,PPRLM)8等.由于神经网络的快速发展,越来越多的研究倾向于将神经网络模型应用于语种识别中,主要包括卷积神经网络、深度神经网络和循环神经网络等.与传统的语种识别模型相比,取得了更高的识别准确率.Montavon9将含有时域和频域信息的语谱图作为卷积神经网络的输入,获得高于声学特征的识别准确率.Jiang 等10通过深度神经网络较强的特征提取能力,在 i-vector 语种识别方法上引入深
5、瓶颈层特征方法,该特征在面对大量的语料信息时,尤其是对于实时性要求比较高的语种识别任务时,实用性较好.Lopez-Moreno 等11利用特征提取、特征变换以及分类器融合在一个神经网络模型中,提出一种端到端的语种识别模型.Geng 等12将注意力机制模型引入到语种识别的模型中,并取得了较大的性能提升.Watanabe 等13提出一种基于语种无关架构的端到端模型处理多语种识别的问题.Cai 等14利用底层声学特征直接学习语种类别信息,提出一种基于可学习的字典编码层的端对端系统,使得语种识别性能得到提升.Snyder等15提出了 X-vector 方法,将不定长度的语音片段应用在时延神经网络映射到
6、固定维度的 embedding 中,这个embedding 便称作 X-vector,相比基于 I-vector 方法,在短时语音识别取得了更好的效果.Jin 等16提出了从网络中间层获取语种区分性的基本单元特征.收稿日期:2022-05-24;接受日期:2022-07-28;网络出版日期:2022-09-17基金项目:国家自然科学基金(61962032);云南省科技厅优秀青年项目(202001AW07000).作者简介:华英杰(1999),女,河南人,硕士生,主要研究语种识别.E-mail:.*通信作者:朵琳(1974),女,云南人,博士,副教授,主要研究智能信息处理、下一代网络.E-mai
7、l:.云南大学学报(自然科学版),2023,45(4):807814JournalofYunnanUniversity:NaturalSciencesEditionDOI:10.7540/j.ynu.20220243Bhanja 等17利用色度特征与 MFCC 特征融合,使得语种识别性能得到很大的提高,但计算量增大.Garain 等18利用底层声学特征将其转化为图像信息,放入到卷积神经网络中进行识别,此方法鲁棒性能较差,特征表现形式单一.在时延神经网络基础上,韩玉蓉等19利用多头自注意力双支流 X-vector 网络,使用多头自注意力机制替换池化层,增大了有效特征权重,并针对样本数不均衡及难分
8、类问题引入类别权重因子和调制因子,使得训练模型的损失函数得到了改进.但上述方法在复杂噪声环境下,语种识别正确率较低.针对在低信噪比环境下语种识别性能不佳问题,本文提出了一种结合人的听觉特性和发声特性的语种识别方法,在很大程度上提高了低信噪比环境下识别准确率.首先根据人耳听觉感知具有的非线性特点,引入耳蜗滤波器模拟听觉特性,并提取耳蜗倒谱系数(CochlearFilerCepstralCoefficents,CFCC)特征;再根据人的发声特性提取声道冲激响应频谱参数(SpectralParametersofChannelImpulseResponse,SCIR)特征,减少说话人信息的影响,增强语
9、种信息;最后融合听觉特性和发声特性得到融合特征 CFCC+SCIR 特征.测试结果表明,该特征在噪声环境下识别性能较高,具有一定的抗干扰性.1模型搭建x(n)=s(n)+w(n)s(n)w(n)1.1构建带噪语音模型带噪语音信号定义为,其中,为原语音,为高斯白噪声,其均值为 0,平均信噪比(SignalNoiseRatio,SNR)定义为:rSN=10lgHn=1s2(n)Hn=1w2(n),0 n H,(1)Hn=1s2(n)HHn=1w2(n)SNR=5 dB式中:是纯语音信号能量之和,为语音的总采样点数,是白噪声信号能量之和.不同信噪比下的语音信号局部波形图如图 1 所示.从图 1 可以
10、看出,随着信噪比的降低,语音信号被噪声淹没的波形面积增大,当时,只有部分强语音信号被凸显出来,导致识别困难.K1.2GMM-UBM 语种识别模型采用混合高斯模型全局背景模型(GaussianMixtureModel-Uni-versalBack-groundModel,GMM-UBM)作为语种识别后端,能够准确识别判断出不同语言在共同背景环境之间的区别,具有较高的鲁棒性,并且在训练集数据量少的环境下能够得到高混合度的模型.基于 GMM-UBM 的语种识别模型框架如图 2 所示.该模型先对输入的 M 种语种背景语音分别进行听觉特征提取和发声特征提取,将两种特征进行融合,输入到 UBM 模型进行训
11、练;再对目标语音也分别提取听觉特征和发声特征后进行特征融合;然后输入到 GMM 模型进行训练.训练完后将 UBM 训练得到的公共模型与 GMM 训练得到的语种模型通过模型自适应得到种语种模型,根据测试语种与语种模型对比结果判定语种.2语种特征提取及融合特征提取是语种识别中非常关键的步骤之一,特征的鲁棒性高低与否以及能否高效区分语种都对后期语种识别性能有着关键的影响.本文提出的基于听觉特性和发声特性的融合特征提取流程如下:首先提取耳蜗倒谱系数特征,再提取声道冲激响应频谱参数特征,最后从帧级别的角度进行特征融合,得到融合特征集.具体流程如图 3 所示.(n)L2(R)(n)2.1基于听觉特性的语种
12、特征提取人耳对声音的敏感度主要受声音的方位、响度、音调及音色等因素的影响.对于细微的声音,只增加响度,人耳便可以感受到,但当响度增大到某一值后,再增大响度人耳听觉却没有明显的变化.因此将人耳受响度因素影响的这一听觉特性定义为“非线性”特性.CFCC 可以很好地模拟了人耳听觉这一特性.CFCC 特征参数提取过程主要包括听觉变换、毛细胞函数、非线性变换和离散余弦变换20.听觉变换是利用小波变换实现滤波的,能够很好地实现人耳窝听觉感知的非线性结构.首先定义一个耳蜗滤波函数,要求满足下面 4 个公式.+w(n)dn=0,(2)+w|(n)|dn ,(3)808云南大学学报(自然科学版)http:/第4
13、5卷+w|()|2d=C,0 C 0,0 =3,=0.2u(n)baafCfL式中:,和 的取值决定了耳蜗滤波函数的频域形状和宽度,这里取经验值.为单位步进函数,为随时间可变的实数,为尺度变量,为初始相位.在一般情况下,可由滤波器组的中心频率和最低中心频率决定,即:a=fLfC.(8)z(n)T(a,b)将式(7)代入(6)即可得到经听觉变换的输出.毛细胞函数可以将耳蜗的内毛细胞经听觉变换输出后的语音信号转变为人脑可分析的电信号,其模拟过程表达式为:h(a,b)=T(a,b)2,(9)S(i,j)=1dl+d1b=1h(i,b),l=1,L,2L,;i,j,(10)d=max3.5i,20 m
14、s diiii=1/fCLL=d/2 j式中:,是第 频带毛细胞函数的窗长;是第 个滤波器中心频带中心频率的时间长度,;为帧移,一般情况下,取;是窗的个数.S(i,j)将式(10)的输出再次进行响度函数的尺度变换.文献 20 采用非线性幂函数变换,利用图2GMM-UBM 语种识别模型框架Fig.2ThemodelframeworkofGMM-UBMlanguagerecognition图3特征提取流程图Fig.3Theflowchartoffeatureextraction810云南大学学报(自然科学版)http:/第45卷y(i,j)=S(i,j)0.101(11)y(i,j)15 jY进行
15、模拟.非线性幂函数可粗略近似为听觉神经元发放率强度曲线,且非线性幂函数的特性与人耳听觉相符,即输出的动态特性不完全取决于输入量的幅度.最终利用离散余弦变换对进行去相关性得到维的特征矩阵,得出 CFCC 特征参数.2.2基于发声特性的语种特征提取在整个发声系统中主要包含两种参数模型,即声门激励脉冲频谱(激励模型)和声道冲激响应频谱(声道模型)21.声道是由声道的气管控制的,属于分布参数系统,可以看作是谐振腔,包含很多谐振频率.谐振频率是由每一瞬间的声道外形决定的,这些谐振频率称为共振频率,是声道的重要声学特性.SCIR 特征还包含元音和发声方式等语种信息,因此可以将其作为语种特征.SCIR 特征
16、参数提取过程具体步骤如下:x(n)z(n)步骤1对进行预加重处理,提升信号的高频部分,得到.z(n)=256=128jizi(n)步骤2对进行分帧处理,帧长,帧移,对于分帧后得到 帧信号,第 帧的信号为.zi(n)zi(k)zi(k)ui(k)步骤3对每一帧信号进行离散傅里叶变换得到,并对每个数据取模得到.步骤4根据 Savitzky-Golay 滤波器原理,利用每个窗口上拟合的二次多项式对数据进行平滑处理,使之减少语音噪声以及频谱突变的影响.在最大限度地保留语音特征的条件下对噪声进行抑制,平滑处理后的信号为:yi(k)=M=Mh()ui(k),1 k B,(12)h()MM=5式中:为平滑滤
17、波器的抽样响应;为平滑处理窗口长度的一半,由实验结果证实,当时,效果较好.yi(k)步骤5对取对数,更好地描述听觉系统:si(k)=10lg|yi(k)|.(13)si(k)ci(n)步骤6对进行逆离散傅里叶变换处理,即取倒谱,目的是将声门激励脉冲和声道冲激响应更好有效分离,求倒谱后得到.步骤7因为倒谱具有对称性的特点,所以将倒谱中的第 30 条谱线为界进行划分.因此 130和 227256 区间构成声道冲激响应倒谱序列:gi(n)=ci(n),1 n 30或227 n 2560,31 n 226,(14)gi(n)式中:为声道冲激响应倒谱序列,其构建的长度为 256.gi(n)ri(k)步骤
18、8对进行离散傅里叶变换,然后取实数部分.由于两边是对称性的,因此可以只取前半部分,得到声道冲激响应频谱.ri(k)C=6221i22 jG步骤9对取样,由实验可得间隔点个数,为了使训练的数据量少且大量语种信息不被破坏,故加快训练速度和识别速度,得到的第 帧取样后的 SCIR 特征向量,将每帧特征向量融合得到该段语音的维的特征矩阵:gi=ri(1),ri(C),ri(2C),ri(D)T,(15)Dri(k)式中:为最后一个取样点对应中的位置.2.3基于听觉和发声特性的语种特征融合CFCC 特征只模拟了听觉特性,并没有进行说话人信息的抑制,说话人信息属于干扰信息,而 SCIR特征可以有效地抑制说
19、话人信息的干扰,但是无法很好地反映人耳听觉特性及语音信息.因此为了得到抗干扰性能更佳的语种特征集,本文提出将包含听觉特性的特征 CFCC 和包含发声特性的特征SCIR 融合得到新的特征集 CFCC+SCIR.在提取CFCC 特征的基础上,加入反映不同语种的发声方式和声道形态上存在差异的 SICR 特征.融合特征既模拟了人耳的听觉特性又包含了不同语种的发声特性,还在一定程度上抑制了说话人信息和噪声信息的干扰,可以更好地表示不同语种的本质特征,具有更好的鲁棒性.GY本文从帧级别的角度进行特征融合,将 15 维的 CFCC 特征矩阵和 22 维的 SCIR 特征矩阵 特征进行融合,融合公式如下:R=
20、GY,(16)R37 j式中:为维的融合特征矩阵 CFCC+SCIR.3实验结果与分析f=8 000 Hzt=10 sK=5本研究采用的数据集来自中国国际广播电台的广播音频语料库,音频经过人工处理,剔除了干扰因素,为采样率、时长的单通道的语音段.包括汉语、藏语、维吾尔语、英语、哈萨克斯坦语等 5 种语种.训练集采用的语种数目,每种语种 300 条,其中 50 条为纯净语音,其第45卷华英杰等:基于听觉特性和发声特性的语种识别811SNR=5 25 dBSNR=5,0,5,10 dB他 250 条分别与白噪声构建的带噪语音.测试集每种语种171 条,分别与白噪声构建形成的 4 种带噪测试语料库.
21、UBM 自适应模型采用的语种数目随机,只要该数据为广播数据即可,选取 1675 条随机广播音频.采用识别正确率作为评价指标,计算公式如下:R=Ah+Az+Aw+Ay+AsN%,(17)AhAzAwAyAsNR式中:、为每种语种识别正确数,为总识别数,为平均识别正确率.3.1GMM-UBM模型混合度实验本文选用 13维静态 CFCC 特征参数,分别对 16、32、64、128等 4 种不同混合度进行训练测试.不同混合度的GMM-UBM 模型的识别正确率如表 1 所示.表1不同混合度的 GMM-UBM 模型识别正确率Tab.1Recognition accuracy of GMM-UBM mode
22、ls withdifferentmixturedegrees%信噪比/dB混合度163264128523.624.521.825.1024.827.923.526.8565.367.267.866.61074.278.078.377.1从表 1 可知,在5dB 和 0dB 下识别性能没有太大的差别,识别性能都不佳.在 5dB 和 10dB 下混合度在 64 时识别性能最佳,但是只比混合度为32 时分别提高 0.6 和 0.3 个百分点,然而训练识别时间却多出 1 倍.因此,综合考虑本文的模型混合度设为 32.3.2基于听觉特性的语种识别实验本文设计 4组实验,实验 13 为对比实验,实验 4
23、为本文提出基于听觉特性的识别方法.在背景噪声为白噪声的环境下,分别验证不同信噪比下所提出的语种识别方法的有效性及性能,并分析其优劣的原因.实验 14分别提取 64 维对数 Mel 尺度滤波器能量(Fbank)5、13 维静态 MFCC3、13 维静态GFCC4、15 维 CFCC 特征作为语种特征,实验结果如表 2 所示从表 2 可以看出,与常见的 MFCC 特征和GFCC 特征相比,本文提出的 CFCC 特征在识别性能上具有明显的优势.相对于 GFCC 特征,4 种信噪比下分别提升了 3.5、3.6、6.6 和 8.8 个百分点.由于 CFCC 特征采用的是非线性幂函数,可以更好地模拟听觉神
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 听觉 特性 发声 语种 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。