第二章语音信号的数学模型-PPT.ppt
《第二章语音信号的数学模型-PPT.ppt》由会员分享,可在线阅读,更多相关《第二章语音信号的数学模型-PPT.ppt(67页珍藏版)》请在咨信网上搜索。
1、第二章语音信号的数学模型2.1概述概述本本章章重重点点介介绍绍语语音音信信号号产产生生的的数数字字模模型型,对对语语音信号的特性和听觉特性做一般介绍。音信号的特性和听觉特性做一般介绍。22.2语音的发音机理语音的发音机理2.2.1人的发音器官人的发音器官1.组成组成 肺和气管组成声源;肺和气管组成声源;喉和声带称为声门;喉和声带称为声门;由咽腔、口腔、鼻腔由咽腔、口腔、鼻腔 组成声道;组成声道;图图2.1发音器官机理模型发音器官机理模型 32.功能功能肺:产生压缩气体,通过气管传送到声音生成系肺:产生压缩气体,通过气管传送到声音生成系统。统。喉:控制声带运动的复杂系统。主要包括:环状软喉:控制
2、声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带。骨、甲状软骨、杓状软骨、声带。4 声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。5 声门:声门:声带之间的间隙称为声门。声带之间的间隙称为声门。主要功能:主要功能:产生激励产生激励。声声道道:声声道道指指声声门门至至嘴嘴唇唇的的所所有有发发音音
3、器器官官。可可以以看看成成一一根根从从声声门门一一直直延延伸伸到到嘴嘴唇唇的的具具有有非非均均匀匀截截面面的的声声管管。声声道道的的形形状状变变化化(截截面面积积)由由舌舌、软软腭腭、唇唇、牙的形状和位置决定牙的形状和位置决定。主要功能:主要功能:传输调制声波传输调制声波。包括:咽喉、口腔和鼻腔。包括:咽喉、口腔和鼻腔。6 口腔包括:上下唇、上下齿、上下齿龈、上口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。下腭、舌和小舌等部分。上腭又分为:硬腭和软腭两部分;上腭又分为:硬腭和软腭两部分;舌又分为:舌尖、舌面和舌根三部分。舌又分为:舌尖、舌面和舌根三部分。鼻腔在口腔上面,靠软腭和小
4、舌将其与口腔鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。鼻腔都是发音时的共鸣器。7图图2.3 声道纵剖面图声道纵剖面图8大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点可以互相讨论下,但要小声点92.2.2语音生成语音生成 图图2.1为为语语音音生生成成其其机机理理模模型型。空空气气由由肺肺部部排排入入喉喉部部,经经过过声声带
5、带进进入入声声道道,最最后后由由嘴嘴辐辐射射出出声声波波,这这就就形形成成了了语语音音。在在声声门门(声声带带)以以左左,称称为为“声声门门子子系系统统”,它它负负责责产产生生激激励励振振动动;右右边边是是“声声道道系系统统”和和“辐辐射射系系统统”。当当发发不不同同性性质质的的语语音音时时,激激励励和和声声道道的的情情况况是是不不同同的的,它它们们对对应应的的模模型型也也是是不同的。不同的。10 图图2.1发音器官机理模型发音器官机理模型 11 语音生成动作可分为两种功能:语音生成动作可分为两种功能:(1 1)激励)激励 (2 2)调制)调制122.2.2 语音生成语音生成-浊音浊音 空气流
6、经过声带时,如果声带是崩紧的,则空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,期。因此,这种情况下在声门处产生出一个准周这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。脉
7、冲的周期即为基音周期。13基音频率是由声带张开闭合的周期所决定的:基音频率是由声带张开闭合的周期所决定的:男性的基音频率一般为男性的基音频率一般为50250Hz;女性基音频率为女性基音频率为100500Hz。14152.2.2 语音生成语音生成-清音清音 空空气气流流经经过过声声带带时时,如如果果声声带带是是完完全全舒舒展展开开来来的的,则则肺肺部部发发出出的的空空气气流流将将不不受受影影响响地地通通过过声声门门。空空气气流流通通过过声声门门后后,会会遇遇到到两两种种不不同同情情况况。一一种种情情况况是是,如如果果声声道道的的某某个个部部位位发发生生收收缩缩形形成成了了一一个个狭狭窄窄的的通通
8、道道,当当空空气气流流到到达达此此处处时时被被迫迫以以高高速速冲冲过过收收缩缩区区,并并在在附附近近产产生生出出空空气气湍湍流流,这这种湍流空气通过声道后便形成所谓摩擦音或清音。种湍流空气通过声道后便形成所谓摩擦音或清音。162.2.2 语音生成语音生成-爆破爆破音音 另另一一种种情情况况是是,如如果果声声道道的的某某个个部部位位完完全全闭闭合合在在一一起起,当当空空气气流流到到达达时时便便在在此此处处建建立立起起空空气气压压力力,闭闭合合点点突突然然开开启启便便会会让让气气压压快快速速释释放放,经经过过声道后便形成所谓爆破音。声道后便形成所谓爆破音。1718 共振峰频率或共振峰共振峰频率或共
9、振峰 声声音音产产生生后后,便便沿沿着着声声道道进进行行传传播播。声声道道可可以以看看成成是是一一根根具具有有非非均均匀匀截截面面的的声声管管,在在发发音音时时起起着着共共鸣鸣器器的的作作用用。声声音音进进入入声声道道后后,其其频频谱谱必必定定会会受受到到声声道道的的共共振振特特性性的的影影响响,声声道道具具有有一一组组共共振振频频率率,称称为为共共振振峰峰频频率率或或共共振振峰峰。声声道道的的频频谱谱特特性性便便主主要要地地反反映映出出这这些些共共振振峰峰的的不不同同位位置置以以及及各各个个峰峰的的频频带带宽宽度度。共共振振峰峰及及其其带带宽宽取取决决于于声声道道的的形形状状和和尺尺寸寸,因
10、因而而不不同同的的语语音音对对应应于于一一组组不不同的共振峰参数。同的共振峰参数。192021222.3语音的听觉机理语音的听觉机理2.3.1听觉器官听觉器官 人的听觉器官包括:外耳、中耳和内耳人的听觉器官包括:外耳、中耳和内耳图图2.3 2.3 人耳结构示意图人耳结构示意图23 1.1.外耳外耳 外外耳耳由由耳耳廓廓(耳耳翼翼)、外外耳耳道道和和耳耳鼓鼓(鼓鼓膜膜)组组成。成。2.2.中耳中耳 组成:包括三块听小骨组成:包括三块听小骨:锤骨,砧骨和镫骨。锤骨,砧骨和镫骨。作用:阻抗匹配和限幅作用:阻抗匹配和限幅 外外耳耳和和中中耳耳的的综综合合作作用用相相当当于于一一个个介介于于500Hz到
11、到6kHz之之间间的的平平滑滑的的带带通通滤滤波波器器,可可以以用用有有限限冲冲激激响响应应(FIR-FiniteImpulseResponse)滤滤波波器器来来模模拟。拟。243.内耳内耳 内内耳耳是是一一个个充充满满液液体体的的骨骨质质结结构构,由由前前庭庭、圆圆形窗、卵形窗及耳蜗组成。形窗、卵形窗及耳蜗组成。252.3.2耳蜗耳蜗的信号处理机制的信号处理机制26当当声声音音经经外外耳耳传传入入中中耳耳时时,镫镫骨骨的的运运动动引引起起耳耳蜗蜗内内流流体体压压强强的的变变化化,从从而而引引起起行行波波沿沿基基底底膜膜的的传传播播。图图2.62.6是是流流体体波波的的简简单单表表示示。在在耳
12、耳蜗蜗的的底底部部基基底底膜膜的的硬硬度度很很高高,流流体体波波传传播播的的很很快快。随随着着波波的的传传播播,膜膜的的硬硬度度变变得得越越来来越越小小,波波的的传传播播也也逐逐渐渐变变缓缓。不不同同频频率率的的声声音音产产生生不不同同的的行行波波,而而峰值出现在基底膜的不同位置上。峰值出现在基底膜的不同位置上。27图图2.7基底膜上六个不同点的频率响应基底膜上六个不同点的频率响应1 1 基底膜基底膜2 2 内毛细胞内毛细胞3 3 外毛细胞外毛细胞4听传导通路听传导通路 282.3.3 语音信号听觉模型语音信号听觉模型 听听觉觉系系统统的的研研究究主主要要集集中中在在三三个个方方面面:听听觉觉
13、系系统统的的实实验验研研究究、听听觉觉系系统统的的建建模模和和听听觉觉模模型型的的应应用用。听听觉觉系系统统的的实实验验研研究究主主要要是是指指听听觉觉系系统统在在医医学学、生生理理学学及及心心理理学学方方面面的的研研究究。由由于于耳耳蜗蜗深深植植于于颅颅骨骨中中,尺尺寸寸极极小小(如如蜗蜗管管的的直直径径只只有有1mm),所所以以耳耳蜗蜗的的实验研究是一项非常艰巨和复杂的工作。实验研究是一项非常艰巨和复杂的工作。耳耳蜗蜗建建模模主主要要集集中中在在基基底底膜膜的的振振动动上上,然然而而,建建立立基基底底膜膜的的振振动动模模型型是是耳耳蜗蜗建建模模的的首首要要任任务务,它它又被称为耳蜗的宏观力
14、学模型。又被称为耳蜗的宏观力学模型。29图2.10 语音信号听觉模型一般原理框图 语语音音信信号号首首先先通通过过一一串串带带通通滤滤波波器器(BPF)阵阵列列,其其中中心心频频率率跟跟随随着着图图2.7所所示示的的基基底底膜膜频频率率响响应应按按照照对对数数尺尺度度分分布布。每每一一个个带带通通滤滤波波器器都都被被独独立立的的设设定定为为有有限限冲冲激激响响应应滤滤波波器器(FIR)或或无无限限冲冲激激响响应应滤滤波波器器(IIR),但但是是频频率率响响应应的的波波形形并并不不是是严严格格精精确的。确的。30 被被滤滤波波的的信信号号在在通通过过内内毛毛细细胞胞/突突触触模模型型之之后后,到
15、到达达听听传传导导通通路路模模型型。虽虽然然各各种种听听觉觉模模型型的的带带通通滤滤波波器器的的性性能能特特征征是是基基本本相相同同的的,但但是是在在接接下下来来几几级级的的信信号号处处理理过过程程却却有有很很大大差差异异。事事实实上上,不不同同的的听听觉觉模模型型都都各各自自拥拥有有不不同同的的IHC模模型型,突突触触模模型型和和听听传传导导通通路路模模型型。一一些些模模型型为为每每一一个个滤滤波波后后的的信信号号都都设设有有独独立立的的频频道道,而而另另一一些些模模型型则则认认为为在在基基底底膜膜上上相相邻邻位位置置处处滤滤波波得得到到的的信信号号之之间间存存在耦合性。在耦合性。31 根根
16、据据人人耳耳的的听听觉觉特特性性得得出出的的模模型型作作为为语语音音识识别别的的特特征征提提取取部部分分,可可获获得得具具有有鲁鲁棒棒性性的的特特征征参参数数,它它们们对对真真实实世世界界中中的的噪噪音音环环境境下下的的语语音音识识别别都表现出很好的性能。都表现出很好的性能。322.4语音的感知语音的感知2.4.1几个概念几个概念1.人耳听觉界限的频率范围大约为人耳听觉界限的频率范围大约为20Hz-20kHz。2.语音感知的强度范围是语音感知的强度范围是0130dB声压级。声压级。3.语音的特性包括:音质,音调,音强,音长语音的特性包括:音质,音调,音强,音长3.响响度度这这是是频频率率和和强
17、强度度级级的的函函数数。通通常常用用响响度度(单单位位为为宋宋)和和响响度度级级(单单位位为为方方)来来表表示示。此此时时响响度度级级定定为为零零方方。测测量量表表明明听听阈阈值值是是随随频频率率变变化化的的。通通常,人们把常,人们把1kHz纯音听阈值定为零方。纯音听阈值定为零方。334 4.人耳刚刚可以听到的声音强度,称为人耳刚刚可以听到的声音强度,称为“听听阈阈”。加加大大声声音音的的强强度度,使使听听起起来来令令耳耳朵朵感感到到疼痛,这个阈值称为疼痛,这个阈值称为“痛阈痛阈”。5.音高音高(音调音调)音高也叫基音。音高也叫基音。物理单位为物理单位为Hz,主观感觉的音高单位是美,主观感觉的
18、音高单位是美(Mel)。当声强级为当声强级为40dB频率为频率为1kHz时,设时,设定的音高为定的音高为1000美。美。342.4.2 掩蔽效应掩蔽效应 掩蔽效应:掩蔽效应:两两个个响响度度不不等等的的声声音音作作用用于于人人耳耳时时,则则响响度度较较高高的的频频率率成成分分的的存存在在会会影影响响到到对对响响度度较较低低的的频频率率成成分分的的感感受受,使使其其变变得得不不易易察察觉觉,即即:一一个个声声音音的的听听觉觉感感受受性性受受同同时时存存在在的的另另外外一一个个声声音音的的影影响响,这这个个现现象象称称为为人人耳耳的的“掩掩蔽蔽效效应应”。此此时时前前者者称称为为被被掩掩蔽蔽音音,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 语音 信号 数学模型 PPT
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。