DSP语音信号处理论文.doc
《DSP语音信号处理论文.doc》由会员分享,可在线阅读,更多相关《DSP语音信号处理论文.doc(25页珍藏版)》请在咨信网上搜索。
1、DSP语音信号处理课程设计论文目录第一章 绪论11.1语音信号处理技术简介11.2 语音识别系统11.3 语音识别的关键技术2第二章 MATLAB的GUI设计原理42.1 MATLAB的GUI设计概述42.2 语音信号处理工具箱GUI设计步骤5第三章 基于MATLAB的语音信号处理GUI设计82.1 语音信号的短时分析92.2 分析语音信号的短时谱特性92.3 语音信号倒谱与复倒谱的分析102.4 运用自相关方法估计语音信号的声道参数112.5 基音周期检测122.6 语音信号增强142.7 语音信号端点检测162.8基于MATLAB的语音信号工具箱GUI设计17 第四章 总结与展望18附录1
2、9参考文献2524第一章 绪论1.1语音信号处理技术简介 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为计算机、自动化系统等建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化和自动化程度。 语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科
3、,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模
4、型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 语音信号处理技术的应用极其广泛,涉及工业、军事、交通、医学、民用等各个领域,其中最重要的包括语音编码、语音合成、语音识别以及语音增强等。1.2 语音识别系统 根据对说话人说话方式的要求,可分为孤立词语音识别系统,连接词语音识别系统和连续语音识别系统。 根据对说话人的依赖程度,可分为特定人语音识别系统和非特定人语音识别系统
5、。根据词汇量大小,可分为小词汇量、中等词汇量、大词汇量及无限词汇量语音识别系统。 孤立单词识别系统,孤立单词指单词之间有停顿,这可使识别问题大为简化。因为单词的端点检测(即检测单词的起点和终点)比较容易,而且单词之间 协同发音影响可减至最低。此外,一般对孤立单词发音比较认真,由于单词之间必须有停顿,读起来就不能太流利。鉴于以上原因,孤立单词识别系统存在的问题最少,其许多技术可以用于单词挑选和连续语音识别系统。 连续语音识别系统有两个重要问题是孤立单词识别系统所没有的: 切分,即对单词之间边界位置的确定。因为语言中短语的数量太大,对整个短语进行识别显然是不可能的,必须把输入的语流切分为更小的组成
6、部分。这就要求系统必须能够识别单词之间的边界。这一点比较困难,因为确定单词之间的边界位置没有现成的方法。发音变化,即关联语言的发音比孤立单词发音更随便,受协同发音的影响更为严重。解决上述问题通常采用扩展动态时间规整技术。 语音理解一词出自美国远景研究计划局资助的一个庞大的连续语音识别研究项目,其目标称为语音理解系统。众所周知,只有人才能很好地识别语音,因为人对语音有广泛的知识,人对要说的话有预见性和感知分析能力,因此,指望机器对语言的识别能力超过人是不现实的,最好的办法是使机器也能“理解”语言,并且能象人一样运用这种理解力。由于在人工智能领域对知识的应用和知识的表示问题更加感性趣,这对语音识别
7、来说无疑是有力地鼓舞。 运用这种理解力可以指望系统: 能排除噪声和嘈杂声(即含糊不清或无关的语言); 能理解上下文的意思并能用它来纠正错误,澄清不确定的语义; 能够处理不合语法或不完整的语句。由此看来,语音理解系统的主要问题是知识的表示和系统的组织问题。 与其它语音处理问题相比,该系统更加依赖于人工智能研究。1.3 语音识别的关键技术 语音识别的关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音识别单元选取。特征参数提取技术:所谓特征参数提取,就是从语言信号中提取用于语音识别的有用信息。研究人员已对许多可以表征说话人个人特征的语音特征进行了探讨,大多数特征选取方案不是试图集中在声道
8、构造的个体差异方面,就是试图集中在说话习惯的个人特征方面。特征参数提取所考虑的参数为:()单词中选定位置上的基音;()鼻辅音的频谱特性;()选定元音的频谱特性;()激励频谱的估计斜率;()擦音的频谱特性;()选定元音的时长;()选定语言环境中提前发声的存在。 采用试验句进行录音时所考虑的特征参数为:元音的共振峰频率和共振峰带宽以及声门源的极点(由阶线性预测分析来计算);鼻辅音中极点频率的位置;选定实验句的基音轮廓;时变特性,尤其是在复合?音的整个发音期间和音位的收尾阶段第二共振峰的变化率。 线性预测分析是应用较广的特征参数提取技术,其核心是由信号的过去值预测其将来值。线性预测的概念早在本世纪年
9、代就已被提出,然而将其应用于语音识别,不仅希望利用其预测功能,而且要求它为我们提供一个非常好的声道模型,而这样的声道模型对于理论研究和实际应用都是相当有用的。此外,声道模型的优良性能不仅意味着线性预测是语音编码的特别合适的编码方法,而且意味着预测参数是语音识别的非常重要的信息来源。 模式匹配及模型训练技术:模式匹配是指根据一定准则,使未知模式与模型库中某一模型获得最佳匹配。模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的模型参数。语音识别所应用的模式匹配和模型训练技术有:动态时间规整技术、隐马尔克夫模型、人工神经网络。 ANN在语音识别中的应用是目前研究的热点。该网络本质上是一个
10、自适应非线性动力学系统,模拟了人类大脑神经元活动的基本原理,具有学习、记忆判断、联想、对比、推理、概括等能力。与HMM和ANN相比,DTW是较早的一种模式匹配和模型训练技术,它应用动态规划法成功地解决了在语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好的性能。但由于它不适合连续语音大词汇量语音识别系统,目前已被HMM和ANN所代替。 语音识别单元的选取是语音识别研究工作很重要的第一步,语音识别单元有单词、音节、音素三种,具体选哪种,由研究任务决定。单词单元适用于中小词汇语音识别系统,不适合于大词汇系统。因为庞大的模型库意味着繁重的模型训练任务和复杂的模型匹配算法,这难以满
11、足实时性要求。音节单元多见于汉语识别,主要因为汉语是单音节结构的语言,而英语等语言是多音节。如果不考虑声调的话,汉语大约有个音节,这个数量相对较少。所以,对于大词汇量汉语语音识别系统而言,以音节为识别单元是较为合适的。音素单元多用于英语语音识别研究,因为英语是多音节语言。 第二章 MATLAB的GUI设计原理2.1 MATLAB的GUI设计概述图形用户界面(Graphical User Interfaces ,GUI)则是由窗口、光标、按键、菜单、文字说明等对象(Objects)构成的一个用户界面。用户通过一定的方法(如鼠标或键盘)选择、激活这些图形对象,使计算机产生某种动作或变化,比如实现计
12、算、绘图等。MATLAB 为表现其基本功能而设计的演示程序demo 是使用图形界面的最好范例。MATLAB的用户,在指令窗中运行demo 打开那图形界面后,只要用鼠标进行选择和点击,就可浏览那丰富多彩的内容。用户图形界面(GUI)是程序的图形化界面。一个好的GUI 能够使程序更加容易的使用。提供用户一个常见的界面,还提供一些控件,例如,按钮,列表框,滑块,菜单等。用户图形界面应当是易理解且操作是可以预告的,所以当用户进行某一项操作,它知道如何去做。例如,当鼠标在一个按钮上发生了单击事件,用户图形界面初始化它的操作,并在按钮的标签上对这个操作进行描述。创建MATLAB 用户图形界面必须由三个基本
13、元素:1. 组件. 在matlab GUI 中的每一个项目(按钮,标签,编辑框等)都是一个图形化组件.组件可分为三类:图形化控件(按钮,编辑框,列表,滚动条等),静态元素(窗口和文本字符串),菜单和坐标系. 图形化控件和静态元素由函数uicontrol 创建,菜单由函数uimenu 和uicontextmenu 创建,坐标系经常用于显示图形化数据,由函数axes 创建.2. 图象窗口(Figure)。GUI 的每一个组件都必须安排图象窗口中。以前,我们在画数据图象时,图象窗口会被自动创建。但我们还可以用函数figure 来创建空图象窗口,空图象窗口经常用于放置各种类型的组件。3. 回应。最后,
14、如果用户用鼠标单击或用键盘键入一些信息,那么程序就要有相应的动作。鼠标单击或键入信息是一个事件,如果matlab 程序运行相应的函数,那么matlab函数肯定会有所反应。例如,如果用户单击一按钮,这个事件必然导致相应的matlab语句执行。这些相应的语句被称为回应。只要执行GUI 的单个图形组件,必须有一个回应。 2.2 语音信号处理工具箱GUI设计步骤步骤一:创建AXES 图2-2创建AXES步骤二创建PUSH BUTTON图2-3创建PUSH BUTTON步骤三:修改PUSH BUTTON属性图2-4修改PUSH BUTTON属性(一)图2-5修改PUSH BUTTON属性(二)步骤四:保
15、存GUI图2-6保存GUI步骤五:CALLBACK图2-7 CALLBACK步骤六:加载功能模块函数图2-8加载功能模块函数第三章 基于MATLAB的语音信号处理GUI设计2.1 语音信号的短时分析一定时宽的语音信号,其能量的大小随时间有明显的变化。其中清音段(以清音为主要成份的语音段),其能量比浊音段小得多。短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上,可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,因而,对一短时语音段计算其短时平均能量及短时平均过零数,就可以较好地区分其中的清音段和浊音段,从而可判别句中清
16、、浊音转变时刻,声母韵母的分界以及无声与有声的分界。这在语音识别中有重要意义。所用语音信号文件名为3.wavMatlab编程实验步骤: 1新建M文件,扩展名为“.m”,编写程序; 2选择File/Save命令,将文件保存在F盘中; 3在Command Window窗中输入文件名,运行程序;Matlab部分函数语法格式: 读wav文件: x=wavread(filename) 数组a及b中元素相乘: a.*b创建图形窗口命令: figure绘图函数: plot(x) 坐标轴: axis(xmin xmax ymin ymax)坐标轴注解: xlabel() ylabel() 图例注解: lege
17、nd( )一阶高通滤波器: y=filter(1-0.09375,1,x)分帧函数: f=enframe(x,len,inc) x为输入语音信号,len指定了帧长,inc指定帧移,函数返回为nlen的一个矩阵,每一行都是一帧数据。基于MATLAB的语音信号的短时分析GUI设计如图3-1图3-1 基于MATLAB的语音信号的短时分析GUI设计2.2 分析语音信号的短时谱特性周期性声门波可表示为: un= gn* pn 其中, gn是声门波的单周期的波形,pn是间隔为 P 的周期采样序列。当 un通过线性非时变声道,且该声道的单位冲击响应为 hn时,声道输出为: xn=hn*(gn*pn) 为了观
18、察一段语音,需要将声道输出乘以一个以时刻为中心的窗函数 wn,即得到: x n , = w n , h n*( g n* p n )这段语音信号的频域表达式为 :即语音信号的谱包络为 语谱图就是显示时变频谱幅度特征的图形表达式为 语谱图分析语音又称语谱分析,与谱图中显示了大量的语音的语句特性有关的信息,它综合了频谱图和时域波形的优点,明显地显示出语音频谱随时间的变化情况。预铺土实际上是一种三维频谱,即同时在实践和频率上显示出语音的特性,或者说是一种动态的频谱。 窄带语谱图可以得到较好的频域分辨率(即以较窄的频域间隔观察频域上的正弦波成分),窗长通常为至少两个基音周期的“长窗” ;而宽带语谱图可
19、以给出较好的时域分辨率(即以较窄的时域间隔观察时域波动),窗长为小于一个基音周期的“短窗” 。 程序应具有加窗(分帧)、计算、以及绘制曲线等功能。录入语音数据并进行处理。使用函数specgram_ex3p19.显示语谱图和语音波形。对比调用参数窗长20ms(200 点)、帧间隔1ms(10点)和参数窗长5ms(50 点)、帧间隔1ms (10点);再对比窗长20ms 或小于 5ms, 以及帧间隔1ms时的语谱图说明宽带语谱图、窄带语谱图与时频分辨率的关系及如何得到时频折中。基于MATLAB的分析语音信号的短时谱特性GUI设计如图3-2图3-2 基于MATLAB的分析语音信号的短时谱特性GUI设
20、计2.3 语音信号倒谱与复倒谱的分析同态信号处理的基本原理: 设输入信号,将卷积性信号转化为加性信号。包括三部分,首先,然后,最后,特征系统的逆变换。首先对系统输出的加性信号进行Z变换,得:然后进行指数运算,得到的是乘积性信号最后进行逆Z变换,得到卷积性的语音恢复信号基于MATLAB的语音信号倒谱与复倒谱的分析GUI设计如图3-3图3-3 基于MATLAB的语音信号倒谱与复倒谱的分析GUI设计2.4 运用自相关方法估计语音信号的声道参数由均方预测误差最小的得到正则方程 (4-1)其中,(4-2)在最佳解时的误差为 (4-3)在自相关法中式4-1,式4-3变为(4-4) (4-5)由 式4-4
21、可列出方程组式4-6 (4-6)解方程组 式4-6 求出线性预测系数,通过误差式4-5可求出增益G(4-7)基于MATLAB的运用自相关方法估计语音信号的声道参数GUI设计如图3-4图3-4 基于MATLAB的运用自相关方法估计语音信号的声道参数GUI设计2.5 基音周期检测自相关检测原理中心消波法检测原理三电平中心消波法原理基于MATLAB的基音周期检测GUI设计如图3-5图3-5 基于MATLAB的基音周期检测GUI设计2.6 语音信号增强噪声来源于实际的应用环境,因而其特性变化很大。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过变换转变为加性噪声。例如,乘积性噪声或卷积
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DSP 语音 信号 处理 论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Fis****915】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Fis****915】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。