语音识别调查报告范文.docx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 调查报告 范文
- 资源描述:
-
语音识别调查报告范文 让计算机能听懂人的语言,是自计算机诞生以来人类便梦寐以求的,Intel创办人Gordon Moore曾说,语音技术是影响未来科技发展最关键的技术;IBM总裁Lou Gerstner指出,有朝一日,将有数十亿的人运用自然语言在Intern et上浏览、查询【’]。随着移动电话、掌上电脑、PDA等移动设备以及移动计算环境中各类智能设备的广泛应用,使用语音作为用户操作界面的要求越来越迫切,移动设备体积小,计算能力和存储空间有限,其使用场合又往往处于复杂、多变的噪声环境中,使得基于这类设备的语音识别实用技术面临许多挑战。如今语音识别的应用领域不断拓展,在军事、工业、家电、消费电子、交通等各方面都得到了广泛的应用。常见的应用有: (1>语音控制语音识别技术可实现这样的功能,利用声音来控制一台机器设备的运行。例如现在的智能家电,就可以通过语音控制其开关和其他功能的实现。语音控制一方面可以提高工作效率,另一方面也可以在人们手脚被占用的时候实现控制,解放人们的双手。 (2)语音输入利用语音识别技术,将人们的声音信号直接转换成相应的文字输入计算机系统,不仅可以代替键盘使文字的输入工作更加省力和高效,同时也为那些不熟悉键盘输入法的人们提供了一种新的文字输入途径。 (3)身份识别和指纹类似,人们的声纹也具有较强的排他性,因此可以利用语音识别来进行身份的识别和确认工作。 语音识别一般有广义和狭义之分。广义的语音识别指的是从语音信号中提取出任何人们感兴趣内容的技术,而我们通常所说的语音识别指的是狭义的语音识别,即从语音信号中提取出文本内容的技术。也就是通过算法,将语音转换成文本的过程[}2}根据识别的对象不同,语音识别大致分为3类:孤立词识别,连续语音识别,关键词识别。 其中孤立词识别是识别事先己知的孤立词,如“开始”、“结束”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或者一段话;连续语音流中的关键词检测针对的也是连续语音,但它并不要求识别全部文字,而只是检测己知关键词在何处出现,如在一段话中检测“西安”、“中国”这两个词。根据语音识别系统所针对的发音人,可以将语音识别分为2类:特定人语音识别和非特定人语音识别。 其中前者只能识别特定的一个人或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面CPC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使发音的声学特性产生变形,因此需要构造各自的识别系统。 虽然当前语音识别技术在实际应用中取得了较好效果,但我们也应清醒的认识到其中存在的问题并对其进行深入的分析。目前国内外对语音识别技术研究存在的主要问题有: (1>标准输入的问题缺乏标准输入是目前语音识别面临的主要难 题之一。因为语言、方言之间的差异, 所以很难确定一个标准的输入,导致实际使用时误识率过高,较难达到人们预期的效果。即使语言相同,我们每个人的发音习惯也不尽相同,这就导致了根据某些人的语音数据 设计出来的语音识别系统很难适应所有的使用者。因此目前绝大多数的语音识别系统在使用前,都需要使用者对其进行适应性训练,使其习惯自己的发音,以提高识别的正确率。另外,对语音识别的输入设备缺乏统一标准也是导致语音输入不标准的重要方面。 因为当前的录音设备都是以人能听清,听懂为标准进行设计的,至于如何调整输入设备的各项参数,使其适应计算机识别的特点,让识别系统能够更好的分辨,对此我们还需要做大量的数据收集,分析和研究工作。 (2)环境噪声的问题环境噪声的干扰也是语音识别研究中一个不可回避的问题。在实际应用时,我们并不能保证识别系统始终处于一个安静的环境中工作。大多数的应用场景总是存在着环境噪声,且不同场景的噪声也各不相同。我们在语音识别系统开发时很难做到训练环境和真实环境的匹配,导致很多识别系统在实验室环境下识别效果很好,但是到了实际应用的场景,一旦遇到较强的环境噪声,识别的效果就大打折扣了。所以说,噪声环境中语音识别要比安静环境下困难很多。目前解决环境噪声干扰问题的途径主要有三个:一是在语音识别的前端,即语音输入环节,开发抗噪性能更好的语音输入设备,从源头上降低语音信号中的噪声分量;二是在对己经混入了噪声的语 音信号进行特征提取时,选取抗噪性高的特征参数;三是在对语音识别系统进行训练时,充分考虑到噪声的干扰问题,进行针对性的训练以提高系统识别的鲁棒性。 (3)协同发音现象:人们在交流时很少一个字一个字的孤立发音,多数情况下都是按照自己的习惯连续发音,这时原本孤立的声学单元就会受到上下文的影响而发生模糊、变异。因此无论在语音识别系统中选取何种建模单元(词、音节、声韵母、音素),都需要对这些单元之间的相互影响做细化处理,这样就会带来模型数目的剧增和训练数据的相对医乏。 语音信号处理是以语音学和数字信号处理为基础,涉及语言学、模式识别、机器学习、人工智能、信息论等领域的一门综合性学科,它主要包括四个部分:语音识别(Speech Recognition)、语音合成(Speech Synthesis)、语音编码(SpeechCoding)和语音分类(Speech Classification)}4]。语音识别是指机器从语音信号中提取语言信息,从而使机器能够有效地理解和执行发声者的各种意图,其目的是要让机器听懂人类口述的语言,“听懂’,有两层含义,其一是指将语音转换为文本,其二是指理解语音包含的意义。通常所说的语音识别是指第一层含义,而第二层含义则属于语言理(LanguageUnderstanding)的范畴,让机器听懂我们的话语,是自动语音识别(Automatic Speech Recognition, ASR要研究的课题。ASR的最终目标是要将连续的语音自动地变换成文本字符,实现所谓的音字转换。在日常生活中,人们用数以万计的词语,组成连续的语句来进行交谈,在这种自然发音的 语句中,由于协同发音以及语调、重音和抑扬顿挫等节律的影响,很多音素的声学特性跟单字念读时差别很大,这给ASR带来了许多挑战。 在语音识别方法中,目前占主导地位的是基于统计的模式识别方法〔川。一段语音波形通过前端信号处理后可以得到一组特征序列。在给定观测序列Y的情况下识别系统采用最大后验概率准则决定输出词序列(2-1)其中,P(幼与词序列W无关,因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)为语一言模型,表示特定词序列出现的先验概率,与观测语音信号无关;P(Y}W)为声学模型,表示给定词序列W情况下输出Y的概率,也就是给定声学模型输出Y的概率。如图所示,大词汇量连续语音识别系统是一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。从语音数据提取声学特征并输入到解码器,利用声学模型和语言模型,基于最大后验概率准则解码,并对解码输出进行错误处理,得到最终的识别结果展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




语音识别调查报告范文.docx



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/6141651.html