基于多任务损失附加语言模型的语音识别方法.pdf
《基于多任务损失附加语言模型的语音识别方法.pdf》由会员分享,可在线阅读,更多相关《基于多任务损失附加语言模型的语音识别方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、江苏大學学报(自然科学版)JOURNAL OF JIANGSUUNIVERSITY(Natural Science Edition)D0I:10.3969/j.issn.1671 7775.2023.05.010基于多任务损失附加语言模型的语音识别方法2023年9月第44卷第5期Sept.2023Vol.44No.5开放科学(资源服务)标识码(OSID):号柳永利,张绍阳,王裕恒,解熠(1.长安大学信息工程学院,陕西西安7 10 0 6 4;2.陕西交通控股集团有限公司运营管理分公司,陕西西安7 10 0 6 5)摘要:针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模
2、型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer(A t t e n t i o n)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Con-former-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了
3、试验.结果表明:Conformer-CTC 模型相对于纯Conformer(A t t e n t i o n)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.7 9%.CTC损失可以改善Attention对齐方式在复杂环境中的适应性,并且对Conformer-CTC模型附加Transformer语言模型重打分后能再次提升0.30%的识别准确率.相较于现有的部分端到端模型,Conformer-CTC-Transformer模型识别
4、效果较好,说明该模型具有一定的有效性。关键词:语音识别;深度学习;语言模型;多任务损失;Conformer;T r a n s f o r me r;CT C中图分类号:TP391.9引文格式:柳永利,张绍阳,王裕恒,等基于多任务损失附加语言模型的语音识别方法J.江苏大学学报(自然科学版),2 0 2 3,44(5):564 569.Speech recognition method based on multi-task loss with文献标志码:A文章编号:16 7 1-7 7 7 5(2 0 2 3)0 5-0 56 4-0 6additional language modelLIU
5、 Yongli,ZHANG Shaoyang,WANG Yuheng,XIE Y?(1.School of Information Engineering,Changan University,Xian,Shaanxi 710064,China;2.Operation Management Branch of ShaanxiTransportation Holding Group Co.,Ltd.,Xian,Shaanxi 710065,China)Abstract:To solve the problems that the Attentions overly flexible alignm
6、ent was poorly adaptable incomplex environments and the language features were not fully utilized by simple end-to-end models,aspeech recognition method was investigated based on multi-task loss with additional language model.Byanalyzing the characteristics of the speech signal,the features containi
7、ng more information were selectedin the training.Based on the Attention-based Conformer end-to-end model,the model was trained usingmulti-task loss of CTC loss assisted pure Conformer(A t t e n t i o n),a n d t h e Co n f o r me r-CT C s p e e c hrecognition model was obtained.Based on the Conformer
8、-CTC model,by analyzing and comparing thecharacteristics and effects of some language models,the Transformer language model was added to the收稿日期:2 0 2 2-0 7-13基金项目:陕西省重点产业创新链(群)项目(2 0 2 1ZDLGY07-06)作者简介:柳永利(1997 一),男,甘肃平?人,硕士研究生(),主要从事人工智能、大数据研究。张绍阳(197 1一),男,山西襄汾人,教授(),主要从事智能交通、大数据研究.565第5期柳永利等:基于多
9、任务损失附加语言模型的语音识别方法training of the above model through re-scoring mechanism,and the Conformer-CTC-Transformer speechrecognition model was obtained.The experiments on the above model were completed on the AISHELL-1data set.The results show that compared with the pure Conformer(Attention)model,the chara
10、cter errorrate(CER)of the Conformer-CTC model on the test set is reduced by O.49%,and the CER of theConformer-CTC-Transformer model on the test set is reduced by 0.79%compared with the Conformer-CTC model.The adaptability of Attention alignment in complex environments can be improved by CTCloss,and
11、after re-scoring the Transformer-CTC model with the Transformer language model,therecognition accuracy can be increased by 0.30%again.Compared with some existing end-to-endmodels,the recognition effect of the Conformer-CTC-Transformer model is better,indicating that themodel has certain effectivenes
12、s.Key words:speech recognition;deep learning;language model;multi-task loss;Conformer;Transformer;CTC语音识别技术是语音信号处理技术的一个重要分支,它涉及包括声学、语音学和计算机科学等在内的诸多学科,是一项交叉技术.语音识别技术研究的是如何把语音信号转化为文本信息,其实现借助于计算机技术,使得机器能够自动将输人的语音信号转化为对应的文本信息输出.语音识别技术从2 0 世纪50 年代发展至今,已经出现了一些具有代表性的方法,例如基于声学和语音学、基于模式匹配和基于深度学习等的识别方法.基于模式匹配
13、的识别方法目前最成熟,效果较好的是以隐马尔科夫模型为基础的DNN-HMM模型.基于深度学习的识别方法是现在的热门方法,具有良好的复杂环境适应性.深度学习通过使用有多个处理层的深度图来对数据进行高级抽象建模 ,其较强的自适应性和良好的复杂环境适应能力促使其快速发展.近年来,自动语音识别(automatic speech recognition,ASR)已经从基于深度神经网络的混合模型逐渐转向端到端模型.端到端模型主要有基于链接时序分类(connec-tionist temporal classification,CT C)的端到端模型和基于注意力机制(Attention)的编码器解码器(En-c
14、oder-Decoder)模型2 种2 ,虽然其训练流程简单,可以不用训练声学模型和语言模型而直接输出文本,且其网络单一,相比于传统的混合模型更加紧凑,但由于其起步较晚,目前仍存在一些不足.首先,由于端到端模型不使用语言模型,因而未能充分利用语言特征,不利于提高识别的准确率.其次,端到端模型的2 种主要实现方式各有不足,基于CTC的模型对于标签序列中词与词之间的依赖关系无法有效进行建模处理3;而 Attention一开始注意范围太大,导致训练难以收敛4,并且对帧与标签之间的对齐关系没有限制,无效计算较多.目前,已有研究者在进行Attention与CTC的结合,如文献5将混合CTC/Attent
15、ion架构用于带口音普通话识别,文献6 将Transformer与CTC结合进行端到端语音识别等.针对上述问题,考虑到CTC具有直接优化输入序列与输出目标序列似然度的能力,且文献7 试验结果表明,Conformer端到端模型优于Transformer端到端模型.文中拟以基于 Attention 的 Conformer端到端模型为基础,采用CTC 损失辅助其训练而获得Conformer-CTC语音识别模型;并在此基础上,通过分析对比部分语言模型的特点与效果,将Trans-former语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模
16、型;最后,在希尔贝壳开源的17 8 h数据集(A I SH ELL-1)上对上述模型进行测试,并同现有部分端到端模型进行效果对比.1模型结构基于端到端的语音识别模型只有一个神经网络,它用一个损失函数作为训练的优化目标去优化有用目标,提高了模型训练效率,其实现主要有基于CTC 的端到端模型和基于Attention 的Encoder-Decoder模型2 种.文献8 试验数据也表明,基于Attention的Encoder-Decoder模型的字错率(charac-ter error rate,C ER)比基于CTC的端到端模型的CER更低.文献9 使用基于Attention的Encoder-Dec
17、oder模型的试验中,对词错率(word errorrate,WER)为8.3%的原始语音转录后可使其WER降至7.4%.通过上述试验结果可知,基于Attention的566江苏大学学报(自然科学版)第44卷Encoder-Decoder语音识别模型的识别效果优于基于CTC的端到端模型.而目前效果较好的基于At-tention 的 Encoder-Decoder 模型有Transformer 和Conformer72种.由文献7 可见,Conformer模型在LibriSpeech上的效果明显优于Transformer模型.基于上述分析,文中语音识别模型的基本网络结构选用 Conformer,
18、并在其训练过程中使用 CTC 进行辅助,在模型解码时附加Transformer语言模型进行重打分.最终得到ASR模型的结构如图1所示.Transformer解码器LM输入序列联人层图1ASR模型结构2模型中各模块结构的确定2.1语音信号特征及语言模型在语音处理过程中,常用的语音信号特征有语谱特征、Mel频率倒谱系数、FBank特征等.由于文中采用神经网络建模,而语音信号特征中适用于神经网络建模的有FBank特征和语谱特征,特征图见图2.25508000600040002.0000图2 FBank特征图与语谱特征图在语音信号特征的提取过程中,相比FBank特征的提取,语谱特征的提取过程不需要经过
19、Mel滤波器组的滤波操作,它包含了语音信号的所有频谱特征.因此,语音信号的语谱特征比FBank特征能够保留更多的原始信息,且其特征的提取过程比FBank简单,但FBank特征目前应用最为广泛.为了进一步对二者进行比较,文中分别提取两种语音特征,在相同条件下训练基于Transformer编码器的Conformer端到端ASR模型,以选取效果较好的特征在后续试验中使用.试验模型在AISHELL-1数据集上的测试结果如表1所示.表1提取不同语音信号特征模型的测试结果%CTC特征类型Conformer融合编码器解码输出序列Transformer解码器50100帧数/顿(a)FBank特征图0.51.0
20、1.52.0t/s(b)语谱特征图CER验证集FBank 特征6.3语谱特征5.8由表1可见,在数据集上提取语谱特征训练的模型CER比提取FBank特征训练的模型低,在试验中的识别效果相对较好.语言模型用来表示词与词之间的对应关系,是根据文本信息建立的语言抽象数学模型.其类型主要有规则语言模型、统计语言模型和神经网络语言模型3种,目前常用的是神经网络语言模型.神经网络语言模型中应用较多的有Transformer和长短期记忆(long short term memory,LST M)网络,其中,Transformer支持并行计算,性能方面更好,但在建立依赖关系方面比LSTM弱.LSTM可以更好地
21、处理时序相关的问题,但由于内存消耗高,它在资源受限环境中(例如便携式设备)的使用受到限制10 .为了选用较好的模型在后续试验中使用,在训练迭代次数等相同的条件下训练2 种语言模型,并在AISHELL-1数据集上对模型进行测试,试验模型测试结果如表2 所示.150200测试集6.56.1250表2 基于不同网络语言模型的测试结果语言模型验证集最优LossLSTM4.293Transformer3.991由表2 可见,试验中训练的Transformer语言模型比LSTM语言模型在AISHELL-1数据集上测试的2.5Loss值更低、困惑度更小,获得的模型效果更好.2.2Conformer网络及多任
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 任务 损失 附加 语言 模型 语音 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。