换一换

咨信网 > 资源分类 > PDF文档下载

预览

自信AI助手

自信AI导航

基于自适应软掩模的语音混合特征增强分析.pdf

资源ID：583919 资源大小：1.45MB 全文页数：4页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

VIP下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

声明 | 会员权益获赠5币写作

1、填表： 下载求助索取发票退款申请

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

基于自适应软掩模的语音混合特征增强分析.pdf

1、66ELECTRONIC ENGINEERING&PRODUCT WORLD 2023.8$电子产品世界Design设计应用&Application智能应用基于自适应软掩模的语音混合特征增强分析Speech mixing feature enhancement analysis based on adaptive soft mask闫泽愿（新乡职业技术学院，信息工程学院，河南新乡453000）摘要：为了提高语音混合特征增强效果，设计了一种以自适应软掩模与混合特征共同分析算法来实现。以混合特征分析可以消除单一梅尔域滤波器无法提供高频特征的缺陷。研究结果表明：选择融合相位自适应软掩模方式时，能够

2、最大程度去除背景噪声。以本文融合相位差自适应软掩模可以获得比IRM更显著优势，经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量的明显提升。以自适应软掩模与混合特征训练神经网络处理获得优秀的信噪比，达到更优的算法性能。关键词：语音增强；自适应软掩模；DNN；混合特征目前，音频处理技术获得了众多学者的关注与研究，相关语音处理技术也得到了开发应用1-2。例如，在开展语音增强时，需要根据语音特征来判断语音信息，各项语音特征对应的语音信息也存在差异，实际性能也具有明显区别3。但根据传统语音特征进行分析时，滤波器存在较大限制，并不能对人耳听觉非线性过程达到良好匹配性，这对系统语音增

3、强过程具有明显阻碍4。其中，梅尔滤波器组在高频率段表现为更加稀疏的特点，由此造成高频特征丢失的结果，按照人耳耳蜗结构构建的伽马通滤波器组能够非常准确体现人耳基底膜结构特征，同时实现优异鲁棒性能5,6。根据上述研究结果，本文设计了一种以自适应软掩模与混合特征共同分析的算法来实现语音增强的效果。以混合特征进行分析时，可以消除单一梅尔域滤波器无法提供高频特征的缺陷。1 本文方案选择IRM作为学习目标时，可以根据语音能量与噪语音强度比例将其设置于 01 区间内。采用 IRM 建立学习目标时，可以获得较小失真度的增强语音，同时有效消除背景残留噪声。关于上述传统学习目标控制情况，本文开发了一种以语音相位差

4、实现的自适应软掩模语音增强方法。上述学习目标综合考虑了语音幅度与相位差，能够对问题形成更深刻的理解。以混合特征组成深度神经网络输入，再以融合相位参数的自适应软掩模来实现语音增强的效果。此算法由训练与测试 2 个过程构成，从图 1 中可以看到包含混合特征与融合相位的系统框图。图1 本文语音增强算法系统 2023.8电子产品世界设计应用Design&Application智能应用1.1 训练阶段训练阶段第 1 步先对纯净语音、信号噪声、含噪语音实施预处理，之后利用 Gammatone 滤波器对上述音频信号开展时频分解，由此获得耳蜗值。进行反向调优时采用最小均方误差法进行处理，结果见式（1）：EVt

5、 fVt ftsoft=T1tT=1(,)(,)soft)2（1）式中，Vt fsoft(,)与 Vt fsoft(,)分别对应第 t 帧与第 f 频带最优时频掩蔽参数与采用网络模型估计得到的输出结果，T 为语音帧的总数量。1.2 测试阶段测试阶段先提取获得语音特征参数，再将其输入神经网络模型内，并根据网络模型确定学习目标。综合考虑测试集含噪语音特征与时频掩蔽值确定增强语音特征，最终利用含噪相位完成语音数据的重构。2 实验结果与分析2.1 实验数据的选取为了对本文混合特征与自适应软掩模过程的性能特点进行验证，从IEEE语音数据库内选出90条独立语音，信号频率保持一致。按照同样信噪比对剩余 20

6、条纯净语音与噪声后半段进行混合处理形成测试集。2.2 对比实验分析根据表 1 给出的对比算法对本文混合与学习目标进行有效性测试。表1 对比实验内容及其编号对比算法算法所使用的特征和学习目标算法1采用MFCC特征和IRM来训练DNN算法2采用混合特征和IRM来训练DNN算法3采用混合特征自适应软掩模来训练DNN以对比算法 1 进行处理是为了对本文混合特征性能优异性进行验证，根据对比算法 2 与 3 可知，本文建立的融合相位自适应软掩模能够满足有效性要求。为实现对本文算法性能的更直观判断，将语音置于 Factory 噪声环境中，控制信噪比为 5 dB 条件下获得增强算法时域波形。为综合分析本文算

7、法的实际处理性能，设置了PESQ 与 STOI 两个指标对混合特征与自适应软掩模进行有效性验证，得到表 24 中在不同噪声与信噪比环境中的 PESQ 与 STOI。根据表 2 可知，带噪语音信噪比为-5dB 的情况下，算法 1 与 2 显示，对于各噪声条件，PESQ 值提升了 0.11 的均值水平，STOI 值则获得了 0.02的提升。会与算法 2、3 相比，PESQ 值提升了 0.21，同时 STOI 提升了 0.02。表2 信噪比为-5dB的性能对比信噪比PinkFactoryWhitePESQSTOIPESQSTOIPESQSTOI带噪语音 1.2406 0.5851 1.3697 0.

8、5631 1.3352 0.6527算法11.5534 0.6862 1.5569 0.6279 1.8699 0.7581算法21.7685 0.7215 1.5678 0.6480 1.9852 0.7583算法31.9063 0.7372 1.8326 0.6832 2.2042 0.7751根据表 3 可知，带噪语音信噪比为 0dB 的条件下，各噪声下的 PESQ 值都提升达到 0.18，STOI 值提升了0.01。与算法 2、3 相比，PESQ 值提升了 0.16，同时STOI 提升了 0.01。表3 信噪比为0dB的性能对比信噪比PinkFactoryWhitePESQSTOIPE

9、SQSTOIPESQSTOI带噪语音 1.5285 0.6862 1.6079 0.6674 1.4695 0.7354算法12.0611 0.8071 1.8923 0.7559 2.2604 0.8379算法22.2108 0.8214 2.1517 0.7879 2.4040 0.8346算法32.4015 0.8305 2.3451 0.7951 2.4879 0.8497对表 4 进行分析可知，设置带噪语音信噪比 5dB 的条件下，各种噪声下的 PESQ 值都提升了近 0.12，此时STOI 值提升了 0.01。PESQ 值提升 0.16，STOI 指标提升 0.01。68ELECT

10、RONIC ENGINEERING&PRODUCT WORLD 2023.8$电子产品世界Design设计应用&Application智能应用表4 信噪比为5dB的性能对比信噪比PinkFactoryWhitePESQSTOIPESQSTOIPESQSTOI带噪语音 1.8554 0.7928 1.9261 0.7807 1.7930 0.8114算法12.4975 0.8841 2.4493 0.8664 2.6581 0.8982算法22.6582 0.8917 2.5654 0.8799 2.7428 0.8954算法32.8259 0.9072 2.7158 0.8885 2.9157

11、 0.9015综合分析表 24 中各项参数得到以下结果：1）对比算法 1 与 2 结果可知，混合特征增强语音属于单特征 MFCC，在所有信噪比与噪声环境中，PESQ 值都提升了 0.14，同时 STOI 提升了 0.01。根据算法 1 与 2 结果可以判断本文设计的混合特征具备明显优势，对提升语音质量发挥着关键作用。2）通过对比算法 2 与 3 结果可以发现，以本文融合相位差自适应软掩模可以获得比 IRM 更显著优势，对于本文信噪比与噪声环境，增强语音 PESQ 值提升了0.18，同时提升了 0.01 的 STOI。算法 2 与 3 表明采用本文融合相位差自适应软掩模能够在获得更优增强语音质量

12、的条件下改善可懂度。3）比较算法 1 与 3 测试结果可知，经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量的明显提升。增强语音 PESQ 值提升 0.32，STOI提升了0.03。表明本文设计的算法具备明显优势。为准确分析实验结果，将各算法对应的 PESQ 与STOI 均值具体见图 2 与图 3。从以上结果中可以推断本文设计的混合特征与融合相位自适应软掩模具备明显优越性。图 2 给出了各信噪比下以不同算法获得的增强语音PESQ 均值，结果发现，以自适应软掩模与混合特征训练神经网络处理获得的各信噪比 PESQ 均值都超过其余两种算法。由此表明采用本文经过改进后的语音特征与

13、目标达到更优的算法性能。-5050123 PESQ信噪比/dB 算法1 算法2 算法3图2 不同信噪比下增强语音PESQ平均值图 3 给出了各信噪比下以不同算法获得的增强语音STOI 均值，对图 3 进行分析可以发现，选择自适应软掩模与混合特征训练神经网络进行处理时获得的各个信噪比下的 STOI 值达到了最大。因此采用本文设计的混合特征能够对语音特性达到更准确评价的效果，并且利用融合相位差的自适应软掩模能够对时频单元掩蔽结果进行准确评估。通过上述两者的结合后能够在获得更优增强语音质量的条件下进一步促进可懂度的提高。-5050.00.20.40.60.81.0 STQI信噪比/dB 算法1 算法

14、2 算法3图3 不同信噪比下增强语音STOI平均值3 结束语1）选择融合相位自适应软掩模方式时，能最大程度去除背景噪声，满足有效性要求。(下转第71页) 2023.8电子产品世界设计应用Design&Application智能应用过程中融合了物品与类别信息，可以将物品类别与表征形成一一对应关系。CaSe4SR-W 则依次通过类别特征和物品实施建模，最后再对其实施融合。根据测试结果可知，CaSe4SR-W 模型表现出了比 Concat 与 CaSe4SR两种模型更差的性能，由此可以推断类别信息需结合物品信息共同建模，需根据物品参数才可以发挥信息补充功能。Concat 相对 Case4SR 模型推

15、荐性更弱，因此采用有向图表示类别序列，同时引入门控图神经网络建立模型的过程满足可靠性要求。3 结束语本文开展基于类别图增强算法的融合异构数据会话推荐分析，得到如下有益结果：1）设计了一种包含 5 层结构的 CaSe4SR 仿真模型，在融合层内融合物品与类别表征结果，确保物品表征中包含类别数据；根据注意力机制建立全局表征，再通过局部表征建立最终表示；通过预测层计算各候选对象推荐参数。2）设计得到的 CaSe4SR 模型对各类数据集都表现出了最优推荐性能，CaSe4SR-W 模型表现出了比Concat 与 CaSe4SR 两种模型更差的性能，推断类别信息需结合物品信息共同建模，需根据物品参数才可以

16、发挥信息补充功能。参考文献：1 贾丹,孙静宇.基于用户会话的TF-Ranking推荐方法J.应用科学学报,2021,39(3):495-507.2 任俊伟,曾诚,肖丝雨,等.基于会话的多粒度图神经网络推荐模型J.计算机应用,2021,41(11):3164-3170.3 方军,管业鹏.基于双编码器的会话型推荐模型J.西安交通大学学报,2021,55(8):166-174.4 WU S,TANG Y,ZHU Y,et al.Session-based recommendation with graph neural networksC.Proceedings of the AAAI Confer

17、ence on Artificial Intelligence,Hawaii,United States,2019,33(1):346-353.5 闫昭,项欣光.基于整体序列建模的会话推荐模型J.南京理工大学学报,2021,45(1):27-36.6 张海通,黄增峰.基于影响力扩散的会话推荐模型J.计算机应用研究,2021,38(7):1956-1962.7 南宁,杨程屹,武志昊.基于多图神经网络的会话感知推荐模型J.计算机应用,2021,41(2):330-336.8 WANG M,REN P,MEI L,et al.A collaborative session-based recomme

18、ndation approach with parallel memory modulesC.Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval,Paris,France,2019:345-354.9 曾义夫,牟其林,周乐,等.基于图表示学习的会话感知推荐模型J.计算机研究与发展,2020,57(3):590-603.10 李晶皎,孙丽梅,王骄.提高会话推荐多样性的SRL推荐系统模型J.东北大学学报(自然科学版),2013,

19、34(5):650-653+662.11 刘浩翰,吕鑫,李建伏.考虑用户意图和时间间隔的会话型深度学习推荐系统J.计算机应用与软件,2021,38(3):190-195+223.12 王鸿伟,过敏意.刻画长短期用户兴趣的基于会话的推荐系统J.中国科学:信息科学,2020,50(12):1867-1881.(上接第68页)2）经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量提升。3）以自适应软掩模与混合特征训练神经网络处理获得的各信噪比PESQ和STOI值都超过其余两种算法，采用本文经过改进后的语音特征与目标达到更优的算法性能。参考文献：1 李如玮,孙晓月,李涛.基于幂函数

20、压缩梅尔倒谱系数和掩膜后处理的多目标学习语音增强算法J.电子与信息学报,2021,43:1-8.2 孙坤伦,夏秀渝,孙文慧.基于听觉掩蔽效应的改进型维纳滤波算法J.计算机与网络,2020,46(13):4.3 葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法J.计算机应用,2019,39(10):6.4 鲍长春,项扬.基于深度神经网络的单通道语音增强方法回顾J.信号处理,2019,35(12):11.5 李鸿燕,屈俊玲,张雪英.基于信号能量的浊语音盲信号分离算法J.吉林大学学报(工学版),2015,(5):6.6 李如玮,孙晓月,李涛.基于幂函数压缩梅尔倒谱系数和掩膜后处理的多目标学习语音增强算法J.电子与信息学报,2021,43:1-8.

注意事项: 本文（基于自适应软掩模的语音混合特征增强分析.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】