基于特征融合与Transf...声音事件定位与检测算法研究_濮子俊.pdf
《基于特征融合与Transf...声音事件定位与检测算法研究_濮子俊.pdf》由会员分享,可在线阅读,更多相关《基于特征融合与Transf...声音事件定位与检测算法研究_濮子俊.pdf(9页珍藏版)》请在咨信网上搜索。
1、 基于特征融合与T r a n s f o r m e r模型的声音事件定位与检测算法研究*濮子俊,张寿明(昆明理工大学信息工程与自动化学院,云南 昆明 6 5 0 5 0 0)摘 要:针对多通道环境声音检测问题,提出了一种引入T r a n s f o r m e r结构的特征融合网络模型T B C F-MT NN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过C NN和G RU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过C r o s s-s t i t c h模块进行融合,有效解决了传统网络中多特征信息无法共享的问题;然后,将融合后的特征图送入T r a n s
2、f o r m e r进行特征的再次采集;最终,通过全链接层输出分类和定位结果。在T AU-N I G E N S 2 0 2 0数据集上的实验结果表明,所提出的T B C F-MT NN网络在声音检测任务中的分类错误率能够减小至0.2 6;在声源定位任务中与B a s e l i n e相比较其定位误差减小至4.7;通过和B a s e l i n e、F P N、E I N等模型相比较,结果表明所提网络具有更优的识别检测效果。关键词:声音事件定位与检测;深度学习;T r a n s f o r m e r模型;C r o s s-s t i t c h;特征融合中图分类号:T P 5 1
3、0.4 0 1 0;T P 5 2 0.2 0 5 0文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 7A s o u n d e v e n t l o c a l i z a t i o n a n d d e t e c t i o n a l g o r i t h m b a s e d o n f e a t u r e f u s i o n a n d T r a n s f o r m e r m o d e lP U Z i-j u n,Z HANG S h o u-m i n g(F a
4、 c u l t y o f I n f o r m a t i o n E n g i n e e r i n g a n d A u t o m a t i o n,K u n m i n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,K u n m i n g 6 5 0 5 0 0,C h i n a)A b s t r a c t:A i m i n g a t t h e p r o b l e m o f m u l t i-c h a n n e l e n v i r o n m e n t
5、 a l s o u n d d e t e c t i o n,a f e a t u r e f u s i o n n e t w o r k m o d e l T B C F-MT NN i s p r o p o s e d,w h i c h i n t r o d u c e s t h e T r a n s f o r m e r s t r u c t u r e.T h e n e t w o r k s t r u c t u r e t a k e s l o g a r i t h m i c M e l-s p e c t r u m a n d g e n e
6、 r a l i z e d c r o s s-c o r r e l a t i o n s p e c t r u m a s i n p u t.F i r s t l y,t h e l o c a l f e a t u r e s o f t h e s p e c t r u m a n d t h e t e m p o r a l c o n t e x t r e l a t i o n s h i p f e a t u r e s a r e o b t a i n e d t h r o u g h C NN a n d G RU,a n d t h e n t h
7、 e t w o f e a t u r e m a p s a r e m e r g e d t h r o u g h t h e C r o s s-s t i t c h m o d u l e,w h i c h c a n e f f e c t i v e l y s o l v e t h e t r a d i t i o n a l p r o b l e m t h a t m u l t i-f e a t u r e i n f o r m a t i o n c a n n o t b e s h a r e d i n t h e n e t w o r k.S
8、 e c o n d l y,t h e f u s e d f e a t u r e m a p i s s e n t t o T r a n s f o r m e r f o r r e-c o l l e c t i o n o f f e a t u r e s.F i n a l l y t h e c l a s s i f i-c a t i o n a n d p o s i t i o n i n g r e s u l t s a r e o u t p u t t h r o u g h t h e f u l l l i n k l a y e r.T h e v
9、 e r i f i c a t i o n o n T AU-N I G E N S 2 0 2 0 d a t a s e t s h o w t h a t,c o m p a r e d w i t h t h e B a s e l i n e m o d e l,t h e T B C F-MT NN n e t w o r k c a n r e d u c e t h e c l a s s i f i c a t i o n e r r o r r a t e t o 0.2 6 i n t h e s o u n d d e t e c t i o n t a s k,a
10、n d r e d u c e t h e l o c a l i z a t i o n e r r o r t o 4.7 i n t h e s o u n d s o u r c e l o c a l i z a t i o n t a s k.C o m p a r e d w i t h B a s e l i n e,F P N,E I N a n d o t h e r m o d e l s,t h e p r o p o s e d m o d e l h a s a b e t t e r r e c o g n i t i o n e f f e c t.K e y
11、w o r d s:s o u n d e v e n t l o c a l i z a t i o n a n d d e t e c t i o n;d e e p l e a r n i n g;T r a n s f o r m e r m o d e l;C r o s s-s t i t c h;f e a t u r e f u s i o n*收稿日期:2 0 2 1-0 8-0 2;修回日期:2 0 2 1-1 2-1 3通信作者:张寿明(1 4 1 1 8 3 4 9 7 4q q.c o m)通信地址:6 5 0 5 0 0 云南省昆明市呈贡区昆明理工大学呈贡校区信息工
12、程与自动化学院A d d r e s s:F a c u l t y o f I n f o r m a t i o n E n g i n e e r i n g a n d A u t o m a t i o n,C h e n g g o n g C a m p u s,K u n m i n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,C h e n g g o n g D i s t r i c t,K u n m i n g 6 5 0 5 0 0,Y u n n a n,P.R.C h i n
13、 a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 9 7-0 91 引言如何在复杂声音环境中对多目标声源进行准确识别是目前研究的热点与难点。复杂环境中的多声音 事 件 分 类 任 务 就 是 声 音 事 件 检 测S E D(S o u n d E v e n t D
14、 e t e c t i o n)。一般情况下,环境中会同时出现多种声音事件,传统信号处理算法已经不能满足任务的需求,因此基于人工智能的环境声音事件识别算法成为了主要研究方向。目前有许多研究人员开展了大量工作,以提高多个相互重叠的声音事件的识别准确率1 5。为了能够更加准确地实现S E D,数据集一般采用多麦克风阵列录制,获取到的多通道声音数据既包含了声音的振动信息又包含了通道间的空间信息,这些特征信息能够更准确地将声音事件区分开来。因此在S E D任务中使用的特征不仅有单通道的特征,例如声谱图、梅尔频率倒谱系数MF C C(M e l F r e q u e n c y C e p s t
15、r a l C o e f f i c i e n t)特征以及对数梅尔频谱图L o g-M e l(L o g-M e l s p e c t r u m)特征等,同时也有多通道间的空间特征信息,例如通道间相位差I P D s(I n t e r-c h a n n e l P h a s e D i f f e r e n c e s)、广义互相关G C C(G e n e r i a l i z e d C r o s s-C o r r e l a t i o n)矩阵等。利用这2类声音特征不仅可以实现声音事件检测,同时还可以实现环境声源的定位,将这2个任务相结合就实现了声音事件定位与
16、检测S E L D(S o u n d E v e n t L o c a l i z a t i o n a n d D e t e c t i o n)。目前绝大多数利用多通道声音数据的研究集中于S E L D任务6 1 0。相较于传统的声音识别算法,深度学习算法具有更高的识别准确率,许多深度学习网络结构在机器视觉、语音识别以及自然语言处理等领域都表现出了优异的性能,因此这些网络结构被借鉴到环境声音识别领域,在S E L D任务中也有相对较高的识别准确率。目前应用于环境声音识别的深度学习算法大 多是有监督 学习算法,以 卷积神经 网络C NN(C o n v o l u t i o n a
17、 l N e u r a l N e t w o r k)和循环神经网络R NN(R e c u r r e n t N e u r a l N e t w o r k)相结合的网络结构为主。C NN的作用是学习特征的局部信息,R NN的作用是学习特征的时间上下文关系。C NN-L S TM(C o n v o l u t i o n a l N e u r a l N e t w o r k-L o n g S h o r t T e r m M e m o r y)1 1便是一种能够同时捕捉到2种特征的网络结构,同时它也具有较好的性 能。S h i m a d a等 人9基 于D 3 N
18、e t(D e n s e l y c o n n e c t e d D i l a t e d D e n s e N e t)1 2提 出 了 一 种R D 3 N e t(R e c u r r e n t D e n s e l y c o n n e c t e d D i l a t e d D e n s e N e t),这种网络结构在多层C NN之后加入了R NN中一种更为高效的门控循环单元G RU(G a t e d R e c u r r e n t U n i t)1 3结构。R D 3 N e t不仅可以实现声音的准确识别,同时能够利用多通道声音信息对声源进行定位。
19、但是使用R NN仍有局限性,网络训练时间长、参数量大、训练难。为了更好地解决这个问题,V a s w a n i等人1 4提出了基于自注意力机制的T r a n s f o r m e r网络结构,极大地提升了效率。另外一种思路是直接利用C NN实现类似于R NN的 功 能。B a i等 人1 5提 出 的T C N(T e m p o r a l C o n v o l u t i o n a l N e t w o r k)网络结构可以通过大幅扩展C NN的感受野来捕捉更多的上下文时序关系。G u i r g u i s等人1在R D 3 N e t的基础上将G RU部分替换为T C N结
20、构,提出了S E L D-T C N网络来提升识别效率。本文在T r a n s f o r m e r的基础上提出了一种基于T r a n s f o r m e r的 融 合 特 征 多 任 务 神 经 网 络T B C F-MT NN(T r a n s f o r m e r B a s e d C o m b i n e F e a-t u r e M u l t i T a s k N e u r a l N e t w o r k)对多通道的环境声音进行识别。该网络使用对数梅尔谱和广义互相关谱作为网络输入,将这2种特征分别送入融合特征的网络中,该神经网络由2部分相同的模型组成,2
21、部分网络隐藏层输出的部分特征图经过加权融合后,经由2组全链接网络处理,分别输出多通道声音事件的定位和检测结果。同时由于S E L D为典型的多任务问题,本文引入了十字绣(C r o s s-s t i t c h)模块1 6来提升网络的性能。十字绣的优势在于能够共享多任务模型平行空间的参数,以实现不同类型任务的泛化。本文工作安排如下:第2节对算法设计原理进行介绍;第3节分析实验数据和实验结果;第4节进行总结及未来工作展望。2 算法原理及网络结构2.1 声学特征本文选用L o g-M e l特征作为声音的时频域特征。L o g-M e l特征的提取过程如下:(1)对数据进行预处理,即对数据进行预
22、加重、分帧加窗和归一化等操作。(2)利用短时傅里叶变换S T F T(S h o r t T i m e F o u r i e r T r a n s f o r m)提取声音信号的声谱图。(3)将获取的声谱图通过一组梅尔(M e l)滤波器获得M e l频谱图。其中M e l三角滤波器的频率8901C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)响应定义如式(1)所示:HM(k)=0,kf m-1()2k-f m-1()()f(m+1)-f(m-1)()f(m)-f(m-1)(),f(m-
23、1)kf(m)2f(m+1)-k()f(m+1)-f(m-1)()f(m)-f(m-1)(),f(m)f(m+1)?(1)其中,k为频点,f()为梅尔滤波器函数,m为滤波器数。(4)对得到的M e l频谱图取对数得到M e l对数功率谱,即L o g-M e l频谱。对于通道间的声源空间信息,本文选用广义互相关作为空间特征,通过广义互相关函数计算所得的峰值位置可以用来估计通道间声音到达的时延。采用相位变化P HAT(P H r A s e T r a n s f o r m)加权方法锐化1 6后的互相关函数的峰值可以更加准确地估计声音到达2个阵元间的时延,进而准确地显示声源的空间信息。广义互相
24、关函数如式(2)所示:R1 2()=12+-1 2()X1()X*2()ej d(2)其中,和分别为时延和频率,R1 2()为2个序列的广义互相关,1 2()为加权函数,X1()和X2()分别为2个信号经过F o u r i e r变换后的结果,X*2()为X2()的共轭。P HAT加权函数如式(3)所示:1 2()=1X1()X*2()(3)2.2 T r a n s f o r m e r网络结构基于自注意力机制的T r a n s f o r m e r网络E n-c o d e r部分的基本结构1 4如图1所示。该部分由多头自注意力模块MH S A(M u l t i-H e a d
25、S e l f A t-t e n t i o n)和前馈网络组成,其中多头自注意力模块原理描述如式(4)和式(5)所示:Q=WQIK=WKIV=WVI?(4)A t t e n t i o n Q,K,V()=s o f t m a xQ KTdkV()(5)其中,Q,K和V分别代表查询的内容(Q u e r y)、匹配的关键值(K e y)和返回值(V a l u e)矩阵,这3个值由网络节点输入的I分别乘以3个不同的矩阵WQ、WK和WV获得;dk为缩放率,为查询内容(Q u e r y)和关键值(K e y)矩阵执行内积运算后所得到矩阵的方差。为了提升网络的训练效率,多头自注意力 模 块
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 融合 Transf 声音 事件 定位 检测 算法 研究 濮子俊
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。