1、 基于特征融合与T r a n s f o r m e r模型的声音事件定位与检测算法研究*濮子俊,张寿明(昆明理工大学信息工程与自动化学院,云南 昆明 6 5 0 5 0 0)摘 要:针对多通道环境声音检测问题,提出了一种引入T r a n s f o r m e r结构的特征融合网络模型T B C F-MT NN。该网络模型以对数梅尔谱和广义互相关谱作为输入,首先通过C NN和G RU获取谱的局部特征以及时间上下文关系特征,之后将2种特征图通过C r o s s-s t i t c h模块进行融合,有效解决了传统网络中多特征信息无法共享的问题;然后,将融合后的特征图送入T r a n s
2、f o r m e r进行特征的再次采集;最终,通过全链接层输出分类和定位结果。在T AU-N I G E N S 2 0 2 0数据集上的实验结果表明,所提出的T B C F-MT NN网络在声音检测任务中的分类错误率能够减小至0.2 6;在声源定位任务中与B a s e l i n e相比较其定位误差减小至4.7;通过和B a s e l i n e、F P N、E I N等模型相比较,结果表明所提网络具有更优的识别检测效果。关键词:声音事件定位与检测;深度学习;T r a n s f o r m e r模型;C r o s s-s t i t c h;特征融合中图分类号:T P 5 1
3、0.4 0 1 0;T P 5 2 0.2 0 5 0文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 7A s o u n d e v e n t l o c a l i z a t i o n a n d d e t e c t i o n a l g o r i t h m b a s e d o n f e a t u r e f u s i o n a n d T r a n s f o r m e r m o d e lP U Z i-j u n,Z HANG S h o u-m i n g(F a
4、 c u l t y o f I n f o r m a t i o n E n g i n e e r i n g a n d A u t o m a t i o n,K u n m i n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,K u n m i n g 6 5 0 5 0 0,C h i n a)A b s t r a c t:A i m i n g a t t h e p r o b l e m o f m u l t i-c h a n n e l e n v i r o n m e n t
5、 a l s o u n d d e t e c t i o n,a f e a t u r e f u s i o n n e t w o r k m o d e l T B C F-MT NN i s p r o p o s e d,w h i c h i n t r o d u c e s t h e T r a n s f o r m e r s t r u c t u r e.T h e n e t w o r k s t r u c t u r e t a k e s l o g a r i t h m i c M e l-s p e c t r u m a n d g e n e
6、 r a l i z e d c r o s s-c o r r e l a t i o n s p e c t r u m a s i n p u t.F i r s t l y,t h e l o c a l f e a t u r e s o f t h e s p e c t r u m a n d t h e t e m p o r a l c o n t e x t r e l a t i o n s h i p f e a t u r e s a r e o b t a i n e d t h r o u g h C NN a n d G RU,a n d t h e n t h
7、 e t w o f e a t u r e m a p s a r e m e r g e d t h r o u g h t h e C r o s s-s t i t c h m o d u l e,w h i c h c a n e f f e c t i v e l y s o l v e t h e t r a d i t i o n a l p r o b l e m t h a t m u l t i-f e a t u r e i n f o r m a t i o n c a n n o t b e s h a r e d i n t h e n e t w o r k.S
8、 e c o n d l y,t h e f u s e d f e a t u r e m a p i s s e n t t o T r a n s f o r m e r f o r r e-c o l l e c t i o n o f f e a t u r e s.F i n a l l y t h e c l a s s i f i-c a t i o n a n d p o s i t i o n i n g r e s u l t s a r e o u t p u t t h r o u g h t h e f u l l l i n k l a y e r.T h e v
9、 e r i f i c a t i o n o n T AU-N I G E N S 2 0 2 0 d a t a s e t s h o w t h a t,c o m p a r e d w i t h t h e B a s e l i n e m o d e l,t h e T B C F-MT NN n e t w o r k c a n r e d u c e t h e c l a s s i f i c a t i o n e r r o r r a t e t o 0.2 6 i n t h e s o u n d d e t e c t i o n t a s k,a
10、n d r e d u c e t h e l o c a l i z a t i o n e r r o r t o 4.7 i n t h e s o u n d s o u r c e l o c a l i z a t i o n t a s k.C o m p a r e d w i t h B a s e l i n e,F P N,E I N a n d o t h e r m o d e l s,t h e p r o p o s e d m o d e l h a s a b e t t e r r e c o g n i t i o n e f f e c t.K e y
11、w o r d s:s o u n d e v e n t l o c a l i z a t i o n a n d d e t e c t i o n;d e e p l e a r n i n g;T r a n s f o r m e r m o d e l;C r o s s-s t i t c h;f e a t u r e f u s i o n*收稿日期:2 0 2 1-0 8-0 2;修回日期:2 0 2 1-1 2-1 3通信作者:张寿明(1 4 1 1 8 3 4 9 7 4q q.c o m)通信地址:6 5 0 5 0 0 云南省昆明市呈贡区昆明理工大学呈贡校区信息工
12、程与自动化学院A d d r e s s:F a c u l t y o f I n f o r m a t i o n E n g i n e e r i n g a n d A u t o m a t i o n,C h e n g g o n g C a m p u s,K u n m i n g U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,C h e n g g o n g D i s t r i c t,K u n m i n g 6 5 0 5 0 0,Y u n n a n,P.R.C h i n
13、 a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o l.4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 0 9 7-0 91 引言如何在复杂声音环境中对多目标声源进行准确识别是目前研究的热点与难点。复杂环境中的多声音 事 件 分 类 任 务 就 是 声 音 事 件 检 测S E D(S o u n d E v e n t D
14、 e t e c t i o n)。一般情况下,环境中会同时出现多种声音事件,传统信号处理算法已经不能满足任务的需求,因此基于人工智能的环境声音事件识别算法成为了主要研究方向。目前有许多研究人员开展了大量工作,以提高多个相互重叠的声音事件的识别准确率1 5。为了能够更加准确地实现S E D,数据集一般采用多麦克风阵列录制,获取到的多通道声音数据既包含了声音的振动信息又包含了通道间的空间信息,这些特征信息能够更准确地将声音事件区分开来。因此在S E D任务中使用的特征不仅有单通道的特征,例如声谱图、梅尔频率倒谱系数MF C C(M e l F r e q u e n c y C e p s t
15、r a l C o e f f i c i e n t)特征以及对数梅尔频谱图L o g-M e l(L o g-M e l s p e c t r u m)特征等,同时也有多通道间的空间特征信息,例如通道间相位差I P D s(I n t e r-c h a n n e l P h a s e D i f f e r e n c e s)、广义互相关G C C(G e n e r i a l i z e d C r o s s-C o r r e l a t i o n)矩阵等。利用这2类声音特征不仅可以实现声音事件检测,同时还可以实现环境声源的定位,将这2个任务相结合就实现了声音事件定位与
16、检测S E L D(S o u n d E v e n t L o c a l i z a t i o n a n d D e t e c t i o n)。目前绝大多数利用多通道声音数据的研究集中于S E L D任务6 1 0。相较于传统的声音识别算法,深度学习算法具有更高的识别准确率,许多深度学习网络结构在机器视觉、语音识别以及自然语言处理等领域都表现出了优异的性能,因此这些网络结构被借鉴到环境声音识别领域,在S E L D任务中也有相对较高的识别准确率。目前应用于环境声音识别的深度学习算法大 多是有监督 学习算法,以 卷积神经 网络C NN(C o n v o l u t i o n a
17、 l N e u r a l N e t w o r k)和循环神经网络R NN(R e c u r r e n t N e u r a l N e t w o r k)相结合的网络结构为主。C NN的作用是学习特征的局部信息,R NN的作用是学习特征的时间上下文关系。C NN-L S TM(C o n v o l u t i o n a l N e u r a l N e t w o r k-L o n g S h o r t T e r m M e m o r y)1 1便是一种能够同时捕捉到2种特征的网络结构,同时它也具有较好的性 能。S h i m a d a等 人9基 于D 3 N
18、e t(D e n s e l y c o n n e c t e d D i l a t e d D e n s e N e t)1 2提 出 了 一 种R D 3 N e t(R e c u r r e n t D e n s e l y c o n n e c t e d D i l a t e d D e n s e N e t),这种网络结构在多层C NN之后加入了R NN中一种更为高效的门控循环单元G RU(G a t e d R e c u r r e n t U n i t)1 3结构。R D 3 N e t不仅可以实现声音的准确识别,同时能够利用多通道声音信息对声源进行定位。
19、但是使用R NN仍有局限性,网络训练时间长、参数量大、训练难。为了更好地解决这个问题,V a s w a n i等人1 4提出了基于自注意力机制的T r a n s f o r m e r网络结构,极大地提升了效率。另外一种思路是直接利用C NN实现类似于R NN的 功 能。B a i等 人1 5提 出 的T C N(T e m p o r a l C o n v o l u t i o n a l N e t w o r k)网络结构可以通过大幅扩展C NN的感受野来捕捉更多的上下文时序关系。G u i r g u i s等人1在R D 3 N e t的基础上将G RU部分替换为T C N结
20、构,提出了S E L D-T C N网络来提升识别效率。本文在T r a n s f o r m e r的基础上提出了一种基于T r a n s f o r m e r的 融 合 特 征 多 任 务 神 经 网 络T B C F-MT NN(T r a n s f o r m e r B a s e d C o m b i n e F e a-t u r e M u l t i T a s k N e u r a l N e t w o r k)对多通道的环境声音进行识别。该网络使用对数梅尔谱和广义互相关谱作为网络输入,将这2种特征分别送入融合特征的网络中,该神经网络由2部分相同的模型组成,2
21、部分网络隐藏层输出的部分特征图经过加权融合后,经由2组全链接网络处理,分别输出多通道声音事件的定位和检测结果。同时由于S E L D为典型的多任务问题,本文引入了十字绣(C r o s s-s t i t c h)模块1 6来提升网络的性能。十字绣的优势在于能够共享多任务模型平行空间的参数,以实现不同类型任务的泛化。本文工作安排如下:第2节对算法设计原理进行介绍;第3节分析实验数据和实验结果;第4节进行总结及未来工作展望。2 算法原理及网络结构2.1 声学特征本文选用L o g-M e l特征作为声音的时频域特征。L o g-M e l特征的提取过程如下:(1)对数据进行预处理,即对数据进行预
22、加重、分帧加窗和归一化等操作。(2)利用短时傅里叶变换S T F T(S h o r t T i m e F o u r i e r T r a n s f o r m)提取声音信号的声谱图。(3)将获取的声谱图通过一组梅尔(M e l)滤波器获得M e l频谱图。其中M e l三角滤波器的频率8901C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)响应定义如式(1)所示:HM(k)=0,kf m-1()2k-f m-1()()f(m+1)-f(m-1)()f(m)-f(m-1)(),f(m-
23、1)kf(m)2f(m+1)-k()f(m+1)-f(m-1)()f(m)-f(m-1)(),f(m)f(m+1)?(1)其中,k为频点,f()为梅尔滤波器函数,m为滤波器数。(4)对得到的M e l频谱图取对数得到M e l对数功率谱,即L o g-M e l频谱。对于通道间的声源空间信息,本文选用广义互相关作为空间特征,通过广义互相关函数计算所得的峰值位置可以用来估计通道间声音到达的时延。采用相位变化P HAT(P H r A s e T r a n s f o r m)加权方法锐化1 6后的互相关函数的峰值可以更加准确地估计声音到达2个阵元间的时延,进而准确地显示声源的空间信息。广义互相
24、关函数如式(2)所示:R1 2()=12+-1 2()X1()X*2()ej d(2)其中,和分别为时延和频率,R1 2()为2个序列的广义互相关,1 2()为加权函数,X1()和X2()分别为2个信号经过F o u r i e r变换后的结果,X*2()为X2()的共轭。P HAT加权函数如式(3)所示:1 2()=1X1()X*2()(3)2.2 T r a n s f o r m e r网络结构基于自注意力机制的T r a n s f o r m e r网络E n-c o d e r部分的基本结构1 4如图1所示。该部分由多头自注意力模块MH S A(M u l t i-H e a d
25、S e l f A t-t e n t i o n)和前馈网络组成,其中多头自注意力模块原理描述如式(4)和式(5)所示:Q=WQIK=WKIV=WVI?(4)A t t e n t i o n Q,K,V()=s o f t m a xQ KTdkV()(5)其中,Q,K和V分别代表查询的内容(Q u e r y)、匹配的关键值(K e y)和返回值(V a l u e)矩阵,这3个值由网络节点输入的I分别乘以3个不同的矩阵WQ、WK和WV获得;dk为缩放率,为查询内容(Q u e r y)和关键值(K e y)矩阵执行内积运算后所得到矩阵的方差。为了提升网络的训练效率,多头自注意力 模 块
26、 采 用 了 缩 放 点 积(S c a l e d D o t-p r o d-u c t)1 4的方法来实现自注意力机制。由于在声音识别的过程中并不需要根据前一帧的声音事件对下一帧的声音事件进行预测,因此本文只采用T r a n s f o r m e r结构的E n c o d e r部分。T r a n s f o r m e r结构的优势在于相较于R NN结构,在一定程度上提高了性能的同时不仅降低了训练难度,也减少了网络参数量。T r a n s f o r m e r结构另外一个重要特点是能够同时兼顾局部特征和时间上下文特征,因此本文选用该结构替代R NN。F i g u r e
27、1 S t r u c t u r e o f T r a n s f o r m e r E n c o d e r 图1 T r a n s f o r m e r E n c o d e r结构2.3 T B C F-MT N N网络结构图2所示为本文提出的T B C F-MT NN网络结构。T B C F-MT NN主要由C NN、G RU、T r a n s-f o r m e r1 4以及C r o s s-s t i t c h模块1 6组成。T B C F-MT NN分别以L o g-M e l频谱和G C C作为输入,在2种特征输入网络后分别同时通过4层C NN和1层G RU
28、,再将C NN和G RU的输出分别通过2个C r o s s-s t i t c h模块,这2个模块的输出作为T r a n s-f o r m e r的E n c o d e r模块的输入。图3所示为C r o s s-s t i t c h模 块 的 基 本 结 构。该模块应用于多任务模型中,目的是任务间共享特征图信息,这种共享可以强化网络隐藏层对部分特征的学习能力。其中C r o s s-s t i t c h模块的数学模型描述如式(6)所示:9901濮子俊等:基于特征融合与T r a n s f o r m e r模型的声音事件定位与检测算法研究F i g u r e 2 S t r
29、u c t u r e o f T B C F-MTNN 图2 T B C F-MT NN 结构?Xi jA?Xi jB?=A AA BB AB B?Xi jAXi jB?(6)其中,A A、A B、B A和B B为2个通道间的融合权重,Xi jA、Xi jB、?Xi jA和?Xi jB分别为A和B 2个通道的输入和加权融合后的输出。F i g u r e 3 S t r u c t u r e o f C r o s s-s t i t c h 图3 C r o s s-s t i t c h 结构 将T r a n s f o r m e r的输出根据上层网络的结构进行两两拼接产生2个新的
30、输出,对拼接后的结果的维度进行调整使2个输出的维度相匹配,再将拼接后的结果融合成为一个输出作为全链接层的输入,最后通过全连接层输出分类结果。表1所示为网络中各层的参数设置。虽然T r a n s f o r m e r结构能够同时兼顾局部特征和时间上下文特征,但是相较于C NN其捕捉局部信息的能力较弱,因此本文提出的网络的优势在于不仅弥补了T r a n s f o r m e r在局部信息捕捉上的不足,同时还强化了网络对上下文关系的捕捉能力。T B C F-MT NN对输入的高维数据使用局部信息捕捉能力更强的C NN网络,将C NN捕捉到的信息送入T r a n s f o r m e r,
31、让T r a n s f o r m e r对已经捕捉好的局部特征信息进行学习。G RU网络作为一种解决长期记忆问题的R NN结构,相较于L S TM在 保 持 性 能 不 变 的 同 时 简 化 了 计 算,T B C F-MT NN选用G RU结构来辅助强化T r a n s f o r m e r对长序列上下文关系的捕捉能力。另外,本文提出的算法是双特征输入,2种特征来自于同一条音频,因此存在一定的内在联系,使用C r o s s-s t i t c h可以使得网络隐藏层能够对这种特征间的关系进行学习,从而使得2种特征能够相互作用从而提高算法的性能。由于网络用于实现多分类功能,因此在最后
32、的全链接层使用S i g m o i d激活函数,损失函数选择二元交叉熵B C E(B i n a r y C r o s s E n t r o p y)损失函数。而D o A(D i r e c t i o n o f A r r i v a l)任务并非分类问题而是对角度进行估计,因此采用双曲正切(t a n h)作为激活函数,使用均方误差MS E(M e a n S q u a r e d E r r o r)损失作为损失函数。T a b l e 1 P a r a m e t e r s o f T B C F-M T N N m o d e l表1 T B C F-M T N N模
33、型参数L o g-M e l(-,4,3 0 0,6 4)G C C(-,6,3 0 0,6 4)k e r n e l(33)C NN(54)p o o l(-,3 2,6 0,1 6)k e r n e l(33)C NN(54)p o o l(-,3 2,6 0,1 6)k e r n e l(33)C NN(14)p o o l(-,6 4,6 0,4)(51)G RU(-,6 0,2 5 6)k e r n e l(33)C NN(14)p o o l(-,6 4,6 0,4)(51)G RU(-,6 0,2 5 6)k e r n e l(33)C NN(12)p o o l(-,
34、1 2 8,6 0,2)k e r n e l(33)C NN(12)p o o l(-,1 2 8,6 0,2)k e r n e l(33)C NN(11)p o o l(-,2 5 6,6 0,2)k e r n e l(33)C NN(12)p o o l(-,2 5 6,6 0,2)C r o s s-s t i t c h(C NNC NN)C r o s s-s t i t c h(G RUG RU)T r a n s f o r m e r(L o g-M e l)T r a n s f o r m e r(G C C)T r a n s f o r m e r(L o g-M
35、 e l)T r a n s f o r m e r(G C C)F C(S i g m o i d)(2 5 61 4)F C(t a n h)(2 5 64 2)B C E L o s sM S E L o s sS E DD o A0011C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)3 实验与结果分析3.1 实验数据集及数据特征分析本文实验采用T AU-N I G E N S 2 0 2 0空间声音事件数据集1 8。该数据集是由坦佩雷理工大学收集整 理 的 声 学 场 景 录 音,曾
36、 作 为I E E E-D C A S E 2 0 2 0 T a s k 3比赛数据集使用。数据集包含了多个声音场中的声音事件录音,这些录音均为日常生活中的常见声音。数据集中存在2种不同类型的声音事件同时发生的情况,另外声音事件既有可能是来自空间中的固定声源,也有可能是来自移动的声源。该数据集为四通道音频数据,如图4所示为空间四元阵的放置位置模拟图,空间四元阵的阵元位置按照正四面体的顶点位置摆放。F i g u r e 4 S p a c e p o s i t i o n s i m u l a t i o n o f a r r a y e l e m e n t 图4 阵元空间位置仿真
37、图在T AU-N I G E N S 2 0 2 0空间声音事件数据集中一共出现了1 4类环境声音,分别是:警报声(A-l a r m)、小孩哭声(C r y i n g_B a b y)、碰撞声(C r a s h)、狗叫声(B a r k i n g_D o g)、运行中的引擎声(R u n n i n g_E n g i n e)、女性喊叫声(F e m a l e_S c r e a m)、女性说话声(F e m a l e_S p e e c h)、男 性 喊 叫 声(M a l e_S c r e a m)、男性说话声(M a l e_S p e e c h)、燃烧的火焰声(B u
38、 r n i n g_F i r e)、脚 步 声(F o o t s t e p s)、敲 门 声(K n o c k i n g O n D o o r)、电话铃声(R i n g i n g_P h o n e)以及钢琴声(P i a n o)。这1 4类声音的波形图和声谱图如图5所示。图6所示为数据集中一段音频的特征图像,其中,图6 a为四通道音频信号每个通道输出的波形图;图6 b为对每个通道进行S T F T变换所获得的声谱图;图6 c为经S T F T运算后的信号通过M e l滤波器组的L o g-M e l频谱;图6 d为4个通道间的互相关谱。由图6 b可以明显看出,在不同的时间
39、段有不同频段的信号,这说明在这些时间段内有不同的声音事件发生,参考图6 c的L o g-M e l频谱可以更加直观地看出不同声音在时频域内的特征。根据谱图上的这些特征可以确定发生声音事件的类别。图6 d显示的是通道间的互相关信息,也就是声音事件的空域信息,由于数据集提供的音频信号为四通道,可以根据组合数公式计算得到两两通道间若互相关会有C24=6个通道的广义互相关谱。在G C C谱的横向中轴线附近,有一些偏白或偏黑的纹理,这些纹理即为通道G C C峰值所在的位置,可以清晰地从图中纹理观察到一些同时发生的声音事件和处于运动中的声音事件,根据G C C峰值位置可以判断在同一时间段内的声音事件数量以
40、及声源位置的变化,也就是说,G C C谱提供的空域信息可以对多通道多声音事件的识别起到辅助作用。3.2 实验平台及参数设置本文的实验以L i n u x系统为平台,实验采用U b u n t u 1 8.0 4系统,数据特征的提取以及网络结构的搭建以P y t h o n 3.7和P y T o r c h作为语言框架,对比实验则在T e n s o r F l o w 1.1 3.0和K e r a s框架下 实 现。为 了 提 升 运 算 效 率,本 文 实 验 在NV I D I A T X 2 0 7 0 S U P E R,显存为8 G B的G P U上实现。由于T B C F-MT
41、 NN是含有T r a n s f o r m e r的网络结构,因此设置学习率为0.0 0 0 1,迭代轮数为1 5 0轮。受显存大小限制设置批大小为6 4。根据I E E E-D C A S E 2 0 2 0 T a s k 3给出的B a s e l i n e3,设置S E D的B C E损失与D o A的MS E损失之间的加权比例为11 0 0 0。另外,数据集分为6个文件夹共6 0 0条时长为6 0 s的音频,其中文件夹1文件夹4的数据集作为训练集,文件夹5作为验证集,文件夹6作为测试集。3.3 评价指标在本文实验中选用的评价指标包括:识别错误率、识别系统F-s c o r e、
42、定位角度误差和定位系统召回率。其中,识别错误率定义为插入错误I、删除错误D、替换错误S与声音事件总数N的比值,如式(7)所示:E R=I+D+SN(7)识别系统F-s c o r e为精确率P与召回率R的调和平均值,如式(8)所示:P=T PT P+F PR=T PT P+FNF-s c o r e=2P RP+R?(8)1011濮子俊等:基于特征融合与T r a n s f o r m e r模型的声音事件定位与检测算法研究F i g u r e 5 W a v e f o r m s a n d s p e c t r o g r a m s o f 1 4 c l a s s e s o
43、 f s o u n d图5 1 4类音频的波形图和声谱图其中,T P为真正例,F P为假正例,FN为假反例。定位角度误差为第t帧的角度预测值tP与标签给出的真实值tR之间的平均角度误差,如式(9)所示:e r r o r=1Tt=1DtETt=1H(tR,tP)(9)其中,T为帧长,DtE为第t帧预测角度的数量,H(*)为将对应预测值与真实值匹配的函数。定位系统召回率为另一个定位系统判断的准则,如式(1 0)所示:R e c a l l=Tt=11(NtR=NtP)T(1 0)其中,NtR和NtP分别为第t帧中tR和tP的数量;1(*)表示当满足NtR=NtP时输出1,否则输出0。3.4 实
44、验结果分析首先,通过对所设计的算法进行测试,通过测试所得各参数的结果来评价分析算法的有效性。图7所示为本文所提算法的各项评价指标随迭代轮数变化情况。总体来看,算法在迭代至7 0轮左2011C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(6)F i g u r e 6 F e a t u r e i m a g e o f a n a u d i o f i l e i n t h e f o u r-c h a n n e l s o u n d d a t a s e t 图6 四通道声音数据集
45、中一个音频文件的特征图像右时已经基本达到最优。由图7 a可以看出训练损失随着迭代轮数增加逐渐减小,最终收敛并有微小震荡,这表明网络结构已经学习到了输入数据的特征。图7 b和 图7 c显 示 的 是 总 训 练 加 权 损 失(S E L D L o s s)、系统总体评分(S E L D S c o r e)、识别错误率(S E D E R)、识别系统F-s c o r e(S E D F1)、定位角度误差(D o A e r/1 8 0)、定位系统召回率(D o A R e c a l l)随迭代轮数增加的变化情况。其中,总训练加权损失是将识别任务的B C E L o s s值与定位任务的M
46、 S E L o s s值按照11 0 0 0的权重加权求和得到,系统总体评分是由2个任务的准确率求和得到。由图中可知,定位和检测系统的错误率随迭代轮数增加而减小,最终收敛并有微小震荡,表明 所设计的算法能够较好地完成识别任务。同时,F-s c o r e和召回率随着迭代轮数增加而增加,最终震荡收敛,说明算法性能逐渐增强并最终趋于稳定。由图7 d可以看出,随着迭代轮数的增加,算法输出的正确结果占总输出量的比重逐渐增加,最终震荡收敛。由此可以得出,本文提出的算法能够有效地完成识别任务。为了对T B C F-MT NN结构性能进行验证,首先设计实验验证缺少融合模块对网络性能的影响。其次设计实验验证
47、训练数据量对T B C F-MT NN结构 性 能 的 影 响。对 于 第1种 情 况,将T B C F-F i g u r e 7 C h a n g e s o f T B C F-MT NN e v a l u a t i o n i n d i c a t o r s w i t h t h e n u m b e r o f i t e r a t i o n s图7 T B C F-MT NN各项评价指标随迭代轮数变化情况MT NN网 络 的C r o s s-s t i t c h模 块 删 除,直 接 将C NN和G RU对应的输出相拼接以验证这2种网络的性能。对于第2种情况,
48、采用切片重组的数据增强方法对数据集进行扩充,具体操作方法是:(1)将原始数据中只存在1个声音事件的帧剪切并存储为临时数据包;(2)将裁剪出的数据随机打乱;3011濮子俊等:基于特征融合与T r a n s f o r m e r模型的声音事件定位与检测算法研究(3)对原始数据中只有1个声音事件的帧,用打乱后的数据进行覆盖产生新的数据集。图8对比了本文所提算法与B a s e l i n e算法的S E L D任务损失与D o A任务损失加权运算后的损失。可以看出,本文所提出的T B C F-MT NN随着迭代轮数的增加,损失值相较于基线算法的损失值更小,说明本文提出的网络结构能够更好地学习到数
49、据的特征。F i g u r e 8 C o m p a r i s o n o f l o s s v a l u e s b e t w e e n T B C F-MT NN a n d B a s e l i n e图8 T B C F-MTNN与B a s e l i n e的损失值对比图9对比了T B C F-MT NN在迭代5 0轮之后的总加权损失值。可以看出,5 0轮之后3个基于T B C F-MT NN的算法性能相近,但是数据增强后的算法性能更优。如果将融合部分去掉会使算法性能下降。F i g u r e 9 C o m p a r i s o n o f T B C F-M
50、T NN l o s s v a l u e s图9 T B C F-MT NN损失值对比表2所示为本文算法内部实验结果对比以及与其他算法结果的对比。首先,通过对比在算法内使用与不使用C o r s s-s t i t c h模块的结果可以看出,使用C o r s s-s t i t c h模块后能够小幅提升算法性能,错误率由0.8 4降为0.7 7,定位误差缩小了2.6,同时F-s c o r e也略有提升。在使用数据增强之后,对使用与不使用C r o s s-s t i t c h模块的算法进行对比可以发现,含有C r o s s-s t i t c h模块的T B C F-MT-NN结构