基于多层感知机与无网格策略的三维空间声源识别.pdf
《基于多层感知机与无网格策略的三维空间声源识别.pdf》由会员分享,可在线阅读,更多相关《基于多层感知机与无网格策略的三维空间声源识别.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 51 卷第 9 期2023 年 9 月同济 大 学 学报(自然科学版)JOURNAL OF TONGJI UNIVERSITY(NATURAL SCIENCE)Vol.51 No.9Sep.2023论文拓展介绍基于多层感知机与无网格策略的三维空间声源识别贺银芝1,2,3,杨现晖1,2,3,刘永铭1,2,3,杨志刚1,2,3,庞加斌1,2,3(1.同济大学 汽车学院,上海 201804;2.同济大学 上海地面交通工具风洞中心,上海 201804;3.同济大学 上海地面交通工具空气动力与热环境模拟重点实验室,上海 201804)摘要:以往波束形成算法将潜在声源区域划分成若干网格,所有的声源被映
2、射到一个个网格点上,会导致错误的声源定位与强度计算,并且计算精度与效率受网格间距大小的影响。采用多层感知机神经网络以及无网格策略,能够提高声源识别的空间分辨率与计算效率。通过使用单个平面麦克风阵列对三维等强度双点声源进行识别定位,发现相较于传统互谱算法,多层感知机能够改善平面阵列在深度方向上较差的空间分辨率性能。此外,在定位误差方面,多层感知机优于传统互谱算法,同时声源识别的强度误差有所降低。在低频时,多层感知机性能优于波束形成算法,可用来弥补波束形成算法空间分辨率性能不佳的局限性。关键词:三维声源识别;多层感知机;无网格策略;传统互谱算法;解卷积算法中图分类号:U467.493文献标志码:A
3、3D Sound Source Identification Based on Multi-Layer Perceptron and Grid-Free StrategyHE Yinzhi1,2,3,YANG Xianhui1,2,3,LIU Yongming1,2,3,YANG Zhigang1,2,3,PANG Jiabin1,2,3(1.School of Automotive Studies,Tongji University,Shanghai 201804,China;2.Shanghai Automotive Wind Tunnel Center,Tongji University
4、,Shanghai 201804,China;3.Shanghai Key Laboratory of Vehicle Aerodynamics and Vehicle Thermal Management Systems,Tongji University,Shanghai 201804,China)Abstract:In the past,the potential sound source area was divided into mounts of grids according to the beamforming algorithm,and all the sound sourc
5、es were mapped into the grid points,which would lead to an incorrect sound source localization and intensity calculation,and the calculation accuracy and efficiency were affected by the size of grid spacing.In this paper,the multi-layer perceptron neural network and grid-free strategy are used to im
6、prove the spatial resolution and computational efficiency of sound source identification.Compared with the conventional cross-spectrum algorithm,with the algorithm of multi-layer perception,the spatial resolution can be improved in the depth direction as a planar array was applied to identify and lo
7、calize two-point sound sources with the same intensity.In addition,multi-layer perceptron is superior to the conventional cross-spectrum algorithm in positioning error.Meanwhile,the intensity error of sound source identification is reduced.Moreover,multi-layer perceptron is superior to the beamformi
8、ng algorithm at a low frequency range,which can be used as compensation for the poor spatial resolution of beamforming algorithm at this range.Key words:three-dimensional sound source identification;multi-layer perception;grid-free strategy;conventional cross-spectrum algorithm;deconvolution algorit
9、hm 波束形成作为一种声场可视化技术,常用于声源定位。常用的波束形成算法主要包括传统互谱算法及其增强、解卷积算法等。传统互谱算法原理简单,运算速度快,具有较强的鲁棒性,然而它的主要缺点包括低频时较差的空间分辨率以及由于旁瓣效应造成的较差的动态范围。常用的解卷积算法包括CLEAN1、CLEAN-SC2、DAMAS3等算法,相比于传统互谱算法,有更好的空间分辨率和动态范围。但基于相控麦克风阵列的波束形成算法仍存在两方面不足:一是无法同时满足高效率和高性能;二是在传递矢量未知的复杂流动环境中使用相控麦克风阵列时,由于传递矢量的不确定性,相控麦克风阵列识别精度会很差4。文章编号:0253374X(20
10、23)09-1450-10DOIDOI:10.11908/j.issn.0253-374x.22202收稿日期:2022-05-03基金项目:国家重点研发计划(2022YFE0208000);国家自然科学基金(51575394);中央高校基本科研业务费专项资金第一作者:贺银芝(1972),女,工学博士,副教授,主要研究方向为气动声学、车辆噪声与振动控制。E-mail:第 9 期贺银芝,等:基于多层感知机与无网格策略的三维空间声源识别在经典假设(非相干声源、单极子传播、无混响环境、均匀介质)不成立的情况下,机器学习的应用前景广阔。深度学习作为一种特殊的机器学习,通过使用反向传播算法,能够从大量的
11、数据中,找到输入与输出数据间的关系。近年来,随着深度学习与神经网络的发展,很多学者尝试将深度学习应用于声源识别,这些工作大多集中在获取声源的到达方向(direction of arrival,DOA)。最近几年,有一些学者开始使用深度学习方法研究如何确定声源的具体位置与强度。2018年,Ma等4构造了七层卷积神经网络,并应用于麦克风阵列声源定位,他们将麦克风阵列采集到的信号所构成的互谱矩阵转换为图像作为输入,将各个网格点上的声源强度作为输出,通过大量的数据训练,发现在一定频率和网格密度情况下,对于多点等强度声源,卷积神经网络能够较为准确地识别声源位置,并且计算速度明显快于DAMAS算法。但是,
12、由于其网格划分仅为160 mm160 mm,故结果不切实际。在Ma等4的基础上,宋章辰等5构造了相似的卷积神经网络,探讨了空间分辨率与网格间距的比值对神经网络训练精度的影响。基于网格点的策略限制了神经网络出色的非线性建模能力,也限制了声源识别的空间分辨率,因此本文采用无网格策略。所谓无网格策略即不将声源区域划分成若干网格,可以大大增加声源识别的空间分辨率。Castellini等6-7在2021年提出一种基于多层感知机的无网格声源定位方法,将互谱矩阵重新排列成一维列向量作为输入,输出是多个声源的位置及强度。文献 8-9 中均使用了一种基于残差网络的声源定位方法,同样基于无网格策略,输入的是传统互
13、谱算法得到的声源分布图,输出的是声源位置及强度,能够定位任意频率的单声源,并且精度高于传统互谱算法,在声源强度方面也有较高精度。三维空间声源定位在实际应用中具有非常重要的意义,比如对复杂的机械部件、发动机和一些气动声源等噪声源的定位。有两种方法实现三维波束形成:第一种方法是将声源潜在的三维空间划分为多个有一定间距的、平行于麦克风阵列的声平面,然后用二维平面麦克风阵列逐一扫描,寻找声源。这种方法应用简单,对麦克风阵列设备要求不高,缺点是单一平面麦克风阵列在垂直阵列方向上的空间分辨率较差10-11。第二种方法是构造三维麦克风阵列。2006年,Meyer和Dbler 12利用GFai公司设计开发的球
14、形麦克风阵列重构了车内声场,球形麦克风阵列后来也被广泛应用于复杂三维物体表面的声源定位。2009年,Maffei 和Bianco13在Pininfarina 风洞的顶部和侧壁各安装了一个麦克风阵列,分别由78和66个麦克风组成,结合光学扫描系统测得的车辆几何形状,很好地识别了车辆表面的气动噪声源。2013年,Padois等14在风洞两侧安装了4个麦克风阵列,每个阵列由48个麦克风构成,用来识别三维单极子声源和偶极子声源。2014年,Porteous等15在Adelaide大学风洞内利用两个正交麦克风阵列来实现三维声源的定位。2016年,Dbler 等16在保时捷风洞用三个麦克风阵列识别了汽车表
15、面的气动噪声源,麦克风阵列分别被布置在车辆的顶部和左右两侧。2018年,Ocker和Paul17在保时捷风洞中用三个麦克风阵列结合激光扫描系统进行了类似的工作。本文在Castellini等6-7工作的基础上,使用多层感知机神经网络,并基于无网格策略,将二维平面声源定位拓展到三维空间声源定位。针对等强度双声源的位置和强度进行了预测,并与波束形成算法的结果进行了对比,探讨训练数据数量以及声源频率对多层感知机、波束形成算法的影响。1 算法原理 1.1传统互谱算法对于xs处一个强度为q的声源,第i个麦克风上测到的声压为)p()xi=g()xi,xsq(xs(1)其中g(xi,xs)是xs处的声源到xi
16、处麦克风的传递矢量,对于无来流时的单极子声源,其传递矢量为g(xi,xs)=e-it4R(2)式中:是角频率;R=xi-xs为声源到麦克风之间的距离矢量;t=Rc为单极子声源在流体中的传播时间,其中c为声速。对各个麦克风测到的声压信号进行加权,在声源区域任意一点xt上计算到的声压为p(xt)=hH(xt)p(3)式中:p是所有麦克风测到的声压;H是共轭转置;h(xt)称为导向矢量18,本文选用h(xt)=1NggHg(4)式中:g是传递矢量;N是麦克风数量。将加权后的声压信号做自功率谱计:1451同 济 大 学 学 报(自 然 科 学 版)第 51 卷 B(xt)=E p(xt)p*(xt)=
17、hH(xt)EppHh(xt)=hH(xt)Ch(xt)(5)式中:E是期望算子;“*”是复共轭;C是互谱矩阵。导向矢量公式(4)能够准确地计算声源位置,但是会错误计算声源强度,因此需要幅值校正。因为使用该导向矢量公式时,对二维平面没有问题,但对于三维空间来说,波束形成算法会引入空间相关的“阵列增益”,这个“阵列增益”将放大靠近麦克风阵列中心的信号,缩小远离麦克风阵列中心的信号。这个增益理论上可以用式(5)计算出来的声源强度除以一个修正系数rcor来消除,则正确的声源强度Btrue为Btrue=B/rcor (6)结合Sarradj等10的工作,可推导出对于单极子声源,其修正系数为rcor=1
18、Ni=1N(14R)2(7)1.2多层感知机神经网络本文提出的神经网络模型是针对回归的多层感知机(MLP)方法,给定一组输入输出连续变量,该模型的任务是在给定新的统计独立的输入数据的情况下预测新的连续输出。多层感知机是一种特定的前馈人工神经网络(ANNs),它有一个输入层,一个或多个隐藏层和一个输出层,可以根据任务(即分类或回归)进行模型构建,本文提出的模型是基于六层隐藏层的MLP架构,具有整流线性单元(ReLU)和线性激活函数。而且网络参数数量要满足以下条件4SM参数数量6-7,例如在本文中200万数据(M)、2个点生源(S),参数数量为1 296满足此条件。将互谱矩阵展开成一维向量作为输入
19、6-7,将声源的三维坐标以及强度作为输出,互谱矩阵的大小取决于麦克风数量。本文所用36通道麦克风分布在XZ平面上,如图 1a所示。潜在声源区域中心(0,0,1)到麦克风阵列所在平面的距离是1 m,潜在声源区域是一个0.5 m0.5 m0.5 m的三维空间,声源在潜在声源区域中随机分布,所用的双点等强度声源的位置和强度随机生成,声源强度范围为80100 dB,如图1b所示。为了便于训练,将声源位置和强度分开,分别建立两个模型,一个输出预测声源的位置,另一个输出预测声源的强度。模型的参数和结构见表1和表2,可训练参数分别为285 633和285 591。对于三维空间的声源定位比二维平面多了一个坐标
20、值,在预测声源位置时,输出层增加了一个神经元。对于神经网络来说,收集大量数据用于模型的训练、验证和最终测试是很重要的。本文通过随机仿真生成的方法获得大量数据:加载麦克风阵列中各麦克图136通道麦克风的位置与声源区域和麦克风阵列的空间布局Fig.1Location of 36-channel microphone with sound source area and spatial layout of microphone array表1多层感知机神经网络模型结构参数(用于声源位置预测)Tab.1Infrastructure parameters of multi-layer perceptro
21、n neural network model(for sound source localization prediction)层数第1层第2层第3层第4层第5层第6层神经元数1 2962005020103激活函数ReLUReLUReLUReLUReLUReLU层类型输入层隐藏层隐藏层隐藏层隐藏层输出层1452第 9 期贺银芝,等:基于多层感知机与无网格策略的三维空间声源识别风的位置;随机生成大量不同位置不同强度的双点等强度声源;根据式(5)生成所采用麦克风阵列的互谱矩阵。在训练过程中,将生成的数据集按8:1:1划分,分别作为训练数据、验证数据和测试数据。多层感知机预测声源具体的位置和强度,属
22、于一个回归问题,因此选用均方误差作为损失函数,来衡量预测值和真实值之间的误差:FMSE=1Li=1L(-xi-xi)2(8)式中:L为模型预测的声源位置数量或强度数量;-xi为真实的声源位置或强度;xi为预测的声源位置或强度。在神经网络训练过程中,通过调整权重参数和偏置来降低损失函数。这里选用Adam优化器来更新权重参数和偏置。学习率设为0.001,批处理参数(batch size)设为5 000,迭代100步。使用的电脑CPU速度为2.10 GHz,显卡型号为1070ti。2 结果分析 2.1多层感知机与波束形成算法仿真性能对比选用5 000 Hz时1万组随机分布的声源作为测试对象,选取0.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多层 感知 网格 策略 三维空间 声源 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。