基于车载毫米波雷达动态手势识别网络_董连飞.pdf
《基于车载毫米波雷达动态手势识别网络_董连飞.pdf》由会员分享,可在线阅读,更多相关《基于车载毫米波雷达动态手势识别网络_董连飞.pdf(6页珍藏版)》请在咨信网上搜索。
1、基于车载毫米波雷达动态手势识别网络董连飞,马志雄,朱西产(同济大学 汽车学院 智能汽车研究所,上海201804)摘 要:基于 Transformer 提出一种车载毫米波雷达手势识别方法,可用于车内人员进行人机交互.毫米波雷达信号不受车内光照变化影响,同时能够保证乘客隐私.首先,毫米波雷达采样信号经过二维傅里叶变换和滤波获得距离多普勒(RDM)和距离角度图(RAM);然后,将连续多帧 RDM 和 RAM 经过三维卷积网络后进行特征融合与拼接得到特征向量,利用 Transformer 模块进行位置和序列编码;最后通过全连接层获得手势概率分布向量.采集了基于实际路况和多种干扰环境下的雷达数据制作了手
2、势识别分类的数据集,实验结果表明该方法可以有效的检测与识别多种典型手势,识别准确率可以达到 97.14%以上.关键词:动态手势识别;三维卷积神经网络;毫米波雷达中图分类号:TN95 文献标志码:A 文章编号:1001-0645(2023)05-0493-06DOI:10.15918/j.tbit1001-0645.2022.102Dynamic Gesture Recognition Network Based on VehicularMillimeter Wave RadarDONG Lianfei,MA Zhixiong,ZHU Xichan(Intelligent Vehicle Res
3、earch Institute,School of Automotive Studies,Tongji University,Shanghai 201804,China)Abstract:A Transformer based millimeter wave radar gesture recognition method was proposed for human-com-puter interaction of vehicle occupants.The millimeter wave radar signal was designed to be not affected by the
4、change of light inside the vehicle,and at the same time to ensure the privacy of passengers.Firstly,the milli-meter wave radar sampled signal was carried through two-dimensional Fourier transform and filtering to obtaindistance-Doppler(RDM)and distance-angle maps(RAM).Then,consecutive multi-frame RD
5、M and RAM werefused and stitched after three-dimensional convolutional networks to obtain feature vectors.And a Transformermodule was used to perform position and sequence encoding.Finally,the gesture probability distribution vectorwas obtained through the fully connected layer.A data set for gestur
6、e recognition classification was collectedbased on the actual road conditions and radar data under a variety of interference environments.The experiment-al results show that the method can effectively detect and recognize a variety of typical hand gestures,and the re-cognition accuracy can reach mor
7、e than 97.14%.Key words:dynamic gesture recognition;three-dimension convolutional neural network;millimeter wave radar 车载软件和车载智慧屏等智能座舱部件的快速发展和应用,一方面给驾车出行增加了更多智能化和趣味化体验,另一方面也增加了人机交互的频率容易造成驾驶员分心.手势识别作为一种有效的人机交互方式也是目前研究的热点.通过手势动作这种非接触式交互可以快速实现音乐切换、空调开关等简单功能,同时不会分散司机过多注意力,有助于提高出行安全降低事故概率1.随着深度学习的广泛应用,基于
8、计算机视觉的手势识别研究取得巨大进展2.循环神经网络3和长短期记忆网络4被应用于手势识别任务,这些网络架构可以对动态手势的时间和序列特征进行建模.收稿日期:2022 04 28基金项目:国家重点研发计划项目(2021YFB2501201)作者简介:董连飞(1984),男,博士生,E-mail:.通信作者:马志雄(1978),男,讲师,E-mail:.第 43 卷第 5 期北 京 理 工 大 学 学 报Vol.43No.52023 年 5 月Transactions of Beijing Institute of TechnologyMay 2023DHINGRA 等在三维卷积神经网络(3DCN
9、N)模型中应用了注意机制,学习了不同尺度的特征,获得了良好的分类结果5然而,这些方法对光照变化条件比较敏感,不能在低能见度条件下工作,无法满足车载应用的需求.王粉花等6提出基于 YOLO 算法的手势识别方法提升了在肤色和光线明暗不一的背景下检测精度和速度.强彦等7提出了小波变换和双边滤波的图像去噪声方法,来应对光照变化、车载环境和摄像头成像质量的影响.针对复杂动态背景下手势分割提取效果差、图像识别率低等问题,强彦团队8研究了多特征融合的快速手势识别方法,进一步提升手势识别的准确率.毫米波雷达可以通过发射电磁波并接收手势运动的回波来进行识别,因此可以不受光照影响,这是与图像手势识别相比的巨大优势
10、.同时毫米波雷达不需要采集车内图像信息,可以保护车内人员的隐私.因此,基于毫米波雷达的动态手势分类越来越受到人们的关注9.KIM 等10利用 24GHz 雷达并训练卷积神经网络对三种手势的频谱特征进行识别实现预测分类.ZHANG 等11提出了一种毫米波雷达手势识别系统,采用 3DCNN 结合 LSTM 进行端到端训练,实现不同的动态手势识别.最近,Transformer 网络在自然语言处理、计算机视觉等任务都取得较大的成功.ANDREA 等12通过引入 Transformer 自我注意力机制,对视频手势进行序列建模,并在手势识别数据集上取得较好的效果.文中针对车内复杂的光照和动态干扰场景,提出
11、用于毫米波雷达信息的手势识别方法,数据处理流程图如图 1 所示.首先,设计典型的手势进行车内环境的数据采集获得雷达原始信号;然后,对雷达信号进行预处理和噪声滤波获得距离多普勒特征图和距离角度特征图,并制作特征分类数据集;接着,利用深度学习方法提取各种手势动作特征并提出基于 Transformer 的动态手势分类网络.最后,在数据集训练获得最优的手势分类网络模型并进行结果分析.数据滤波距离FFT多普勒FFTRDMs通道FFTRAMs中频信号原始数据采集数字信号处理动态手势识别分类结果预测分类网络数据采样混频发射天线接收天线电磁波特征数据集X1X2Xn1Xn111222n1p1npsW11WspY
12、1Y1Ys图 1 动态手势识别算法数据处理流程图Fig.1 Data processing flow chart of dynamic gesture recognition algorithm 1 动态手势识别网络模型文中提出的动态手势识别网络如图 2 所示,主要由网络输入,特征提取,时间序列编码和分类预测4 部分组成.网络输入特征提取时间序列时间序列距离-角度图RAMN 距离-多普勒图RDM特征融合模块特征图输入最大池化层特征图拼接线性层输出3DCNN13DCNN2时间序列分析Transformer编码器层归一化前馈网络层归一化多头注意力位置编码手势分类结果向左向右接近远离手势概率预测全链
13、接向上向下IhwmIhwmV KQ图 2 动态手势识别网络框架图Fig.2 Framework diagram of dynamic gesture recognition network494北 京 理 工 大 学 学 报第 43 卷 1.1 数据输入整个手势识别的框架可以定义为一个函数关系::R2mwhc Rn(1)R2mwhcRn式中:表示整个网络特征提取和编码过程.表示每次到网络的输入帧;2 为每次输入为 RAM 和RDM 两种模态数据;m 为特征图的数量(文中取 m=8);w 和 h 分别为特征图的宽度和高度,这里对于 RAM图大小为 9696,RDM 特征图大小为 2424;c 为
14、通道数,一般图像具有 3 个通道表示 3 种不同颜色,这里数值含义为雷达回波强度值,所以只有单通道即c=1.对于,n 为手势的类别,这里 n=6.由连续 m 张特征图组成了实际输入网络的 1 帧记为 I,整个输入可以组成数据集 S.1.2 特征提取特征提取层主要经过两个 3DCNN 主干网络进行空间特征提取,如图 3 所示.卷积层可以表示为Conv3D(in,out,k,s),各个参数含义依次为输入通道数,输出通道数,卷积核大小和步长且每个卷积层后面一次包含批归一化层和 ReLU 激活函数层;最大池化层可以表示为 Maxpooling(p,q),p 为为池化核大小,q 为步长,其中池化层并不在
15、时间维度进行.IRAM序列经过 3DCNN1 得到(32,8,12,12)的特征图记为 RAF,IRDM序列经过 3DCNN2 得到(32,8,6,6)的特征图记为RDF.在特征融合模块,两个特征张量首先经过最大池化后得到均为(32,8)的二维张量 RAF1和 RDF1,将两个张量进行拼接得到 F1,然后经过线性层得到(8,64)的二维张量作为 Transformer 层的输入记为 SF.整个过程记为RAF1=MaxPooling(RAF)RDF1=MaxPooling(RDF)F1=concat(RAF1,RDF1)SF=Linear(F1)(2)其中在 Linear()为输入输出均为 64
16、 的线性层.1.3 时间序列分析此过程原始的 Transformer 编码器用来进行时序特征提取如图 4 所示.由于不同帧之间有着严格的顺序关系,在进行 3D 卷积时并没有破坏前后的时序特征关系,因此需要对输入序列特征的位置进行编码.Transformer编码器层归一化线性层线性层线性层线性层线性层线性层多头特征联结归一化点乘注意力ReLU前馈网络层归一化多头注意力特征向量输入位置编码VKQV01 7KhQ图 4 Transformer 编码模块Fig.4 Transformer encoding module 在 Transformer 编码前使用位置编码PE(O,2i)=sin(O/1 0
17、002i/dm)PE(O,2i+1)=cos(O/1 0002i/dm)(3)式中:PE 表示位置编码,通过不同频率的正余弦函数生成.O 为所处的位置,i 为相应的维度,dm为每一帧特征图经过 3D 卷积后特征向量的长度,即 64.后面处理过程沿用了经典的 Transformer 编码过程13,主要包含多头注意力层和前馈网络层,这里不再赘述.最终得到的编码向量经过一个两层全连接进行手势类别预测,并采用 softmax 函数实现最终的概率预测.最终输出为 N 维的向量 Y,其中概率最大值对应的手势类是网络的预测输出结果.Y:y1,y2,yN(4)2 数据采集与预处理 2.1 数据采集为了获取真实
18、场景中的数据集,搭建了如图 5所示的数据采集系统,对车内人员手势交互的实时数据进行采集.在数据采集过程中考虑汽车在加速、减速、怠速、匀速与转弯等各种场景产生的震动以 RAM输入(8,96,96,1)RAM输出(32,8,12,12)3D卷积(1,8,3,1)最大池化(2,2)3D卷积(8,16,3,1)3D卷积(16,32,3,1)3D卷积(32,32,3,1)最大池化(2,2)最大池化(2,2)3DCNN1RDM输入(8,24,24,1)RDM输出(32,8,6,6)3D卷积(1,4,3,1)3D卷积(4,8,3,1)3D卷积(8,16,3,1)3D卷积(16,32,3,1)3D卷积(32,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 车载 毫米波 雷达 动态 手势 识别 网络 董连飞
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。