基于视觉的手指语识别系统设计_韩团军.pdf
《基于视觉的手指语识别系统设计_韩团军.pdf》由会员分享,可在线阅读,更多相关《基于视觉的手指语识别系统设计_韩团军.pdf(6页珍藏版)》请在咨信网上搜索。
1、 实 验 技 术 与 管 理 第 40 卷 第 4 期 2023 年 4 月 Experimental Technology and Management Vol.40 No.4 Apr.2023 收稿日期:2022-10-19 基金项目:国家自然科学基金项目(61972239,61772398);陕西省重点研发计划项目(2019SF-257);陕西省科技厅计划研究项目(2022GY-122);陕西理工大学 2021 年科研基金项目(SLGKY-2118)作者简介:韩团军(1981),男,陕西乾县,讲师,硕士,研究方向为集成电路设计与分析,。引文格式:韩团军,马晨,王战备,等.基于视觉的手指语
2、识别系统设计J.实验技术与管理,2023,40(4):119-124.Cite this article:HAN T J,MA C,WANG Z B,et al.Design of finger language recognition system based on visionJ.Experimental Technology and Management,2023,40(4):119-124.(in Chinese)ISSN 1002-4956 CN11-2034/T DOI:10.16791/ki.sjg.2023.04.017 基于视觉的手指语识别系统设计 韩团军,马 晨,王战备,尹
3、继武(陕西理工大学 物理与电信工程学院,陕西 汉中 723000)摘 要:针对传统手指语识别系统识别速度慢、准确率低、运算量大等问题,提出一种基于 MediaPipe 框架与支持向量机(SVM)的轻量级手指语识别系统。该系统通过 MediaPipe 提取手指语图像关节特征点,使用支持向量机(SVM)中的径向基核函数(RBF)对提取的特征进行分类,以一对一的方法将基本的二分类 SVM转变为多类 SVM,从而实现手语识别目的。该文还用准确度、精度、召回率和 F 分数等指标对该系统的性能进行了评价。关键词:MediaPipe;支持向量机;手指语识别;机器视觉 中图分类号:TP37;TJ0 文献标识码
4、:A 文章编号:1002-4956(2023)04-0119-06 Design of finger language recognition system based on vision HAN Tuanjun,MA Chen,WANG Zhanbei,YIN Jiwu(School of Physics and Telecommunication Engineering,Shaanxi University of Technology,Hanzhong 723000,China)Abstract:Aiming at the problems of traditional finger la
5、nguage recognition system such as slow recognition speed,low accuracy and large amount of computation,a lightweight finger language recognition method based on MediaPipe framework and support vector machine(SVM)is proposed.The system extracts the joint feature points of finger language image through
6、 MediaPipe,classifies the extracted features using radial basis function(RBF)in support vector machine(SVM),and converts the basic two-class SVM into multi-class SVM by one-to-one method,thus realizing the purpose of sign language recognition.The proposed system performance is measured by accuracy,p
7、recision,recall rate and F score.Key words:MediaPipe;support vector machine;finger language recognition;machine vision 随着计算机技术和人工智能技术的发展,智能人机交互系统已成为人们生活中的重要组成部分,而手指语识别这一智能人机交互领域的核心问题,得到了科研人员的广泛关注。手指语识别就是利用计算机技术对聋哑人日常交流用的手指语进行识别,并将手指语转换为正常人更易理解的语音和文本。传统的手指语识别系统主要依赖传感器、深度相机等外部设备,这就限制了许多解决方案在不同环境中的适用性1
8、-4。近年来,随着深度学习方法在计算机视觉任务上的成功,研究焦点转为由深度学习技术驱动的纯粹基于视觉的符号识别方法。该方法是非侵入性的,只需要一个摄像头生成输入,但这一基于深度学习的解决方案由于缺乏适合机器学习的大规模公共手语数据库,致使区分类间相似性的能力减弱以及对手指或手的自聚焦的敏感性增加,且许多解决方案还不够轻量级,无法在商用移动设备上实时运行,只能在配备强大处理器的平台上运行4-8。本文提出的基于视觉的手指语识别系统,使用 NVIDIA JETSON NANO 为设计平台,内置 Ubuntu 18.04系统,以开源计算机视觉库 OpenCV为基础,通过 MediaPipe 框架和支持
9、向量机(SVM)120 实 验 技 术 与 管 理 分类器对中国手指语字母图像进行识别和实时转录,弥补了传统手势识别方法识别效率低、鲁棒性差的缺点,能够辅助聋人与正常人更好地交流。1 系统架构 整个系统集成了图像采集与特征检测、数据生成及手势识别三个阶段。在第一阶段,建立了手指语数据库,通过网络摄像头采集样本,将所获取的图片输入到 MediaPipe 框架,生成 21 个三维坐标,并以 CSV格式保存。在第二阶段,有时因为图像模糊等原因,检测器无法检测到手,导致数据集中的条目为空,应将这些点清除掉,否则在制作预测模型时会产生偏差。在去除不需要的数据后,将 x 和 y 坐标规范化以适应本系统。然
10、后准备数据文件,将其分解为训练集和验证集。其中 80%的数据为训练集,用于优化和损失函数训练模型,20%的数据为验证集,用于验证模型。第三阶段的手势识别是将从第二阶段提取出的手部特征向量输入到分类器中进行训练,利用训练好的分类器实现手势预测,并评估其性能。系统框架如图 1所示。图 1 手指语识别系统框架 2 特征提取 特征提取的目的是用来识别汉语手指字母。在包含 X、Y 和 Z 轴值的 3D 空间中,获得的关节坐标数为21 个,这些坐标将用于提取新特征。如果一只手在相机或图像的右边缘,即使它与左边缘的手有相同的特征,坐标保持原样,但输出也会显示为一个不同的值。因此,我们需要提取出不受屏幕上位置
11、影响的特征。此外,汉语手指语中有一些标志具有相似的手形,只根据倾斜程度表示不同的字符,因此在设计中,我们需要从初始坐标点中提取基于距离的特征和基于角度的特征。2.1 手势姿态估计 通过 MediaPipe Hands API,从网络摄像头和 RGB图像中估计每个关节的坐标。API 生成的输出由 21 个点组成,每个点都有 3D(X,Y,Z)坐标。输入图像、估计的关节点和关节点的顺序,如图 2 所示。图 2 手势关节估计 2.2 基于距离的特征 为了提取不受屏幕位置影响的特征,首先计算 21个坐标之间的距离。两个关节点 i 和 j 之间的距离可由下式求得:222()()()ijijijijdxx
12、yyzz=-+-+-(1)韩团军,等:基于视觉的手指语识别系统设计 121 例如,测量第 6 和第 9 关节点之间的距离,如图 3 所示。相邻关节之间的距离不用考虑,因为相邻关节是由骨骼连接的关节,其相对位置总是由骨骼固定的,即使手的形状发生变化,相邻关节之间的距离也不会发生变化9-14。因此,相邻关节之间的距离不会对分类产生任何影响。排除相邻关节,每幅图像可以得到190 个特征点。图 3 基于距离特征的示意图 虽然利用关节之间的距离,解决了位置问题,但物体的尺寸问题仍然存在。被识别的物体越大,各个关节之间的距离就越大,物体越小,各个关节之间的距离就越小。我们通过对得到的距离值进行标准化处理来
13、解决这个问题。为了对数据进行标准化,采用了 Z-Score,将不同量级的数据统一转化为同一个量级,即统一用计算出的 Z-Score 值来衡量,以保证数据之间的可比性。对于所采集的数据,可以借助下式进行 Z-Score 标准化处理:meanstddatadata znormalizationdata-=(2)2.3 基于角度的特征 角度特征值是通过手的倾斜程度,通过计算每个 关节坐标之间的方向向量以及每个向量从 X、Y 和 Z轴方向倾斜的程度来获取的。如图 4 所示,通过连接第 5 和第 10 个关节点,创建一个矢量a?,计算矢量与坐标(),x y z?的夹角15-16。需要估计的关节数为 21
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 视觉 手指语 识别 系统 设计 韩团军
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。