基于视觉的手指语识别系统设计_韩团军.pdf

上传人：自信****多点

文档编号：274656

上传时间：2023-06-26

格式：PDF

页数：6

大小：4.05MB

《基于视觉的手指语识别系统设计_韩团军.pdf》由会员分享，可在线阅读，更多相关《基于视觉的手指语识别系统设计_韩团军.pdf（6页珍藏版）》请在咨信网上搜索。

1、实验技术与管理第 40 卷第 4 期 2023 年 4 月 Experimental Technology and Management Vol.40 No.4 Apr.2023 收稿日期:2022-10-19 基金项目:国家自然科学基金项目（61972239，61772398）；陕西省重点研发计划项目（2019SF-257）；陕西省科技厅计划研究项目（2022GY-122）；陕西理工大学 2021 年科研基金项目（SLGKY-2118）作者简介:韩团军（1981），男，陕西乾县，讲师，硕士，研究方向为集成电路设计与分析，。引文格式:韩团军，马晨，王战备，等.基于视觉的手指语

2、识别系统设计J.实验技术与管理,2023,40(4):119-124.Cite this article:HAN T J,MA C,WANG Z B,et al.Design of finger language recognition system based on visionJ.Experimental Technology and Management,2023,40(4):119-124.(in Chinese)ISSN 1002-4956 CN11-2034/T DOI:10.16791/ki.sjg.2023.04.017 基于视觉的手指语识别系统设计韩团军，马晨，王战备，尹

3、继武（陕西理工大学物理与电信工程学院，陕西汉中 723000）摘要：针对传统手指语识别系统识别速度慢、准确率低、运算量大等问题，提出一种基于 MediaPipe 框架与支持向量机（SVM）的轻量级手指语识别系统。该系统通过 MediaPipe 提取手指语图像关节特征点，使用支持向量机（SVM）中的径向基核函数（RBF）对提取的特征进行分类，以一对一的方法将基本的二分类 SVM转变为多类 SVM，从而实现手语识别目的。该文还用准确度、精度、召回率和 F 分数等指标对该系统的性能进行了评价。关键词：MediaPipe；支持向量机；手指语识别；机器视觉中图分类号：TP37；TJ0 文献标识码

4、：A 文章编号：1002-4956(2023)04-0119-06 Design of finger language recognition system based on vision HAN Tuanjun,MA Chen,WANG Zhanbei,YIN Jiwu(School of Physics and Telecommunication Engineering,Shaanxi University of Technology,Hanzhong 723000,China)Abstract:Aiming at the problems of traditional finger la

5、nguage recognition system such as slow recognition speed,low accuracy and large amount of computation,a lightweight finger language recognition method based on MediaPipe framework and support vector machine(SVM)is proposed.The system extracts the joint feature points of finger language image through

6、 MediaPipe,classifies the extracted features using radial basis function(RBF)in support vector machine(SVM),and converts the basic two-class SVM into multi-class SVM by one-to-one method,thus realizing the purpose of sign language recognition.The proposed system performance is measured by accuracy,p

7、recision,recall rate and F score.Key words:MediaPipe;support vector machine;finger language recognition;machine vision 随着计算机技术和人工智能技术的发展，智能人机交互系统已成为人们生活中的重要组成部分，而手指语识别这一智能人机交互领域的核心问题，得到了科研人员的广泛关注。手指语识别就是利用计算机技术对聋哑人日常交流用的手指语进行识别，并将手指语转换为正常人更易理解的语音和文本。传统的手指语识别系统主要依赖传感器、深度相机等外部设备，这就限制了许多解决方案在不同环境中的适用性1

8、-4。近年来，随着深度学习方法在计算机视觉任务上的成功，研究焦点转为由深度学习技术驱动的纯粹基于视觉的符号识别方法。该方法是非侵入性的，只需要一个摄像头生成输入，但这一基于深度学习的解决方案由于缺乏适合机器学习的大规模公共手语数据库，致使区分类间相似性的能力减弱以及对手指或手的自聚焦的敏感性增加，且许多解决方案还不够轻量级，无法在商用移动设备上实时运行，只能在配备强大处理器的平台上运行4-8。本文提出的基于视觉的手指语识别系统，使用 NVIDIA JETSON NANO 为设计平台，内置 Ubuntu 18.04系统，以开源计算机视觉库 OpenCV为基础，通过 MediaPipe 框架和支持

9、向量机（SVM）120 实验技术与管理分类器对中国手指语字母图像进行识别和实时转录，弥补了传统手势识别方法识别效率低、鲁棒性差的缺点，能够辅助聋人与正常人更好地交流。1 系统架构整个系统集成了图像采集与特征检测、数据生成及手势识别三个阶段。在第一阶段，建立了手指语数据库，通过网络摄像头采集样本，将所获取的图片输入到 MediaPipe 框架，生成 21 个三维坐标，并以 CSV格式保存。在第二阶段，有时因为图像模糊等原因，检测器无法检测到手,导致数据集中的条目为空，应将这些点清除掉，否则在制作预测模型时会产生偏差。在去除不需要的数据后，将 x 和 y 坐标规范化以适应本系统。然

10、后准备数据文件,将其分解为训练集和验证集。其中 80%的数据为训练集，用于优化和损失函数训练模型，20%的数据为验证集，用于验证模型。第三阶段的手势识别是将从第二阶段提取出的手部特征向量输入到分类器中进行训练，利用训练好的分类器实现手势预测，并评估其性能。系统框架如图 1所示。图 1 手指语识别系统框架 2 特征提取特征提取的目的是用来识别汉语手指字母。在包含 X、Y 和 Z 轴值的 3D 空间中，获得的关节坐标数为21 个，这些坐标将用于提取新特征。如果一只手在相机或图像的右边缘，即使它与左边缘的手有相同的特征，坐标保持原样，但输出也会显示为一个不同的值。因此，我们需要提取出不受屏幕上位置

11、影响的特征。此外，汉语手指语中有一些标志具有相似的手形，只根据倾斜程度表示不同的字符，因此在设计中，我们需要从初始坐标点中提取基于距离的特征和基于角度的特征。2.1 手势姿态估计通过 MediaPipe Hands API，从网络摄像头和 RGB图像中估计每个关节的坐标。API 生成的输出由 21 个点组成，每个点都有 3D（X,Y,Z）坐标。输入图像、估计的关节点和关节点的顺序，如图 2 所示。图 2 手势关节估计 2.2 基于距离的特征为了提取不受屏幕位置影响的特征，首先计算 21个坐标之间的距离。两个关节点 i 和 j 之间的距离可由下式求得：222()()()ijijijijdxx

12、yyzz=-+-+-（1）韩团军，等：基于视觉的手指语识别系统设计 121 例如，测量第 6 和第 9 关节点之间的距离，如图 3 所示。相邻关节之间的距离不用考虑，因为相邻关节是由骨骼连接的关节，其相对位置总是由骨骼固定的，即使手的形状发生变化，相邻关节之间的距离也不会发生变化9-14。因此，相邻关节之间的距离不会对分类产生任何影响。排除相邻关节，每幅图像可以得到190 个特征点。图 3 基于距离特征的示意图虽然利用关节之间的距离，解决了位置问题，但物体的尺寸问题仍然存在。被识别的物体越大，各个关节之间的距离就越大，物体越小，各个关节之间的距离就越小。我们通过对得到的距离值进行标准化处理来

13、解决这个问题。为了对数据进行标准化，采用了 Z-Score，将不同量级的数据统一转化为同一个量级，即统一用计算出的 Z-Score 值来衡量，以保证数据之间的可比性。对于所采集的数据，可以借助下式进行 Z-Score 标准化处理：meanstddatadata znormalizationdata-=（2）2.3 基于角度的特征角度特征值是通过手的倾斜程度，通过计算每个关节坐标之间的方向向量以及每个向量从 X、Y 和 Z轴方向倾斜的程度来获取的。如图 4 所示，通过连接第 5 和第 10 个关节点，创建一个矢量a?，计算矢量与坐标(),x y z?的夹角15-16。需要估计的关节数为 21

14、个，因此可以创建 210 个向量，每个向量可以计算出 3 个基于角度的特征，总计将产生 630 个角度特征点。图 4 连接第 5 和第 10 关节点创建向量考虑具有相同形状但基于手部倾斜度不同的手指语时，该特征分类器是具有优势的。在本设计中，L和 R 就是这类字母（见本文第 4 节）。在考虑基于距离的特征时，这两个字母将产生相同的距离特征，形状是相同的，只是倾斜角度不同。由于关节之间的距离不会改变，分类器将无法根据基于距离的特征找到差异，而基于角度的特征可以解决这一问题。此外，由于角度信息不受手的大小影响，所提取的特征与之前描述的基于距离的特征相比不需要进行标准化。首先获取两点之间的方向向

15、量，向量与轴的夹角可以使用方向向量和 X、Y 和 Z 轴方向上的向量来计算。图 5为这些角度的提取过程。所采用的计算方法是计算两个空间向量夹角的余弦值。假设向量a?=(a1,a2,a3)，向量b?=(b1,b2,b3)，这两图 5 X、Y 和 Z 轴倾角示意图 122 实验技术与管理个空间向量的夹角可以通过下式计算：1 12 23 3222222123123cosaba bb ba baaabbb+=+（3）以 X 轴计算倾角的方法是计算向量a?X 轴方向上的向量(1,0,0)，用公式（4）表示，类似地，计算 Y轴和 Z 轴倾角的方法是计算向量b?Y 轴和 Z 轴方向的向量(0

16、,1,0)和(0,0,1)，分别用方程（5）和（6）表示：1222123cosxaaaa=+（4）2222123cosyaaaa=+（5）3222123coszaaaa=+（6）3 基于支持向量机的手势识别本设计建立了 SVM 模型。经过训练的 SVM 模型以监督数据作为输入，根据训练数据集预测用户的手势，使用一对一的投票方式进行分类。由于数据集包含 30 种手势，所以要构造 435 个 SVM 子分类器。该算法使用预先训练的两类 SVM 分类器对新的输入特征进行分类，然后对分类结果进行投票。与样本数据均值相差较大的部分训练数据集，在使用经过训练的SVM 分类器对输入的新特征进行分类时，可能

17、会导致评估不正确，从而可能导致交叉投票算法性能低下。另外，使用相同的训练数据集训练 435 个二分类 SVM分类器，并不能最大化不同分类器的结果性能。通过这种方式，435 个 SVM 分类器的训练数据集能够保持一定程度的差异，从而尽可能消除训练数据中野点对分类器分类性能的影响。在核函数方面选用了径向基核函数（RBF）。径向基核函数是一种对应于非线性映射的核函数，可以完成从低维空间向高维空间的映射变换，是某一非线性分类变换后的线性分类操作。空间转换示意图如图 6所示。图 6 将数据从二维空间映射到三维空间其中，线性函数是 RBF 核函数的一种特殊情况，即如果对参数(),c进行合理设置，RBF

18、核函数就能获得与具有错误代价参数 c 的线性核函数等价的效果，其函数形式为：2(,)exp(|)iK x yxx=-（6）对于任意的值，径向基函数都是一个非负单调函数，这时 SVM 的分类函数为：12()sgnexp(|)siiif xaxxb=|=-|（7）4 系统测试及分析使用两种类型的数据集进行训练。一是由梅西大学整理的标准的美国手指语拼写数据集，该数据集包含来自 5 个人在不同光照条件和不同手势下的 2 425幅图像，经过了初级图像处理，以减少噪声的存在。从该系统中选取了 23 个类的子集，即字母 AY，不包括 J、Q 和 Z，因为这三个手势需要额外的时间特征来识别。二是本文创建的

19、中国手指语数据集。通过以上两个数据集来对模型进行验证，并根据本文提取的新特征，对结果进行分析评估。为了验证所提出的模型的有效性和适用性，我们测试了不同环境（背景、距离、光强）下的识别率。使用嵌入式平台 Jetson Nano 进行系统测试。通过摄像头实时获取手势图像对中国 26 个手指语（AZ）进行识别的结果如图 7 所示。从图 7 可以看出，每个手指语都可以被准确识别出来，为了更加准确地评估本文模型，将中国和美国手指语图像数据集都使用 MediaPipe 框架进行预处理和提取特征，并在 SVM 中进行训练，同时对手语进行分类。表 1 总结了这两个数据集的测试性能，图 8和图 9 分别为中国和

20、美国手语混淆矩阵。由中国手语混淆矩阵可以看出，对于不同的手语识别率存在细微差异。其中手语 H 和 X 的识别率相对较低，这是因为其手指结构特征非常相似，但总体来看，各手语的识别状况相对较好。在美国手语（ASL）识别结果中，几乎所有的字母都可以识别出来，只有个别字母比较难检测（如 P）。另外，虽然有一些字母坐标点相似（如 M 和 N），但仍然可以区分清楚。由表 1 可知，本模型对中国和美国手语识别的准确率都达到了 98%左右。下面在不同光照和距离条件下进行手语识别实验。不同光照下采集的图像如图 10 所示，识别结果如表 2 所示。可以看出，无论是在光线昏暗或光线充足情况下，只要手在图像中仍然可以

21、被摄像头读取和预测，即网络摄像头能够捕捉到一个清晰的手部图像，MediaPipe框架就能够识别手部的每个关节点，从而对整个字母表都能进行很好的识别，所以不同光照情况下各手指语识别率差别不大，识别时间都较短。韩团军，等：基于视觉的手指语识别系统设计 123 图 7 手指语识别结果图表 1 使用 SVM 算法对不同数据集的性能分析%手指语类别训练准确率测试准确率精度召回率 F1 值中国 99.56 99.25 99.25 99.25 99.25 美国 99.09 98.86 98.86 98.86 98.86 注：TPTNTPTNFPFNA+=+准确率，TPTPFPP=+精度，R=召回率

22、 TPTPFN+，2F1PRPR=+值。其中，TP为真正类，FN为假负类，FP为假正类，TN为真负类。系统测试了不同距离条件下的手语识别效果。图 11 为手掌与摄像头不同距离的识别图像，表 3 为不同距离条件下的手语识别情况。因为使用了距离和角度特征，当用户的手部距离摄像头太远时，其特征区分度将会下降，所以距离越远识别率越低。由表 3 可以看出，近距离识别率相对较高且识别时间较短，而远距离对手指语识别率影响较大。测试说明，该模型的最大识别距离可达 3 m。综上所述，本文提出的模型在不同的光照、距离条件下仍具有良好的鲁棒性，根据基于距离的特征和图 8 中国手语混淆矩阵图 9 美国手语混淆矩阵

23、 124 实验技术与管理图 10 不同光照条件下的手语识别图表 2 不同光照强度下的手语识别情况光照强度识别率/%平均识别时间/ms 弱 98.42 30.23 正常 99.04 28.35 强 97.56 31.53 表 3 不同距离条件下的手语识别情况识别距离/m 识别率/%平均识别时间/ms 近(00.75)99.08 28.64 中(0.751.5)97.79 30.51 远(1.52.5)95.21 33.28 图 11 不同距离条件下的手语识别效果图基于角度的特征可以较好地推测出手势。无论是针对美国手势数据库还是本文创建的手指语数据库，手语识别效果均良好。5

24、结语使用本文提出的基于MediaPipe技术和SVM分类器的方法，对不同的手指语数据集，都有较高的识别率。该方法避免了当前使用图像处理技术的手语建模方法复杂度高、计算能力要求高等问题，同时解决了训练模型时间长的问题。较低的计算能力要求和对智能设备的适应性使该模型鲁棒性较高，且具有很好的成本效益。对各种手语数据集的训练和测试表明，该模型框架可以适应许多手语数据集，并能获得较好的准确性。今后可以通过使用最新的 MediaPipe 和更好的分类算法检测视频的手语单词，来对模型进行进一步扩展。参考文献(References)1 胡宗承，周亚同，史宝军，等.结合注意力机制与特征融合的静态手势识别算法

25、J.计算机工程，2022,48(4):240246.2 洪期望，李捍东.基于支持向量机的手势识别研究J.微处理机，2022,43(2):4750.3 江茜，李沿宏，邹可，等.肌电信号多通道相关性特征手势识别方法J.计算机工程与应用，2022(3):19.4 张艳邦，张芬，张姣姣.基于SVM和背景模型的显著性目标检测算法J.电子设计工程，2022,30(5):1721,27.5 杨晨奕，何玉青，赵俊媛，等.面向嵌入式平台的轻量化神经网络手势识别方法J.强激光与粒子束，2022,34(3):142150.6 丛玉华，何啸，邢长达，等.基于计算机视觉手势识别的人机交互技术研究J.兵器装备工程学报，2

26、022,43(1):152160.7 刘电霆，张晨光，黄康政，等.人机交互手势的超声波检测及其HMM融合SVM识别算法J.现代电子技术，2021,44(23):92100.8 王如斌，窦全礼，张淇，等.基于MediaPipe的手势识别用于挖掘机遥操作控制J.土木建筑工程信息技术，2022(14):916.9 彭金柱，董梦超，杨扬.基于视觉和肌电信息融合的手势识别方法J.郑州大学学报（工学版），2021,42(2):6773.10 范文渊.应用于人工智能教育的sEMG手势识别系统研究与设计D.上海：上海师范大学，2021.11 孟彩茹，宋京，孙明扬.基于改进CNN与SVM的手势识别研究J.现代电

27、子技术，2020,43(22):128131.12 吴斌方，陈涵，肖书浩.基于SVM与Inception-v3的手势识别J.计算机系统应用，2020,29(5):189195.13 孙鹏.面向AI的手势识别关键问题的研究D.桂林：桂林电子科技大学，2020.14 许冰媛.基于视觉的手势识别算法研究D.广州：华南理工大学，2020.15 罗国强，李家华，左文涛，等.基于计算机视觉技术的手势识别步骤与方法研究J.无线互联科技，2020,17(3):148149.16 王拥军，马维华.支持向量机与微波传感器在手势识别中的应用J.单片机与嵌入式系统应用，2020,20(2):5760.（编辑：张文杰）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于视觉手指语识别系统设计韩团军

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。