基于Scheduled Sampling采样机制的人体行为预测.pdf
《基于Scheduled Sampling采样机制的人体行为预测.pdf》由会员分享,可在线阅读,更多相关《基于Scheduled Sampling采样机制的人体行为预测.pdf(6页珍藏版)》请在咨信网上搜索。
1、针对循环神经网络存在的预测误差累积问题,提出了融合 Scheduled Sampling 采样机制的序列预测算法。该算法选用较大概率 p 作为选择使用真实值或是前一帧预测数据作为当前时间步输入依据,并随着时间的推移 p 值逐渐变小,使解码器更倾向于使用预测序列作为输入,以此增加模型的健壮性。实验结果表明:该算法能够将 Human3.6M数据集中绝大多数动作短期预测误差降低到 0.5 dm 左右,相比原方法降低了 0.20.4 dm,在行为预测上表现良好。关键词院 行为预测曰循环神经网络曰Scheduled Sampling中图分类号院 TP183文献标识码院 A文章编号院 2095 原 092
2、6(圆园23)02 原 园园54 原 园6Human behavior prediction based on Scheduled Sampling mechanismDU Wei袁 YU Yanan袁 YIN Guanghua渊 School of Information Technology Engineering,Tianjin University of Technology and Education,Tianjin 300222,China 冤Abstract院Aiming at the problem of prediction error accumulation in rec
3、urrent neural networks袁 a sequence predictionalgorithm is proposed based on Scheduled Sampling mechanism.A high probability p is selected as the basis for choos鄄ing to use the real value or the predicted data of the previous frame as the input of the current time step袁 and graduallydecreases the p v
4、alue over time袁 making the decoder more inclined to use the predicted sequence as the input,so as toincrease the robustness of the model.The experiment results show that this method reduces the short-term predictionerror of most actions to about 0.5 dm in Human3.6M data set袁 which is 0.2-0.4 dm lowe
5、r than the original method袁and performs well in behavior prediction.Key words院 behavior prediction曰 recurrent neural network曰 Scheduled Sampling基于 Scheduled Sampling 采样机制的人体行为预测杜薇,于雅楠,尹光华(天津职业技术师范大学信息技术工程学院,天津300222)收稿日期院 2023-04-16基金项目院 天津市教委科研计划项目(2021KJ009).作者简介院 杜薇(1997),女,硕士研究生,研究方向为计算机视觉.通信作者院
6、 于雅楠(1984),女,副教授,博士,研究方向为计算机控制技术、计算机视觉与图像分析,援行为预测1是指对人类行为意图的进一步推断和预判,是计算机视觉和机器智能领域具有重要意义和挑战性的课题,可以帮助机器理解人类的各种行为。人体的运动预测是困难的,因为人类天生就会表现出复杂的行为,且在不同个体上或不同环境下行为差异较大。由于人体运动在前期阶段动作执行还未成型,关键信息较少,完整动作序列还处于未知状态,准确的动作预测仍然存在很多问题。在过去的几年里,让计算机通过一系列智能算法来自动理解视频序列中的人体动作序列一直都是国内外计算机视觉和计算机图形学领域中研究的重点。除了对自身行为和仿真机器人2的研
7、究和探索外,随着微软 kinect、华硕 xtion等低成本深度传感器的快速发展,采集设备可以实时生成精确的骨骼姿态数据,使得捕捉人体骨架动作变得更加简单、方便和准确。人体行为预测的实用价值高,在安防、交通、机器人、无人驾驶等领域都有广泛的应用。在安防领域,通过智能监控设备采集、识别人体骨骼关键点,分析并预测人体动作姿态,应用于被测试者的身份识别及动作识别3-4,增强公共场所的系统安防能力,智能采集匹配犯罪分子和嫌疑人骨骼、姿态信息,方便协助警方调查重大案件。在自动驾驶领域,精准的人体骨架识别以及运动轨迹预测对于提升无人车的安全性能具有重要意义5,尤其是在真实复杂场景下的行为理第 33 卷第
8、2 期圆园23 年 6 月天 津 职 业 技 术 师范 大 学 学 报允韵哉砸晕粤蕴 韵云 栽陨粤晕允陨晕 UNIVERSITY OF TECHNOLOGY AND EDUCATIONVol.33No.2Jun.2023DOI:10.19573/j.issn2095-0926.202302010第 2 期解与预测是自动驾驶车辆进行安全高效决策、规划及控制的核心。随着人工智能技术的不断进步,机器要实现与人类的自然互动,必须在理解人体姿态行为的基础上,高精度预测未来可能会发生的行动,积极探索人类活动所遵循的有规律的模式。本文聚焦基于循环神经网络的人体 3D 骨架关键点6行为预测,针对循环神经网络误
9、差累积问题,对网络模型训练所采用的采样机制进行研究与改进,提高序列预测算法模型的预测精度及鲁棒性。1人体行为预测国内外研究现状鉴于人体动作的高度复杂性以及复杂环境对行为预测的多因素干扰,人体行为预测研究面临众多挑战。相比于传统的卡尔曼滤波算法7和隐马尔可夫链算法(HMM),基于深度学习方法的人体行为预测效果表现卓越,备受研究者关注的预测模型主要包括:循环神经网络(recurrent neural networks,RNN)、Transformer网络以及生成对抗网络等,以上模型在多序列帧预测任务中的表现效果突出7。循环神经网络被广泛运用于各种序列预测任务中,在机器翻译、语音识别、图像生成、姿势
10、识别8-10等领域表现突出。然而,许多训练循环神经网络的方法被认为训练速度慢或者模型过于复杂,容易造成误差累积和堆叠问题,许多研究者针对这一问题做了探索。针对训练循环神经网络过程中长期依赖的学习和误差累积的问题,Li 等11将注意力重点放在了噪声对前馈神经网络性能的影响,尝试将在循环神经网络中加入定量的噪声来提高网络的收敛性和泛化性。每个时间步加入的各种噪声参数在网络训练阶段找到合适的权重空间区域,以此提高局部最小值的错误累积,但噪声参数的加入会导致网络训练难度加大,加大了模型的训练时长。Prokhorov12提出 Echo state networks(ESN)对于复杂动态系统进行建模,它采
11、用固定的随机选择值作为大部分权重参与训练,仅将连接到输出链接上的权重进行动态训练。这种方法使得模型更加易于训练,但由于隐藏层的随机连接导致其性能高度不稳定。Obst 等13针对这一缺点提出了 tamed reservoirs,有效利用前馈训练的方法将所有的循环连接都经过了训练,在时间序列预测方面较前者表现更好。Li14提出了预处理随机梯度下降(stochastic gradient descent,SGD)算法,它不需要引入参数或预训练操作,通过自适应估计来加速梯度下降,使得预处理随机梯度的扰动幅度与待训练参数的扰动幅度相匹配,自然地抑制梯度噪声从而优化 SGD 方法。除此之外,Guiroy
12、等15通过分析目标景观的各种属性来研究神经网络在基于梯度元学习中的泛化,通过基于梯度训练过程中的几个步骤的微调,使得模型的元训练解适应新任务后得到的元测试解变得更平坦,损失更低。研究通过优化模型训练参数、加入噪声来优化模型,但有限的内存资源和硬件配置往往潜在限制了模型的参数数量,参数的数量在一定程度上影响网络性能。针对循环神经网络存在误差累积的问题,本文对比了不同采样机制在 Seq2Seq 模型上的预测效果,提出基于 Scheduled Sampling16采样机制训练 RNN 行为预测模型,该方法运用分类器的输出作为 RNN 的额外输入,以学习输出序列模型间的时序联系,即 Teachingf
13、orce17。模型采用端到端的循环神经网络作为基础模型进行训练,从分割训练测试阶段改变训练期常规RNN 分类器输入,将连续采样时间内运行的循环神经网络梯度作用于时序监督学习,减少模型训练带来的累积误差。RNN 的额外输入是以一定比例将真实值与预测值相结合,在训练初期真实值输入占比较大,允许 RNN 对预测误差进行补偿,以此缩小模型预测差距;而训练后期逐步融入预测值,提高模型自身泛化能力。该方法对人体行动预测具有较高的准确度,将400 ms 内行动预测误差降低至 0.5 dm 左右。2人体行为预测模型2.1Seq2Seq网络模型序列与序列(sequence to sequence,Seq2Seq
14、)模型结构是自然语言处理中非常经典的文本生成模型,属于编码器-解码器(encoder-decoder)结构的一种。Seq2Seq 基于循环神经网络模型构建,能够适用于多种应用研究,如语言翻译、人机对话等,其模型结构如图1 所示。模型包括编码器(Encoder)和解码器(Decoder)两部分,其输入输出序列都为可变长度。Encoder 将输入序列压缩成指定长度的向量,将学习到的特征输出为图 1Sequence to sequence 模型序列输出序列输入序列输入DecoderEncoderGRUGRUGRUh2CCCCh1h0BIGRUBIGRUBIGRU杜薇袁等院 基于 Scheduled
15、Sampling 采样机制的人体行为预测55天 津 职 业 技 术 师范 大 学 学 报第 33 卷一个隐含状态 c,并将其作为初始状态输入到 Decoder中,解码器接收到上下文信息向量后对序列信息解码,并输出预测序列。在 Seq2Seq 模型中,测试时发现 Decoder 在一个时间步内会生成一个动作序列,并在下一个时间步将生成序列作为输入反馈给模型,由此生成整个动作序列。由于模型在不同的输入数据分布上进行训练的,并非来自真实序列,在预测过程中错误会随着时间的推移逐渐累积,这种差异被称为暴露偏差。由此可见,预测过程的内部算法非常脆弱,在解码器解码过程中,如果其中一个循环神经网络解码出现了误
16、差,该误差会随之传递到下一个循环神经网络单元里,如此往复,使得训练结果误差逐渐增大,网络将会变得难以收敛,对预测效果也会产生巨大影响。2.2Teaching force从 Seq2Seq 模型来看,解码器在训练期间为保证预测上下文向量联系,解码器的上一帧输出向量作为当前帧的输入向量,并进行动作序列的帧间预测。从实际预测效果来看,这种运行方式有风险,因为预测结果极易受到预测误差的影响,导致预测结果的误差值不断累积,偏离实际输出,并且很难溯源到错误源头。针对该问题,通常循环神经网络有两种运行方式:一种是 Free-running,结构如图 2 所示;另一种是 Teachingforce,结构如图
17、3 所示。其中,Teaching force 从解码器的向量输入着手,有效地解决了这一问题。Teaching force 与普通编码器类似,创建输出的预测张量,并将所有预测值 y 保存,使用 sos 令牌作为第一个输入 y1,但不同的是在循环解码过程中,将输入令牌的 yt、先前的隐藏状态 st-1和上下文向量插入解码器,接受预测值 yt+1以及最新的隐藏状态 st,通过设置随机 Teaching force 阈值,即使用 Teaching force 的概率,当随机生成的数值大于此阈值时,使用 Teachingforce,否则不使用。Teaching force 方法的本质就是根据一个固定阈值
18、来选择当前时间步输入方式,即采用目标序列中的真实数据,还是采用前一序列帧来预测数据。这样的训练方式使得预测结果受到真实值参与的影响,减少模型训练过程中的误差累积。2.3Scheduled Sampling循环神经网络的运行方式不仅限于 Teachingforce 方法的加入,研究者在此基础上改善了 Teachingforce 采样机制,摒弃掉 Teaching force 固定阈值的呆板设置,提出了阈值在训练过程中跟随时间推移而变化的 Scheduled Sampling,通过在训练过程中随着时间的推移逐渐降低训练阶段输入的真实值频率,加速模型学习训练,在达到相同性能条件下,减少训练的迭代次数
19、,提高预测效果。本文在 Seq2Seq 模型的解码器部分引入 Schedu-led Sampling 采样机制,解决网络训练时由于序列帧预测数据产生偏差,从而导致误差累积的问题。Sched原uled Sampling 算法结构如图 4 所示。训练时不完全采用真实数据或预测数据作为当前时间步的输入,而是以概率 p 值选择目标序列中的真实数据,以概率1-p 值选择模型前一序列帧预测数据。在模型训练初期训练不够充分的条件下,p 值尽量选择较大值,使用目标序列中的真实数据来加速网络训练;而随训练时间的推移,模型训练渐入佳境,这时p 值要尽量变小,使得模型逐步实现自我预测。在借鉴前人经验的基础上,p 值
20、初值选定为 0.9,同时设定图 2Free-running图 4Scheduled samplingy赞ny赞n-1y赞1y赞1y1y赞n-1y赞nyn-1yn1-p1-p1-p1-pppppDecoder以 p 的概率靠预测以 1-p 的概率靠真实值图 3Teaching forcey赞1y赞n-1y赞ny1yn-1ynDecodery赞1y赞n-1y赞ny赞1y赞n-1y赞nDecoder56第 2 期衰减系数为 0.9,通过系数衰减下降的方式,训练迭代10 000 次进行一次衰减。该方法的本质是希望通过在训练阶段混入模型自身的预测数据作为输入,减小其与测试阶段输入数据分布的差异,从而减轻
21、预测偏差。3实验与分析3.1实验设置网络模型采用 Seq2Seq 体系结构,编码器使用双向 GRU,方便建立上下文向量联系,解码器采用单向GRU,设置隐藏层单元为 1 024 个,学习率为 0.005,批次为 16,训练迭代 100 000 次,输入序列为 50,输出序列为 10,采用 GPU 训练。实验参数的选定参考了前人经验以及具体的实验结果。本实验在解码器采样机制中设置了相关控制参数,在使用 Teaching force 或Scheduled Sampling 采样机制进行训练时,更改相应参数值为 True。其中 use_ teacher_force 和 use_schedu-led_s
22、ampling 参数,只能其中一者设置为 True。使 用 带 有 GPU 计 算 显 卡 的 联 想 计 算 机,在Windows 10 系统实验设备下搭建实验平台。实验环境参数为:CPU 型号为 Intel(R)Core(TM)i7-9700,内存为 32.0GB,显卡型号为 NVIDIAGeForceRTX2080 Ti,显卡内存为 11.0 GB。使用的操作系统为 64 位的Windows 10 专业版系统,在开源深度学习框架 Tenso-rflow 下搭建网络模型。3.2评价指标实验中,模型预测准确度使用 3D 姿态估计领域中常用的关节位置误差评价指标(mean per joint
23、posi-tion error,MPJPE),即通过计算角度空间中预测位姿与真实位置之间的欧氏距离来评判模型预测的准确度。具体算法流程如下:(1)将序列预测值 di与序列真实值 oi的欧氏距离作为预测误差值 ei,计算式为:ei=(di-oi)2。(2)将预测误差值 ei以列压缩,即让每一行的数值相加,矩阵压缩为一列,ei=(ei)姨。(3)利用 meanErrors 函数计算其平均值,均衡预测误差,进而评价预测值与真实值的波动程度,该值越小表示模型预测越接近真实值,ei=meanErrose(ei)。3.3数据集实验采用 Human3.6M 数据集18,该数据集由 4 台数码相机收集的 36
24、0 万个不同人体姿势组成。数据集有 15 个训练动作,包括多种不对称的行走、坐姿、躺下姿势,各种类型的等待姿势以及其他类型的姿势,这些动作由 11 名专业演员完成。实验使用 5 号受试者进行测试,其余受试者进行训练和验证。其中,姿势数据是相对于骨架给出的,为了一致性和方便性,研究对所有参数使用相同的 32 个关节骨架。该数据集中人体行为信息数据记录形式为四元数形式,每一行代表一帧人体姿态图像,每一帧的四元数信息又包含了人体姿态的空间信息,提供了三维坐标中关节点的位置,位置数据是关节角度偏移所得到的。除 3D 关节位置外,该数据集还提供了运动表现参数,包含针对肢体之间的关节相对角度,方便记录人体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于Scheduled Sampling采样机制的人体行为预测 基于 Scheduled Sampling 采样 机制 人体 行为 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。