基于多模态生理信号特征融合的情感识别方法.pdf
《基于多模态生理信号特征融合的情感识别方法.pdf》由会员分享,可在线阅读,更多相关《基于多模态生理信号特征融合的情感识别方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、针对单模态生理信号情感识别率不高,稳定性不足等问题,提出一种基于眼动和光电容积脉搏(Photoplethysmogram,PPG)多模态特征融合的情感识别方法。从眼动和PPG的浅层特征中使用卷积神经网络FECNN提取深层特征,采用特征层融合的方法将深浅层特征进行融合。使用长短期记忆网络(LSTM)作为分类器,将融合后的多模态特征作为LSTM的输人,实现高兴,感兴趣,困惑和无聊四种情感识别。采用在线视频学习场景下采集的数据对上述模型进行训练和评估。使用眼动单模态浅层特征的最高识别率为7 1.2 5%,PPG单模态浅层特征的最高识别率为7 3.40%,基于FECNN-LSTM的眼动和PPG多模态融
2、合情感识别方法取得平均识别准确率达8 4.6 8%,实验结果表明,上述模型能充分利用眼动和PPG中的情感特征信息,提高了情感分类准确率。关键词:情感识别;多模态;卷积神经网络;长短时记忆网络;特征层融合中图分类号:TP399文献标识码:BEmotion Recognition Method Based on Feature Fusionof Multimodal Physiological SignalsCHEN Xin-yi3,TAO Xiao-mei*1,2(1.School of Computer Science and Engineering&School of Softwar
3、e,Guangxi Normal University,Guilin Guangxi 541000,China;2.Guangxi Key Lab of Multi-Source Information Mining and Security,Guangxi Normal University,Guilin Guangxi 541000,China;3.School of Information Science and Engineering,Guilin University of Technology,Guilin Guangxi 541000,China)ABSTRACT:Aiming
4、at the problems of low emotion recognition rate and insufficient stability of single-modal physi-ological signals,an emotion recognition method based on multi-modal feature fusion of eye movement and photople-thysmogram(PPG)is proposed.From the shallow features of eye movement and PPG,the convolutio
5、n neural networkFECNN is used to extract the deep features and the feature layer fusion method is used to fuse the deep and shallowfeatures.The long-term and short-term memory network(LSTM)is used as the classifier,and the fused multimodalfeatures are used as the input of LSTM to realize four emotio
6、n recognition:happiness,interest,confusion andboredom.The model is trained and evaluated by using the data collected in the online video learning scene.The high-est recognition rate of eye movement single-mode shallow features is 71.25%,and the highest recognition rate of PPGsingle-mode shallow feat
7、ures is 73.40%.The average recognition accuracy of eye movement and PPG multimodal fu-sion emotion recognition method based on FECNN-LSTM is 84.68%.The experimental results show that the modelcan make full use of the emotional feature information in eye movement and PPG and improve the accuracy of e
8、motion基金项目:国家自然科学基金项目(6 190 6 0 51);广西自然科学基金项目(2 0 18 GXNSFBA050029);桂林理工大学博士科研启动基金(GUTQDJJ2005015)收稿日期:2 0 2 1-11-11修回日期:2 0 2 2-0 2-11176classification.KEYWORDS:Emotion recognition;Multimodal;Convolutional neural network;Long and short memory network;Feature-level fusion1引言随着人工智能的快速发展,情感智能也逐渐受到研究者
9、的重视。情感计算是赋予计算机识别,理解,表达和适应人情感的能力1,使其能够感知用户的情感状态,适时做出正确的响应。情感识别是情感计算研究的关键问题之一,对人机交互等各种不同场景下都具有重要意义。生理信号的变化由人体生理系统自发产生,不受个人主观意愿控制2 ,能为情感识别提供准确可靠的依据。此外,随着科学技术的发展,采集生理信号的设备日渐完善,具有便于携带,非侵人式,信号稳定的特点,因此基于生理信号的情感识别研究具有很大的实用价值。当前国内外融合眼动和PPG两个模态的情感识别研究较少,多是使用眼动单模态分类情感或者眼动融合脑电等其它生理信号或者PPG融合其它生理信号来提升识别准确率。如Bradl
10、ey3的研究表明瞳孔的扩张与情感状态相关。Tarnowski41使用注视扫视和瞳孔直径相关特征实现三种情感分类,支持向量机最高识别率8 0%。ZhengWei-Long5使用深度神经网络融合EEG和眼动信号识别4种情感,平均识别率为8 5.11%。上述研究表明眼动数据中包含丰富的情感信息,融合其它生理信号能提高识别率,因此本文尝试将眼动与PPG信号融合进行情感分类。PPG是一种叫做光电容积脉搏波描记的容积测量方法,通过光学技术测量血流速率以及血液中容量的变化。心率(H e a r t R a t e,H R)、心搏间期和心率变异性(Heart RateVaria-bility,HRV)等与情感
11、变化相关的生理指标均可以通过光电脉搏信号计算得出6 。HRV是指连续心跳之间的时间间隔变化,是个体情绪和心理状态的重要指标,能够很好的表征情感状态的变化7 。此外,脉搏信号相比脑电,呼吸等生理信号,采集方式更便捷,包含的情感特征更丰富8 。研究中常用PPG的深度层次特征9,10 、时频域特征1 以及心率相关的特征进行情感分类。然而单个模态的生理信号进行情感识别的研究具有一定的局限性,不同模态的生理信号具有互补性和相关性。以上文献只是使用了单一模态生理信号的时频域特征或者单一模态的时频域特征融合深层特征或者多种模态生理信号的时域特征,未进行多模态生理信号的时频域特征融合深层特征,因此本文尝试使用
12、眼动和PPG双模态生理信号的时频域特征融合深层特征进行情感分类。本文采用眼动信号与PPG信号进行分析,提取与情感状态相关性显著的眼动时域特征和PPG信号的时域、频域特征,进行浅层特征融合,提出特征提取卷积神经网络(Feature Extraction Convolutional Neural Network,FECNN)进行深度特征提取,使用LSTM进行情感分类,最终验证了眼则动和PPG信号的特征之间存在互补性,以及本文的基于FECNN-LSTM的眼动和PPG多模态融合模型的有效性。当前基于PPG信号等生理信号的研究识别的情感种类较少,且识别率较低,与眼动特征融合后,识别性能得到较大提高。2数
13、据采集与特征提取2.1数据采集实验及预处理本研究开展了一个数据采集实验,采集了6 2 名在校大学生在使用计算机观看学习视频时的表情、眼动和PPG等数据。选取四个不同主题总时长约为35分钟的视频作为刺激素材来引发困惑,感兴趣,高兴,无聊四种情感。实验前被试签署了知情同意书,允许数据用作科研目的。由于PPG原始数据的采集过程中会受到电磁干扰,光照影响,运动伪差等干扰而产生噪音,而PPG信号的有效带通在0.8-10 Hz之间,因此设定高通过滤器阈值为1Hz过滤掉信号在低频处产生的漂移,设定低通过滤阈值为10 过滤高于10 Hz的噪声干扰。并使用5s的滑动窗口划分时间片段。2.2特征提取2.2.1浅层
14、特征提取浅层特征由同步时间窗口内的PPG时频域特征和眼动时域统计特征构成。对每个时间窗口的脉搏序列信号等间距采样选取N点构成离散序列,进行离散傅里叶变换得到频域序列,其中k为离散频率变量,W为正变换核,j为虚数单位。计算公式如下式(1)(6)N-11X(k)x(n)Wn,k=o,1,.,N-1(1)/Nn=02TnkWexpN由欧拉公式e=cos n jsin n(2)W=exp(-j2nk)=cos2nk-jsin2nk(3)此时X(k)为复数,X(k)=R(k)+jl(k)(4)R(k)为实部,I(k)为虚部。则频域序列的每个点的相位值为I(k)p(k)arctan(5)R(k)频率谱为:
15、I X(k)I=VR(k)+(k)(6)下图1示的是某被试在观看刺激素材时的HRV频域数据根据高低频率划分若干频段。图中PSD代表HRV的总功177率密度谱,VLF表示处在频段0-0.0 4Hz的极低频功率,LF表示处在0.0 4-0.15Hz的低频功率,HF表示处在0.15-0.5Hz的高频功率,LF/HF表示低频和高频功率的比值。YunitXUnitH0.000.050.100.150.200.250.300.350.40Total Power:40068.72msLF/HF:0.72图1HRV频域划分设HRV序列为R=R,R,.R,R 表示i时刻HRV的值,N代表序列长度。HRV时域特征
16、计算公式如下式(7)(10)。R R 间期差值均方根RMSSD的计算公式如下式(7),其中 RR,=R(i+1)-R;。1NRMSSD=(RRi+1-RR?)(7)Ni=1标准差SDNN公式如下NZ(RR,-MEAN)1SDNN(8)N其中NRRi=1MEAN=(9)N峰值间期大于50 ms的百分比PNN50RR;50PNN50100%(10)N根据每个模态得到的特征采用主成分分析(PCA)法筛选出与情感状态显著相关的眼动和PPG特征。实验分析最终选取了32 个眼动特征以及40 个PPG特征,具体列举如下表1所示。表1通过PCA方法选取的浅层特征模态指标浅层特征注视次数,注视时长,注视速度等的
17、统计眼动注视特征扫视次数,扫视时长,扫视速度等的统计扫视特征左右瞳孔直径变化率,左右瞳孔直径,瞳瞳孔直径孔均值等的统计特征HR均值,HR最值,HR一阶差分,HR二PPGHR阶差分等时域特征模态指标浅层特征HRV一阶差分,二阶差分,SDNN,RMSSD,HRVPNN50,PNN20等时域特征;PSD,LF,HF,VLF,LF/HF五个频域特征RPeaks峰值和,峰值一阶差分等时域特征将同步时间窗口内的眼动统计特征和PPG时频域特征进行特征层融合后构成浅层特征,得到一个7 2 维的组合特征向量。由于存在个体差异,不同人的生理信号基线值不同,因此需要去除个体的基线值,将眼动和PPG的每种情感特征用平
18、静状态下的相应特征值作标准化,用min-max归一化将特征值映射到0,1 区间内。2.2.2深层特征提取针对人工提取特征容易受到多方因素影响的问题,情感识别领域中的研究常采用CNN,DBN等自适应提取特征,以减少手工设计特征的不完整性,消除手工特征提取过程中产生的伪影12-15,如Mohammad16等人使用无监督深度信念网络从EDA,PPG 和EMG中提取深层特征,然后将三种模态的深层特征与统计特征进行特征层融合,实现五种情感的分类。陈景霞等17 基于EEG的时频域以及组合特征,提出使用CNN进行特征学习与分类。上述研究表明CNN能有效提取各种模态信号的深层特征。因此将CNN应用到本研究中,
19、将眼动、HR和RPeaks的相关特征以及HRV时频域特征作为深度模型的输人,探究这些特征的深层特征是否与情感状态显著相关。本文通过改进MinSeop18提出的一维深层卷积神经网络结构构建了一个FECNN网络模型(FeatureExtractionCon-volutionalNeuralNetwork,FECNN)用来自适应提取眼动和PPG的深度特征,FECNN网络结构如下图2 所示。FECNN网络中特征提取部分由连续的卷积层和池化层构成,卷积层用来提取输人数据的深层信息,池化层用于对获得的特征图进行降采样处理,以减轻网络过拟合程度。FECNN的输人是一个7 2 1的向量,共有4个卷积层,分别是
20、Convl,Conv2,Conv3,Conv4。每个卷积层都包含一个一维大小为31的卷积核,一个带有2 1过滤器的最大池化层和一个正则化Dropout层。Dropout层以概率0.5使部分神经元失活以防止模型出现过拟合。每个卷积层的步长设为1,使用Relu作为激活函数。卷积层Conv4后叠加一个Flatten展平层,然后用一个Dense层把Flatten层输出特征压缩成6 41维的深层特征。用皮尔逊相关系数选取与情感状态相关的深层特征,共Fulconnedted layerSolumaxcasulferiput71dimenakonafCoyaPoling loyerPoolne layerv
21、ector32:3*1PoolinglayerPooling layerCoNv3Coniv4Con2128:31256:33164.31图2FECNN网络结构图17857维,再与浅层特征进行特征层融合,输出一个12 91维的特征向量,用于下一步情感分类器的输人。3基于FECNN-LSTM的多模态融合情感识别模型3.1长短时记忆单元长短时记忆网络(LongShort-TermMemory,LST M)是循环神经网络的一种变形,常用于分析时间序列数据。近年来研究中常用LSTM分析生理信号,如朱兆坤等19 使用LSTM学习经过融合的ECG和呼吸信号的浅层特征,胡章芳等2 0 使用LSTM实现脑电特
22、征分类。考虑到PPG信号和眼动信号也具有时序特性,因此本文使用LSTM作为情感分类器。LSTM由输人门,遗忘门,输出门和内部记忆单元组成,通过有效利用计算机内存,决定网络何时遗忘以前的隐藏状态,何时更新隐藏状态,用于解决RNN在处理有限长度的序列数据在反向传播过程中出现的梯度消失和爆炸问题。LSTM网络结构单元如下图3所示。图3中其i代表输人门单元的输出,f代表遗忘门单元的输出,o,代表输出门单元的输出,c,代表内部记忆单元,h,为隐藏单元的输出。图中g代表sigmoid激活函数。tanhtanhh遗忘门输入门输出门图3LSTM结构图假设x,为t时刻LSTM单元的输人,W和U表示权重,h,-1
23、为上一层隐藏单元的输出。具体描述如下式(11)(16)所示。i,=o(w(W,x)+u(U,ht-1)(11)f.=o(入w(Wfx,)+入u(Uht-1)(12)0,=o(入w(W,x。)+A u.(U.h t-1)(13)c,=tanh(w(W,x,)+ue(U,ht-1)(14)c,=fct-1+ic(15)h,=o,tanh(c,)(16)由式(14)(16),时刻t隐藏单元的最终输出h,由前一个时间点隐藏单元输出h-和当前时间点输入x,共同决定,实现了记忆功能。通过3个门控单元的设计,LSTM记忆单元能选择性保存和更新长距离的信息,这有利于学习PPG信号和眼动的序列特征信息。3.2基
24、于FECNN-LSTM的双模态情感识别本节主要介绍利用FECNN-LSTM模型进行双模态情感识别的过程。如下图4所示为本文提出的基于CNN-LSTM的眼动和PPG多模态融合情感识别模型结构图。使用图2所示的FECNN提取没有伪影的深层特征,经过FECNN网络的全连接层输出,然后与浅层特征进行特征层融合得到浅层+深层特征向量,输人到LSTM进行训练,以捕捉特征信号在时间序列上的变化规律并学习多个特征在同步时间窗口内的关系。本文设计的LSTM网络具有3个隐藏层,隐藏单元数分别为32,6 4,7 2。将表1展示的浅层特征和FECNN提取的深层特征作为LSTM的输人,训练阶段通过反向梯度传播更新网络权
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多模态 生理 信号 特征 融合 情感 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。