基于多模态信息融合的情感识别研究.pdf
《基于多模态信息融合的情感识别研究.pdf》由会员分享,可在线阅读,更多相关《基于多模态信息融合的情感识别研究.pdf(87页珍藏版)》请在咨信网上搜索。
1、0159497分类号 密级UDC_学位论文基于多模态信息融合的情感识别研究东北大学信息科学与工程学院申请学位级别:硕士 学科类别:工学学位学科专业名称:模式识别与智能系统 万方数据A Thesis in Pattern Recognition and Intelligent SystemsEmotion Recognition Based on Multi-modal Information FusionBy Guo NingningSuper viso r:Asso ciat e Pr o fesso r Wang FeiNortheastern UniversityMarch 2018万方
2、数据东北大学硕士学位论文搞要摘要情感识别研究是实现情感智能的关键方法之一,涉及到包括生理学、心理学、认知 科学等在内的诸多领域,是一个多学科交叉的热点研究课题。由于单一模态(如语音、图像、文本等)的情感识别受到单一情感特征的限制,情感识别识别率有待提高。近年 来,有学者提出基于多模态融合信息进行情感识别的方法,使得情感识别的准确率得到 了较大提升。本论文提出一种融合情感语音、面部表情和情感文本的情感识别方法,并采用基于 特征层融合与决策层融合两种策略进行多模态融合。采用中国科学院自动化研究所建立 的CHEAVD2.0数据集,包含生气、悲伤、高兴、焦虑、惊讶、厌恶、担心和中性等八 种情感类型,共
3、计5624个多模态对应文件。本文的具体研究工作包括以下内容:(1)语音情感识别研究。本文首先基于梅尔频率倒谱系数的音频词袋特征选取语 音情感特征;然后,将原有的包含多帧数据特征的梅尔频率倒谱系数向量转换成维度固 定的句子级别的特征向量;最后,以这些句级特征向量作为语音情感特征的数据来进行 情感识别。(2)人脸表情识别研究。本文首先对数据集中的视频文件进行分帧和人脸检测,得 到面部表情数据;然后,设计一个六层的卷积神经网络进行表情分类;随后,为了进一 步提高表情识别的准确率,采用对VGG16网络进行二次微调的方法进行实验;最后,对比两个模型的分类性能,选择其中识别准确率更高的模型,将其全连接层的
4、输出作为 人脸表情特征,用于特征层融合实验,预测结果用于决策层融合实验。(3)文本情感识别研究。本文首先采用语音识别工具提取出所用数据集的语音文 本内容;然后,对得到的文本数据去标点符号、分词、去停用词等预处理,获得词汇文 本数据,同时,采用中文维基百科语料基于skip-gram模型训练出词向量模型,并用该 词向量模型将预处理后的词汇文本数据映射为词向量;随后,采用常用的暴力平均法获 得句子级别的特征向量,进行文本情感识别,最后,为了提高文本情感识别准确率,本 文提出基于循环神经网络的文本情感识别方法,用动态循环神经网络学习句子中所有词 汇的序列关系,得到句子级别的特征向量,用于文本情感识别.
5、II-万方数据东北大学硕士学位论文 摘要(4)多模态情感识别研究。本文提出一种基于二次训练的决策层融合方法,基本思 想是通过训练来拟合单模态决策结果与样本标签之间的映射关系。与特征层融合方法以 及传统的六种决策层融合规则进行了对比实验。实验结果表明,多模态情感识别的准确率高于单模态情感识别,而在两种融合策略 中,本文所提出的基于二次训练的决策层融合方法获得了更高的识别准确率。关键词:语音情感识别;人脸表情识别;文本情感识别;多模态情感识别;自然型情感 数据-III-万方数据东北大学硕士学位论文AbstractAbstractEmotion recognition research is one
6、 of the key methods to achieve emotional intelligence.It involves many fields including physiology,psychology,cognitive science,etc.It is a multidisciplinary hot research topic.Since the emotion recognition of single modality(eg,voice,image,text,etc.)is limited by the single emotion feature,the reco
7、gnition rate of emotion recognition needs to be improved.In recent years,some scholars have proposed a method of emotion recognition based on multimodal fusion information,Aiich has greatly improved the accuracy of emotion recognition.This thesis proposes an emotion recognition method that fuses emo
8、tional speech,facial expression and emotional text,and adopts two strategies based on feature layer fusion and decision layer fusion to implement multi-modal fusion.The CHEAVD2.0 data set established by the Institute of Automation of the Chinese Academy of Sciences is adopted.It contains eight types
9、 of emotions:angry,sad,happy,anxious,surprised,disgusted,worried,and neutral,for a total of 5,624 multimodal correspondence files.The specific research work of this thesis includes the following:(1)Speech emotion recognition research.This thesis firstly selects the speech emotion feature according t
10、o the bag of the audio word based on the Mel frequency cepstrum coefficient.Then,it transforms the original Mel frequency cepstrum coefficient vector containing multiframe data features into a dimension-fixed sentence-level feature vector.Finally,using these sentence-level feature vectors as data fo
11、r emotional emotive features to identify emotions.(2)Face expression recognition research.In this thesis,the video files in the data set are firstly framed and face detected to obtain facial expression data.Then,a six-layer convolutional neural network is designed to classify the expression.Then,in
12、order to ftirther improve the accuracy of expression recognition,the method of fine timing VGG16 is used.Finally,compare the classification performance of the two models,select a model with a higher recognition accuracy rate,and use the o 呷 ut of the full-connection layer as the facial expression fe
13、ature for the feature layer fusion experiment.The prediction results are used for decisionlevel fusion experiments.-IV-万方数据东北大学硕士学位论文Abstract(3)Text emotion recognition research.Firstly,this thesis uses speech recognition tools to extract the text content of the data set used.Then,the obtained text
14、data is pre-processed,such as removing punctuation marks,word segmentation,and removing stop words,to obtain vocabulary text data,and at the same time,the word vector model based on the skip-gram model is trained adopts Chinese Wikipedia corpus,and uses the word vector model to map the pre-processed
15、 vocabulary text data into word vectors.Then,using the commonly used violent average method to obtain the sentence-level feature vectors for textual emotion recognition.Finally,in order to improve the accuracy of textual emotion recognition,this thesis proposes a textual emotion recognition method b
16、ased on recurrent neural network.The dynamic recurrent neural network is used to learn the sequence relationship of all lexical items in the sentence,and sentence-level feature vectors are obtained for textual emotion recognition.(4)Research on multi-modal emotion recognition.This thesis proposes a
17、decision-level fusion method based on the second training.The basic idea is to fit the mapping relationship between single-mode decision results and sample tags through training.A comparative experiment with the feature layer fusion method and the traditional six decision layer fusion rules was cond
18、ucted.Experimental results show that the accuracy of multi-modal emotion recognition is higher than that of single-modal emotion recognition.In the two fusion strategies,the decision-based layer fusion method based on second training proposed in this thesis obtains a higher recognition accuracy.Keyw
19、ords:speech emotion recognition;facial expression recognition;text emotion recognition;multi-modal emotion recognition:natural emotion data-V-万方数据东北大学硕士学位论文目录目录独创性声明.I摘要.IIAbst r act.r v第1章绪论.11.1 课题背景及研究意义.11.2 情感的表示模型.21.3 情感计算的概念.41.4 国内外研究现状.51.4.1 单模态情感识别研究现状.61.4.2 多模态情感识别研究现状.61.5 论文的主要工作.71.
20、5.1 论文主要研究内容.71.5.2 论文纲要.8第2章基于语音、图像及文本的情感识别方法.112.1 常用情感识别数据库.112.1.1 情感语音数据库.112.1.2 人脸表情数据库.132.1.3 情感文本数据库.132.2 情感特征提取.142.2.1 语音情感特征提取方法.142.2.2 人脸表情特征提取方法.152.2.3 文本特征提取方法.162.3 情感分类模型.172.4 本章小结.19第3章 基于MFCC_Bo AW的语音情感识别.213.1 语音信号及MFCC特征.213.1.1 语音信号的短时平稳性.21-VI-万方数据东北大学硕士学位论文目录3.1.2 语音信号的M
21、FCC特征.213.2 基于MFCC-BoAW的语音情感识别.233.3 多模态情感识别数据集及分类效果的评价标准.263.3.1 多模态情感识别数据集.263.3.2 分类效果的评价标准.273.4 实验结果及分析.283.5 本章小结.33第4章基于深度学习的表情及文本情感识别.354.1 深度学习理论.354.2 基于卷积神经网络的表情识别.364.2.1 卷积神经网络的网络结构设计.364.2.2 实验结果及分析.384.3 基于循环神经网络的文本情感分析.454.3.1 循环神经网络的网络结构设计.454.3.2 实验结果及分析.464.4 本章小结.50第5章融合语音、人脸及文本信
22、息的多模态情感识别.515.1 多模态信息融合策略.515.1.1 特征层融合.515.1.2 决策层融合.525.2 基于二次训练的决策层融合方法.535.3 实验结果及分析.565.3.1 基于特征层融合的多模态情感识别.565.3.2 基于决策层融合的多模态情感识别.575.4 本章小结.62第6章总结与展望.636.1 工作总结.636.2 问题与展望.63参考文献.65-VH-万方数据东北大学硕士学位论文目录致谢.75攻硕期间取得的研究成果.77-VIII-万方数据东北大学硕士学位论文目录-IX-万方数据东北大学硕士学位论文第1章绪论第1章绪论1.1 课题背景及意义随着科技的发展,各
23、种电子终端影响着人类生活的方方面面,近几年,随着人工智 能的兴起和发展,人类与这些电子终端之间的交互需要更加人性化、智能化的方式。而 情感识别就是实现这一任务及其重要的一步,与我们的生活息息相关,应用前景极其广 阔,主要包括:(1)家庭保健与护理。有研窕显示,截至2016年年底,中国的65岁及以上老年 人口超过L 5亿,占总人口的10.8%,老龄化问题将成为中国社会和经济发展的新挑战。对于由此产生的空巢老人问题,可以在家庭环境下利用多种传感器多方位地采集老人的 信息,利用情感计算技术分析出其情感状态,然后通过一些措施给予适当的慰藉,起到 很好的陪伴作用,消除老人的孤寂感和对老年的恐惧,减轻子女
24、的家庭负担。(2)辅助医疗护理。在医院的病房中安装摄像头及麦克风等采集设备,实时采集病 人的多种外在表现信息及生理信号,跟踪看护对象的情感变化。当看护对象突然出现难 受等情感状态时,监控设备会立即提醒医护人员。医护人员不必时刻看护病人,而只需 在紧急情况下采取处理措施,大大减轻了工作负担,同时,对于一些无行动能力的病人,在出现突发状况时,不必按下呼叫按钮也能得到及时的救治。J丹麦模拟生气、高兴、中 性、悲伤、惊奇女性2人,男性2人419音频Speech UnderSinulated and ActualStress(SUSAS)(421英模拟、诱导生气、害怕、中性女性3人,男性4人16000音
25、频Enterface1431英模拟生气、讨厌、害 怕、高兴、悲 伤、惊奇女性8人,男性34人1277音视频SmartKoml)德、英自然生气、高兴、中 性、无助、沉 思、惊奇女性47人,男性32人2775音视频Audio-visual InterestCorpus(AVIC)的英自然中性、烦躁、高 兴女性10人,男性11人996音视频具有代表性的国内情感语音数据库如表2.2所示:表2.2具有代表性的国内情感语音数据库Table 2.2 Representative domestic emotional voice database数据库名称自然度情感类型人数数量多媒体CASIAM模拟生气、害怕
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多模态 信息 融合 情感 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。