嵌入注意力的GaborCNN快速人脸表情识别方法.pdf
《嵌入注意力的GaborCNN快速人脸表情识别方法.pdf》由会员分享,可在线阅读,更多相关《嵌入注意力的GaborCNN快速人脸表情识别方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 22卷 第 9期2023年 9月Vol.22 No.9Sept.2023软 件 导 刊Software Guide嵌入注意力的Gabor CNN快速人脸表情识别方法南亚会1,2,华庆一1,刘继华2(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.吕梁学院 计算机科学与技术系,山西 吕梁 033001)摘要:人脸表情识别是智能人机交互研究的基础问题之一,面部情绪变化与嘴、眼睛、眉毛、鼻子等区域密切相关,这些特征对识别表情非常重要。为此,提出一个由4个Gabor滤波卷积层、注意力模块和两个全链接层组成的注意力Gabor卷积网络,同时使用不平衡损失focal loss对网络进行优
2、化。首先,通过Gabor核与传统卷积滤波器调制的Gabor定向滤波器相较于传统卷积滤波器能更好地捕获感兴趣区域的信息,然后利用通道注意力、空间注意力模块提取区域中更关键的特征。在FERPlus和RAF-DB数据集上的实验表明,该模型结构简单、易于训练、计算成本低,识别精度分别达到88.39%、87.22%。关键词:人脸表情识别;Gabor 方向滤波器;Gabor 卷积网络;通道注意力;空间注意力DOI:10.11907/rjdk.231549开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391.41 文献标识码:A文章编号:1672-7800(2023)009-018
3、2-08Gabor CNN Fast Facial Expression Recognition Method with Embedded AttentionNAN Yahui1,2,HUA Qingyi1,LIU Jihua2(1.College of Information Science and Technology,Northwest University,Xian 710127,China;2.Department of Computer Science and Technology,Luliang University,Luliang 033001,China)Abstract:F
4、acial expression recognition is one of issue in intelligent human-computer interaction research.Facial emotion changes are closely related to areas of interest such as the mouth,eyes,eyebrows,nose,etc.These features are very important for recognizing facial expressions.To this end,an attention Gabor
5、 convolutional network consisting of four Gabor filtering convolutional layers,an attention module,and two fully linked layers is proposed,and the network is optimized using imbalanced loss focal loss.Firstly,Gabor directional filters modulated by Gabor kernels and traditional convolutional filters
6、can better capture information about regions of interest compared to traditional convolutional filters.Then,channel attention and spatial attention modules are used to extract more critical features in the region.The experiments on FERPlus and RAF-DB datasets show that the model has a simple structu
7、re,is easy to train,and has low computational costs.The recognition accuracy reaches 88.39%and 87.22%,respectively.Key Words:facial expression recognition;Gabor orientation filter;Gabor convolutional network;spatial attention module;channel attention module0 引言人脸表情识别(Facial Expression Recognition,FE
8、R)是面部相关的研究中较为复杂的任务。通过分析、识别人脸生物特征来反映一个人的情绪状态,在人机交互、机器智能、医疗、虚拟现实等领域有重要作用。目前为止学术界、工业界对该问题进行了许多研究。人脸表情识别一直是计算机视觉和人机交互领域的热点问题,表情识别的目的是基于人脸图像识别人类的惊讶、收稿日期:2023-05-26基金项目:山西省教育厅研究生教育教学改革课题(2022YJJG310);山西省教育厅高等学校教学改革创新项目(J20221157);吕梁市重点研发项目(2022GXYF17,2022GXYF16)作者简介:南亚会(1981-),女,西北大学信息科学与技术学院博士研究生、吕梁学院计算机
9、科学与技术系副教授,研究方向为人机交互、计算机视觉、图像处理;华庆一(1956-),男,西北大学信息科学与技术学院教授,研究方向为人机交互、软件工程;刘继华(1975-),女,吕梁学院计算机科学与技术系教授,研究方向为云计算、软件测试。本文通讯作者:华庆一。第 9 期南亚会,华庆一,刘继华:嵌入注意力的Gabor CNN快速人脸表情识别方法悲伤、恐惧等情感状态,使机器能感知、理解人类情感,从而更好地与人类交流互动。近几年,具有强大特征学习能力的深度学习技术得到了迅速发展,已被广泛应用于面部相关问题研究,例如人脸检测、人脸识别、表情、年龄和性别识别等。其中,卷积神经网络(Convolutiona
10、l Neural Network,CNN)使表情识别准确率得到了大幅提升,但CNN最大的缺点是忽略了不同特征间的相对位置,无法从图像中识别姿态、纹理和位置变化。同时,池化操作会丢失部分信息,因此需要更多训练数据对损失进行补偿。此外,CNN无法学习特征间的关系,倾向于记忆数据而非理解数据,基于CNN的特征提取仅属于数据驱动技术。虽然,CNN强大的特征学习能力为FER发展作出了贡献,但仍有一些问题尚待解决。例如,CNN需要足够多的数据来训练模型,避免模型发生过拟合现象,但现有面部表情数据库不足以训练具备深度结构的神经网络,并且实际场景中夹杂着光照、姿态、遮挡等干扰因素,需要模型具有更好的类内差异能
11、力和有效的表情差异表征。同时,在面部相关问题中需要分辨面部特征的细微差别,例如嘴角、眼角变化幅度、皱纹的深浅等。研究表明,面部情绪的变化与嘴、眼睛、眉毛和鼻子区域等区域密切相关,但普通CNN无法较好地检测、定义面部特征位置关系的差异。为了增强CNN对方向和尺度变化的适应能力,Luan等1使用传统手工制作的Gabor小波2调制可学习的卷积滤波器,以减少可学习网络参数数量,增强学习特征对方向和尺度变化的鲁棒性。由于Gabor滤波器和哺乳动物视觉系统中简单细胞的接受频谱非常相似,具有检测纹理、边缘和方向的能力,且 Gabor滤波器与 CNN低层卷积作用类似,因此在分类任务中准确率较高3。人脸感兴趣区
12、域(Region of Interest,ROI)是视觉内容丰富的区域。Gabor 滤波器既能表征人脸的空间频率结构,又能有效捕获人脸ROI特征,因此广泛应用于FER任务。Gabor 方向滤波器(Convolutional Gabor orientation Filter,GoF)1结合了 Gabor 滤波器与传统卷积滤波器的优点,在捕获输出特征图中的空间定位、方向选择性、空间频率选择性等视觉特性方面优于传统卷积核,可有效提取人脸ROI的特征,因此使用GoF的深度卷积网络相较于传统CNN更适合FER。综上,本文提出用于FER任务的轻量级注意力的Gabor卷积网络(Gabor Convoluti
13、onal Network,GCN)。其中,GoF为CNN的基本元素,在卷积滤波器上即可实现,易于集成到任何深度架构中。带有注意力机制的GoF卷积神经网络被称为AGCN,可学习更健壮的特征表示,对具有空间转换的图像优势明显。此外,由于GoF由一组可学习的卷积滤波器组成,因此AGCN模型更紧凑、易于训练。分析表明,GoF在提取面部ROI特征方面相较于传统滤波器更有效,因此在研究不同深度(层数)、宽度(卷积层中的单元数)和卷积核尺寸的AGCN体系结构后,设计了一个最优 AGCN 模型。同时,将最优 AGCN 模型与 CNN 架构的AlexNet4、VGGNet5、ResNet6和 CapsNet7比
14、较发现,所提模型识别精度较好,参数量、空间资源最少。在 FERPlus8和 RAF-DB9数据集上的实验表明,所提方案优于目前较先进的FER方法。1 相关工作1.1Gabor滤波器Gabor小波使用复函数作为信息理论应用中傅里叶变换的基础,标准差的乘积在时域和频域均最小。Gabor滤波器10是一种有效的图像表示学习特征提取器,可从图像中提取不变的信息。Gabor函数基于特定频率和方向的正弦波,表征图像的空间频率信息。二维Gabor滤波器为正弦波调制的高斯核函数,由虚部和实部组成。实部可描述为:g,(x,y)=exp(-x+y222)cos(2x+)(1)式中:x=xcos+ysin;y=-xs
15、in+ycos;表示Gabor滤波核的实部波长;表示Gabor函数的平行条纹的法线方向,有效值为0360的实数;表示相位偏移,有效值为-180180,0、180的方程与原点对称,-90、90的方程分别于原点成中心对称,是两项直角坐标系中的余弦函数;表示空间纵横比,即Gabor滤波器的椭圆度;表示Gabor过滤器中实用的高斯函数标准差。图 1为 Gabor滤波器对人脸图像提取特征的示例,表明Gabor滤波器能较好地寻找与给定相对应的纹理,Hosseini等11研究表明,使用Gabor滤波特征作为输入能提升CNN的性能。Ou等12利用经典的8个方向与4个尺度的Gabor滤波识别人脸表情,尽管Gab
16、or小波可处理图像的尺度和方向变换,但结构较浅,在大规模数据集的分类任务或复杂任务中表现不佳。为此,许多研究者试图结合Gabor小波与深度卷积神经网络进行图像表示学习。Meng等13,14使用不同尺度和方向参数的Gabor滤波器提取表情局部有用特征,将提取的特征作为数据训练 CNN 用于人脸表情识别。VermaFig.1Gabor filter banks extracting facial image features图1Gabor滤波器组提取人脸图像特征 1832023 年软 件 导 刊等15首先基于Viola-Jones检测算法检测整幅图像中的人脸图像,然后利用Gabor滤波器在空间域中
17、提取人脸特征,以捕获所有方向的整个频谱,接下来利用Gabor滤波器提取有意义的面部特征,最后将提取的人脸图像Gabor特征作为人工神经网络分类器的输入,对人脸表情进行分类。综上,大部分工作均将 Gabor特征或结合提取的 Gabor特征和原始图像作为CNN输入来训练模型。Luan等1实现了Gabor卷积神经网络,在每个卷积层中通过不同方向、尺度的Gabor滤波器调制卷积滤波器,生成卷积Gabor方向滤波器,赋予卷积滤波器额外的能力以捕获输出特征图中的空间定位、方向选择性、空间频率选择性等视觉属性。Jiang 等16提出由 4 个 Gabor 卷积层和两个全连接组成的轻量Gabor卷积网络用于F
18、ER任务,在FER2013、FERPlus和RAF-DB数据集上的实验表明,所提方法具有良好的识别精度和较低的计算成本。Hosseini等17提出结合人脸的Gabor滤波响应与原始人脸图像作为CNN输入,增强了人脸的褶皱特征,在卷积层早期阶段就能发现面部特征,从而提升了表情识别的整体性能。同时,采用胶囊网络思想捕获面部特征间的关系,被证明对物体的旋转具有鲁棒性。结果表明,该算法相较于普通CNN、胶囊网络性能更优,将Gabor滤波特征作为胶囊网络的输入能提升表情识别的整体性能。1.2Gabor方向滤波器Gabor滤波器具有 U方向和 V尺度,能将方向信息编码到学习滤波器中,将尺度信息嵌入不同层中
19、,将可操纵特性融入到Gabor卷积网络中,以捕获输入图片的方向和尺度信息,从而增强相应的卷积特征。标准CNN中的卷积滤波器在经过Gabor滤波器调制前,通过反向传播算法进行学习,称为学习滤波器。假设一个学习滤波器的大小为NWW,其中WW为2D滤波器大小(N个通道)。为了实现方便,选择N为U用于调制该学习滤波器的Gabor滤波器的方向数,在已知滤波器上使用U个Gabor滤波器为给定尺度进行滤波,计算如式(2)所示,具体流程如图 2 所示。其中,左半部分为GoF的调制过程;右半部分展示了一个4通道GCN卷积的例子,在GoF中为了实现方便,通道数设为Gabor方向数U。传统CNN卷积核的基本单位是K
20、K大小的二维滤波器,而 Gabor 卷积神经网络的基本单位是 GoF,通常定义为1:Cvi=(Cvi,1,.,Cvi,u,.,Cvi,U)()2第v个尺度定义为:Cvi,u=Ci,o G(u,v)()3式中:G(u,v)表示一组KK的Gabor核(实部)10;1uU、1vV分别表示方向和频率;Ci,o为一个UKK大小的学习滤波器;表示G(u,v)、Ci,o每个2D滤波器间的点乘运算(即Cvi,u也为UKK),因此第i个GoF的Cvi实际上是一个UUKK的滤波器。相较于传统 CNN 中 HW 特征图的不同之处在于,GCN特征图F为UHW。因此,F与一个GoF、Cvi间的Gabor卷积运算描述为:
21、F=GCConv(F,Cvi)()4式中:输出特征映射F包含U个通道。F的第k个通道如式(5)所示。Fk=F*Cvi,u=k,1 k U()5式中:*表示标准的3D卷积操作。在Gabor卷积神经网络中,Gabor滤波器是调制学习的卷积滤波器。具体地,将CNN的基本元素卷积滤波器改为GoF,以加强Gabor滤波器对每个卷积层的影响。因此,在深度卷积神经网络中集成Gabor滤波器,能增强深度特征对方向和尺度变化的抵抗力。在每个卷积层中,卷积滤波器由不同方向和尺度的Gabor 滤波器调制产生卷积 Gabor 方向滤波器(Gabor Orientation Filter,GOF),赋予了卷积滤波器额外
22、的能力,以捕获输出特征图的空间定位、方向选择性、空间频率选择性等视觉属性。1.3CBAM注意力卷积模块CBAM 注意力机制18由通道注意力机制(channel)和空间注意力机制(spatial)组成。传统基于卷积神经网络的注意力机制倾向于关注、分析通道域,局限于考虑特征图通道间的作用关系。CBAM 从通道和空间两个作用域出发,引入空间注意力和通道注意力两个分析维度,组成了从通道到空间的顺序注意力结构。其中,空间注意力可使神经网络更关注图像中对分类起决定作用的像素区域,忽略无关紧要的区域;通道注意力则用于处理特征图通道的分配关系,对两个维度进行注意力分配以增强注意力机制对模型性能的提升效果。学习
23、滤波器 Gabor滤波器块 GoF 输入特征图(F)GoF 输出特征图()433 4,343 4433 1 43232 44 33 14 3030 Gabor卷积FFig.2Filter modulation process and examples图2滤波器调制流程与示例 184第 9 期南亚会,华庆一,刘继华:嵌入注意力的Gabor CNN快速人脸表情识别方法1.3.1通道注意力机制模块图3为CBAM中的通道注意力机制模块。首先,将输入特征图分别输入全局最大池化和全局平均池化,基于两个维度压缩特征映射,获得两张不同维度的特征描述,池化后的特征图共用一个多层感知器网络。然后,通过一个全连接层
24、减少通道数,再通过另一个全连接恢复通道数,将两张特征图在通道维度进行堆叠,经过 sigmoid激活函数将特征图每个通道的权重归一化到01。最后,将归一化后的权重和输入特征图相乘。1.3.2空间注意力机制模块图4为CBAM中的空间注意力机制模块,主要对通道注意力机制的输出特征图进行空间域的处理。首先对输入特征图在通道维度下进行最大池化和平均池化,将池化后的两张特征图在通道维度进行堆叠。然后,使用77或33、11大小的卷积核融合通道信息,使特征图的维度由b,2,h,w 转化为 b,1,h,w。最后,将卷积后的结果经过sigmoid函数对特征图的空间权重进行归一化,再将输入特征图和权重相乘。1.3.
25、3CBAM注意力机制图5为CBAM注意力模块总体流程。首先将输入特征图经过通道注意力机制;然后将通道权重和输入特征图相乘后输入空间注意力机制;最后将归一化后的空间权重和空间注意力机制的输入特征图相乘,得到最终加权后的特征图。2 基于CBAM的Gabor卷积神经网络模型Gabor 卷积网络使用 Gabor 定向滤波器(GoF)的深度卷积神经网络。其中,GoF为一种可操纵的滤波器,通过Gabor滤波器组操纵学习到的卷积滤波器生成增强后的特征映射,使用Gabor卷积的GCN网络可学习更少的滤波器参数,且注意力模块既不会增加较多参数,还能增强局部特征的提取能力。本文模型结构如图 6所示,由 4个 Ga
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 嵌入 注意力 GaborCNN 快速 表情 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。