基于抗混叠残差注意力网络的人脸表情识别.pdf
《基于抗混叠残差注意力网络的人脸表情识别.pdf》由会员分享,可在线阅读,更多相关《基于抗混叠残差注意力网络的人脸表情识别.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于抗混叠残差注意力网络的人脸表情识别丰芳宇1,罗晓曙1,蒙志明2,王广宇1(1.广西师范大学 电子与信息工程学院,广西 桂林 541004;2.广西师范大学 创新创业学院,广西 桂林 541004)摘要:针对人脸表情识别中难以提取有效特征,以及类别之间相似性高、易混淆导致人脸表情识别准确率下降的问题,提出一种基于抗混叠残差注意力网络的人脸表情识别方法。针对传统降采样方法易造成表情判别性特征丢失的不足,构建抗混叠残差网络来改善对表情图像的特征提取能力,加强表情特征的表征,从而提取更加有效的人脸表情全局信息。
2、同时,利用改进的通道注意力机制和标签平滑的正则化策略来加强对人脸局部关键表情区域的关注,其中改进的通道注意力专注于区分性较高的表情特征,抑制非表情区域的权重,从而在网络提取的全局信息中定位更加细节的局部表情区域,标签平滑技术则通过增加决策表情类别的信息量对预测概率进行修正,避免过于绝对的预测结果,从而减少相似表情之间的误判。实验结果表明,该方法在人脸表情数据集 RAF-DB和 FERPlus上的识别准确率分别达到 88.14%和 89.31%,与 DACL、VTFF等其他先进方法相比识别性能更优,相较于原始残差网络有效提升了人脸表情识别准确率和鲁棒性。关键词:人脸表情识别;残差网络;抗混叠;标
3、签平滑;注意力机制开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):190-198.英文引用格式:FENG F Y,LUO X S,MENG Z M,et al.Facial expression recognition based on anti-aliasing residual attention network J.Computer Engineering,2023,49(8):190-198.Facial Expression Recognition Based on Anti-Aliasing Residual Attenti
4、on NetworkFENG Fangyu1,LUO Xiaoshu1,MENG Zhiming2,WANG Guangyu1(1.School of Electronic and Information Engineering,Guangxi Normal University,Guilin 541004,Guangxi,China;2.School of Innovation and Entrepreneurship,Guangxi Normal University,Guilin 541004,Guangxi,China)【Abstract】As it is difficult to e
5、xtract effective features in facial expression recognition and the high similarity between categories and easy confusion lead to low accuracy of facial expression recognition,a facial expression recognition method based on anti-aliasing residual attention network is proposed.First,in view of the pro
6、blem that the traditional subsampling method can easily cause the loss of expression discriminative features,an anti-aliasing residual network is constructed to improve the feature extraction ability of expression images and enhance the representation of expression features,enabling more effective g
7、lobal facial expression information to be extracted.At the same time,the improved channel attention mechanism and label smoothing regularization strategy are used to enhance the attention to the local key expression regions of the face:the improved channel attention focuses on the highly discriminat
8、ive expression features and suppresses the weight of non-expressive regions,so as to locate more detailed local expression regions in the global information extracted by the network,and the label smoothing technology corrects the prediction probability by increasing the amount of information of the
9、decision-making expression category,avoiding too absolute prediction results,which reduces misjudgment between similar expressions.Experimental results show that,the recognition accuracies of this method on the facial expression datasets RAF-DB and FERPlus reach 88.14%and 89.31%,respectively.Compare
10、d with advanced methods such as DACT and VTFF,this method has better performance.Compared with the original residual network,the accuracy and robustness of facial expression recognition are effectively improved.基金项目:广西人文社会科学发展研究中心“科学研究工程创新创业专项”(重大委托项目)(ZDCXCY01)。作者简介:丰芳宇(1998),女,硕士研究生,主研方向为图像处理、深度学习
11、;罗晓曙(通信作者),教授;蒙志明,副教授;王广宇,硕士研究生。收稿日期:2022-07-13 修回日期:2022-09-09 Email:图形图像处理文章编号:1000-3428(2023)08-0190-09 文献标志码:A 中图分类号:TP18第 49卷 第 8期丰芳宇,罗晓曙,蒙志明,等:基于抗混叠残差注意力网络的人脸表情识别【Key words】facial expression recognition;residual network;anti-aliasing;label smoothing;attention mechanismDOI:10.19678/j.issn.1000-
12、3428.00652240概述 在人类社会中,任何社会关系的发展都与情感息息相关。积极的情感能够促使人们更好地认识世界,发挥主观能动性。面部表情是情感的主要外部表现之一,通过分析人类面部表情,可以推断出人的情感状态,有助于理解个人情绪或意图。由于情感复杂多样,因此面部表情也呈现出多样化的特点。近年来,由于计算机视觉领域相关技术飞速发展,人脸表情识别技术在医疗辅助诊断、刑事侦测、在线教学评价等多个领域具有广泛的应用前景。人脸表情识别算法一般分为图像采集及预处理、特征提取、表情特征分类等 3个步骤。在图像采集及预处理阶段,除特定的应用场景之外,表情识别研究目前常采用专业采集的公开人脸表情图像库,而
13、且由于原始图像存在光照干扰、背景等无关因素的影响,因此在图像预处理工作中,需要尽可能地降低这些无关因素引入的噪声,增强面部表情区域的表达。在特征提取阶段,面部表情特征的提取直接决定了后续表情识别的性能。早期的研究是在实验室环境下进行的。传统的特征提取方法如尺度不变特征(SIFT)1、局部二值模式(LBP)2、定向梯度直方图(HOG)3主要依赖于手工提取特征,在表情识别领域取得了较好的成绩4-5。随着研究的进一步深入,研究人员逐渐将目光转向了复杂环境下的表情识别。由于不可控因素的影响,复杂环境下的人脸表情识别存在着遮挡、姿态干扰、年龄、肤色等问题,人脸区域呈现出不同程度的缺失、易混淆性的特点。与
14、传统方法不同,基于深度学习的方法可以更深层次地从图像中提取表情特征,并实现自动识别分类,因此受到研究人员的普遍青睐。由于人脸表情类别通常具有较小的差异性,判别性特征往往存在于不同的局部区域,通过比较局部区域的微小差异,能够对人脸表情类别加以区分。如何提取人脸表情区域的有效特征,增强对局部区域判别性特征的关注,改善表情分类不可避免的标注不确定性问题,从而提高人脸表情分类网络的性能,是目前提高人脸表情识别效果的关键。本文以残差网络6为基础框架,提出改进的抗混叠残差注意力网络(ARAN)。在降采样阶段,使用抗混叠策略来缓解表情特征提取阶段易丢失重要特征信息的问题,同时融合通道注意力机制,减少表情识别
15、中不相关面部区域的影响,促进网络更加关注人脸表情局部关键区域,有效提取表情判别性特征。最后,利用标签平滑技术避免网络预测结果过于绝对,降低人工注释不确定性的影响,从而获得更加精确的人脸表情识别结果。1相关研究 目前,在真实复杂场景面部区域不完全的情况下,基于深度学习的表情识别工作大致分为 2 种:一种是修复未知区域的方法,其中以生成对抗网络7的方法较为直观,文献 8-10 均使用了重建面部遮挡区域的方法来应对人脸表情识别中的遮挡问题;另一种是子区域分析方法,即利用无客观因素干扰或者干扰较小的人脸区域,提取重要的局部区域表示,并根据这些子区域来进行分类。心理学研究表明,人类可以有效利用局部区域和
16、整个人脸来感知通过不完整的人脸传递的语义信息11。LI等12-13提出并完善了一种自动感知未遮挡区域的方法,基于24 个面部特征点来选取区域块,然后输入注意力网络,获取重要的局部特征并和全局信息加权融合来决策表情的类别。WANG等14提出一种基于人脸区域的注意力网络,其评估了不同的区域生成策略,并通过注意力模块自适应地集成来自区域和整个面部的加权特征,在遮挡和大姿态条件下显著提升了网络的性能。DING 等15提出了一种遮挡自适应深度网络,采用特征点检测的方法来引导网络关注非遮挡人脸部分,并结合基于全局特征映射的区域分支,训练独立的分类器来补充上下文信息。王军等16提出一种双通道遮挡感知神经网络
17、模型,通过加权融合遮挡较少区域的表情相关特征和全脸表情特征,有效提高了遮挡条件下的表情识别精度。此外,由于图像质量的不一致性,对于同类表情,标签的人工注释歧义引入了噪声等异常信息。针对表情标签的不确定性问题,ZENG 等17从多个不一致的标记数据集和大规模未标记的数据中辅助训练潜在的正确标签,WANG 等18利用重新标注的方案来抑制不确定的表情样本。对于人脸表情识别中存在的不可避免的类别歧义问题,本文在网络训练时增加了标签平滑处理,以缓解不确定性问题。为了研究无约束条件下的部分遮挡人脸表情识别问题,一些研究者构建了遮挡表情数据库并提出了先进的应对策略:CHEN 等19重建了眼睛和嘴巴遮挡的人脸
18、表情数据库,结合 Gabor 滤波器与改进CNN 并行化方法得到分类结果;RUAN 等20构建了上半脸、下半脸和眼睛遮挡条件下的表情数据库,并提出一种构建路径选择多网络模型的方法,将初始网络的预测结果用于选择子网络,每个子网络决策不同标签并输出分类结果,实现了部分遮挡条件下表情识别性能的稳健提升。与上述方法不同的是,本文提出的 ARAN 方法无须采用多个子区域图像输入、多个子网融合或者借助人脸特征关键点定位的方式,也能够关注到关键的表情区域,实现较好的分类性能。本文以实验室环境下的 CK+21和 JAFFE222 个标准人脸表情数据库为基础,建立了眼睛和嘴巴 2 个部位的遮挡人脸 表 情 数
19、据 库,并 通 过 实 验 验 证 所 提 方 法 的 鲁棒性。2基本理论与方法 2.1抗混叠模块在图像处理领域,混叠现象指的是图像在进行1912023年 8月 15日Computer Engineering 计算机工程采样时,由于采样频率过低等原因,导致大量的高频信息映射到低频部分,与原有的低频信息相混叠,使得图像原始信号发生失真,这就导致图像丢失了大量特征信息,对后续图像的进一步处理产生了严重影响。卷积神经网络中的降采样策略本质上是一个信息选择的过程。通过丢弃冗余特征,使得后面的网络能够学习到更加全局的信息。而现有的降采样操作都忽略了奈奎斯特采样定理和混叠现象23,导致图像原始信号发生失真
20、。目前解决上述问题最常见的 2 种方案是增加采样频率和低通滤波,然而步长为正整数的属性限制了采样频率的上限,因此,采用低通滤波的方案更加可靠。ZHANG23提出了一种与现有降采样策略兼容的抗混叠模块,能够模拟低通滤波,在采样操作之前滤除图像中高频部分的噪声,使图像变得光滑,这能够在一定程度上修复原始信号,从而减轻分类任务中丢失特征信息的问题。抗混叠模块设计了对应的卷积核,其特点是像素点距离中心越近,给予更高的权重,距离中心越远的点,权重越低。以步长为 2的最大池化层 MaxPool为例,降采样操作可分为区域最大值选择(Max)、下采样(Subsample)2个步骤,如式(1)所示:MaxPoo
21、lpq=Subsampleq(Maxp)(1)其中:p 表示核大小,即采样范围;q 表示步长,即采样频率。经过抗混叠处理后,降采样操作可表达为式(2):BlurMaxpq=Subsampleq(Bluro(Maxp)(2)其中:o表示抗混叠卷积核的大小。图 1分别展示了最大池化层经过抗混叠处理前后的采样步骤。图 1 抗混叠处理前后的最大池化降采样操作Fig.1 Max-pooling subsampling operation before and afteranti-aliasing processing同理,跨步卷积也适用于这种方法。抗混叠处理前后的表达式为式(3)和式(4):Convpq
22、=Subsampleq(Convp)(3)BlurConvpq=Subsampleq(Bluro(Convp)(4)本文从中受到启发,将抗混叠模块引入人脸表情识别模型,比较上述 2 种降采样方式对人脸表情图像的降采样效果。从图 2 中可以看出:当降采样次数较少时,其面部特征基本无差异;随着降采样次数增加,可以发现最大池化层降采样之后的图片有明显的锯齿现象,其面部表情区域的眼睛、嘴巴等关键部位丢失了判别性特征;图像经过抗混叠降采样后仍然能够保留面部表情的关键特征,说明抗混 叠 处 理 能 够 有 效 减 少 人 脸 表 情 图 像 中 的 锯 齿现象。图 2 降采样效果对比Fig.2 Compa
23、rison of subsampling effects2.2通道注意力机制模块本文通道注意力机制模块的设计受启发于文献 24,是通过定位有意义的判别性特征对特征间的通道关系进行编码,从空间维度上采用压缩输入特征的方法,使用最大池化和平均池化 2种方式增强特征的表征能力,比单一的方式更能够捕捉感兴趣的目标区域。该模块简单高效且轻量,仅增加少量的计算成本,即能够有效促进网络对目标区域的高度关注。如图 3所示,通道注意力模块分为 3步:输入特征并行池化,通道注意力生成,输入-输出特征聚合。图 3 通道注意力机制模块Fig.3 Channel attention mechanism module19
24、2第 49卷 第 8期丰芳宇,罗晓曙,蒙志明,等:基于抗混叠残差注意力网络的人脸表情识别2.2.1输入特征并行池化将输入特征记为F RH W C,首先在输入特征通道进行编码,使用全局池化的方式,输出 2 个 11C的全局特征表示,其中输入特征经过全局平均池化的输出表示为:Fcavg=AvgPool(F)R1 1 C(5)同理,输入特征经过全局最大池化的输出表示为:Fcmax=MaxPool(F)R1 1 C(6)2.2.2通道注意力生成为了有效利用并学习编码后的全局特征,首先级联 2 个全局特征表示,经过一个 2 层的共享卷积层,该部分由 2 个 11 卷积构成,用WC r和WC表示。其中,r
25、 为下采样倍数,用来控制通道压缩的比例。2个卷积之间使用 ReLU 激活函数,用表示,得到输出表示为:Fwa=WC(WC r(Fcavg)R1 1 C(7)Fwm=WC(WC r(Fcmax)R1 1 C(8)将学习的 2 组特征逐元素相加,并使用 Sigmoid函数归一化(函数用表示)生成注意力权重,并与输入特征相乘,表示为:f(F)=(Fwa+Fwm)F RH W C(9)2.2.3输入-输出特征聚合为了增强注意力模块的学习能力,在特征聚合时使用残差思想,可以有效防止梯度消失。将输入特征F与f(F)以跳跃连接的方式进行相加得到:F=f(F)+F RH W C(10)将改进后的注意力模块融入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 抗混叠残差 注意力 网络 表情 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。