分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于抗混叠残差注意力网络的人脸表情识别.pdf

基于抗混叠残差注意力网络的人脸表情识别.pdf

上传人：自信****多点

文档编号：640620

上传时间：2024-01-22

格式：PDF

页数：9

大小：3MB

《基于抗混叠残差注意力网络的人脸表情识别.pdf》由会员分享，可在线阅读，更多相关《基于抗混叠残差注意力网络的人脸表情识别.pdf（9页珍藏版）》请在咨信网上搜索。

1、第 49卷第 8期2023年 8月Computer Engineering 计算机工程基于抗混叠残差注意力网络的人脸表情识别丰芳宇1，罗晓曙1，蒙志明2，王广宇1（1.广西师范大学电子与信息工程学院，广西桂林 541004；2.广西师范大学创新创业学院，广西桂林 541004）摘要：针对人脸表情识别中难以提取有效特征，以及类别之间相似性高、易混淆导致人脸表情识别准确率下降的问题，提出一种基于抗混叠残差注意力网络的人脸表情识别方法。针对传统降采样方法易造成表情判别性特征丢失的不足，构建抗混叠残差网络来改善对表情图像的特征提取能力，加强表情特征的表征，从而提取更加有效的人脸表情全局信息。

2、同时，利用改进的通道注意力机制和标签平滑的正则化策略来加强对人脸局部关键表情区域的关注，其中改进的通道注意力专注于区分性较高的表情特征，抑制非表情区域的权重，从而在网络提取的全局信息中定位更加细节的局部表情区域，标签平滑技术则通过增加决策表情类别的信息量对预测概率进行修正，避免过于绝对的预测结果，从而减少相似表情之间的误判。实验结果表明，该方法在人脸表情数据集 RAF-DB和 FERPlus上的识别准确率分别达到 88.14%和 89.31%，与 DACL、VTFF等其他先进方法相比识别性能更优，相较于原始残差网络有效提升了人脸表情识别准确率和鲁棒性。关键词：人脸表情识别；残差网络；抗混叠；标

3、签平滑；注意力机制开放科学（资源服务）标志码（OSID）：源代码链接：https：/ J.计算机工程，2023，49（8）：190-198.英文引用格式：FENG F Y，LUO X S，MENG Z M，et al.Facial expression recognition based on anti-aliasing residual attention network J.Computer Engineering，2023，49（8）：190-198.Facial Expression Recognition Based on Anti-Aliasing Residual Attenti

4、on NetworkFENG Fangyu1，LUO Xiaoshu1，MENG Zhiming2，WANG Guangyu1（1.School of Electronic and Information Engineering，Guangxi Normal University，Guilin 541004，Guangxi，China；2.School of Innovation and Entrepreneurship，Guangxi Normal University，Guilin 541004，Guangxi，China）【Abstract】As it is difficult to e

5、xtract effective features in facial expression recognition and the high similarity between categories and easy confusion lead to low accuracy of facial expression recognition，a facial expression recognition method based on anti-aliasing residual attention network is proposed.First，in view of the pro

6、blem that the traditional subsampling method can easily cause the loss of expression discriminative features，an anti-aliasing residual network is constructed to improve the feature extraction ability of expression images and enhance the representation of expression features，enabling more effective g

7、lobal facial expression information to be extracted.At the same time，the improved channel attention mechanism and label smoothing regularization strategy are used to enhance the attention to the local key expression regions of the face：the improved channel attention focuses on the highly discriminat

8、ive expression features and suppresses the weight of non-expressive regions，so as to locate more detailed local expression regions in the global information extracted by the network，and the label smoothing technology corrects the prediction probability by increasing the amount of information of the

9、decision-making expression category，avoiding too absolute prediction results，which reduces misjudgment between similar expressions.Experimental results show that，the recognition accuracies of this method on the facial expression datasets RAF-DB and FERPlus reach 88.14%and 89.31%，respectively.Compare

10、d with advanced methods such as DACT and VTFF，this method has better performance.Compared with the original residual network，the accuracy and robustness of facial expression recognition are effectively improved.基金项目：广西人文社会科学发展研究中心“科学研究工程创新创业专项”（重大委托项目）（ZDCXCY01）。作者简介：丰芳宇（1998），女，硕士研究生，主研方向为图像处理、深度学习

11、；罗晓曙（通信作者），教授；蒙志明，副教授；王广宇，硕士研究生。收稿日期：2022-07-13 修回日期：2022-09-09 Email：图形图像处理文章编号：1000-3428（2023）08-0190-09 文献标志码：A 中图分类号：TP18第 49卷第 8期丰芳宇，罗晓曙，蒙志明，等：基于抗混叠残差注意力网络的人脸表情识别【Key words】facial expression recognition；residual network；anti-aliasing；label smoothing；attention mechanismDOI：10.19678/j.issn.1000-

12、3428.00652240概述在人类社会中，任何社会关系的发展都与情感息息相关。积极的情感能够促使人们更好地认识世界，发挥主观能动性。面部表情是情感的主要外部表现之一，通过分析人类面部表情，可以推断出人的情感状态，有助于理解个人情绪或意图。由于情感复杂多样，因此面部表情也呈现出多样化的特点。近年来，由于计算机视觉领域相关技术飞速发展，人脸表情识别技术在医疗辅助诊断、刑事侦测、在线教学评价等多个领域具有广泛的应用前景。人脸表情识别算法一般分为图像采集及预处理、特征提取、表情特征分类等 3个步骤。在图像采集及预处理阶段，除特定的应用场景之外，表情识别研究目前常采用专业采集的公开人脸表情图像库，而

13、且由于原始图像存在光照干扰、背景等无关因素的影响，因此在图像预处理工作中，需要尽可能地降低这些无关因素引入的噪声，增强面部表情区域的表达。在特征提取阶段，面部表情特征的提取直接决定了后续表情识别的性能。早期的研究是在实验室环境下进行的。传统的特征提取方法如尺度不变特征（SIFT）1、局部二值模式（LBP）2、定向梯度直方图（HOG）3主要依赖于手工提取特征，在表情识别领域取得了较好的成绩4-5。随着研究的进一步深入，研究人员逐渐将目光转向了复杂环境下的表情识别。由于不可控因素的影响，复杂环境下的人脸表情识别存在着遮挡、姿态干扰、年龄、肤色等问题，人脸区域呈现出不同程度的缺失、易混淆性的特点。与

14、传统方法不同，基于深度学习的方法可以更深层次地从图像中提取表情特征，并实现自动识别分类，因此受到研究人员的普遍青睐。由于人脸表情类别通常具有较小的差异性，判别性特征往往存在于不同的局部区域，通过比较局部区域的微小差异，能够对人脸表情类别加以区分。如何提取人脸表情区域的有效特征，增强对局部区域判别性特征的关注，改善表情分类不可避免的标注不确定性问题，从而提高人脸表情分类网络的性能，是目前提高人脸表情识别效果的关键。本文以残差网络6为基础框架，提出改进的抗混叠残差注意力网络（ARAN）。在降采样阶段，使用抗混叠策略来缓解表情特征提取阶段易丢失重要特征信息的问题，同时融合通道注意力机制，减少表情识别

15、中不相关面部区域的影响，促进网络更加关注人脸表情局部关键区域，有效提取表情判别性特征。最后，利用标签平滑技术避免网络预测结果过于绝对，降低人工注释不确定性的影响，从而获得更加精确的人脸表情识别结果。1相关研究目前，在真实复杂场景面部区域不完全的情况下，基于深度学习的表情识别工作大致分为 2 种：一种是修复未知区域的方法，其中以生成对抗网络7的方法较为直观，文献 8-10 均使用了重建面部遮挡区域的方法来应对人脸表情识别中的遮挡问题；另一种是子区域分析方法，即利用无客观因素干扰或者干扰较小的人脸区域，提取重要的局部区域表示，并根据这些子区域来进行分类。心理学研究表明，人类可以有效利用局部区域和

16、整个人脸来感知通过不完整的人脸传递的语义信息11。LI等12-13提出并完善了一种自动感知未遮挡区域的方法，基于24 个面部特征点来选取区域块，然后输入注意力网络，获取重要的局部特征并和全局信息加权融合来决策表情的类别。WANG等14提出一种基于人脸区域的注意力网络，其评估了不同的区域生成策略，并通过注意力模块自适应地集成来自区域和整个面部的加权特征，在遮挡和大姿态条件下显著提升了网络的性能。DING 等15提出了一种遮挡自适应深度网络，采用特征点检测的方法来引导网络关注非遮挡人脸部分，并结合基于全局特征映射的区域分支，训练独立的分类器来补充上下文信息。王军等16提出一种双通道遮挡感知神经网络

17、模型，通过加权融合遮挡较少区域的表情相关特征和全脸表情特征，有效提高了遮挡条件下的表情识别精度。此外，由于图像质量的不一致性，对于同类表情，标签的人工注释歧义引入了噪声等异常信息。针对表情标签的不确定性问题，ZENG 等17从多个不一致的标记数据集和大规模未标记的数据中辅助训练潜在的正确标签，WANG 等18利用重新标注的方案来抑制不确定的表情样本。对于人脸表情识别中存在的不可避免的类别歧义问题，本文在网络训练时增加了标签平滑处理，以缓解不确定性问题。为了研究无约束条件下的部分遮挡人脸表情识别问题，一些研究者构建了遮挡表情数据库并提出了先进的应对策略：CHEN 等19重建了眼睛和嘴巴遮挡的人脸

18、表情数据库，结合 Gabor 滤波器与改进CNN 并行化方法得到分类结果；RUAN 等20构建了上半脸、下半脸和眼睛遮挡条件下的表情数据库，并提出一种构建路径选择多网络模型的方法，将初始网络的预测结果用于选择子网络，每个子网络决策不同标签并输出分类结果，实现了部分遮挡条件下表情识别性能的稳健提升。与上述方法不同的是，本文提出的 ARAN 方法无须采用多个子区域图像输入、多个子网融合或者借助人脸特征关键点定位的方式，也能够关注到关键的表情区域，实现较好的分类性能。本文以实验室环境下的 CK+21和 JAFFE222 个标准人脸表情数据库为基础，建立了眼睛和嘴巴 2 个部位的遮挡人脸表情数

19、据库，并通过实验验证所提方法的鲁棒性。2基本理论与方法 2.1抗混叠模块在图像处理领域，混叠现象指的是图像在进行1912023年 8月 15日Computer Engineering 计算机工程采样时，由于采样频率过低等原因，导致大量的高频信息映射到低频部分，与原有的低频信息相混叠，使得图像原始信号发生失真，这就导致图像丢失了大量特征信息，对后续图像的进一步处理产生了严重影响。卷积神经网络中的降采样策略本质上是一个信息选择的过程。通过丢弃冗余特征，使得后面的网络能够学习到更加全局的信息。而现有的降采样操作都忽略了奈奎斯特采样定理和混叠现象23，导致图像原始信号发生失真

20、。目前解决上述问题最常见的 2 种方案是增加采样频率和低通滤波，然而步长为正整数的属性限制了采样频率的上限，因此，采用低通滤波的方案更加可靠。ZHANG23提出了一种与现有降采样策略兼容的抗混叠模块，能够模拟低通滤波，在采样操作之前滤除图像中高频部分的噪声，使图像变得光滑，这能够在一定程度上修复原始信号，从而减轻分类任务中丢失特征信息的问题。抗混叠模块设计了对应的卷积核，其特点是像素点距离中心越近，给予更高的权重，距离中心越远的点，权重越低。以步长为 2的最大池化层 MaxPool为例，降采样操作可分为区域最大值选择（Max）、下采样（Subsample）2个步骤，如式（1）所示：MaxPoo

21、lpq=Subsampleq(Maxp)（1）其中：p 表示核大小，即采样范围；q 表示步长，即采样频率。经过抗混叠处理后，降采样操作可表达为式（2）：BlurMaxpq=Subsampleq(Bluro(Maxp)（2）其中：o表示抗混叠卷积核的大小。图 1分别展示了最大池化层经过抗混叠处理前后的采样步骤。图 1 抗混叠处理前后的最大池化降采样操作Fig.1 Max-pooling subsampling operation before and afteranti-aliasing processing同理，跨步卷积也适用于这种方法。抗混叠处理前后的表达式为式（3）和式（4）：Convpq

22、=Subsampleq(Convp)（3）BlurConvpq=Subsampleq(Bluro(Convp)（4）本文从中受到启发，将抗混叠模块引入人脸表情识别模型，比较上述 2 种降采样方式对人脸表情图像的降采样效果。从图 2 中可以看出：当降采样次数较少时，其面部特征基本无差异；随着降采样次数增加，可以发现最大池化层降采样之后的图片有明显的锯齿现象，其面部表情区域的眼睛、嘴巴等关键部位丢失了判别性特征；图像经过抗混叠降采样后仍然能够保留面部表情的关键特征，说明抗混叠处理能够有效减少人脸表情图像中的锯齿现象。图 2 降采样效果对比Fig.2 Compa

23、rison of subsampling effects2.2通道注意力机制模块本文通道注意力机制模块的设计受启发于文献 24，是通过定位有意义的判别性特征对特征间的通道关系进行编码，从空间维度上采用压缩输入特征的方法，使用最大池化和平均池化 2种方式增强特征的表征能力，比单一的方式更能够捕捉感兴趣的目标区域。该模块简单高效且轻量，仅增加少量的计算成本，即能够有效促进网络对目标区域的高度关注。如图 3所示，通道注意力模块分为 3步：输入特征并行池化，通道注意力生成，输入-输出特征聚合。图 3 通道注意力机制模块Fig.3 Channel attention mechanism module19

24、2第 49卷第 8期丰芳宇，罗晓曙，蒙志明，等：基于抗混叠残差注意力网络的人脸表情识别2.2.1输入特征并行池化将输入特征记为F RH W C，首先在输入特征通道进行编码，使用全局池化的方式，输出 2 个 11C的全局特征表示，其中输入特征经过全局平均池化的输出表示为：Fcavg=AvgPool(F)R1 1 C（5）同理，输入特征经过全局最大池化的输出表示为：Fcmax=MaxPool(F)R1 1 C（6）2.2.2通道注意力生成为了有效利用并学习编码后的全局特征，首先级联 2 个全局特征表示，经过一个 2 层的共享卷积层，该部分由 2 个 11 卷积构成，用WC r和WC表示。其中，r

25、为下采样倍数，用来控制通道压缩的比例。2个卷积之间使用 ReLU 激活函数，用表示，得到输出表示为：Fwa=WC(WC r(Fcavg)R1 1 C（7）Fwm=WC(WC r(Fcmax)R1 1 C（8）将学习的 2 组特征逐元素相加，并使用 Sigmoid函数归一化（函数用表示）生成注意力权重，并与输入特征相乘，表示为：f(F)=(Fwa+Fwm)F RH W C（9）2.2.3输入-输出特征聚合为了增强注意力模块的学习能力，在特征聚合时使用残差思想，可以有效防止梯度消失。将输入特征F与f(F)以跳跃连接的方式进行相加得到：F=f(F)+F RH W C（10）将改进后的注意力模块融入

26、抗混叠残差网络，能够有效减少特征信息的丢失，同时增强表情局部区域关键特征的表达，捕捉更利于人脸表情识别的特征。2.3标签平滑由于不同的人脸表情存在相似性和复杂的多态性，同时标签注释引入了人的主观性，因此在人脸表情数据集中的标签不可避免地存在一些歧义信息。为了避免过度信任标签，本文采取了标签平滑25的正则化策略，有助于减少低质量标签对训练的负面影响。首先，对于 N 个类别数，网络输出一组 N 维向量，利用 Softmax 函数将输出结果归一化至（0，1）之间，得到另一个 N 维向量，向量中第 i个元素Si表示该样本被分类为第 i类别的概率，其计算公式为：Si=eaik=1Neak（11）将经过归

27、一化后的 N 维向量输入交叉熵损失函数指导神经网络进行优化。交叉熵损失函数的定义式为：Lcross=-1Mm=1Mi=1Nyilb Si（12）其中：M 为样本总数；yi表示该样本经过独热编码化后的标签向量。当 i为标签时，yi=1；当 i不为标签时，yi=0。当标签正确时，损失值越小代表预测结果越好。但是当标签存在歧义错误时，就会出现网络学习的预测结果与错误标签严重偏离的情况。为了最小化错误标签损失，标签平滑通过引入少许噪声，使网络模型围绕错误的标签数据进行优化训练，增加判别表情类别的信息量，从而在一定程度上修正网络模型过于绝对的预测结果，提高网络的泛化性能。将经过标签平滑后的标签向量代替独

28、热编码，以 s表示平滑系数用来控制平滑程度，取 0.1，此时交叉熵损失函数的表达式为：Lcross=-1Mm=1Mi=1Nyilb Si（13）其中：当 i为标签时，yi=1-s；当 i不为标签时，yi=sN。2.4抗混叠残差注意力网络在图像识别领域中，卷积神经网络达到一定深度后，如果再继续不断增加，会导致梯度弥散或者梯度爆炸现象，不利于网络的学习。HE 等6提出了深度残差网络，引入残差单元，很好地缓解了网络深度不断增加带来的退化问题。如图 4（a）所示，在ResNet18的基本残差单元中，x表示某一层的输入特征，F（x）表示待学习的残差映射部分，由 2 个 33 卷积

29、构成。残差学习单元将两部分相加得到 F（x）+x作为下一层的输入。这种跳跃连接的方式，使得F（x）=0 时能够实现输入特征与输出特征之间的恒等映射。残差网络单元实现降采样，是以跨步卷积来实现的。具体来说，输入特征经过步长为 2的 11卷积，残差部分则以步长为 2的 33卷积进行特征选择。最后实现输入特征 x与残差映射分支 F（x）特征维度的匹配，如图 4（b）所示。图 4 残差网络单元Fig.4 Residual network unit基于以上研究的启发，本文将抗混叠模块和改进的通道注意力模块嵌入基准网络 ResNet18，提出一种基于抗混叠残差注意力网络的人脸表情识别方法，整体结构如图 5

30、所示（彩色效果见计算机工程官网 HTML版，下同）。1932023年 8月 15日Computer Engineering 计算机工程具体来说，在残差网络中除去第一层卷积层的具备降采样功能的部分，即最大池化层和基本残差单元中的跨步卷积层，加入抗混叠模块处理，分别得到 BlurMax和 BlurConv，如式（2）和式（4）所示，代替原本的池化层和跨步卷积层。相较原本的降采样策略，对人脸表情图像增加了滤波处理，从而缓解残差网络中传统降采样带来的特征信息丢失的问题。输入图像经过残差单元提取特征之后，由于人脸表情类别之间存在细微的差距，利用改进的通道注意力模块将表情特征进一步细化，增强有用特征的权

31、重，过滤冗余的无用信息，增强对表情特征的提取。最后利用全连接层输出人脸表情的识别结果。为了进一步改进网络的抗噪能力，防止网络对数据集标签过度信任从而导致网络性能下降，利用标签平滑的正则化策略，对网络模型的预测概率进行修正，增强网络模型对标签注释准确性较低的样本的识别能力。3实验3.1数据集RAF-DB26为真实世界下的人脸表情数据集，本文在标记以下 7种基本表情的数据集上进行实验，分别为生气（AN）、厌恶（DI）、恐惧（FE）、开心（HA）、中立（NE）、悲伤（SA）、惊讶（SU）。其中，12 271 张图片作为训练集，3 068 张图片作

32、为测试集。FERPlus27是在 FER201328数据集的基础上重新标记而来，其中每幅图像都给出了 10 个标签。文献 27 设计了 4 种处理方法。在此基础上，本文实验中对标签进行了以下处理：对于 10 个标签，首先去掉标记数量不大于 1 的噪声标签，然后如果图像在某种标签上标记数量超过剩余标签数量的一半，则归为该种标签，最后再删掉非表情标签的图片，剩下的图片只有 8种基本表情标签，与 RAF-DB数据集相比，增加了蔑视（CO）的表情。3.2实验设置本文实验是基于 PyTorch 深度学习框架平台完成的，所使用的硬件配置为 2.10 GHz Intel X

33、eon Silver 4110 CPU，GPU 为 NVIDIA RTX 2080Ti显卡，显存为 11 GB。由于数据集的数量、分辨率以及制作标准有所差异，因此在训练开始之前，需要对数据集进行预处理。所有的输入图片都被重新调整为 224224 像素，本文将 RAF-DB 的图片批处理大小设置为 128，将 FERPlus的图片批处理大小设置为64。在训练过程中，使用 Adam 优化器对损失进行优化，初始学习率为 0.001，权重衰减系数设置为0.000 1。3.3实验结果与分析本文实验内容如下：首先，为了验证本文方法的有效性，在选定基准网络模型后，将本文提出的方法在 RAF-DB 和 FER

34、Plus 数据集上进行实验验证，利用最终训练的最佳模型在各自的测试集上生成混淆矩阵，对每一类表情的识别效果进行分析，同时将本文所提方法同其他先进的人脸表情识别方法进行比较；然后，为了验证各模块的有效性，在数据集上进行消融实验，并对人脸表情区域的关注程度进行可视化，直观地反映出本文所提方法能够重点关注到哪些关键性区域；最后，分析本文方法的复杂度，并在遮挡条件下验证本文所提方法的鲁棒性。3.3.1基准网络的选取对于基准网络模型，本文选取了 2 种常见的特征提取网络：VGG29和 ResNet，在 RAF-DB 数据集上，验证不同深度下网络的识别性能，从参数量和识别准确率两方面来评估网络模型的优势。

35、实验中输入图片大小全部调整为 224224 像素，并且均使用标签平滑的正则化策略来训练网络。从表 1中的实验结果可以看出，ResNet网络的残差学习方式具有显而易见的优势，整体表现均优于 VGG 网络。从参数量和识别准确率两方面共同比较，ResNet18 网络在人脸表情特征提取方面更具优势，其以较少的网络参数实现了较高的识别准确率，这表明 ResNet18图 5 抗混叠残差注意力网络结构Fig.5 Anti-aliasing residual attention network architecture194第 49卷第 8期丰芳宇，罗晓曙，蒙志明，等：基于抗混叠残差注意力网络的人脸表情识别

36、网络比其他网络模型更加适合作为人脸表情识别的特征提取器。3.3.2混淆矩阵分析以 ResNet18 网络为基准网络，融入抗混叠模块和通道注意力模块，得到本文所提出的 ARAN 网络，将训练的模型在数据集 RAF-DB 和 FERPlus 的测试集上生成混淆矩阵。混淆矩阵可以反映训练模型对每一类表情的识别准确率，以及错分其他类别的情况。如图 6 所示，在 RAF-DB 数据集上，本文模型识别准确率达到了 88.14%，其中最高的是开心和惊讶2 类表情，分别达到了 96%和 88%的识别准确率，识别效果最差的是恐惧和厌恶，识别准确率分别为59%和 64%。恐惧这类表情被错分为惊讶的数量较高，通过分

37、析测试集图片可以发现，恐惧和惊讶 2类表情的类间差异较小，都伴随睁大双眼或者张开嘴巴等特点。厌恶这类表情体现在嘴角的变化程度远大于其他区域，其余面部特征比较含蓄，这使得预测结果易被错分为中立和悲伤 2类表情。图 6 RAF-DB混淆矩阵Fig.6 Confusion matrix of RAF-DB如图 7 所示，在 FERPlus 数据集上，本文模型识别准确率达到了 89.31%，其中开心、中立 2类表情具有较高的识别效果，取得了 96%和 91%的识别准确率，这表明本文模型具有良好的特征提取能力，而蔑视、厌恶 2 类表情的识别效果很差，经过分析发现，训练集中各类表情之间的样本数量差异较大，

38、分布非常不平衡，而且测试集中仅有 16张蔑视和 18张厌恶的图片。恐惧表情的识别准确率虽然比蔑视和厌恶 2类表情稍高，但由于训练图片数量较少，可学习的样本有限，仍远远低于识别准确率最高的开心和中立 2类表情图片的数量。图 7 FERPlus混淆矩阵Fig.7 Confusion matrix of FERPlus3.3.3与其他先进方法的比较如表 2所示，与其他方法对比，本文方法在 RAF-DB 数据集上取得了 88.14%的识别准确率。为了解决对多模态表情的识别问题，LI等30提出了一种深度局部保持卷积神经网络（DLP-CNN），通过创建局部信息保持的损失函数以及最大化类间离散度，达到增

39、强深度特征的判别力的目的。FARZANEH等31提出一种深度注意力中心损失方法（DACL），旨在自适应性地控制与特征重要性相关的注意力权重对稀疏中心损失的贡献，以实现类内的紧凑性和类间间的分离性。从表 2 中可以看出，本文方法取得了较高的识别准确率。如表 3 所示，与其他方法对比，本文方法在FERPlus数据集上取得了较高的 89.31%的识别准确率。BARSOUM 等27重新标注了图像的标签，并使用 4 种不同方法重新训练 VGG13 网络，在概率模式下训练取得了较高识别准确率。HUANG 等32使用组合模型 ResNet+VGG，并比较了早期融

40、合和晚期融合的人脸表情识别结果。GEORGESCU等33结合了卷积神经网络学到了深度特征和手工特征。表 1不同网络在 RAF-DB数据集上的识别准确率Table 1The recognition accuracy of different networks on RAF-DB dataset网络VGG13VGG16VGG19ResNet18ResNet34ResNet50参数量/1069.4114.7320.0411.1821.2923.52识别准确率/%85.1785.5686.4186.4486.5486.21表 2在 RAF-DB数据集上与其他先进方法

41、的比较 Table 2Comparison with some advanced methods on RAF-DB dataset%方法DLP-CNN30gACNN13IPA2LT17SCN18DACL31本文方法识别准确率84.1385.0786.7787.0387.7888.141952023年 8月 15日Computer Engineering 计算机工程MA 等34提出的基于视觉 Transformer的方法将 2 个特征提取分支融合的特征图在空间维度展平并投影特定维度的序列中，并利用多层 Transformer建模不同的视觉特征组件之间的关系，从全局角度实现人脸表情识别。从表 3

42、中可以看出，本文方法取得了较为良好的人脸表情识别效果。3.3.4消融实验为了进一步评估所提方法中各模块的有效性，本文在 RAF-DB 和 FERPlus 数据集上进行消融实验，以 ResNet18为基准网络模型，Blur表示对基准网络模型的降采样阶段加入抗混叠模块，CA 表示在网络中添加通道注意力模块。从表 4的实验结果中可以看出，融合抗混叠模块和通道注意力机制均能够在基准网络上提升人脸表情识别准确率，而且抗混叠处理对网络性能的提升尤为明显，在基准网络模型上添加抗混叠模块后在 RAF-DB 和 FERPlus 数据集上的识别准确率分别提高了 1.01和 1.24个百分点，说明抗混叠处理能够提

43、取到更加有效的人脸表情特征。通道注意力机制能够学习到更细节的特征，使网络更加关注具有判别性的人脸表情特征，识别更感兴趣的目标区域。当 2个模块同时加入到基础网络中时，提升效果尤为显著。这是由于在经过抗混叠处理后，降采样阶段减少了有用特征的丢失，提升了网络对关键特征的提取能力，通道注意力模块能够更好地在提取的有效全局特征基础上对关键区域进行重新定位，使网络专注于区分性较高的区域。改进之后的网络比基准网络的识别准确率提高了1.70 和 1.68 个百分点，这说明融合抗混叠模块和通道注意力模块能够有效地提高网络性能，增强人脸表情特征的表达，共同促进基准网络模型的性能提升。3.3.5注意力图可视化分析

44、为了更加直观清晰地验证通道注意力机制能够使网络更加关注到人脸表情区域的判别性特征，本文使用了加权梯度类激活映射（Grad-CAM）35方法来对目标区域进行可视化分析。该方法能够反映出在复杂的自然环境下，网络模型能否精准定位到人脸区域进行重点学习。同时，可以观察到对于表情分类，更加侧重哪些人脸区域，通过比较细微的差异，有助于决策正确的类别。利用 Grad-CAM 方法，本文在 RAF-DB 和 FERPlus 的测试数据集上绘制了注意力可视化热力图，部分测试结果如图 8所示，图中颜色越接近红色，表示网络对该部分的关注程度越高。从图中可以观察到，热力图红色区域主要集中在人脸眼部和嘴部及周边区域，这

45、些区域是区分表情类别的关键，证明了本文方法能够在复杂背景下，从人脸区域中有效提取出关键的区分性表情特征，增强关键特征的表征能力。3.3.6复杂度分析为了衡量本文所提方法的效率，对网络模型的复杂度进行分析，可从时间复杂度和空间复杂度2 个方面来反映。其中：时间复杂度即计算量，决定了模型的训练时间，指的是输入单个样本图像，模型进行一次完整的前向传播所发生的浮点运算个数；空间复杂度可用参数量来衡量，即网络模型可学习的权重参数总数。从表 5 中的数据可知，本文所提出的 ARAN 网络结构相较原本的网络仅增加了 5.2108计算量和 3.0104参数量，但在识别准确率上却获得了较大的增益，在 RAF-D

46、B 和 FERPlus数据集上的识别准确率分别提高了 1.70 和 1.68 个百分点。表 3在 FERPlus数据集上与其他先进方法的比较 Table 3Comparison with some advanced methods on FERPlus dataset%方法VGG13(+PLD)27ResNet+VGG32Local Learning Deep+BOW33RAN(ResNet18)14VTFF34本文方法识别准确率85.3687.4087.7688.5588.8189.31表 4RAF-DB和 FERPlus数据集上的消融实验结果 Table 4Ablation experim

47、ent resultson RAF-DB and FERPlus datasets%Blur-+CA-+-+RAF-DB识别准确率86.4486.7087.4588.14FERPlus识别准确率87.6387.8288.8789.31图 8 部分测试图像的注意力图可视化Fig.8 Visualization of attention map of some test images表 5复杂度与识别准确率对比 Table 5Comparison of complexity and recognition accuracy方法baselineARAN参数量/1071.1181.121计算量/109

48、1.822.34RAF-DB识别准确率/%86.4488.14FERPlus识别准确率/%87.6389.31196第 49卷第 8期丰芳宇，罗晓曙，蒙志明，等：基于抗混叠残差注意力网络的人脸表情识别3.3.7遮挡条件下的人脸表情识别在现实场景中，人脸表情识别往往存在遮挡等因素干扰，为了验证遮挡情况下本文所提方法的鲁棒性，选取了 CK+21和 JAFFE222 个实验室环境下的标准人脸表情数据库，在眼睛和嘴巴 2 个最为影响表情识别效果的部位上，添加黑色矩形框，来模拟现实场景中可能存在的遮挡情况。图 9展示了部分遮挡条件下的表情图像示例。在本文实验中，所有图像均经过表情区域的裁剪和人脸对齐操

49、作，并归一化至 224224像素，进行身份无关的十折交叉验证实验。以 ResNet18 为baseline，与本文提出的 ARAN 方法进行比较，从表 6的实验结果可以看出，不论是否添加遮挡，本文所提方法均比基础网络提升显著，在遮挡条件下，也能实现较高的识别准确率，说明本文方法也具备较好的鲁棒性。相较上文 2个自然环境下的表情数据集，CK+和JAFFE 数据集上的识别准确率更高，分别达到了98.38%和 96.67%。这是由于实验室环境下采集的数据库，其表情标注与摆拍的表情内容均包含了一致的主观因素，因此网络更容易学习到与标签一致的表情特征。4结束语针对自然环境下难以

50、有效提取人脸表情特征、表情类别之间相似度高导致人脸表情识别准确率降低的问题，本文以残差网络 ResNet18为基础框架，提出一种基于抗混叠残差注意力网络的表情识别方法。抗混叠处理能够使人脸表情图片尽可能减少关键特征信息的丢失，缓解噪声的影响，通道注意力机制则给予人脸表情关键区域中的重要信息更高的权重，促进网络关注判别性区域的表情特征。对于区分度不高的表情预测结果，在训练时使用标签平滑的正则化策略修正预测概率。基于 2个自然环境下的人脸表情数据集的实验结果表明，本文所提方法与基准网络模型以及先进的人脸表情识别方法相比，有效提高了人脸表情识别效果。笔者在实验中发现，仍存在以下问题对人脸表情识别效果

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于抗混叠残差注意力网络表情识别

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。