结合多视角学习与一致性表征的人脸伪造检测.pdf

上传人：自信****多点

文档编号：583354

上传时间：2024-01-02

格式：PDF

页数：9

大小：5.74MB

《结合多视角学习与一致性表征的人脸伪造检测.pdf》由会员分享，可在线阅读，更多相关《结合多视角学习与一致性表征的人脸伪造检测.pdf（9页珍藏版）》请在咨信网上搜索。

1、现有的人脸伪造检测方法通常在已知域上表现较好，但面临过拟合的风险，在应对未知场景时无法保持良好的检测能力。为解决此问题，提出一种结合多视角学习与一致性表征的人脸伪造检测框架。为捕获更全面的伪造痕迹，将输入图像转换为两种互补视角并采用双流骨干网络进行多视角特征学习。引入一致性度量，以补丁级监督的方式明确约束不同视角输出的局部特征的相似度。为提高检测精度，采用特征分解策略进一步优化伪造特征，减少不相关因素的干扰，并以伪造特征空间的决策作为最终的预测结果。在基准数据集上听语音聊科研与作者互动进行的大量实验表明，所提出的方法优于现有的主流模型，具备良好的跨域泛化能力。关键词：人脸伪造；频域特征；多视角

2、学习；一致性度量中图分类号：文献标志码：开放科学（资源服务）标识码（）：文章编号：（），（，）：，：；近年来，以生成式对抗网络（，）为代表的深度生成模型得到了业界的广泛关注，进而掀起了一场伪造图像的热潮，“深度伪造”一词由此而来。深度伪造是指借助深度学习算法，实现对音频和视频的模拟和伪造，主要包括语音模拟、图像生成、换脸、表情重塑等。一个没有任何专业知识储备的普通用户，只需简单操纵电子设备中的应用软件即可实现对一幅图像或一段视频中人物面部区域的篡改和伪造。人脸图像中包含着丰富且敏感的个人身份信息，因此，对人脸图像的伪造需要引起格外重视，一旦被不法分子出于恶意目的使用，后果将不堪设想。除

3、对个人隐私的威胁外，深度伪造技术对国家和社会同样会带来极大的安全隐患，例如会损坏企业的公众形象、散播虚假消息并引导政治舆论、促使恐怖主义行动等。为了降低这些伪造内容的传播力度和可信度，迫切需要研究有效的检测手段以应对由此带来的种种威胁。现有的人脸伪造检测方法可大致分为两种类收稿日期：基金项目：国家自然科学基金资助项目（）；湖南省研究生科研创新资助项目（）；湖南省自然科学基金资助项目（）作者简介：张军（），女，湖南长沙人，教授，博士，博士生导师，：；于淼淼（通信作者），女，山东青岛人，博士研究生，：第期张军，等：结合多视角学习与一致性表征的人脸伪造检测型：一种是采用手工设计的特征描述符结合

4、小型分类器来判断输入图像的真伪，这类方法适用于特定伪造场景下的检测任务，但在处理复杂场景时通常表现不佳；另一种是基于卷积神经网络（，）的深度学习检测方法，这类方法凭借卓越的特征学习和数据拟合能力在数据集内部测试中取得了令人满意的检测性能。然而，输入图像中存在大量与标签无关的干扰信息，如背景、身份等，导致有利于当前分类的任意模式和线索都可能被检测器注意并学习到，而关键的伪造特征却被忽略。因此，如何从整个特征空间中挖掘出真实人脸与伪造人脸之间最具判别性的特征是研究的重点。对此，多视角学习策略结合伪造特征分解方案是解决该问题的有效手段。目前大部分工作将人脸伪造检测问题定义为一种二元分类任务，

5、即采用图像级标注对模型输出的预测结果进行监督训练。为了学习全面且泛化的特征表达，仅采用图像级监督信号并不能充分地引导模型进行可靠的特征学习，而引入额外的像素级监督信号（如：伪造区域掩码、人脸深度图等）会不同程度地增加计算开销，进而限制了在现实场景中的应用。基于以上分析，可以采用自监督学习结合二元监督学习的解决方案，进一步提升人脸伪造检测模型的检测性能。相关工作面向特定伪造的检测模型研究帧内图像伪影或不一致的生物信号是判断图像真伪最主要的依据之一。文献利用真实视频和伪造视频中眼睛运动方式的差异来检测输入视频的真伪。等观察到伪造的人脸区域在融合到源视频之前都要经过仿射变换，这一过程会留下独特

6、的伪影，并以此来判断图像是否被篡改过。等通过分析嘴巴区域张开时的异常表现来识别虚假视频。等采用基于中层语义分析的检测方法，设计了两个具有少量层的深度神经网络模型和，通过关注图像的介观性质来判断图像的真伪。等提出了一种多任务学习框架，既能检测出被伪造的图像，同时又能对伪造区域进行定位。与上述方法不同，等认为真假人脸图像之间的差异通常是细微且局部的，因此将这一挑战重新定义为细粒度分类问题，并开发了一个多注意力检测框架，在注意图的指导下将增强的纹理特征和高层次的语义特征结合起来进行最终分类。上述方法大都适用于特定的伪造模式，在域内评估中表现较好，但当检测

7、训练集中未出现的攻击类型时，性能会不同程度地下降。可泛化的人脸伪造检测模型可泛化的人脸伪造检测旨在寻找不同伪造算法遗留下来的共同的伪造痕迹，以实现对任意类型的伪造样本进行准确检测的目的。为了涵盖更全面的伪造表征，等提出了一种双流网络框架，人脸分类分支利用真实的和伪造的人脸图像进行训练来捕获高水平的篡改伪迹证据，补丁三元组分支利用隐藏特征提取器捕获局部补丁的低水平的噪声残差证据，最终将两个分支相融合实现了鲁棒的篡改检测。等同样采用双流检测网络，两个分支分别以域和频域信息作为输入，融合模块将两个流的输出结合起来，再经骨干网络和长短期记忆（，）递归神经网络抽取帧间信息以对视频的真伪进

8、行判断。等将相位谱的空间域表示与原始域合并起来，得到通道的输入图像，并送入网络中进行分类。等设计了一种通用的人脸伪造检测算法，只利用真实人脸图像进行简单的融合来自动合成换脸图像以及融合边界图，这两类数据一同输入骨干网络中进行训练，训练好的模型通过预测融合边界来判断图像的真伪。此方法在面对低分辨率的图像时检测性能会显著下降，并且不适用于检测由完全生成的伪造图像。由于整个特征空间中同时包含了与标签相关的信息以及干扰信息，而干扰信息的存在会迷惑检测器做出错误的决策，因此，从整个特征空间中逐步挖掘出真实人脸与伪造人脸之间最具判别性的特征，尽可能消除干扰因素对决策的影响，是本研究的重点。方

9、法本文提出一种结合多视角学习与一致性表征的人脸伪造检测方法，整体流程如图所示。多视角学习模块旨在从原始图像中提取全面且丰富的互补信息。块间一致性度量模块采用余弦相似性度量促使不同视角的相同位置的局部特征更加接近。特征分解与分类模块旨在将判别性特征空间从整个特征空间中进一步分离出来，减小决策中不相关信息的干扰。国防科技大学学报第卷图所提方法整体流程频域特征对于人脸伪造检测任务来说，一些关键的判别性线索无法直接从原始图像中学习到，而是隐藏在频域中，因此，频域特征和空间特征作为两种互补特征，同时利用它们能获得更全面更泛化的特征表示。在提取频域特征时，采用固定的或手工设计的滤波

10、器很难自适应地充分暴露细微的伪造痕迹，因此选择采用一种自适应频率感知的特征提取方法。首先将输入图像经离散余弦变换（，）由原始空间转换到频域中，然后通过将二元基础滤波器，和可学习频率滤波器，相结合来自适应地将其划分为多个频域分量。具体来说，前个基础滤波器将频谱大致分为个子带，分别对应低频（整个频谱的前）、中频（频谱的和之间）和高频（频谱的最后）成分。此外，考虑到分割的频率成分可能不足以挖掘出真假人脸之间全面的伪造痕迹，因此这里又增加了一个额外的基础滤波器，用于捕获图像的全频（整个频谱）成分。个可学习频率滤波器用于自适

11、应地调整和选择基础滤波器之外的感兴趣的频率响应。最后，利用逆离散余弦变换（，）将划分的频率成分反变换到空间域上。上述过程可以表示为：（）（），（）式中：（）和（）分别表示和操作；函数（）（）（）用于将归一化为，。随后，将获得的四个频域分量，沿通道维度进行堆叠，最终得到频域特征。双流特征提取网络及特征融合模块作为对频域信息的补充，对原始图像采用一般的数据增强技术（如随机翻转）生成增强后的空间图像，记为。接下来，将和输入双流特征提取网络中学习全面丰富的特征表示。考虑到网络在图像取证方面显示的优越性能，选择其作为双流框架的骨干网络（每个分支不共享参数），主要由

12、三层组成：网络浅层、网络中间层和网络深层。将两个分支中每层输出的特征图经过特别设计的特征融合模块（，）进行融合和增强，得到三个不同尺度的混合特征。示意图如图所示。首先采用元素相加运算混合两个输入特征，记为；随后是一个自注意力机制，其目的是学习通道维度上各个子特征图之间的相关关系，并为它们分配不同的权重。具体来说，将特征按通道划分为组子特征图（）（，），然后将其平铺成维特征向量，再分别利用三个嵌入函数、和生成三个矩阵：（）（）（）（）第期张军，等：结合多视角学习与一致性表征的人脸伪造检测图示意图接着，将和组合起来，生成权重矩阵：（槡）（）得到的即描述了当前的局部特征

13、与其他局部特征之间的相关性。理论上，来自伪造区域的局部特征之间的权重较大，而来自伪造区域的局部特征与来自非伪造区域的局部特征之间的权重较小。再次，将矩阵和进行融合：（）最后，将所有生成的（，）按通道串联起来，得到增强后的特征图。这里设置，即将每个通道的特征图单独划分为一组。块间一致性度量考虑到仅采用图像级标注对学习鲁棒的和泛化的特征表征方面能力不足，存在过拟合的问题，因此，采用一致性学习策略，在不引入额外的监督信号的情况下，促使同一人脸实例的不同视角的特征更加相似，以自我监督的方式提高输出特征的一致性。将频域分支输出的最终特征记为，分支输出的最终特征记为，并将和空间上划分为大小

14、的补丁，分别记为（）（）和（）（），其中，。然后，将和展平为维向量和，并计算二者之间的余弦相似性：（，），()（）式中，值越高表示补丁和之间越相似。理想情况下，应该接近于，因此，这里需要构建一个全矩阵来指导的学习。最终，将块间一致性损失函数表示为：（）特征分解策略经过处理后会得到三个不同尺度的混合特征，考虑到不同的伪造技术和生成管道会产生不同尺度的伪造痕迹，因此，将这三个特征按通道合并起来以得到输入图像的丰富的多尺度特征表示，记为。特征分解旨在为每个通道的子特征图分配相应的权重，进一步分离出伪造特征和非伪造特征。首先将喂入平均池化层（）压缩其通道信息，再利

15、用多层感知器（，）网络和激活函数得到空间注意力图：（）（）非伪造特征和伪造特征的分解过程可表示为：（）（）（）将特征和分别输入两个分类器（每个分类器由两个全连接层构成）中，得到两个二元决策和。最终以的值作为对输入图像的预测结果。混合损失函数所提出的框架以监督方式进行端到端训练，整体损失函数由分类损失和一致性损失两部分组成：（）其中，和表示权衡参数。分类损失采用二元交叉熵（，）函数：（）（）（）（）（）（）（）其中，表示训练样本总数，标签表示输入图像实际所属的类别，标签（）表示类别为真。国防科技大学学报第卷实验结果与分析实验设置数据集为了评估模型性能，

16、在三个公开的人脸取证数据集上进行实验，分别是（）、以及（）。包含关于个对象的个真实视频，每个真实视频由（）算法进行篡改，最终生成了包括高质量（）和低质量（）两个版本的共计个伪造视频；由个原始视频和个通过改进的（）算法生成的高质量伪造视频组成；包含来自的个原始视频片段，每个原始视频由种经典的人脸伪造技术进行篡改、（）、以及（），共计个伪造视频，所有视频都由三种不同的压缩设置创建而来，分别是（无压缩）、（高质量或轻度压缩）和（低质量或重度压缩）。在随后的实验中，提取数据集中每个视频的前帧，共计个真实帧和个伪造帧；从中提取个真实帧和个伪造帧；随机提取

17、的个真实帧和个伪造帧（每种伪造算法帧）。每个图像帧通过的级联分类器进行人脸区域的检测，检测到的人脸框由中心向外扩展一定的倍数（为倍，和为倍）并裁切。实施细节实验采用实现，在两个上进行训练。使用的骨干网络是在上预训练的权重进行初始化的。使用作为优化器，初始学习率设置为，每经过个训练周期学习率衰减。批量大小设置为，总的训练周期设置为。在评估模型性能时，采用了两个广泛使用的评价指标作为主要衡量标准，即准确率以及接受者操作特征曲线（，）下的面积（，）。另外，精确率、召回率及分数被作为辅助评估指标。在块间一致性度量步骤中，按照经验，将参数设置为，即将特征图空间上

18、分割为个补丁。在混合损失函数中，参数和用于权衡各个项的重要性，为了寻找最佳的设置，表展示了在（）的数据集中不同参数设置对模型性能的影响。显然，当时，模型获得了最佳的整体性能，后续实验都遵循这一设置。表损失函数中设置不同参数的性能比较（，）准确率召回率精确率分数（，）（，）（，）（，）（，）数据集内测试为了验证所提出的方法与现有的其他主流模型相比具有更优越的检测性能，表列出了在、和三个数据集上各个方法的得分。显而易见，所提方法在所有数表数据集内部测试的结果比较模型本文第期张军，等：结合多视角学习与一致性表征的人脸伪造检测据集上都优于其他模型。具体来说，对

19、于数据集，无论是低质量还是高质量的伪造版本，本框架都取得了令人满意的结果。由于是一个极具挑战性的数据集，其中的伪造图像用肉眼几乎看不到伪造痕迹，这大大增加了检测难度。本文方法在数据集上以大幅度优势超越了现有模型。另外，本文方法在面对伪造类型时，同样展现出了卓越的识别能力。为了评估所提出的框架在面对不同压缩质量的样本时的检测性能，表展示了本方法以及其他几种主流模型在数据集上的准确率和指标，每个指标下最好的结果加粗。从表中可以明显看出，本文方法在高质量数据集上的检测性能显著优于其他模型。在面对重度压缩样本时，虽然准确率有所下降，但指标比排名第二的模型高了。本实验证明了所提出的

20、方法在域内评估中的有效性。表模型在数据集上的性能比较模型准确率准确率（）本文值得一提的是，所提出方法的整体检测性能要略优于模型。研究发现，同样利用了频域特征，采用了高斯拉普拉斯算子提取图像中的高频信息，并与原始域一同作为双流网络的输入信号。对于深度伪造检测任务而言，图像的高频成分作为一种关键判别性特征，能很好地捕获图像因伪造操作而引起的边缘轮廓和纹理细节的改变，同时对引入的噪声敏感。除此之外，中频和低频分量也起到了关键作用，具体来说，中频分量形成了图像的主要边缘结构，低频分量反映了图像中灰度值变化缓慢的区域。通常来说，为了消除伪造产生的抖动，换脸区域需要做进一步的

21、模糊和平滑处理才能与源视频中的背景区域相匹配，这会导致换脸区域的皮肤过于平滑，五官不再清晰锐化，改变了低频和中频成分。因此，与不同，所提方法还提取了图像的低频和中频特征。另外，考虑到分割的频率成分可能不足以挖掘出真伪人脸之间全面的伪造痕迹，全频分量被用于捕获更大范围的信息。基于以上分析，本文模型性能有所提升的主要原因在于将频谱分成了个不同的子带，而不是只考虑高频分量。跨数据集交叉验证数据集内部测试旨在评估模型对特定伪造的检测能力。与之不同，模型的泛化性或迁移性是检验模型在面对未知伪造类型时能否依然保持良好的性能。在真实场景中，防御模型往往无法获取到任何关于攻击者的先验知识，这就要求模型具备

22、应对未知攻击的能力。在本小节中，通过跨数据集交叉验证来评估所提出的框架的泛化性能。具体来说，首先将模型在（）数据集上进行训练，然后在数据集上进行测试，实验结果如表最后一列所示。显然，本文方法的泛化能力比现有的其他模型都更优越。虽然模型的域内检测性能稍微优于所提方法，但其泛化性能不足。本实验进一步证明了所提出的模型的可靠性，适用于真实场景下的伪造检测任务。可视化对于基于的深度学习框架而言，模型的可解释性一直以来都是研究的焦点问题，其决定了模型是否真正可靠，可视化是一个重要方式。如前所述，所提出的特征分解策略能够很好地优化伪造特征空间，进而减少不相关因素的干扰，提升了最终决策的精度。为

23、了证明这一点，以和两种伪造为例，通过工具对特征空间优化前后的分布进行可视化，结果如图所示，每次实验随机选取幅图像进行国防科技大学学报第卷表跨数据集交叉验证的结果比较模型本文可视化。从图中可以看出，优化前真伪图像的特征空间分布是相互纠缠的，彼此之间没有十分明确的分类边界，这会干扰检测器的判断。当经过特征分解后，两类图像之间的差异进一步被明确，因而证明了所采用的特征分解策略对最终的预测起到了积极作用。（）伪造样本采用特征分解策略前的特征分布（）检测结果示例为了进一步验证所提出的方法能有效识别出（）伪造样本采用特征分解策略后的特征分布（）（）伪造样本采用特征分解策

24、略前的特征分布（）（）伪造样本采用特征分解策略后的特征分布（）图可视化示例图像的真伪，本小节展示了利用训练好的模型分别对真实人脸图像和四种典型的伪造人脸图像进行检测的结果，如图所示。对于输入的图像帧，由于伪造操作只发生在人脸区域上，因此首先需要对每一帧中的人脸区域进行检测，即图中矩形框框出的区域，然后利用训练好的模型对检测到的人脸区域进行预测。从图中可以看出，模型能够以较高的概率得分预测出不同伪造的目标帧所属的真实类别。第期张军，等：结合多视角学习与一致性表征的人脸伪造检测（）真实图像（）（）伪造（）（）伪造（）（）伪造（）（）伪造（）图检测结果展示结论本文提出了一种结合多视角学

25、习与一致性表征的人脸伪造检测框架。为了学习全面且泛化的表示以及弱化输入图像中与标签无关的干扰因素对决策的影响，首先采用两个并行工作的骨干网络提取输入图像的两个互补视角中隐藏的伪造痕迹，同时结合特征分解策略进一步优化判别性特征空间。考虑到仅采用图像级标注对学习泛化的特征能力不足，结合一致性度量，通过余弦相似性以自监督方式引导不同视角分支的输出相一致。对比实验（数据集内评估和跨数据集评估）表明，所提出方法的检测性能优于现有的其他主流模型，适用于真实场景下的伪造检测任务。参考文献（）孙书魁，范菁，曲金帅，等生成式对抗网络研究综述计算机工程与应用，（）：，（）：（），（），：（），（），张远婷人工智

26、能时代“深度伪造”滥用行为的法律规制理论月刊，（）：“”，（）：（），：（），：，：姜文瀚，田青，郭小波深度伪造技术应用的公共安全挑战与治理警察技术，（）：，（）：（）佟昕宇，陆诗慧，聂康善，等基于帧内关系建模的人脸深度伪造视频帧间检测模型信息与电脑，（）：，国防科技大学学报第卷，（）：（），（），（），：，：，：，：（），：（）：，（）：，：，（），：，：，：，：，（），（），（），：（），（），（），：（），（），：？（）：，：（），?，：（），：，：，（）：曾春艳，严康，王志锋，等深度学习模型可解释性研究综述计算机工程与应用，（）：，（）：（）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 结合视角学习一致性表征伪造检测

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。