基于语音性别分类的对抗样本研究.pdf
《基于语音性别分类的对抗样本研究.pdf》由会员分享,可在线阅读,更多相关《基于语音性别分类的对抗样本研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、一、背景介绍语音在人类社会中无处不在,它是一种大容量的信息载体1。目前,说话人识别领域在生活中已经有着广泛的应用,尤其是在语音性别识别(VGR)领域。语音性别识别是一个十分热门且重要的研究方向,其系统能够根据说话人的声音特征来判别说话人性别,这对人来说是一项非常简单的任务,但是对于机器却是一项非常复杂的任务。语音性别识别系统主要依据不同性别之间的声音特征来进行性别识别判基于语音性别分类的对抗样本研究随着近些年来深度学习的不断发展与应用,语音性别识别广泛应用于深度网络并取得了快速的发展。然而,随着越来越多的研究发现,深度学习网络容易受到对抗样本的攻击,存在重大的安全性隐患。基于此,选取目前主流的
2、人工神经网络,收集了TIMIT和SLR45两个数据集,实现了基于ANN的语音性别分类模型。根据定义的评价指标对FGSM、PGD 和C&W 3种对抗样本生成方法性能和攻击效果进行了评价。实验结果表明,这3种对抗样本生成方法对ANN语音性别分类模型有较好的攻击效果,各方面表现良好,可为防御该类模型的安全性漏洞提供支持与依据。宁波大学信息科学与工程学院董明宇严迪群王让定董理断。其中,基音频率是语音性别识别最重要的判别特征之一。近年来,随着深度神经网络的不断发展,深度学习技术已经应用到了各个研究和生活中,其在某些方面的能力已经能够超过人类。然而,由于系统本身的不完善,它还存在着一些重大的安全隐患,对抗
3、样本的攻击就是其中之一。对抗样本攻击是指在深度神经网络模型能够作出正确判断的基础上,在原始数据中添加人类感官不易察觉的轻微扰动,使得深度神经网络模型作出错误的判断。在已有的应用领域中,对抗样本的研究主要集中在图像分类2、图像分割3、目标检测4和自然语言处理5等领域。目前,在语音性别识别领域使用的方法主要是深度神经网络,因此其也存在着相应的安全性问题6。1.语音性别识别研究与发展现状语音性别识别系统的识别准确度与数据预处理和音频数据的特征有关。在相关的研究文献中,使用的有两种方基金项目:国家自然科学基金(6217011361,U1736215,61901237);浙江省自然科学基金(LY20F0
4、20010);宁波市自然科学基金(202003N4089);宁波大学王宽诚幸福基金CIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合452022年11-12月 法:第一种方法是利用声音的数字特征和音频数据的特征,如平均频率、过零率和标准差等;第二种方法是利用声音的频谱特征,如MFCC、Log-Mel等特征。绝大多数的研究都使用了第一种方法,使用的语音数据集(男女性别数据集)7中的每个音频文件提供20个数字特征。Ertam等8采用这种方法达到的识别准确率为98%。随后他们又使用了救济方法作为特征选取的方法9,最多选择10个有效的特征。在此之后,他们使用了
5、一个双层长短期记忆人工神经网络,运用一个密集层和一个Softmax函数进行分类。由于使用的性别数据集的数据特征明显,因此该模型在性别识别准确率上表现良好,但是这种方法只能适用于在干扰较小的环境下采集到的声音,在嘈杂环境采集到的声音,该方法不能够很好地迁移泛化。Barkana等10提出了一个基于年龄和性别分类的pitch-range(PR)特征集的模型。他们使用音频能量和过零率作为预处理的步骤,将对话声音和无声音部分分开。然后,计算这5种不同的特征,即MFCC与音频能量、相关频谱感知线性预测(RASTA-PLP)、基频(F0)、3PR和20PR。为了进行分类,他们使用了k最近邻(KNN)支持向量
6、机(SVM)分类器。最后得到的结论是:MFCC+音频能量+3PR+F0与SVM的识别准确率最高,达到了84.7%11。在此研究基础上,Ramdinmawii等12提出了从语音信号中提取3种不同特征的性别识别系统。该系统使用自相关的音高、音频能量和MFCC3个特征,每个特征都有一个SVM分类器。实验表明,使用MFCC特征的系统在德州仪器麻省理工学院(TIMIT)数据库13上的识别准确率得分最高,达到了69%。Hebbar等14提出了一个应用于电影中音频的模型。该模型提出了一种端到端的性别分类系统,该系统主要由两个部分组成:一个双向的基于LSTM的语音活动检测(VAD)和从一个音频分类模型(VGG
7、ish)进行的迁移学习。他们用log-Mel滤波器组系数特征来表示音频数据,并使用3个密集层和一个Softmax函数进行分类。该模型识别准确率达到87%。Kabil等15提出并使用了卷积神经网络(CNN),使用多层感知器(MLP)图1对抗样本对语音性别分类网络的攻击示意和Softmax函数进行分类,该模型识别准确率高达99.8%。2.对抗样本简介深度神经网络易受到攻击最早是Szegedy等6在2013年调查研究中提出的。自此之后,众多学者开始对神经网络的攻击产生了浓厚的兴趣,开始探索各种对抗样本的生成方法。随着神经网络的发展,深度学习运用到了生活中的各个领域。然而,越来越多的研究发现,神经网络
8、容易受到各种外界的攻击的特性,其中最广泛运用的就是对抗样本攻击。目前对抗样本对语音性别分类网络的攻击示意如图1所示。根据已有信息量的不同,可将对抗样本攻击分为黑盒攻击、白盒攻击以及灰盒攻击3类威胁模型。黑盒攻击:攻击者对攻击目标模型的内部结构、训练参数、防御方法等条件一无所知,只能通过输入输出来与模型进行交互。白盒攻击:攻击者可以完全访问所有的网络参数,如体系结构、权重、训练数据特征、防御方法等。灰盒攻击:该类攻击介于黑盒攻击和白盒攻击之间,攻击者仅仅了解攻击目标模型的部分数据参数。我们不仅可以从已有信息量不同来进行分类,还可以从攻击目标的角度来分类,这种情况下对抗攻击方法可分为目标攻击和无目
9、标攻击两类。目标攻击:该类攻击需要攻击者指定某一具体类,使得目标模型不仅对样本分类错误并且要将其错成具体的类别。从实现难度上来说,目标攻击的实现难度高于无目标攻击。无目标攻击:攻击者只需要让目标模型对样本分类错误即可,并不需要具体的类别。除了以上两种分类方法还有:根据扰动的强度大小,对抗攻击方法可分为无穷范数攻击、二范数攻击和0范数攻击;根据攻击的实现方式,对抗攻击RONTIER DISCUSSION前沿探讨F46NOVEMBER-DECEMBER 2022方法可分为基于梯度的攻击、基于优化的攻击、基于决策面的攻击等。二、相关工作1.人工神经网络人工神经网络(ANN)是在20世纪50年代发展起
10、来的人工智能的一个分支。人工神经网络是一种受生物学启发而产生的计算模型,其由数百个单一单元的人工神经元组成,并与构成神经结构的权重系数相连。当它们在处理信息时,也被称为处理元素(PE)。每个PE都由加权输入、传递函数和输出组成,其在本质上是一个平衡输入和输出的方程式。人工神经网络有其独特的优势,因此被广泛应用于科学研究中。例如,适应性学习:能够根据训练或初始经验的数据学习完成目标任务。自组织能力强:一个人工神经网络可以创建它自己的结构或表示它在训练期间接收到的信息。支持实时操作:人工神经网络的计算可以并行进行。目前正在设计和制造能够利用这种能力的特殊硬件设备。冗余信息编码容错率高:网络的部分破
11、坏导致相应的性能下降。然而,即使有严重的网络损坏,一些网络能力也可能被保留。目前已有的人工神经网络有很多种,但所有的人工神经网络都可以通过人工神经元的传递函数、连接方式和学习方法来描述。2.对抗样本发展典型的黑盒攻击方法有Su等2提出的单像素攻击,Sarkar等16提出的UPSET攻击方法和ANGRI攻击方法等。白盒攻击恰好与黑盒模型相反,攻击者对攻击的目标模型的一切都可以掌握。目前研究中使用的大多数攻击方法都是以白盒攻击为主。典型的白盒攻击方法有:Goodfellow等17提出的FGSM方法、Papernot等18提出的JSMA方法、Moosavi等19提出的DeepFool方法、Carli
12、ni等20提出的C&W方法以及Aleksander等21提出的PGD方法等。本文将主要探讨白盒攻击对于VGR的攻击效果。2014年,Goodfellow等17提出了快速梯度下降法(FGSM)方法。其原理为:在目标网络已知的条件下,求出模型对输入的导数,然后用符号函数得到其具体的梯度方向,接着乘以一个步长,得到的“扰动”加在原来的输入上就得到了在FGSM攻击下生成的对抗样本。人工神经网络之所以会受到基于梯度的攻击是因为:对抗扰动造成的不利影响在神经网络当中会越来越大,对于线性模型来说则更是如此。而目前神经网络中倾向于使用ReLU这种类线性的激活函数,使得网络整体趋近于线性,因此非常容易受到FGS
13、M的攻击;模型网络输入的维度越大,模型越就容易受到攻击。而目前的模型输入维度都很大,易受到对抗样本的攻击。2015年,Moosavi等19提出了DeepFool方法。其原理是以迭代的方式计算给定图像的最小范数添加对抗性扰动。由于生成的是(近似)最小的扰动,因此该方法可以用来评估模型的鲁棒性。2016年,Carlini等20提出了C&W方法。该方法通过将样本作为优化对象,利用适合的损失函数加以约束,以迭代的方式将样本进行逐步改造。2017年,Aleksander等21提出了PGD方法。PGD是一种迭代攻击,可以看作是K-FGSM(其中,K表示迭代的次数)。对比而言,FGSM是仅做一次迭代,走一大
14、步;而PGD是做多次迭代,每次走一小步,每次迭代都会将扰动投射到规定范围内。如果目标模型是线性模型,用FGSM就可解决,因为此时loss对输入的导数是固定的。换言之,使得loss下降的方向是明确的,即使是多次迭代,扰动的方向也不会改变;对于一个非线性模型来说,仅做一次迭代,方向是不一定完全正确的,这也是为什么FGSM的效果一般,而PGD效果会更好。三、对抗样本生成方法目前,针对深度神经网络的对抗样本攻击主要是白盒攻击。而在白盒攻击中最常用的主要有FGSM方法、PGD方法和C&W方法。本文也将主要测试验证这3种方法对ANN语音性别分类模型的攻击效果。下面对这3种方法进行详细介绍。1.FGSMFG
15、SM是一种基于梯度的攻击方法。它设计的目的是能够快速产生对抗样本,其关注的重点是以很高的效率生成高攻击成功率的对抗样本23。在目标网络参数以及结构已知的条件下,具体公式如下所示:其中,x为输入到深度神经网络中的原始输入,x*为输出生成的对抗样本,为指导深度网络学习函数。该方法通过获取目标与预测结果之间损失的梯度作为对抗扰动,在对样本处理之前将对抗扰动取符号位并加以步长限制。最后通过叠加的方式,将对抗扰动叠加到x中得到对抗样本x*。2.PGDPGD方法是基于FGSM的迭代攻CIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合472022年11-12月 击2
16、4。通过每一次FGSM生成的对抗样本输入并以更小的扰动进行微调整,使下一次生成的对抗样本能够更加接近目标输出结果。在PGD中,制作对抗样本的过程是从一个样本的高维数据模式周围的p范式球中的一个随机(或常数)扰动开始的,然后向最大代价的方向采取梯度步骤;如果这个步长扰动超出了上述的范式球,则对球内最近的点执行投影操作;重复梯度逼进和投影操作,直到满足收敛条件为止。在p范数空间中使用PGD方法的对抗性样本为:其中,s为对抗扰动进行数值上的限制,通过对叠加的扰动进行多次限制,最终能够以一个足够高的攻击成功率生成对抗样本。3.C&WC&W是一种基于优化的攻击25。该方法将对抗样本当成一个变量,要使得攻
17、击成功需要满足的两个条件:对抗样本和对应的干净样本应该差距越小越好。对抗样本使得模型分类错误,且错的那一类的概率越高越好。C&W方法与前面两种基于梯度的方法不同,该方法通过设计符合条件的两种损失来指导对抗样本的生成过程,并通过多次迭代的优化过程让生成的对抗样本的扰动足够的小,并有着足够高的攻击成功率。通过最小化对抗扰动rn以及对抗样本的输出结果与目标类别的距离来生成对抗样本。相较于前两者,C&W方法生成的对抗样本具有更小的扰动以及更高的攻击成功率。最大的缺陷是优化过程十分漫长,需要大量的时间来制作对抗样本。四、实验1.实验设置本文运用的TIMIT和SLR45数据库,在Python中可以通过调用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语音 性别 分类 对抗 样本 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。