融合对抗增强和多任务优化的恶意短信检测方法.pdf
《融合对抗增强和多任务优化的恶意短信检测方法.pdf》由会员分享,可在线阅读,更多相关《融合对抗增强和多任务优化的恶意短信检测方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、NETINFOSECURITY2023年第10 期入选论文doi:10.3969/j.issn.1671-1122.2023.10.004融合对抗增强和多任务优化的恶意短信检测方法全鑫1,金波1.2,王斌君1,翟晗名1,(1.中国人民公安大学信息网络安全学院,北京10 0 0 38;2.公安部第三研究所,上海2 0 0 0 31)摘要:现有恶意短信检测方法往往聚焦于提升检测准确率或速度,而忽略了模型自身的安全问题,因此,在真实场景中可能会遭受对抗样本攻击。为了解决上述问题,文章提出了一种融合对抗增强和多任务优化的恶意短信检测模型。在输入阶段,利用随机匹配池生成“原始文本一对抗样本”对作为输入,
2、并且引入语义类型编码技术帮助模型区分数据边界。然后,使用基于ChineseBERT的单塔神经网络作为主干模型对短信的语义、拼音和字形特征进行挖掘。在输出阶段,使用监督的分类交叉熵损失和无监督的输入一致性损失作为多任务优化目标,以帮助模型学习文本对内在的关联特征并完成分类。基于公开数据集的实验结果表明,该方法的准确率和鲁棒性优于多种机器学习和深度学习检测方法。关键词:恶意短信;鲁棒性;对抗样本;多任务学习中图分类号:TP309文献标志码:A文章编号:16 7 1-112 2(2 0 2 3)10-0 0 2 1-10中文引用格式:全鑫,金波,王斌君,等.融合对抗增强和多任务优化的恶意短信检测方法
3、J.信息网络安全,2 0 2 3,2 3(10):2 1-30.英文引用格式:TONG Xin,JIN Bo,WANG Binjun,et al.A Malicious SMS Detection Method Blending AdversarialEnhancement and Multi-Task OptimizationJ.Netinfo Security,2023,23(10):21-30.A Malicious SMS Detection Method Blending AdversarialEnhancement and Multi-Task OptimizationTONG X
4、in,JIN Bol2,WANG Binjun,ZHAI Hanming(1.School of Information Network Security,Beijing 100038,China;2.The Third Research Institute of Ministry ofPublic Security,Shanghai 200031,China)Abstract:Existing malicious SMS detection methods often focus on improving thedetection accuracy or speed,ignoring the
5、 security problems of the model itself,thus likely tosuffer from adversarial examples attack in real-world scenarios.To alleviate this pain point,this paper proposed a malicious SMS detection model that blended adversarial enhancement收稿日期:2 0 2 3-0 5-0 6作者简介:全鑫(19 9 5一),男,河南,博士研究生,CCF会员,主要研究方向为网络空间安
6、全和自然语言处理;金波(19 7 2 一),男,上海,研究员,博士,CCF会员,主要研究方向为网络空间安全;王斌君(19 6 2 一),男,北京,教授,博士,CCF会员,主要研究方向为人工智能安全;翟晗名(19 9 7 一),女,河北,硕士研究生,主要研究方向为自然语言处理。通信作者:金波21NETINFOSECURITY入选论文2023年第10 期and multi-task optimization.During the input stage,a random matching pool was used togenerate“original text-adversarial exam
7、ple pairs as input,and the semantic type encodingtechnique was adopted to help the model distinguish the data boundaries.Then,a single-tower neural network based on ChineseBERT was used as the backbone model to excavatethe semantic,pinyin,and glyph features of the SMS.In the output stage,the supervi
8、sedclassification cross-entropy loss and the unsupervised input consistency loss were used asmulti-task optimization objectives to help the model learn the correlated features of text pairsand complete the classification.Experimental results based on the public datasets show thatthe proposed method
9、outperforms a variety of machine learning and deep learning detectionmethods in terms of accuracy and robustness.Key words:malicious SMS;robustness;adversarial examples;multi-task learning0引言随着移动通信技术的普及,短信在给人们日常通讯带来便利的同时也成为了滋生恶意行为的温床。大量的欺诈广告、钓鱼链接等通过短信渠道进行传播,对个人隐私财产和公共安全构成了严重威胁。36 0 集团发布的2 0 2 2 年度中国
10、手机安全状况报告 指出,2 0 2 2 年其安全系统在全国范围内共截获各类恶意短信约9 1.6亿条,其中,广告推销短信占比9 5.8%;诈骗短信占比4.1%;其他违法短信占比0.1%。这些恶意短信不仅干扰了人们的正常生活,更为社会安全带来了严峻的挑战,因此,如何准确、高效地识别和拦截恶意短信,保障用户的安全和利益已成为网络安全领域的重要研究课题。近年来,机器学习尤其是深度学习技术的快速发展为文本分类任务提供了有效的解决方案,也为构建智能化的恶意短信检测系统提供了技术支持。但这些方法主要聚焦于提升模型的检测准确率或运行速度,而忽略了模型潜在的对抗攻击风险,进而影响到这些方法应用于真实场景的鲁棒性
11、。为了缓解这一痛点,本文提出了一种融合对抗增强和多任务优化的鲁棒性恶意短信检测模型 AEMT-ChineseBERT(A d v e r s a r i a l En h a n c e m e n t a n dMulti-TaskChineseBERT),主要的贡献如下:1)构建了一种基于ChineseBERT2 的恶意短信检测模型。利用ChineseBERT模型在海量无标注数据上预训练得到的字义、字形和拼音等先验知识,实现了在无须构建额外特征网络的前提下,对包含多类型对抗扰动的恶意短信进行特征抽取与分析。2)提出了一种基于随机匹配的对抗增强策略。将原始短信文本和基于对抗增强的噪声样本经随
12、机匹配池混合后作为模型的输入特征,并通过使用语义类型编码技术进行边界区分,避免后续在单塔主干网络中出现特征混淆问题而导致性能损失3)引人了一种多任务优化目标。在分类交叉熵的基础上增加了输人一致性损失作为优化目标,能够进一步帮助模型学习对抗样本和原始文本间的关联关系,从而提升模型的鲁棒性。在公开的恶意短信数据集上的实验表明,AEMT-ChineseBERT在处理常规短信时检测准确率能够达到99.42%,同时在检测包含对抗扰动的样本时准确率达到了9 8.18%,下降幅度仅为1.2 4%,效果和鲁棒性均优于目前主流的基于机器学习和深度学习的恶意短信检测方法。1相关研究1.1基于机器学习的检测方法传统
13、的恶意短信识别系统主要根据敏感词、发送者标识符等信息来构建规则库进行判断,但这些规则方法往往存在着准确率低、维护困难、灵活性较差等缺点,因此,研究者尝试利用机器学习方法实现更智能化的短信识别。TAUFIQ3等人和HO4等人分别提出了基于朴素贝叶斯和图K最近邻(K-NearestNeighbor,KNN)的恶意短信检测模型,并在移动端完成了模型训练和推理部署,验证了机器学习在该任务上的可行性。HASSANI5等人尝试利用仿生优化算法辅助机器学习模型进行恶22NETINFOSECURITY2023年第10 期入选论文意邮件识别,采用二进制鲸鱼优化和二进制灰狼优化算法提取特征并使用KNN作为分类器,
14、在UCI公开数据集上达到了9 7.6 1%的准确率,考虑到邮件与短信的相似性,该方法也适用于恶意短信检测场景。为了进一步优化短信样本的特征,ILHAN6等人提出了一种非线性的特征选择方法。具体来说,使用Copula聚类方法对短信样本进行特征筛选,然后使用随机森林作为分类器,结果表明,该方法效果优于传统的线性特征选择工具。在真实场景中,收集到的短信数据集往往存在正负样本分布不均衡的问题,ABID7等人基于TF-IDF和词袋两类特征与欠采样/过采样技术构建了一系列面向非均衡数据的恶意短信检测模型,结果表明,随机森林具有较高的准确率,优于支持向量机、朴素贝叶斯等模型。XIA8等人利用离散隐马尔可夫模
15、型(HiddenMarkovModel,HMM)来捕获短信中的词序信息,该方法能够缓解样本中的低频词问题。在来自UCI短信数据集和中文数据集中的实验表明该方法优于基于TF-IDF特征的机器学习方法,并且对语言不敏感,可以在英文和中文数据上高精准地识别垃圾邮件。后续的研究9 在此基础上引人了面向短信文字的加权标注技术,不仅提升了HMM模型的检测准确率,而且增强了运行效率。与上述基于监督学习的检测方法不同,GIANNELLA10 等人提出了一种基于混合监督的恶意短信检测方法。该方法假设短信数据来自于概率生成模型,然后使用无标注或部分标注的短信语料和Gibbs采样来估计模型参数。在英文语料上的实验表
16、明,该方法有效减少了标注短信数据的人工成本。1.2基于深度学习的检测方法深度学习已被证明在分析非结构化数据方面具有超越传统机器学习的能力,特别是在新闻分类、情感分析等自然语言处理任务中取得了显著的进展,因此吸引了研究者构建基于深度神经网络的恶意短信检测器ABAYOMII等人提出了一种基于BiLSTM的恶意短信检测模型,在UCI数据集和ExAIS_SMS数据集上的实验表明,该方法的效果相比传统的机器学习分类器有了显著的提升,证明了深度学习模型的优势。ROY12等人进一步对比了TextCNN模型和BiLSTM模型在恶意短信检测任务中的性能,结果证明,在处理非均衡数据时,TextCNN更具优势。上述
17、的方法主要基于静态词向量构建,难以处理一词多义样本。为了缓解这一问题,WAJA13等人提出了一种基于混合词嵌人的多通道CNN模型,同时接收Word2Vec、Ra n d o m 和GloVe三个通道生成的词向量进行处理,最终在扩展的UCI短信数据集上取得了9 6.12%的准确率,相比基于静态词向量的方法具有较大的提升。相较浅层神经网络,预训练模型能够利用在无标注语料上的预训练过程来学习通用的语言特征,并可通过微调的方式进一步获取恶意短信检测等下游任务的领域知识,因此具有更强的表征能力。LIU14等人提出了一种基于Transformer模型的恶意短信检测方法,在均衡数据集和非均衡数据集上均取得了
18、优于BiLSTM模型的表现。考虑到大多数研究无法动态化地增加检测关键词,OSWALD15等人开发了一种基于意图的恶意短信过滤方法,该方法通过13个预定义的意图标签来实现动态化短信的语义特征分析和关键字识别,并使用了预训练的BERT模型提取短信的文本嵌人,最终检测准确率达到了9 8.0 7%,且检测效果更具稳定性。1.3总体分析尽管这些基于机器学习和深度学习的检测模型被证明在准确率和灵活性方面相比传统方法具有优势,但现有方法往往聚焦于提升检测准确率或运行速度,忽略了模型的鲁棒性问题。研究表明,受训练封闭性、数据高维性、原理朴素性和模型不可解释性等的影响,即使是最先进的神经网络也存在对抗样本隐患1
19、6 ,即攻击者在发送恶意短信时通过对敏感的字符、词组和语句进行修改以生成对抗样本17,18 ,能够规避现有检测技术。一些基于对抗训练的方法19 能够缓解对抗样本风险,但这些方法可能会导致模型在检测常规数据集时准确率下降,同时现有鲁棒性增强方法大都忽略了针对对抗样本和常规样本之间的关联性分析,仍存在优化空间。因23NETINFOSECURITY入选论文2023年第10 期此,探索兼顾识别精度和鲁棒性的恶意短信检测方法对在真实场景落地和助力防范电信诈骗上具有重要意义。2AEMT-ChineseBERT模型2.1总体结构为了改善现有恶意短信检测模型存在的脆弱性问题,本文在中文预训练语言模型的基础上提
20、出了融合对抗增强和多任务优化的鲁棒性检测模型。该模型的总体结构如图1所示,主要包含基于混合噪声的对抗增强输入、预训练特征分析网络和基于多任务优化的输出层3个主要部分。在输人模块,采用随机匹配池来构造“原始文本-对抗样本”对作为模型的输人,并且使用了语义类型编码技术提示模型对抗数据和常规数据之间的边界。在特征分析阶段,选择了基于ChineseBERT的单塔预训练模型作为主干网络,利用其在预训练阶段学习到的字形和字音先验知识完成特征提取和交互任务。在输出阶段,同时使用基于监督学习的分类交叉熵损失和无监督的输入一致性匹配损失作为优化目标,帮助模型进一步学习文本对内在的关联特征,最终实现针对恶意短信的
21、分析和检测。主输出区输入一致性预测SoftmaxSoftmax工LinearLinear基于ChineseBERT的骨干网络0000000.Q0原始短信对抗性随机匹配池图1AEMT-ChineseBERT模型的总体结构2.2融合对抗增强的模型输入为了帮助模型能够兼顾学习常规的短信文本特征和对抗性的文本特征,AEMT-ChineseBERT模型接收“原始文本-对抗样本”对作为输入,对抗样本的生成使用了文献2 0 的扰动策略,如表1所示,能够以混合的方式生成字符级和词组级的对抗噪声。表1对抗扰动策略对抗扰动级别原始文本对抗文本形近字替换字符发票繁体字替换字符报销拼音改写字符链接Lian Jie词序
22、扰动词组发票词语切分词组发票发票由于本文使用了一个基于Transformer(211架构的单塔神经网络对输入的常规短信和对抗文本这两类数据进行分析,所以需要在输入阶段增加额外的标识来帮助模型避免特征混淆和学习关联特征。因此,引人了语义类型编码,分别用0 和1标记输入的两条文本,并且在两种数据之间增加了特殊tokenSEP作为分割标志,过程如公式(1)所示,其中,h和u表示输人的文本对,Hoype和Utype分别表示两类数据的语义类型编码。h=CLS;h,hy+opeu=SEP;u;,u +ope为了让模型更好地学习文本数据的时序信息,原始的Transformer模型引人了三角函数绝对位置编码,
23、位置编码矩阵P如公式(2)所示。(2)其中,pos代表当前字符的位置编号,i表示嵌人的维度,d代表嵌人维度的总数目。为了能够针对输入数ICLS)和SEP)编码据动态地调整位置编码,ChineseBERT使用了基于三角0文本位置编码语义类型编码对抗样本短信文本友嘌报銷票发函数编码改进得到的可学习的绝对位置编码,即利用一个参数矩阵计算每个输入的位置,并在模型训练时通过反向传播更新该参数矩阵。最终,将文本对进行拼接并添加位置编码后作为模型的输入,原理如公式(3)所示。x=Concat(h,u)+P考虑到在真实场景中短信的对抗性是未知的,如果在训练阶段固定原始文本和对抗文本的顺序可能会导致训练数据和真
24、实的测试数据之间存在分布偏差,进而影响模型的精度。为了解决这一问题,本文在训练阶段额外增加了随机匹配池,用于生成不同组合的输入文本对,其主要原理如图2 所示。在测试阶段则将输入单样(1)(3)24NETINFOSECURITY2023年第10 期入选论文同一短信原始文本对抗样本输入文本对原始文本图2 融合对抗增强的随机匹配池本进行复制拼接构成输人文本对后输人模型。2.3基于ChineseBERT的主干网络为了在检测任务中向模型注人先验知识,本文使用了预训练的ChineseBERT作为主干网络。ChineseBERT是一种基于BERT22改进的预训练模型,主要是在模型的输人编码部分进行了优化,使
25、得模型更适用于中文自其他短信对抗样本原始文本个字符的拼音序列后追加了一位声调位,最终使用长度固定为8 的序列来存储每个字符的拼音,当长度小于8时,使用特殊符号“”作为填充符。为了充分融合拼对抗样本音序列中字母的关联信息和固定输出向量的维度,拼音嵌人层还引人了宽度为2 的卷积层和最大池化层进行处理,将最终结果作为拼音的嵌人向量,总体过程如图4所示。拼音编码CNNzi字zi4一然语言处理任务,对于应对对抗样本攻击也具有积极意义。具体来说,与英文不同,汉字在字形和读音方面具有显著的规律和特征,例如,“燃烧”“烘培”等都与其偏旁“火”字的含义息息相关,同时根据“银行”和“行走”词语的读音,能够容易地判
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 对抗 增强 任务 优化 恶意 短信 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。