基于BiTCN-SA的恶意代码分类方法.pdf
《基于BiTCN-SA的恶意代码分类方法.pdf》由会员分享,可在线阅读,更多相关《基于BiTCN-SA的恶意代码分类方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、第2 4卷 第4期空 军 工 程 大 学 学 报V o l.2 4 N o.42 0 2 3年8月J OURNA L O F A I R F O R C E E NG I N E E R I NG UN I V E R S I T YA u g.2 0 2 3收稿日期:2 0 2 3-0 2-2 7基金项目:国家自然科学基金(6 1 8 0 6 2 1 9,6 1 7 0 3 4 2 6,6 1 8 7 6 1 8 9);陕西省自然科学基金(2 0 2 1 J M-2 2 6);陕西省高校科协青年人才托举计划(2 0 1 9 0 1 0 8,2 0 2 2 0 1 0 6);陕西省创新能力支撑
2、计划(2 0 2 0 K J X X-0 6 5)作者简介:黄 玮(1 9 9 9-),男,江西赣州人,硕士生,研究方向为网络空间安全、恶意代码检测。E-m a i l:h w_a f e u 1 6 3.c o m通信作者:王 坚(1 9 8 2-),男,陕西渭南人,副教授,研究方向为智能信息处理和恶意软件检测。E-m a i l:2 6 4 7 1 3 7 5q q.c o m引用格式:黄玮,王坚,吴暄,等.基于B i T C N-S A的恶意代码分类方法J.空军工程大学学报,2 0 2 3,2 4(4):7 7-8 4.HUAN G W e i,WAN G J i a n,WU X u
3、a n,e t a l.A M a l i c i o u s C o d e C l a s s i f i c a t i o n M e t h o d B a s e d o n B i T C N S AJ.J o u r n a l o f A i r F o r c e E n g i n e e r i n g U n i v e r s i t y,2 0 2 3,2 4(4):7 7-8 4.基于B i T C N-S A的恶意代码分类方法黄 玮,王 坚*,吴 暄,李思聪(空军工程大学防空反导学院,西安,7 1 0 0 5 1)摘要 当前恶意代码的对抗技术不断变化,恶意代码
4、变种层出不穷,使恶意代码分类问题面临严峻挑战。针对目前基于深度学习的恶意代码分类方法提取特征不足和准确率低的问题,提出了基于双向时域卷积网络(B i T C N)和自注意力机制(S e l f-A t t e n t i o n)的恶意代码分类方法(B i T C N-S A)。该方法融合恶意代码操作码特征和图像特征以展现不同的特征细节,增加特征多样性。构建B i T C N对融合特征进行处理,充分利用特征的前后依赖关系。引入自注意力机制对数据权值进行动态调整,进一步挖掘恶意代码内部数据间的关联性。在K a g g l e数据集上对模型进行验证,实验结果表明:该方法准确率可达9 9.7 5%,
5、具有较快的收敛速度和较低的误差。关键词 恶意代码分类;特征融合;双向时域卷积网络;自注意力机制D O I 1 0.3 9 6 9/j.i s s n.2 0 9 7-1 9 1 5.2 0 2 3.0 4.0 1 2中图分类号 T P 3 9 3.0 8 文献标志码 A 文章编号 2 0 9 7-1 9 1 5(2 0 2 3)0 4-0 0 7 7-0 8A M a l i c i o u s C o d e C l a s s i f i c a t i o n M e t h o d B a s e d o n B i T C N-S AHUANG W e i,WANG J i a n*
6、,WU X u a n,L I S i c o n g(A i r a n d M i s s i l e D e f e n s e S c h o o l,A i r F o r c e E n g i n e e r i n g U n i v e r s i t y,X ia n 7 1 0 0 5 1,C h i n a)A b s t r a c t A t p r e s e n t,t h e c o u n t e r m e a s u r e t e c h n o l o g y o f m a l i c i o u s c o d e i s c o n s t a
7、 n t l y c h a n g i n g,a n d n e w v a r i e t i e s o f m a l i c i o u s c o d e a r e e m e r g i n g i n e n d l e s s s t r e a m t o m a k e t h e c l a s s i f i c a t i o n o f m a l i c i o u s c o d e f a c e s e v e r e c h a l l e n g e s.A i m e d a t t h e p r o b l e m s t h a t f e
8、 a t u r e s e x t r a c t e d a r e i n s u f f i c i e n t a n d l o w i n a c c u r a c y b y u-s i n g c u r r e n t m a l i c i o u s c o d e c l a s s i f i c a t i o n m e t h o d s b a s e d o n d e e p l e a r n i n g,a m a l i c i o u s c o d e c l a s s i f i c a t i o n m e t h o d(B i T
9、 C N-S A)b a s e d o n b i-d i r e c t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k(B i T C N)a n d s e l f a t t e n t i o n m e c h a n i s m i s p r o p o s e d.T h i s m e t h o d i s c o m b i n a t i o n o f o p c o d e f e a t u r e s w i t h i m a g e f e a t u r e s t o s h
10、 o w d i f f e r-e n t f e a t u r e d e t a i l s,i n c r e a s i n g f e a t u r e d i v e r s i t y.T h e B i T C N i s c o n s t r u c t e d t o p r o c e s s t h e f u s e d f e a t u r e s,m a k i n g f u l l u s e o f t h e p r e a n d p o s t d e p e n d e n c i e s o f t h e f e a t u r e s
11、.T h e s e l f a t t e n t i o n m e c h a n i s m i s i n t r o-d u c e d t o d y n a m i c a l l y a d j u s t t h e d a t a w e i g h t,f u r t h e r m i n i n g t h e c o r r e l a t i o n b e t w e e n t h e i n t e r n a l d a t a o f m a l i c i o u s c o d e.T h e m o d e l i s v e r i f i e
12、 d b y u s i n g t h e K a g g l e d a t a s e t.T h e r e s u l t s s h o w t h a t t h e a c c u r a c y o f t h i s m e t h o d c a n r e a c h 9 9.7 5%,a n d t h e m e t h o d i s f a s t a t c o n v e r g e n c e s p e e d,l o w i n e r r o r,a n d b e t t e r t h a n t h e o t h e r m o d e l
13、s.K e y w o r d s m a l i c i o u s c o d e c l a s s i f i c a t i o n;f e a t u r e f u s i o n;b i-d i r e c t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k;s e l f a t t e n t i o n m e c h a n i s m 随着网络技术的不断发展,网络环境不断变化。国家互联网应急中心2 0 2 2年第2 4期网络安全信息与动态周报显示1,2 0 2 1上半年,捕获恶意程序样本数量约
14、 2 3 0 7 万个,均传播次数达5 8 2万余次,涉及恶意程序家族约2 0.8万个。随着恶意代码的肆虐,如何准确地对恶意代码进行分类已成为领域的研究热点。传统的静态分析方法基于标签和特征库2,在分析已知的恶意代码方面表现良好,然而对于未知恶意代码,并不能进行很好地分析,存在一定的局限性。由于恶意代码的种类和数量都在不断增加,恶意代码采用各种加壳、混淆等对抗技术不断变化,进化出了更具威胁性的变种,传统的恶意代码分类手段已经无法准确对此类恶意代码进行分类。为破解传统恶意代码分类中出现的问题,基于深度学习的恶意代码分类方式逐渐引起了广泛的重视。相较于传统方法,使用深度学习的方法能从大量训练样本中
15、学习数据的内在规律,自行挖掘数据内部更深层的依赖关系。因此基于深度学习的恶意代码分类方法可以表现出更高的准确率3。近年来,这一领域涌现出很多有意义的研究成果。文献4 提出了一种多尺度特征融合卷积神经网络,利用深度学习实现基于可视化的恶意软件有效分类,可以防御恶意软件变体和混淆恶意软件。文献5 提出了一种半监督方法,该方法集成了深度学习、特征工程、图像转换和处理技术,用于混淆恶意软件检测,准确率明显优于其它方法。文献6 提出了一种基于静态特征的恶意软件分类算法(m a l-w a r e c l a s s i f i c a t i o n w i t h S i mH a s h a n d
16、 C NN,MC-S C),该算法将反汇编后的恶意代码转换为基 于S i mH a s h的 灰 度 图 像,将 转 换 后 的 灰 度 图 输 入C NN中对恶意代码进行分类。无论样本是否均匀分布,MC S C均能有效对恶意软件进行分类。文献7 将半监督生成对抗网络与深度卷积学习网络相结合,构建半监督深度卷积生成对抗网络,对恶意代码进行识别与分类,取得良好效果。文献8 提出了一个混合的恶意代码分类框架,结合了静态和动态2种恶意代码分析方法,其中静态恶意代码可执行文件和动态进程内存转储文件通过填充空间的曲线转换为图像,从中提取视觉特征进行恶意代码分类,取得良好效果。文献9 通过使用W o r
17、d 2 V e c预训练策略来获得更紧凑的具有更少维度的向量,从而可以使参数更少和恶意软件特征表示更强。上述基于恶意代码可视化的方法能够实现恶意代码变种的分类,一定程度上解决了代码混淆问题。然而,以上文献使用的单一序列特征或单一图像特征,特征的多样性不足,特征提取能力有限。为了更好地表示恶意代码,挖掘恶意代码内部的特征信息,提高恶意代码特征提取能力和分类准确率,本文提出一种基于B i T C N S A的恶意代码分类方法,主要工作如下:1)利用n-g r a m方法提取O p C o d e操作码特征,并将恶意代码转换为灰度图,融合O p C o d e特征与图像特征以展现不同的细节特征,增加
18、特征多样性。2)基 于 时 域 卷 积 网 络(t e m p o r a l c o n v o l u t i o n n e t w o r k,T C N),构建双向时域卷积网络(b i d i r e c-t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k,B i T C N)用于恶意代码分类,增强特征提取能力。3)提出了使用自注意力机制来捕捉数据内部的依赖关系,自适应地为数据分配不同的注意力权重,以提高模型分类能力。1 相关工作1.1 恶意代码特征提取恶意代码图像特征最早由NAT A R A J等人1 0提
19、出,主要思想是将恶意代码的二进制文件转换成灰度图,利用图像中的纹理特征,采用图像处理的方法对恶意代码进行处理。T o n y等人1 1在2 0 0 4年最先提出了基于B y t e-C o d e提取n-g r a m特征应用于恶意代码处理的想法。2 0 0 8年MO S KOV I T CH等 人1 2提 出 基 于O p C o d e提取n-g r a m特征的方法,比基于B y t e C o d e提取的n-g r a m特征更加有效。本文基于以上研究,充分将恶意代码的图像特征与在O p C o d e中提取的n-g r a m特征相结合,以混合特征作为双向时域卷积网络(B i T
20、C N)的特征,有效利用了恶意代码的不同尺度的特征信息。1.2 时域卷积网络T C N传统的卷积神经网络由于缺乏抓取长距离依赖信息的能力,一般不用于处理时序问题。但最近有研究表明,特定的卷积神经网络结构也可以有效对时序数据进行处理,这就是时域卷积网络。时域卷积网络(T C N),最早由B A I等人1 3于2 0 1 8年提出的,本质上是一种特殊的一维卷 积。T C N的网络结构在普通一维卷积的基础上添加了因果卷积和膨胀卷积,防止了信息从未来到现在的泄露,扩大了感受野,并使用了残差连接以增强模型的泛化性,在时间序列预测问题上拥有很好的表现。87空军工程大学学报2 0 2 3年相较于常用于时序问
21、题的循环神经网络,T C N可以对输入数据并行的处理,极大地提高了处理速度,在一些任务上甚至能超过循环神经网络相关模型。本文在T C N的基础上,构建双向时域卷积网络用于恶意代码分类。1.3 自注意力机制注意力机制最早在视觉领域提出,G o o g l e M i n等人1 4指出了卷积神经网络的弊端,并提出了视觉注意力机制,使注意力机制逐渐引起关注。B AH-D ANAU等人1 5提出将S e q 2 S e q+A t t e n t i o n模型应用于机器翻译,首次将注意力机制应用在自然语言处理领域。随后自注意力和多头注意力等变体机制不断出现1 6。自注意力机制作为注意力机制的一个变形
22、,它不依赖其它的外部信息,只依靠自身的输入数据信息进行训练,就可以获得输入数据内部不同数据单元的注意力权重,以此捕获数据内部间的依赖关系,进而突出数据内更加重要的特征信息。本文引入自注意力机制,充分利用注意力机制中的上下文学习能力,使每一个数据元对其它所有数据进行关注,深入挖掘数据间的依赖关系,从而提升恶意代码分类的准确度。2 模型概述本文设计的基于双向时域卷积网络(b i d i r e c t i o n a l t e m p o r a l c o n v o l u t i o n n e t w o r k,B i T C N)与自注意力机制(S e l f A t t e n t
23、 i o n)的恶意代码分类模型(B i T C N S A),包括输入层、双向时域卷积网络层、自注意力层、s o f t-m a x层和输出层,其结构如图1所示。图1 基于B i T C N S A的恶意代码分类模型2.1 数据预处理对数据处理的结果会直接影响到模型的最终结果,本文选择选取由微软公司提供的K a g g l e数据集作为实验数据,分别通过恶意代码反汇编文件提取其序列特征和图像特征,采用特征融合方法将两者结合。2.1.1 序列特征提取首先,先从所有的恶意代码反汇编文件中分别提取操作码序列。其次对提取的操作码序列进行去重操作,以去除操作码序列中含有的大量冗余,避免耗费大量的计算时
24、间。去重后的序列不仅保留了原有的序列信息,也更易于计算。再用n-g r a m方法提取去重后的操作码特征,在本文中,经过反复验证,选取n-g r a m的n=3。经过反复验证,最后在具体的特征选择上选取每个分类出现次数高于的5 0 0的作为最终特征。特征提取流程如图2所示。图2 n-g r a m特征提取2.1.2 图像特征提取将恶意代码反汇编文件转换成二进制流,从二进制数据中读入一个8位二进制数组成的向量,每个向量对应一个像素点,然后将向量的二进制值转换为十进制值,对应区间为0,2 5 5,其中0为黑色,2 5 5为白色,即可将恶意代码转换为灰度图。由于恶意代码为一维数据,若将其转换为二维图
25、像会影响原有的空间相关性,为了保留恶意代码原有的空间信息,因此不改变图像的维度,将恶意代码的转换为一维灰度图。图3为恶意代码生成灰度图过程。97第4期 黄玮,等:基于B i T C N-S A的恶意代码分类方法图3 恶意代码生成灰度图流程2.2 双向时域卷积网络T C N中的卷积网络具有可并行计算的特性,能够有效解决耗时过长的问题,已在多个领域证明比传统R NN甚 至 其 相 关 变 种 更 优。但 是 单 一 的T C N不能对从后到前的信息进行编码,导致无法学习当前特征项与后面特征项之间的关联。为解决上述问题,本文构建在T C N的基础上,保留了因果膨胀卷积和残差连接,通过因果膨胀卷积学习
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BiTCN SA 恶意代码 分类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。