基于开集识别的恶意代码家族同源性分析_刘亚倩.pdf
《基于开集识别的恶意代码家族同源性分析_刘亚倩.pdf》由会员分享,可在线阅读,更多相关《基于开集识别的恶意代码家族同源性分析_刘亚倩.pdf(9页珍藏版)》请在咨信网上搜索。
1、762|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023DOI:10.12379/j.issn.2096-1057.2023.08.07 收稿日期:2 0 2 2-1 1-1 0 引用格式:刘亚倩.基于开集识别的恶意代码家族同源性分析J.信息安全研究,2 0 2 3,9(8):7 6 27 7 0基于开集识别的恶意代码家族同源性分析刘亚倩(北京天融信网络安全技术有限公司 北京 1 0 0 0 8 5)(2 3 9 5 7 4 4 0 9 1q q.c o m)
2、A n a l y s i so nt h eH o m o l o g yo fM a l w a r eF a m i l i e sB a s e do nO p e n-s e tR e c o g n i t i o nL i uY a q i a n(B e i j i n gT o p s e cN e t w o r kS e c u r i t yT e c h n o l o g yC o.,L t d.,B e i j i n g1 0 0 0 8 5)A b s t r a c t A tp r e s e n t,a n a l y s i so nt h eh o
3、m o l o g yo fm a l w a r e f a m i l i e sm o s t l yf o c u s e so nt h ec l o s e d-s e tp r o b l e m,t h a t i s,i t i sa s s u m e dt h a t t h es a m p l e st ob et e s t e dm u s tb e l o n gt oac e r t a i nk n o w nc l a s s.H o w e v e r,t h e r ea r e m a n y m a l w a r ef a m i l i e s
4、i na no p e n w o r l d,a n dt h eu n k n o w nc l a s s e su s u a l l ya c c o u n t f o r t h em a j o r i t y.T h ec l o s e d-s e t r e c o g n i t i o nc a n n o t a c c u r a t e l y i d e n t i f yt h em a l w a r ef a m i l i e s i na no p e nw o r l d.A i m i n ga t t h ea b o v ep r o b l
5、 e m s,t h i sp a p e rp r o p o s e sah o m o l o g ya n a l y s i sm e t h o df o r m a l w a r ef a m i l i e sb a s e do no p e n-s e tr e c o g n i t i o n.T h e m a l w a r ee x e c u t a b l ef i l e sa r ec o n v e r t e d i n t og r a y s c a l e i m a g e s t h r o u g hN-G r a ms l i d i
6、n gw i n d o wa n dD o c 2 v e c s e n t e n c ee m b e d d i n gm e t h o d,t h ef e a t u r e so ft h eg r a y s c a l ei m a g e sa r eo b t a i n e db a s e do nt h ec o n v o l u t i o n a ln e u r a ln e t w o r km o d e lM o b i l e N e t,a n d t h eO p e nL o n g-t a i l e dR e c o g n i t i
7、 o nm o d e l i su s e d t or e a l i z eo p e n-s e tr e c o g n i t i o no fm a l w a r ef a m i l i e s.I d e n t i f y i n g9k n o w nc l a s s e sa n d9u n k n o w nc l a s s e so fm a l w a r ef a m i l i e s,t h ee x p e r i m e n t a l r e s u l t ss h o wt h a t t h ep r o p o s e dm e t h
8、o dc a n i d e n t i f yt h em a l w a r e f a m i l yo f t h eu n k n o w nc l a s s e sw h i l em a i n t a i n i n gh i g ha c c u r a c yo nb o t hk n o w na n du n k n o w nf a m i l i e s.K e yw o r d s m a l w a r ef a m i l y;o p e n-s e tr e c o g n i t i o n;O p e n L o n g-t a i l e d R e
9、 c o g n i t i o n;N-G r a m;D o c 2 v e c;M o b i l e N e t摘 要 目前,恶意代码家族同源性分析方法多侧重于闭集分类问题的研究,即假定待测样本一定属于某个已知家族类别.然而真实环境中的恶意代码家族众多,未知类别的家族通常占大多数,采用闭集识别的方法,无法准确识别真实环境中的恶意代码家族.针对上述问题,提出了一种基于开集识别的恶意代码家族同源性分析方法.通过N-G r a m滑动窗口和D o c 2 v e c句嵌入方法将恶意代码可执行文件转换成灰度图像,基于卷积神经网络模型M o b i l e N e t获取灰度图像数据的特征,利用
10、O p e nL o n g-t a i l e dR e c o g n i t i o n模型实现恶意代码家族的开集识别.在9个已知类别和9个未知类别恶意代码家族上进行识别,实验结果表明,所提出的方法能够识别出未知类别恶意代码家族,同时在已知类别和未知类别家族上都能保持较高的准确率.网址 http:/|763学 术 论 文Research Papers关键词 恶意代码家族;开集识别;O p e nL o n g-t a i l e dR e c o g n i t i o n;N-G r a m;D o c 2 v e c;M o b i l e N e t中图法分类号 T P 3 0 9
11、 恶意代码的不断增长给安全人员带来极大困扰.但是很多新型的恶意代码都是已有恶意代码的变种,这些代码往往具有内在的关联性、相似性.因此判断未知的恶意代码与已知的恶意代码家族是否具有同源性的关系,可以帮助人们发现大部分的恶意代码,同时可以对与已知家族具有同源性关系的未知恶意代码有更好的了解和判断.1 相关研究目前学术界关于恶意代码家族同源性分析已有众多性能良好的识别算法,大致可以分为以下3种思路:1)基于相似度计算的恶意代码家族同源性判别方法.将恶意代码家族同源性判别问题转换成计算2个恶意代码之间相似性的问题,相似性越高,则2个恶意代码源自同一个家族的可能性就越大.C h o等人1在2 0 1 4
12、年提出了一种相似度计算系统,可用于检测同一家族的恶意软件变种;陈琪等人2在2 0 1 7年通过生成病毒家族特征库,计算恶意代码与特征库之间的相似度,完成恶意代码的家族判定.2)基于聚类方法的恶意代码家族同源性判别方法.通常是利用聚类算法操作相似性值获取待测样本与已知样本之间的同源关系.钱雨村等人3在2 0 1 5年通过计算不同恶意代码之间的相似性度量,然后利用D B S C AN聚类算法将具有相同或相似特征的恶意代码汇聚成不同的恶意代码家族;G i a n n e l l a等人4在2 0 1 5年提出了基于谱聚类的恶意代码聚类方法;刘凯等人5在2 0 1 9年从恶意代码的A P I调用图入手
13、,结合图卷积网络(g r a p hc o n v o l u t i o nn e t w o r k,G C N),设计了恶意代码的相似度计算和家族聚类模型.然而,基于相似性匹配和聚类算法的思路都需要计算特征之间的相似性,但是当特征类型较多时,需要考虑不同特征的相似性计算问题,导致相似性模型较为复杂,影响同源性结果的判定.并且图相似性计算是一个N P问题,计算复杂度太大,时间成本过高.3)目前的研究大多将恶意代码同源性判定问题转换成机器学习算法,尤其是深度学习算法中的多分类问题.X u e等人6在2 0 1 9年提出了一种基于集成学习和多特征的恶意软件同源分析系统,使用卷积神经网络作为基础
14、学习器执行集成学习,从灰度图像、R G B图像和M图像中学习特征,最终获取恶意软件分类结果;乔延臣等人7在2 0 1 9年提出了一种基于汇编指令词向量与卷积神经网络的恶意代码分类方法;Z h u等人8在2 0 2 1年提出一种基于恶意软件可视化的融合全局结构特征和局部细粒度特征的同源性确定方法,将恶意软件字节码图像和操作码图像输入到双分支卷积神经网络中,实现恶意软件家族分类.然而该方法基于一个假设,即认为数据可分为N种已知的、具有标签的类别,且输入必定属于这N种类别之一.也就是说该方法解决的是恶意代码家族的闭集分类问题.然而真实环境中的恶意代码家族众多,无法收集到所有的家族进行模型训练,实际环
15、境中未知类的家族占大多数,采用闭集识别的方法,无法准确测试真实环境中的恶意代码家族,因此有必要将恶意代码家族同源性分析问题转换成一个开集识别的问题,即能够对已知类别进行正确分类,同时也能识别出未知类别.目前关于此类问题的研究较少.J i a9通过调查概述了不同的深度学习技术和开集识别方法,并提出恶意软 件分类是一 个开集识别 问题;陈雁佳1 0结合深度森林和卷积神经网络,提出了一种针对A P T恶意软件组织的开集识别模型.但是该方法中提取的静态特征信息不够充分,不足以识别不同的A P T组织.本文基于N-G r a m滑动窗口和D o c 2 v e c1 1句嵌入方法将恶意代码的反汇编文件转
16、换成灰度图像,利用卷积神经网络模型M o b i l e N e t1 2提取图像特征,将深度学习的开集识别模型O p e nL o n g-t a i l e dR e c o g n i t i o n1 3引入到恶意代码家族同源性分析的问题中,能够实现真实世界中恶意代码家族的开集识别分类,并且对于已知类别和未知类别家族的恶意代码识别准确率都较高.764|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.20232 理论基础2.1 D o c 2 v e c方法D
17、o c 2 v e c方法(也称p a r a g r a p hv e c t o r,s e n t e n c ee m b e d d i n g s)是一种无监督算法,能从变长的文本(句子、段落或文档)中学习得到固定长度的向量表示,是W o r d 2 v e c1 4方法的拓展,不同之处是在输入层增添了一个句子向量.D o c 2 v e c方法能够克服词袋模型中忽略文本的词序和没有语义的缺点.D o c 2 v e c有2种训练方式,本文选用的是P V-DM(d i s t r i b u t e dm e m o r ym o d e l o fp a r a g r a p
18、hv e c-t o r s)模型,如图1所示.该方法与W o r d 2 v e c中的C B OW(c o n t i n u o u sb a go fw o r d s)模型不同点在于通过矩阵D额外的段落分段被安置到单个向量中.在此模型中,该向量及另外3个语境向量的拼接或者平均结果被用于预测第4个词.该段落向量表示上下文缺失的信息.图1 P V-DM模型T r a n等人1 5在2 0 1 7年提出的基于自然语言处理与A P I的恶意代码分类方法中,使用N-G r a m,D o c 2 v e c等自然语言处理方法将A P I调用序列转换成向量,进而实现恶意代码家族分类.2.2 O
19、p e nL o n g-t a i l e dR e c o g n i t i o n模型O p e nL o n g-t a i l e dR e c o g n i t i o n是L i u等人1 3在2 0 1 9年提出的基于深度学习的、在开放世界中识别图像类数据的开集识别算法模型.该算法将图像映射到特征空间,使得视觉概念之间可以基于学习到的度量相互关联,并且这种度量既认可了封闭世界分类又承认了开放世界的新颖性.该方法在I m a g e N e t,P l a c e s,M S 1 M数据集上的实验效果均优于目前最先进的技术.O p e nL o n g-t a i l e d
20、R e c o g n i t i o n模型包括D y-n a m i c M e t a-Em b e d d i n g,M o d u l a t e d A t t e n t i o n,C o s i n eC l a s s i f i e r这3个部分.D y n a m i cM e t a-Em b e d d i n g部分是在卷积神经网络模型输出的特征基础上加入视觉记忆特征.可以平衡大样本类和小样本类数据之间的特征信息.具体特征表示为vm e t a=1(vd i r e c t+evm e m o r y),(1)其中vd i r e c t为原始特征,vm e m
21、 o r y为视觉记忆特征,为测量输入的直接特征到判别质心之间的最小距离,在区分已知类别和开放集类别方面起着重要作用.e代表一种轻量级的网络.M o d u l a t e dA t t e n t i o n部分的添加是为了区分大样本类和小样本类.在卷积神经网络输出的特征基础上加入M o d u l a t e d注意力.具体表现为fa t t=f+MA(f)S A(f),(2)其中f是卷积神经网络模型输出的原始特征,S A()是自注意力操作,MA()是具有s o f t m a x归一化的条件注意力函数.这种M o d u l a t e d注意力可以插入卷积神经网络的任何特征层,在这里只
22、修改最后一个特征层.C o s i n eC l a s s i f i e r部分用于接收D y n a m i cM e t a-Em b e d d i n g和M o d u l a t e dA t t e n t i o n部分修改后的新的特征数据,最终输入到s o f t m a x中输出属于各已知类别的概率,根据设定的阈值判别出未知类别样本.3 恶意代码家族开集识别模型技术3.1 恶意代码家族开集识别模型整体架构本文提供了一种基于开集识别的恶意代码家族同源性分析技术,通过将图像领域中的基于深度学习的开集识别方法引入到恶意代码家族同源分析的研究中,以期解决现有恶意代码家族同源分析
23、研究领域中开集识别方法研究不足和识别准确率低、性能较差的问题.恶意代码家族开集识别模型主要包括2个部分:恶意代码灰度图生成技术和恶意代码家族开集识别模型.整体架构如图2所示.恶意代码灰度图生成技术通过2-G r a m滑动窗口和D o c 2 v e c句嵌入方法将恶意代码转换成相应的灰度图像.恶意代码家族开集识别模型部分利用卷积神经网络模型M o b i l e N e t和图像领域中的开集识别模型O p e n 网址 http:/|765学 术 论 文Research Papers图2 恶意代码家族开集识别模型整体架构L o n g-t a i l e dR e c o g n i t i
24、 o n获取恶意代码家族的开集分类结果.3.2 恶意代码灰度图生成技术本文在文献7 的基础上采用2-G r a m滑动窗口和D o c 2 v e c句嵌入相结合的方法实现恶意代码的可视化.其中,o p c o d eN-G r a m在恶意代码分类研究1 6-1 8中已被证明是非常有效的特征.文献7的方法仅提取单一的汇编指令作为特征空间的特征维度,难以完全代表汇编指令前后间关系的信息,不能反映汇编指令序列相对完整的意义.事实上,汇编指令序列中各个指令前后之间具有密切的关联,因此,本文将汇编指令子序列作为特征,能够更加充分地提取汇编指令序列的信息.本文中恶意代码灰度图生成技术的架构如图3所示.
25、具体步骤为:1)将恶意代码反汇编得到.a s m文件,从中提取.t e x t或.C O D E程序段的全部汇编指令序列;2)基于2-G r a m滑动窗口方法切分指令序列,得到汇编指令子序列,将恶意代码转换成由汇编指令子序列作为句子组成的文档;3)利用D o c 2 v e c句嵌入模型计算每篇文档上所有汇编指令子序列的句向量,同时统计训练集中的关键汇编指令子序列列表,并将列表维度设为T;4)按照列表顺序和指令子序列向量将每篇文档转换成TT维的矩阵,如果文档中有不存在于关键汇编指令子序列中的指令序列,则以T维的0向量代替;5)将每个样本矩阵进行归一化处理和尺度变换,转换成灰度图像,其中,矩阵
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 识别 恶意代码 家族 同源性 分析 刘亚倩
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。