欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于开集识别的恶意代码家族同源性分析_刘亚倩.pdf

    • 资源ID:329461       资源大小:1.98MB        全文页数:9页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于开集识别的恶意代码家族同源性分析_刘亚倩.pdf

    1、762|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023DOI:10.12379/j.issn.2096-1057.2023.08.07 收稿日期:2 0 2 2-1 1-1 0 引用格式:刘亚倩.基于开集识别的恶意代码家族同源性分析J.信息安全研究,2 0 2 3,9(8):7 6 27 7 0基于开集识别的恶意代码家族同源性分析刘亚倩(北京天融信网络安全技术有限公司 北京 1 0 0 0 8 5)(2 3 9 5 7 4 4 0 9 1q q.c o m)

    2、A n a l y s i so nt h eH o m o l o g yo fM a l w a r eF a m i l i e sB a s e do nO p e n-s e tR e c o g n i t i o nL i uY a q i a n(B e i j i n gT o p s e cN e t w o r kS e c u r i t yT e c h n o l o g yC o.,L t d.,B e i j i n g1 0 0 0 8 5)A b s t r a c t A tp r e s e n t,a n a l y s i so nt h eh o

    3、m o l o g yo fm a l w a r e f a m i l i e sm o s t l yf o c u s e so nt h ec l o s e d-s e tp r o b l e m,t h a t i s,i t i sa s s u m e dt h a t t h es a m p l e st ob et e s t e dm u s tb e l o n gt oac e r t a i nk n o w nc l a s s.H o w e v e r,t h e r ea r e m a n y m a l w a r ef a m i l i e s

    4、i na no p e n w o r l d,a n dt h eu n k n o w nc l a s s e su s u a l l ya c c o u n t f o r t h em a j o r i t y.T h ec l o s e d-s e t r e c o g n i t i o nc a n n o t a c c u r a t e l y i d e n t i f yt h em a l w a r ef a m i l i e s i na no p e nw o r l d.A i m i n ga t t h ea b o v ep r o b l

    5、 e m s,t h i sp a p e rp r o p o s e sah o m o l o g ya n a l y s i sm e t h o df o r m a l w a r ef a m i l i e sb a s e do no p e n-s e tr e c o g n i t i o n.T h e m a l w a r ee x e c u t a b l ef i l e sa r ec o n v e r t e d i n t og r a y s c a l e i m a g e s t h r o u g hN-G r a ms l i d i

    6、n gw i n d o wa n dD o c 2 v e c s e n t e n c ee m b e d d i n gm e t h o d,t h ef e a t u r e so ft h eg r a y s c a l ei m a g e sa r eo b t a i n e db a s e do nt h ec o n v o l u t i o n a ln e u r a ln e t w o r km o d e lM o b i l e N e t,a n d t h eO p e nL o n g-t a i l e dR e c o g n i t i

    7、 o nm o d e l i su s e d t or e a l i z eo p e n-s e tr e c o g n i t i o no fm a l w a r ef a m i l i e s.I d e n t i f y i n g9k n o w nc l a s s e sa n d9u n k n o w nc l a s s e so fm a l w a r ef a m i l i e s,t h ee x p e r i m e n t a l r e s u l t ss h o wt h a t t h ep r o p o s e dm e t h

    8、o dc a n i d e n t i f yt h em a l w a r e f a m i l yo f t h eu n k n o w nc l a s s e sw h i l em a i n t a i n i n gh i g ha c c u r a c yo nb o t hk n o w na n du n k n o w nf a m i l i e s.K e yw o r d s m a l w a r ef a m i l y;o p e n-s e tr e c o g n i t i o n;O p e n L o n g-t a i l e d R e

    9、 c o g n i t i o n;N-G r a m;D o c 2 v e c;M o b i l e N e t摘 要 目前,恶意代码家族同源性分析方法多侧重于闭集分类问题的研究,即假定待测样本一定属于某个已知家族类别.然而真实环境中的恶意代码家族众多,未知类别的家族通常占大多数,采用闭集识别的方法,无法准确识别真实环境中的恶意代码家族.针对上述问题,提出了一种基于开集识别的恶意代码家族同源性分析方法.通过N-G r a m滑动窗口和D o c 2 v e c句嵌入方法将恶意代码可执行文件转换成灰度图像,基于卷积神经网络模型M o b i l e N e t获取灰度图像数据的特征,利用

    10、O p e nL o n g-t a i l e dR e c o g n i t i o n模型实现恶意代码家族的开集识别.在9个已知类别和9个未知类别恶意代码家族上进行识别,实验结果表明,所提出的方法能够识别出未知类别恶意代码家族,同时在已知类别和未知类别家族上都能保持较高的准确率.网址 http:/|763学 术 论 文Research Papers关键词 恶意代码家族;开集识别;O p e nL o n g-t a i l e dR e c o g n i t i o n;N-G r a m;D o c 2 v e c;M o b i l e N e t中图法分类号 T P 3 0 9

    11、 恶意代码的不断增长给安全人员带来极大困扰.但是很多新型的恶意代码都是已有恶意代码的变种,这些代码往往具有内在的关联性、相似性.因此判断未知的恶意代码与已知的恶意代码家族是否具有同源性的关系,可以帮助人们发现大部分的恶意代码,同时可以对与已知家族具有同源性关系的未知恶意代码有更好的了解和判断.1 相关研究目前学术界关于恶意代码家族同源性分析已有众多性能良好的识别算法,大致可以分为以下3种思路:1)基于相似度计算的恶意代码家族同源性判别方法.将恶意代码家族同源性判别问题转换成计算2个恶意代码之间相似性的问题,相似性越高,则2个恶意代码源自同一个家族的可能性就越大.C h o等人1在2 0 1 4

    12、年提出了一种相似度计算系统,可用于检测同一家族的恶意软件变种;陈琪等人2在2 0 1 7年通过生成病毒家族特征库,计算恶意代码与特征库之间的相似度,完成恶意代码的家族判定.2)基于聚类方法的恶意代码家族同源性判别方法.通常是利用聚类算法操作相似性值获取待测样本与已知样本之间的同源关系.钱雨村等人3在2 0 1 5年通过计算不同恶意代码之间的相似性度量,然后利用D B S C AN聚类算法将具有相同或相似特征的恶意代码汇聚成不同的恶意代码家族;G i a n n e l l a等人4在2 0 1 5年提出了基于谱聚类的恶意代码聚类方法;刘凯等人5在2 0 1 9年从恶意代码的A P I调用图入手

    13、,结合图卷积网络(g r a p hc o n v o l u t i o nn e t w o r k,G C N),设计了恶意代码的相似度计算和家族聚类模型.然而,基于相似性匹配和聚类算法的思路都需要计算特征之间的相似性,但是当特征类型较多时,需要考虑不同特征的相似性计算问题,导致相似性模型较为复杂,影响同源性结果的判定.并且图相似性计算是一个N P问题,计算复杂度太大,时间成本过高.3)目前的研究大多将恶意代码同源性判定问题转换成机器学习算法,尤其是深度学习算法中的多分类问题.X u e等人6在2 0 1 9年提出了一种基于集成学习和多特征的恶意软件同源分析系统,使用卷积神经网络作为基础

    14、学习器执行集成学习,从灰度图像、R G B图像和M图像中学习特征,最终获取恶意软件分类结果;乔延臣等人7在2 0 1 9年提出了一种基于汇编指令词向量与卷积神经网络的恶意代码分类方法;Z h u等人8在2 0 2 1年提出一种基于恶意软件可视化的融合全局结构特征和局部细粒度特征的同源性确定方法,将恶意软件字节码图像和操作码图像输入到双分支卷积神经网络中,实现恶意软件家族分类.然而该方法基于一个假设,即认为数据可分为N种已知的、具有标签的类别,且输入必定属于这N种类别之一.也就是说该方法解决的是恶意代码家族的闭集分类问题.然而真实环境中的恶意代码家族众多,无法收集到所有的家族进行模型训练,实际环

    15、境中未知类的家族占大多数,采用闭集识别的方法,无法准确测试真实环境中的恶意代码家族,因此有必要将恶意代码家族同源性分析问题转换成一个开集识别的问题,即能够对已知类别进行正确分类,同时也能识别出未知类别.目前关于此类问题的研究较少.J i a9通过调查概述了不同的深度学习技术和开集识别方法,并提出恶意软 件分类是一 个开集识别 问题;陈雁佳1 0结合深度森林和卷积神经网络,提出了一种针对A P T恶意软件组织的开集识别模型.但是该方法中提取的静态特征信息不够充分,不足以识别不同的A P T组织.本文基于N-G r a m滑动窗口和D o c 2 v e c1 1句嵌入方法将恶意代码的反汇编文件转

    16、换成灰度图像,利用卷积神经网络模型M o b i l e N e t1 2提取图像特征,将深度学习的开集识别模型O p e nL o n g-t a i l e dR e c o g n i t i o n1 3引入到恶意代码家族同源性分析的问题中,能够实现真实世界中恶意代码家族的开集识别分类,并且对于已知类别和未知类别家族的恶意代码识别准确率都较高.764|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.20232 理论基础2.1 D o c 2 v e c方法D

    17、o c 2 v e c方法(也称p a r a g r a p hv e c t o r,s e n t e n c ee m b e d d i n g s)是一种无监督算法,能从变长的文本(句子、段落或文档)中学习得到固定长度的向量表示,是W o r d 2 v e c1 4方法的拓展,不同之处是在输入层增添了一个句子向量.D o c 2 v e c方法能够克服词袋模型中忽略文本的词序和没有语义的缺点.D o c 2 v e c有2种训练方式,本文选用的是P V-DM(d i s t r i b u t e dm e m o r ym o d e l o fp a r a g r a p

    18、hv e c-t o r s)模型,如图1所示.该方法与W o r d 2 v e c中的C B OW(c o n t i n u o u sb a go fw o r d s)模型不同点在于通过矩阵D额外的段落分段被安置到单个向量中.在此模型中,该向量及另外3个语境向量的拼接或者平均结果被用于预测第4个词.该段落向量表示上下文缺失的信息.图1 P V-DM模型T r a n等人1 5在2 0 1 7年提出的基于自然语言处理与A P I的恶意代码分类方法中,使用N-G r a m,D o c 2 v e c等自然语言处理方法将A P I调用序列转换成向量,进而实现恶意代码家族分类.2.2 O

    19、p e nL o n g-t a i l e dR e c o g n i t i o n模型O p e nL o n g-t a i l e dR e c o g n i t i o n是L i u等人1 3在2 0 1 9年提出的基于深度学习的、在开放世界中识别图像类数据的开集识别算法模型.该算法将图像映射到特征空间,使得视觉概念之间可以基于学习到的度量相互关联,并且这种度量既认可了封闭世界分类又承认了开放世界的新颖性.该方法在I m a g e N e t,P l a c e s,M S 1 M数据集上的实验效果均优于目前最先进的技术.O p e nL o n g-t a i l e d

    20、R e c o g n i t i o n模型包括D y-n a m i c M e t a-Em b e d d i n g,M o d u l a t e d A t t e n t i o n,C o s i n eC l a s s i f i e r这3个部分.D y n a m i cM e t a-Em b e d d i n g部分是在卷积神经网络模型输出的特征基础上加入视觉记忆特征.可以平衡大样本类和小样本类数据之间的特征信息.具体特征表示为vm e t a=1(vd i r e c t+evm e m o r y),(1)其中vd i r e c t为原始特征,vm e m

    21、 o r y为视觉记忆特征,为测量输入的直接特征到判别质心之间的最小距离,在区分已知类别和开放集类别方面起着重要作用.e代表一种轻量级的网络.M o d u l a t e dA t t e n t i o n部分的添加是为了区分大样本类和小样本类.在卷积神经网络输出的特征基础上加入M o d u l a t e d注意力.具体表现为fa t t=f+MA(f)S A(f),(2)其中f是卷积神经网络模型输出的原始特征,S A()是自注意力操作,MA()是具有s o f t m a x归一化的条件注意力函数.这种M o d u l a t e d注意力可以插入卷积神经网络的任何特征层,在这里只

    22、修改最后一个特征层.C o s i n eC l a s s i f i e r部分用于接收D y n a m i cM e t a-Em b e d d i n g和M o d u l a t e dA t t e n t i o n部分修改后的新的特征数据,最终输入到s o f t m a x中输出属于各已知类别的概率,根据设定的阈值判别出未知类别样本.3 恶意代码家族开集识别模型技术3.1 恶意代码家族开集识别模型整体架构本文提供了一种基于开集识别的恶意代码家族同源性分析技术,通过将图像领域中的基于深度学习的开集识别方法引入到恶意代码家族同源分析的研究中,以期解决现有恶意代码家族同源分析

    23、研究领域中开集识别方法研究不足和识别准确率低、性能较差的问题.恶意代码家族开集识别模型主要包括2个部分:恶意代码灰度图生成技术和恶意代码家族开集识别模型.整体架构如图2所示.恶意代码灰度图生成技术通过2-G r a m滑动窗口和D o c 2 v e c句嵌入方法将恶意代码转换成相应的灰度图像.恶意代码家族开集识别模型部分利用卷积神经网络模型M o b i l e N e t和图像领域中的开集识别模型O p e n 网址 http:/|765学 术 论 文Research Papers图2 恶意代码家族开集识别模型整体架构L o n g-t a i l e dR e c o g n i t i

    24、 o n获取恶意代码家族的开集分类结果.3.2 恶意代码灰度图生成技术本文在文献7 的基础上采用2-G r a m滑动窗口和D o c 2 v e c句嵌入相结合的方法实现恶意代码的可视化.其中,o p c o d eN-G r a m在恶意代码分类研究1 6-1 8中已被证明是非常有效的特征.文献7的方法仅提取单一的汇编指令作为特征空间的特征维度,难以完全代表汇编指令前后间关系的信息,不能反映汇编指令序列相对完整的意义.事实上,汇编指令序列中各个指令前后之间具有密切的关联,因此,本文将汇编指令子序列作为特征,能够更加充分地提取汇编指令序列的信息.本文中恶意代码灰度图生成技术的架构如图3所示.

    25、具体步骤为:1)将恶意代码反汇编得到.a s m文件,从中提取.t e x t或.C O D E程序段的全部汇编指令序列;2)基于2-G r a m滑动窗口方法切分指令序列,得到汇编指令子序列,将恶意代码转换成由汇编指令子序列作为句子组成的文档;3)利用D o c 2 v e c句嵌入模型计算每篇文档上所有汇编指令子序列的句向量,同时统计训练集中的关键汇编指令子序列列表,并将列表维度设为T;4)按照列表顺序和指令子序列向量将每篇文档转换成TT维的矩阵,如果文档中有不存在于关键汇编指令子序列中的指令序列,则以T维的0向量代替;5)将每个样本矩阵进行归一化处理和尺度变换,转换成灰度图像,其中,矩阵

    26、中的最小值对应黑色像素,最大值对应白色像素;6)利用双线性插值方法将图像大小修改成2 2 42 2 41.其中,关键汇编指令子序列列表根据汇编指令子序列的频率区间获取.该方法能够避免频率过小、某些子序列仅代表特殊样本而频率过高、特征区分度不够的问题.方法如下:首先,获取汇编指令子序列ci在所有训练样766|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023图3 恶意代码灰度图生成技术本m中出现的频率.然后,根据实际情况选用频率区间对汇编指令子序列进行筛选,将频率

    27、值超过阈值上界或下界的子序列去掉,最终筛选关键汇编指令子序列列表作为特征空间,维度为T.其中,频率计算方法如下:图4 恶意代码家族开集识别模型令Ni表示训练样本集包含子序列ci的文件总数,Ni也可以认为是ci在数据集中的频率(与出现总次数不同,因为ci有可能在1个文件中重复出现),则Ni=mk=1pik,(3)其中pik为布尔值,1表示ci在样本pk中出现,0表示ci不在样本pk中出现.3.3 恶意代码家族开集识别模型恶意代码家族开集识别模型基于卷积神经网络模型M o b i l e N e t和图像领域中的开集识别模型O p e nL o n g-t a i l e dR e c o g n

    28、 i t i o n构建,如图4所示.其中,M o b i l e N e t模型由标准卷积层、深度可分离卷积层(d e p t h w i s e s e p a r a b l e c o n v o l u t i o n)、平均池化层(a v e r a g ep o o l i n g)、全连接层(f u l l yc o n n e c t e dl a y e r)和s o f t m a x层组成.恶意代码家族开集识别模型部分将3.2节中获取的2 2 42 2 4维的训练样本集中每个灰度图像逐一输入到初始卷积神经网络模型M o b i l e N e t 网址 http:/|7

    29、67学 术 论 文Research Papers中训练.其中,原始模型的输入通道为3通道,而灰度图像属于单通道,因此将模型修改为单通道输入.通过不断调整网络模型的参数,使分类准确率达到预先设定阈值,结束训练.提取M o b i l e N e t模型中全连接层的输入作为特征数据,数据维度为1 0 2 4.将其输入到O p e nL o n g-t a i l e dR e c o g n i t i o n模型中训练,基 于D y n a m i c M e t a-Em b e d d i n g部 分 和M o d u l a t e dA t t e n t i o n部分,对特征进行修

    30、改,包括添加视觉记忆特征和M o d u l a t e d注意力机制,从而获 取 新 的 特 征 数 据.将 该 数 据 输 入 到C o s i n eC l a s s i f i e r部分中,构建初始的开集识别模型.利用测试集样本,包括已知类别家族和未知类别家族对初始的开集识别模型进行测试和参数调整.预先设定开集分类阈值,如果未知类别的分类准确率低于预设阈值,则调整O p e nL o n g-t a i l e dR e c o g n i t i o n模型相关参数,直至未知类别准确率达到所述阈值,得到最终的恶意代码家族开集识别模型.关于测试集样本开集识别结果输出,C o s i

    31、 n eC l a s s i f i e r部分会输出它属于各已知家族的分类概率p1,p2,pc,假设其中最大的概率值为pi,设定的开集分类阈值为0.8,如果pi0.8,则该待测恶意代码属于第i类已知恶意代码家族;反之,待测恶意代码属于未知恶意代码家族.4 实验分析4.1 实验数据本文实验选用已知家族类别样本作为训练集,选用已知家族类别和未知家族类别样本共同作为测试集.训练集和已知家族类别的测试集来源于2 0 1 5K a g g l e微软恶意软件分类挑战赛1 9.该数据集包含9类恶意代码家族,每个恶意代码去除P E头,分别包含2个文件:反编译得到的.a s m文件和十六进制表示的.b y

    32、 t e s文件,本文只采用.a s m文件.原样本共有1 0 8 6 8个,但是有些反汇编样本没有操作码序列,去除这类样本后共剩余1 0 7 2 5个样本.该数据家族详情如表1所示.实验数据的未知家族类别样本来源于已收集的恶意代码家族库,该数据共包含9个家族,每个家族有3 0 0个样本,全部样本作为测试集使用.该数据家族详情如表2所示.表1 已知类别家族与样本数量恶意代码家族类别恶意代码家族数量R a m n i t1 5 3 2L o l l i p o p2 4 7 0K e l i h o s_v e r 32 9 3 6V u n d o4 4 0S i m d a3 8T r a

    33、c u r7 3 2K e l i h o s_v e r 13 8 7O b f u s c a t o r.A C Y1 1 7 7G a t a k1 0 1 3表2 未知类别家族与样本数量恶意代码家族类别恶意代码家族数量A l l a p l e3 0 0C h i r3 0 0L u d e r3 0 0P o n y3 0 0Q a k b o t3 0 0N a b u c u r3 0 0R i m e c u d3 0 0S i m b o t3 0 0P i o n e e r3 0 0为了与传统的分类模型进行对比,在对比模型的训练集中加入其他类别数据.该数据包括不属于已知

    34、类别和未知类别家族数据的1 8个家族、7 0 4个样本.该数据家族详情如表3所示:表3 其他类别家族与样本数量其他类别恶意代码家族其他类别恶意代码家族数量A p p l e S e e d3 5A r t r a D o w n l o a d e r1 0 6b a b y s h a r k2 7b r a m b u l1 2 2C o mR A T3 1C o s m i c D u k e1 5C o z y D u k e1 2C r i m s o n R AT1 2d e n i s2 0EHD e v e l1 0768|信 息 安 全 研 究Journal of Infor

    35、mation Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023续表3其他类别恶意代码家族其他类别恶意代码家族数量J o a n a p2 4K e r r D o w n6 7l o j a x1 6n e m i m2 0n u k e s p e d7 8t a p a o u x3 5u r o b u r o s1 9Z e b r o c y5 54.2 对比实验4.2.1 实验说明目前关于恶意代码家族同源性分析的研究多为传统的闭集分类思路,而关于恶意代码家族开集识别方法的研究较少,为了验证本文模型在恶意代码家族开集

    36、分类识别任务上的有效性和优越性,将本文模型与对比模型1、对比模型2进行比较,对比实验流程如图5所示.文献7 的传统分类方法仅适用于闭集分类,不能识别未知类别.为了验证本文模型在恶意代码灰度图生成技术和卷积神经网络特征提取上的优越性,在文献7 分类方法基础上加入O p e nL o n g-t a i l e dR e c o g n i t i o n模型构建开集识别模型作为对比模型1.为了验证本文模型在恶意代码开集识别方法应用上的有效性,在本文模型数据可视化为灰度图像的基础上加入其他类别数据,构建多分类模型作为对比模型2,参照传统的方法在多分类模型中设定其他类别,从而达到使其能够识别未知类别

    37、家族的目的.图5 模型对比实验 实验采用以下评估度量指标评估恶意代码家族的识别效果,包括用于验证识别未知家族和已知家族能力的A c c u r a c y值,以及验证已知家族分类的准确率A c c u r a c y、查准率P r e c i s i o n、召回率R e c a l l和F1-s c o r e.4.2.2 对比结果分析本实验中,本文模型、对比模型1和对比模型2选取的实验数据详情如表4所示.其中,对比模型2与本文模型和对比模型1的区别是在训练集中加入了其他类别数据.本文模型与对比模型1、对比模型2在上述数据集上的综合测试结果如表5所示.其中08表示9个已知类别家族,91 7表

    38、示9个未知类别家族.对比结果采用A c c u r a c y值.本文模型在总测试数据、已知类别家族、未知表4 模型对比实验数据模型训练集数量测试集数量已知类别样本的6 0%全部其他类别已知类别样本的4 0%全部未知类别本文模型和对比模型16 4 3 94 2 8 62 7 0 0对比模型26 4 3 97 0 44 2 8 62 7 0 0 注:“”表示无.表5 已知类别和未知类别家族的对比实验结果类别数据集数量A c c u r a c y本文模型 对比模型1对比模型208已知类别4 2 8 60.9 6 0 10.9 0 9 90.9 7 9 991 7未知类别2 7 0 00.9 6

    39、4 10.8 0 1 50.4 3 3 001 7总测试数据6 9 8 60.9 6 1 60.8 6 8 00.7 6 8 5 网址 http:/|769学 术 论 文Research Papers类别家族上的A c c u r a c y都大于对比模型1,并且都大于9 5%.表明本文模型在已知类别和未知类别家族上的识别效果都较好,且都优于对比模型1.对比模型2在未知类别上的A c c u r a c y仅为4 3.3 0%,说明对比模型2并不能对真实世界中的未知类别进行有效识别,并且真实世界中往往未知类别家族数据占大多数,因此对比模型2无法直接应用于识别真实世界中的恶意代码家族.针对已知类

    40、别家族,模型除了基于A c c u r a c y值进行评估外,还采用P r e c i s i o n,R e c a l l,F1-s c o r e这3个指标进行评估.通常情况下,在多分类问题中,这3个指标可以使用3种不同的平均计算方法,分别是m a c r oa v g,m i c r oa v g,w e i g h t e da v g.考虑到不同恶意代码家族数据之间存在类别不平衡问题,本文采用w e i g h t e da v g方法进行评估.结果如表6所示.可以看出本文模型在已知类别家族上的各项指标都优于对比模型1,与对比模型2相差无几.表6 已知类别家族的开集识别结果模型A

    41、 c c u r a c yP r e c i s i o nR e c a l lF1-s c o r e本文模型0.9 61.0 00.9 60.9 8对比模型10.9 10.9 90.9 10.9 5对比模型20.9 80.9 90.9 80.9 8从整体来看,对比模型2虽然在已知类别家族上有较好的实验效果,但是在未知类别家族上识别效果极差,因此该方法不能对真实世界中的恶意代码家族进行识别.对比模型1无论在已知类别家族和未知类别家族上的识别效果都低于本文模型,说明本文模型在恶意代码灰度图生成技术和卷积神经网络M o b i l e N e t特征提取方法上优于对比模型1.传统分类模型在加

    42、入开集识别模型后,即未知类别的加入一定会对已知类别家族的识别产生影响,即会有未知类别被错误地识别为已知家族类别,已知类别被错误地识别为未知家族类别.从整体实验结果来看,本文模型能够实现未知类别样本的识别,同时对于已知类别家族能够保持较好的识别效果,因此本文模型能够实现真实世界中恶意代码家族的有效识别.5 结 语针对传统的恶意代码家族分类方法为闭集分类,仅能识别已知类别恶意代码家族、无法识别真实世界中的未知类别家族的问题,本文提出了一种恶意代码家族的开集识别方法,将图像领域的开集识别方法引入到恶意代码家族分类问题中.实验结果表明,在已知类别和未知类别家族上都取得了较好的识别效果.因此,本文模型能

    43、够对真实世界中的恶意代码家族进行有效识别.对比模型2表明传统分类模型加入其他类别后,虽然对于已知类别有较好的识别效果,但是仍然无法有效识别真实环境中的未知类别家族.本文利用N-G r a m和D o c 2 v e c句嵌入方法将恶意代码可执行文件转换为相对应的灰度图像,该方法相较于对比模型1采用单一汇编指令和词嵌入方法转换成的图像更能反映汇编指令序列前后指令之间密切的关联信息.实验结果表明,本文模型在已知类别和未知类别恶意代码家族上的识别效果都优于对比模型1.虽然本文工作能够识别真实世界中未知类别的恶意代码家族,并且在已知类别和未知类别上的识别准确率较高,但仍存在一些问题需要解决.本文验证了

    44、该模型的可行性,但是训练所用的数据相对于真实世界中的恶意代码家族数量较少,今后将在更多的数据上讨论本文方法的有效性.参考文献1C h oIK,K i m T G,S h i m YJ,e ta l.M a l w a r es i m i l a r i t ya n a l y s i su s i n g A P Is e q u e n c ea l i g n m e n t sJ.J o u r n a lo fI n t e r n e tS e r v i c e sa n dI n f o r m a t i o nS e c u r i t y,2 0 1 4,4(4):1

    45、0 31 1 42 陈琪,蒋国平,夏玲玲.基于静态结构的恶意代码同源性分析J.计算机工程与应用,2 0 1 7,5 3(1 4):9 39 83 钱雨村,彭国军,王滢,等.恶意代码同源性分析及家族聚类J.计算机工程与应用,2 0 1 5,5 1(1 8):7 68 14G i a n n e l l a C,B l o e d o r n E.S p e c t r a l m a l w a r e b e h a v i o rc l u s t e r i n gC P r o co f I E E EI n tC o n fo nI n t e l l i g e n c ea n d

    46、S e c u r i t yI n f o r m a t i c s(I S I).P i s c a t a w a y,N J:I E E E,2 0 1 5:71 25 刘凯,方勇,张磊,等.基于图卷积网络的恶意代码聚类J.四川大学学报:自然科学版,2 0 1 9,5 6(4):6 5 46 6 0770|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.20236X u eD,L i J,W uW,e t a l.H o m o l o g ya n a l

    47、 y s i so fm a l w a r eb a s e do ne n s e m b l el e a r n i n ga n d m u l t i f e a t u r e sJ.P l o SO n e,2 0 1 9,1 4(8):e 0 2 1 1 3 7 37 乔延臣,姜青山,古亮,等.基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究J.信息网络安全,2 0 1 9(4):2 02 88Z h uX,H u a n gJ,W a n g B,e ta l.M a l w a r eh o m o l o g yd e t e r m i n a t i o nu

    48、 s i n gv i s u a l i z e di m a g e sa n df e a t u r ef u s i o nJ.P e e r JC o m p u t e rS c i e n c e,2 0 2 1,7:e 4 9 49J i aJ.D e e p l e a r n i n ga n do p e ns e tm a l w a r ec l a s s i f i c a t i o n:As u r v e yJ.a r X i vp r e p r i n t,a r X i v:2 0 0 4.0 4 2 7 2,2 0 2 01 0 陈雁佳.恶意软件组

    49、织的开集识别模型研究D.广州:暨南大学,2 0 2 01 1L eQ,M i k o l o vT.D i s t r i b u t e dr e p r e s e n t a t i o n so f s e n t e n c e sa n dd o c u m e n t sC P r o co f t h e3 1 s t I n tC o n fo nM a c h i n eL e a r n i n g.N e wY o r k:A CM,2 0 1 4:1 1 8 81 1 9 61 2H o w a r dAG,Z h uM,C h e nB,e t a l.M o b

    50、i l e n e t s:E f f i c i e n tc o n v o l u t i o n a l n e u r a ln e t w o r k sf o rm o b i l ev i s i o na p p l i c a t i o n sJ.a r X i vp r e p r i n t,a r X i v:1 7 0 4.0 4 8 6 1,2 0 1 71 3L i uZ,M i a oZ,Z h a n X,e ta l.L a r g e-s c a l el o n g-t a i l e dr e c o g n i t i o n i na no p


    注意事项

    本文(基于开集识别的恶意代码家族同源性分析_刘亚倩.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 服务填表 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)    



    关注我们 :gzh.png  weibo.png  LOFTER.png