一种基于特征融合的恶意代码快速检测方法_王硕.pdf
《一种基于特征融合的恶意代码快速检测方法_王硕.pdf》由会员分享,可在线阅读,更多相关《一种基于特征融合的恶意代码快速检测方法_王硕.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023一种基于特征融合的恶意代码快速检测方法王硕,王坚,王亚男,宋亚飞(空军工程大学防空反导学院,陕西西安 710051)摘要:随着恶意代码对抗技术的发展,恶意攻击者通过加壳、代码混淆等技术繁衍大量恶意代码变种,而传统恶意代码检测方法难以对其进行有效检测.基于恶意代码可视化的恶意代码检测方法被证明是一种能够有效识别恶意代码及其变种的新方法.针对目前研究仅着眼于提升模型分类准确率而忽略了恶意代码检测的时效性,本文提出了一种基于特征融合的恶意代码快速检测方法.该方法以深度神经网络为框架
2、,采取模块化设计思想,将多尺度恶意代码特征融合与通道注意力机制结合,增强关键特征表达,并使用数据增强技术改善数据集类别不平衡问题.通过实验证明本文方法分类准确率高且参数量小、检测时效性高,优于目前的恶意代码检测技术.关键词:恶意代码;深度神经网络;特征融合;通道注意力机制;数据增强技术;恶意代码可视化基金项目:国家自然科学基金(No.61703426)中图分类号:TP309.5文献标识码:A文章编号:0372-2112(2023)01-0057-10电子学报URL:http:/DOI:10.12263/DZXB.20211701A Fast Malicious Code Detection M
3、ethod Based on Feature FusionWANG Shuo,WANG Jian,WANG Ya-nan,SONG Ya-fei(Air Defense and Antimissile School,Air Force Engineering University,Xi an,Shaanxi 710051,China)Abstract:With the development of anti-malicious code technology,malicious attackers multiply a large number of malicious code varian
4、ts by adding shell,code obfuscation and other technologies.However,traditional malicious code detection methods are difficult to detect them effectively.Malicious code detection based on malicious code visualization has been proved to be an effective method for identifying malicious code variants.Th
5、e current research only focuses on improving the accuracy of model classification while ignoring the timeliness of malicious code detection.To solve the above problem,this paper proposes a fast malicious code detection method based on feature fusion.Based on the framework of deep neural network and
6、the idea of modular design,our method combines multi-scale malicious code feature fusion with channel attention mechanism to enhance typical feature expression.In addition,data augmentation technology is utilized to deal with the problem of dataset category imbalance.The results of experiments indic
7、ate that the proposed method achieves high classification accuracy,small number of parameters and high detection timeliness,which is superior to the current malicious code detection technology.Key words:malicious code;deep neural network;feature fusion;channel attention mechanism;data augmentation t
8、echnology;malicious code visualization Foundation Item(s):National Natural Science Foundation of China(No.61703426)1引言恶意代码是指经过人为设计执行恶意行为或攻击的软件.据2021年国家互联网应急中心发布的第2期周报统计1,在1月4日至10日仅一周的时间,境内被感染网络病毒的主机数量约为67万个,境内计算机恶意程序传播次数高达4 009.3万.大量的恶意代码不仅对用户日常生活产生严重影响,甚至影响了国家网络的安全,阻碍网络命运共同体的构建.恶意代码分析技术按照是否执行文件分为动态
9、分析技术和静态分析技术.动态分析是指在沙箱、模拟器和虚拟机中运行可执行文件并通过系统调用监视、分析应用程序行为的实践.静态分析方法提取恶意代码的静态特征来识别样本的不法行为.静态分析方法在速度和有效性方面优于动态分析,因为它可以捕获与结构特性相关的信息2,3.传统的恶意代码检测方法采取基于特征码的模板匹配思想,它需要研究员根据专家知识手工提取恶意代码的特征码,并将其与数据库收稿日期:2021-12-24;修回日期:2022-07-31;责任编辑:李勇锋电子学报2023 年中已知特征码进行逐一比对.随着恶意代码混淆、加壳等技术的发展,恶意代码繁衍出大量变种.而传统检测方法效率较低,并且难以有效地
10、检测与识别恶意代码的变种.因此,如何准确、高效地对恶意代码及其变种进行检测、分类成为了该领域的研究热点.为了解决传统恶意代码检测方法面临的困境,更有效地检测经过加壳、混淆后的恶意代码变种,基于可视化的恶意代码检测方法应运而生46.该方法先将恶意代码映射为图像,根据同一恶意家族中的图像纹理特征具有相似性,不同恶意家族中的图像纹理特征具有差异性的特点,提取恶意代码图像的纹理特征并进行分类.该方法被证明能够有效地检测恶意代码变种,并且检测速度相较于动态检测技术快4 000倍7.从该方法提出以来,大量专家学者对此展开了研究8,9.Nataraj等10融合图像和信号特征来描述恶意代码,并使用KNN(K-
11、Nearest Neighbor)作为分类器来识别恶意代码.Kancherla等11为了增强特征的多样性将Gabor特征、小波特征和强度特征融合作为总特征,并训练SVM(Support Vector Machines)分类器实现恶意代码分类.刘亚姝等12通过融合恶意图像的GIST特征与LBP(Local Binary Pattern)特征构建抗混淆特征,以解决模型在相似恶意图像中的分类性能下降的问题.Naeem等13为了减少计算时间,提出了一种融合恶意代码图像局部特征和全局特征的LGMP特征描述子.卢喜东等14使用HOG特征作为恶意图像的分类依据,最后使用随机森林分类器对恶意代码及其变种进行检
12、测与分类.上述研究将机器学习应用于基于可视化的恶意代码检测方法,这些方法的特征提取与分类是分开进行的.恶意图像纹理特征的提取需要依靠手工方式,而手工提取特征的方式需要消耗大量的计算资源,导致该方法效率较低,并且检测的精度仍有待提升.深度学习在图像分类任务中取得了瞩目的成绩,将深度学习与恶意代码可视化相结合是一种有效提升恶意代码分类准确率的方式.Gibert等15分析了手工特征提取的特点与不足,设计了一种深度神经网络结构用于提取恶意图像的特征,在多个恶意代码数据集上均取得了良好的分类性能,具有较好的泛化能力.Danish等16将恶意代码映射为彩色图像,丰富了恶意图像中的信息,并将迁移学习应用于恶
13、意代码检测任务,实验结果表明该方法在分类准确率方面表现卓越.Kabanga等17设计了一个由三个卷积层和两个全连接层组成的卷积神经网络(Convolutional Neural Network,CNN)框架用于识别恶意代码,取得了较好的性能.崔志华等18,19针对恶意代码数据集中样本不平衡问题,提出了一种使用群智能算法优化深度神经网络模型的最优样本类别输入比例的解决方案.上述基于恶意代码可视化的方法能够实现恶意代码变种的检测与分类,在一定程度上解决了代码混淆问题.但是这些方法仅将注意力聚焦于提升分类准确率,而忽略恶意代码分类模型其他的性能指标,如检测时间、模型体积大小等.针对这个问题,本文提出
14、了一种基于特征融合的恶意代码快速检测方法.该方法旨在提升分类准确率的同时缩短识别时间.首先,该方法将恶意代码映射为灰度图像并通过双线性插值算法对恶意图像进行尺寸归一化.然后,使用数据增强技术解决恶意代码数据集不平衡问题.其次,融合在不同尺寸卷积核中提取的多尺度特征来增加特征的多样性,并结合通道注意力机制增强恶意图像关键特征表达.最后,训练深度神经网路模型实现对恶意代码变种的分类.本文的工作主要包括以下3点.(1)提出了一种基于特征融合的深度神经网络模型来检测和分类恶意代码及其变种.该模型结合了多尺度特征融合与通道注意力机制,具有良好的纹理特征提取能力、参数量小,在提升分类准确率的同时能够快速检
15、测未知的新样本.(2)提出了使用数据增强技术来解决数据不平衡问题.通过对图像的变换实现少样本的过采样,均衡数据集,提升模型性能.(3)在 DataCon数据集和 Malimg数据集上通过大量实验证明本方法在恶意代码变种检测和分类中的卓越性能,并分析了性能提升的原因.2模型概述本文提出的恶意代码检测方法包含两个部分:数据预处理和FFSE模型构建.其中,数据预处理包括恶意代码可视化、图像尺寸归一化以及数据增强技术.该方法的结构如图1所示.2.1数据预处理2.1.1恶意代码可视化恶意代码可视化是将恶意代码二进制文件转化为灰度图像的过程,其流程如图2所示.首先,将给定的恶意代码二进制文件以每8位无符号
16、整数为一组进行读取.然后,将每组二进制数转化为 10进制整形.其次,根据PE文件大小确定行宽,并将其转换为二维数组,其行宽与文件大小对应关系如表1所示.最后,以二维数组中每一个元素作为图像的灰度值,将二维数组映射为灰度图像,部分转化后的恶意家族样本如图3所示.2.1.2图像尺寸归一化在卷积神经网络中,由于全连接层的权值矩阵大小是固定的,即输入到全连接层的特征尺寸必须保持一致.如果输入图片的尺寸不同,那么经过卷积和池化操作后的特征尺寸也会产生差异,即输入全连接层的58第 1 期王硕:一种基于特征融合的恶意代码快速检测方法特征尺寸不同,这导致全连接层失效.因此,输入卷积神经网络的图片必须为同一尺寸
17、.但是,可视化后的恶意图像尺寸均不相同.因此,需要对可视化后的恶意图像进行尺寸归一化.为了使经过归一化后的恶意图像尽可能保持原有的纹理特征不变,本文采用双线性插值算法对图像尺寸进行归一化.该算法首先选取与恶意图像插值点直接相邻的4个像素点,然后先在X方向上进行两次线性插值运算;最后在Y方向上进行线性插值计算得到插值点的像素:f(x,y1)=x2-xx2-x1f(x1,y1)+x-x1x2-x1f(x2,y1)f(x,y2)=x2-xx2-x1f(x1,y2)+x-x1x2-x1f(x2,y2)(1)f(x,y)=y2-yy2-y1f(x,y1)+y-y1y2-y1f(x2,y2)其中,f(x,
18、y)是恶意图像中插值点的像素值,(xi,yj)(i,j=1,2)是恶意图像插值点附近的 4 个像素.图 4 为 Allaple.A家族中某样本经过归一化后的恶意图像,通过观察可以看出经过双线性插值算法后的恶意图像的基本纹理特征得到良好的保留.2.1.3数据增强技术在深度学习模型中,分类的效果与数据集的质量有着密切的关系,充足且均衡的数据集不但能够提升模型的分类准确率而且还能在一定程度上避免过拟合现象的产生.当数据集样本数量较小或者各类别样本数量不均衡时,使用数据增强技术可以增加少数类的样本数量,从而抑制数据集样本类别不均衡给模型造成的影响,提高模型的鲁棒性.常见的图像数据增强是通过对原始图像数
19、据的变换来生成新的数据,比如:缩图4双线性插值法放缩恶意代码图像 FFSE 模型 FFSE BlockInceptionSEInceptionSE FFSE BlockInceptionSEInceptionSE FFSE BlockInceptionSEInceptionSE FFSE BlockFeatureFusionSE BolckFeatureFusionSE BolckDENSE数据预处理 二进制恶意代码:0100100010001011100101110100100.8位二进制向量:01001000,10001011,10010111,0100100.十进制二维数组:72,39,
20、11,73.,86,78,175,38.,.数据增强CBRMaxPoolCBRMaxPoolCBRMaxPoolCONVBNReLUCBR 图1模型结构示意图 二进制恶意代码:0100100010001011100101110100100.8位二进制向量:01001000,10001011,10010111,0100100.十进制二维数组:72,39,11,73.,86,78,175,38.,.图2恶意代码可视化流程图表1行宽与恶意文件大小对应关系文件大小1 000 KB宽度3845127681 024 Adialer.CFakereanInstantaccess 图3不同恶意家族可视化后的恶
21、意图像59电子学报2023 年放、翻转、移位等.为解决恶意代码数据集中各类样本数量不均衡的问题,本文使用python中的图像数据增强技术函数对数据集进行样本扩充,表2给出了实验中使用的数据增强技术的参数设置.本文将Malimg数据集的70%划分为训练集,20%划分为验证集,10%划分为测试集.本文模型使用数据增强技术将原训练集的6 604个样本增扩到51 608个样本.2.2FFSE模型构建卷积神经网络通过端到端的学习能够自动地提取样本的特征,并根据特征对样本进行分类.很多学者通过构建卷积神经网络模型来识别和分类恶意代码,但是这些方法均使用单一尺度的卷积核对恶意图像进行特征提取,忽略了特征提取
22、的多样性,导致提取的特征不具备鲁棒性并且影响了恶意代码的检测精度.为了解决上述的问题,本文结合通道注意力机制(Squeeze and Excitation Networks,SE)20设计了一个多尺度特征融合的网络结构,如图1中FFSE模型所示.模型的核心设计思想为增强模型的特征提取能力,使用少量的神经网络层数获得较深的神经网络的特征提取效果.通过减少神经网络参数、降低浮点运算量来提升模型运算速度,在提高恶意代码分类准确率的同时具有较快的恶意代码检测速度.模型主体由CBR层、最大池化层、FFSE 模块、以及全连接层构成.其中,CBR 层是本文模型的基础单元,其包括卷积层、BN(Batch No
23、rmalization)层和Relu(Rectified linear unit)激活函数.它是传统卷积层的一种改进,能够加速模型的收敛.其流程为:首先,输入特征进入卷积层进行卷积操作,然后进入BN层进行批量归一化,最后经过Relu函数进行激活得到非线性特征输出.FFSE模块是模型的核心结构,其包括特征融合模块和通道注意力机制模块,其结构如图5所示.特征融合部分的核心思想是同时使用不同大小的卷积核提取图像的多尺度的特征,并将这些特征相融合以获得兼顾局部特征与全局特征的总特征.在特征提取的过程中,特征图是由每一个通道提取的特征结合得到,但并非每一个通道都能有效的提取特征.通道注意力机制能够根据各
24、个通道的特征提取效果计算各个通道的权重,赋予特征提取效果好的通道相对较大的权重,赋予特征提取效果差的通道相对较小的权重,将通道注意力集中在图像的主要特征上,以增强恶意代码图像的关键特征表达,提升恶意代码检测和分类的精度.在特征融合模块中,首先,输入特征VRCHW会同时通过四个分支I,II,III,IV进行运算,为了使提取的特征具有多样性、代表性,在每个分支中采用的是不同感受野的卷积核进行特征提取,每个分支会得到相应的 分 支 输 出 特 征V1RC1HW,V2RC2HW,V3RC3HW,V4RC4HW.然后,将得到的分支输出特征V1,V2,V3,V4进行融合,得到既包含局部特征又包含全 局 特
25、 征 的 总 特 征,并 将 其 作 为 输 出 特 征VmRCHW,输出通道数C=C1+C2+C3+C4.通道注意力模块分为两个部分:压缩(Squeeze)和激活(Excitation).首先,压缩操作Fs是对Vm进行全局池化得到ZR11C,其公式如下:zc=Fs(Vm)=1H+Wi=1Hj=1WVm()i,j(2)然后,对压缩得到的Z进行激活操作Fe得到通道的权重值w:w=Fe(Z,W)=(g(Z,W)=(W2(W1Z)(3)其中,是 Relu 激活函数,W1RCrC,W2RCCr,wR11C.r为变换中的超参数一般取r=16.最后,将计算得到的通道的权重值w与输入特征Vm进行Fscale
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 特征 融合 恶意代码 快速 检测 方法 王硕
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。