融合注意力与卷积的系统调用异常检测.pdf
《融合注意力与卷积的系统调用异常检测.pdf》由会员分享,可在线阅读,更多相关《融合注意力与卷积的系统调用异常检测.pdf(9页珍藏版)》请在咨信网上搜索。
1、Journal of InformationEngineeringUniversityAug.20232023年8 月Vol.24 No.4信息工程大学学报第2 4卷第4期D0I:10.3969/j.issn.1671-0673.2023.04.013融合注意力与卷积的系统调用异常检测陈仲磊,伊鹏,陈祥,胡涛(信息工程大学,河南郑州450 0 0 1)摘要:基于系统调用数据是实施主机异常检测的一种有效手段,然而现有检测技术无法有效应对混淆攻击。提出一种融合注意力与卷积的系统调用异常检测模型,能够同时关注到系统调用序列展现的进程全局行为与每一个时间窗口的局部行为。首先,设计了一种混淆攻击数据模拟
2、生成方法解决样本数据不平衡问题,提出基于进程行为特征的序列补齐方法增强系统调用语义特征;其次,融合注意力机制与一维权重卷积网络同时从系统调用序列的全局与局部提取数据特征;最后,基于单一变量原则和交叉验证方式获得最优异常检测模型,进而得到异常检测结果。与其他传统异常检测方法对比得出,所提模型具有更高的准确率(9 6.6%)和较低的误报率(1.9%),同时此模型具有抵抗混淆攻击的能力。关键词:一维权重卷积;系统调用;多头注意力;位置编码;异常检测中图分类号:TP309.1文献标识码:A文章编号:16 7 1-0 6 7 3(2 0 2 3)0 4-0 47 5-0 9Anomaly Detecti
3、on Based on System Calls Combining Attention and ConvolutionCHEN Zhonglei,YI Peng,CHEN Xiang,HU Tao(Information Engineering University,Zhengzhou 450001,China)Abstract:It is an effective method to implement host intrusion detection based on system calls that re-flect the most primitive and fine-grain
4、ed behavior information of host.However,existing detectiontechniques cannot effectively deal with obfuscation attacks.In this paper,an anomaly detection modelbased on system calls combining attention and convolution is proposed,which can pay attention toboth the global process behavior and the local
5、 behavior of each time window.First,a method for simu-lating and generating obfuscation attack data is designed to solve the problem of the data imbalance,and a sequence completion method based on process behavior characteristics is proposed to enhancethe semantic characteristics of system calls.The
6、n,the attention mechanism and one-dimensionalweighted convolution network are combined to simultaneously extract data features from the global andlocal aspect.Finally,based on the single variable principle and cross validation method,the optimalconstant detection model is obtained,and then the anoma
7、ly detection results are obtained.Comparedwith other traditional anomaly detection methods,the proposed model has higher accuracy(96.6%)and lower false positive rate(1.9%),and has the ability to resist obfuscation attacks.Key words:1D-Convolution;system calls;multi-head attention;positional encoding
8、;anomaly de-tection二十一世纪以来计算机领域飞速发展,网络空间安全事关民生福社和国家发展战略布局不容有失。国家计算机网络应急技术处理协调中心发布的互联网网络安全监测数据分析报告指收稿日期:2 0 2 2-0 7-2 5;修回日期:2 0 2 2-0 8-2 0基金项目:国家重点研发计划资助项目(2 0 19 YFB802505,2 0 2 0 YFB8 0 6 40 2)作者简介:陈仲磊(19 9 7-),男,硕士生,主要研究方向为人侵检测。20233年476信息工程大学学报出,2 0 2 1年上半年我国境内感染计算机恶意程序的主机数量为446 万台,同比增长46.8%,网络
9、安全形势日益严峻。异常检测技术作为一种有效的主动防御手段在网络安全威胁感知方面发挥重要作用,相比于传统的数据加密、防火墙等技术具有发现零日漏洞的优势,现已成为网络安全领域的研究热点系统调用函数是主机用户态与内核态的调用接口,系统调用轨迹序列是追踪程序调用系统调用函数产生的时间序列,可以认为是程序在计算机系统上的底层行为映射。通过对系统调用数据的处理和分析可对进程的敏感行为进行监控和预警,从程序行为层面实现对主机系统最底层、最基础和最核心的防护。基于系统调用的传统异常检测方法面临如下问题:数据处理方式复杂繁琐、识别准确率低、检测误报率高等。近年来越来越多的研究将深度学习网络应用于主机异常检测中,
10、事实证明两者的结合有效解决了传统方式带来的诸多弊端,为网络安全领域注人了新的活力。深度学习网络具有多个隐藏层,每个隐藏层具有多个参数,通过不断学习训练样本来更新网络模型参数可以实现对数据特征的自动提取以及完成各种分类任务。深度学习为基于系统调用的异常检测在各个方面提供助力:在特征提取方面,Word2Vec模型11为每一个系统调用分配了一个融合频率与语义特征的固定维度向量表示,相比于传统的n-grams、t f-i d f、词袋模型等方式,该表示方式在单纯的聚类模型上具有更好的表现;在模型训练方面,循环神经网络(RecurrentNeuralNetwork,RNN)2可以从时间维度抓取系统调用序
11、列的行为特征,这是隐马尔可夫模型、支持向量机(Sup-portVectorMachine,SVM)、决策树等传统模型无法具备的能力;在异常检测整体结构设计方面,利用深度学习自动提取数据特征大于异常检测系统降低整体结构的复杂程度。深度学习网络的应用同时也为系统调用的数据处理带来了新的问题:一是数据集中的数据不平衡问题,导致异常检测分类准确率降低;二是变长的系统调用序列与深度学习网络输人不匹配问题本文将带位置编码的注意力机制与一维权重卷积网络相融合应用于基于系统调用的异常检测中,首先将恶意轨迹序列数量进行扩充以解决数据不平衡问题,其次将系统调用序列进行补齐便于输人到深度学习网络中训练,最后使用已经
12、训练好的模型来识别进程异常行为。实验表明,本文所提出的异常检测模型检测准确率(9 6.6%)与误报率(1.9%)优于一般网络模型,且具有对混淆攻击的抵御能力。1相关工作受自然界免疫系统启发,文献3首次将系统调用序列用于Unix系统的异常检测,提出序列延时嵌人(Sequence TimeDelay Enbedding,STIDE)方法以获得系统调用序列的n-grams分词数据库。在检测阶段,通过在数据库中匹配样本序列的n-grams分词来判断样本序列中是否具有异常行为序列片段。该方法成功构建了单一进程的正常行为轮廓,证明了使用系统调用作为异常检测系统数据的可行性。此后,越来越多的研究专注于基于系
13、统调用的异常检测研究,并已经有了一些成果。在传统基于系统调用的异常检测研究中,研究人员往往使用贝叶斯分类器4、SVM5、极限学习机等机器学习模型来作为异常行为与正常行为的分类器。文献6 提出基于语义理论的系统调用异常检测方法。该方法在数据预处理阶段将系统调用序列基于语义理论分割成若干短序列并将高频出现的短序列作为语义单元保存在数据库中,在检测过程中每一个系统调用行为序列都被认为是语义单元的随机组合,以组合成序列的若干语义单元为特征作为极限学习机的输入数据,极限学习机输出异常检测分类结果。该方法在达到10 0%检测准确率的同时,误报率为2 0%,同时此方法在训练阶段花费了数周时间。文献7 提出基
14、于一套基于云环境的异常检测方案,其中使用具有有限记忆的逻辑回归算法作为异常检测判决模型,其优于一般的SVM模型。文献8 提出高级持续性威胁(A d v a n c e d Pe r s i s t e n t T h r e a t,A PT)攻击知识图谱构建框架,运用本体模型构建系统调用知识图谱来实现APT攻击识别。与传统的机器学习算法一样,深度学习算法在基于系统调用的异常检测领域同样应用广泛文献9 使用两个单层长短期记忆网络(LongShort-Term Memory,LST M)和一个双层LSTM作为基学习器构成了基于系统调用的Bagging集成第4期陈仲磊,等力与卷积的系统调用异常检测
15、477学习异常检测模型。该模型在ADFA、U NM、K D D数据集上达到了0.9 2 8 的面积曲线值(AreaUnderCurve,AUC),优于其他的异常检测系统调用模型。为改善循环神经网络从时间维度获取系统调用序列特征的长时记忆消失问题10 ,文献11在LSTM模型中添加注意力机制。先将系统调用数据作去穴余和切割处理以减小系统调用序列长度,然后在模型训练时增加重要系统调用的敏感度,这使得重要系统调用对模型的异常行为判断决策影响更大。该模型在测试集上达到了9 4.2%的检测准确率,优于一般的LSTM异常检测模型。值得一提的是,循环神经网络无法使用图形单元(Graphics Process
16、ing Unit,GPU)来加速模型训练,因此其训练时间一般远超过其他模型。文献2 运用训练速度相对较快的门控循环单元结合卷积网络来作为系统调用异常检测分类模型,在改善以往使用循环神经网络训练时间过长问题的同时对检测准确率稍有提升。文献12 使用LSTM提取系统调用序列时间特征,随后将其输入到Transfomer编码器中以期望模型获取到对于整个系统调用序列的权重信息。此模型虽有效提高了准确率,但是其在原LSTM上增加大量参数,性价比不高。文献13 将系统调用序列用图表示并将其与多个其余特征融合在一起,使用3层全连接网络作为异常分类器。该模型中系统调用序列与图的结合有效提高了异常检测模型的全局特
17、征捕获能力。文献14 使用LSTM预测模型构建系统调用序列正常行为轮廓,所提出模型在容器异常检测中达到较高准确率。除循环神经网络外,文献15 将系统调用序列转为二维形式,使用二维卷积网络提取序列特征。通过上述分析可知,深度学习网络在系统调用异常检测技术中的应用有助于提高异常行为的检测准确率,使用深度学习网络自动提取特征大大减小在数据预处理阶段的工作量。本文提出融合注意力与卷积的系统调用异常检测,在数据预处理阶段使用基于混淆攻击一般规律的数据扩充方式扩充数据并将数据补齐,在模型训练阶段利用注意力机制从全局抓取系统调用序列整体特征,利用卷积网络从局部抓取系统调用短序列语义特征,有效提升了系统调用序
18、列异常行为的检测准确率,同时对于混淆攻击具有防御能力。2融合注意力与卷积的系统调用异常检测总框架为抵御针对系统调用数据的混淆攻击,增强系统调用异常检测效果,本文提出融合注意力与卷积的异常检测模型。模型整体流程如图1所示,主要包括数据预处理、特征选择、异常决策3个部分。在数据预处理阶段,需先将原始数据集中的恶意序列进行扩充,然后将系统调用序列补齐以便深度学习网络抓取数据特征。在特征选择过程中,将使用Word2Vec向量嵌人的系统调用序列使用多头自注意力机制与一维权重卷积网络同时抓取全局与局部特征。将抓取的数据特征依次输人到池化层、全连接层与SoftMax层做出异常决策。混清攻击模拟RawData
19、j序列数据补齐数据生成特征选择Multi-headPositionAttentionEmbeddingWord2VecEmbeddingConv*3异常决策PoolingDenceSoftMaxResult图1融合注意力与卷积的异常检测总体流程3数据预处理3.1混淆攻击数据模拟生成方法混淆是长时期网络攻防中演进出来的概念,其目的是使得对手对于已方攻击手段或者防御手段难以察觉。应用混技术来绕过人侵检测系统已经成为目前黑客攻击的常规手段16 。目前对于系统调用异常检测的混淆攻击,主要有以下两个方面:一是直接针对系统调用轨迹序列的更改操作,即在正常攻击流程中调用大量无关系统调用进行混淆或将易被入侵检
20、测系统捕获的系统调用组合替换为同样功能的常规系统调用组合;二是通过网络人侵攻击修改或新增主机系统调用函数,使得攻击产生的系统调用序列与其对应的程序行为出现较大偏差。本文提出混淆攻击数据模拟生成方法,使得生成的恶意样本与混淆攻击产生的系统调用序列具有相似特性,从而为模型增加对混淆攻击的天然抵抗力20233年478信息工程大学学报基于混淆攻击一般规律,提出如图2 所示3种混淆攻击数据模拟方法:1)通过在数据集恶意样本中加人大量正常轨迹序列片段生成混淆攻击模拟序列;2)通过将数据集恶意样本轨迹随机抽取片段替换为正常序列片段来生成混淆攻击模拟序列;3)通过在恶意样本轨迹中将部分系统调用序列替换或增加未
21、曾出现的系统调用生成混淆攻击模拟序列。通过混淆攻击模拟数据生成方法扩充原数据集恶意样本,解决数据不平衡问题,并使得新生成的数据集中恶意样本具有混淆攻击特征。Abnormal Seq:12,22,32,12,43,44,22,.方式一:原异常序列插人正常序列片段Samplel:12,22,22,33,22,33,32.12,43,44,22.方式一:原异常序列删除部分序列片段Sample2:12,22,32,N2,3,44,22.方式:原异常序列中部分片段与正常序列片段替换Sample3:12,22,22,33,22,33,44,22,.图2 淘混淆攻击数据模拟生成方法3.2基于程序行为特征的数
22、据补齐方式计算机系统在运行程序文件时具有共性。在Windows操作系统上,当一个程序文件被打开并执行时会首先调用“NtOpenKeyEx”、“Nt Q u e r y Va l-ueKey等函数频繁查询注册表,而在程序结束的时候会调用“NtClose”函数。同样的,在类似于Linux的宏内核操作系统上,不同程序运行时仍在系统调用追踪轨迹上存在共性。Linux系统程序执行往往是从调用“execve函数开始的,而以调用exit函数作为结束。程序行为的一般规律是程序在操作系统上执行的开始阶段与结束阶段具有类似的行为轨迹,而恶意行为可能会发生在任意时段。基于此,本文提出基于程序行为特征的数据补齐方法。
23、通过对实际抓取的程序运行时的系统调用追踪序列分段验证,基于大量数据测试的经验总结可以认为程序运行时前1/5时刻为开始阶段,后1/5时刻为程序结束阶段,中间则为程序工作阶段。本文所提数据补齐方式如图3所示,其中maxlen=axl+b,在数据补齐时仍将程序系统调用序列的开始阶段与结束阶段仍保留在序列开头和结尾位置,在中间部分填充完整系统调用序列与程序工作阶段序列将原长度为1的序列补足为数据集中系统调用序列最长长度maxlen。ST.SusS,.,St.Sus+ISSS,15+h4L/5+1a个Seqbseqmaxlen图3基于进程行为特征的数据补齐方式4融合注意力与卷积的网络模型本文所提出应用于
24、系统调用序列特征获取的网络模型如图4所示。首先,将已经补齐过后的系统调用序列用已训练的Word2Vec向量嵌人,经过嵌人长为maxlen的系统调用序列变为maxlenn的矩阵;其次,采用分支结构分别从全局和局部两个方面来获取系统调用语义特征,融合特征向量输入到最大池化层以防止模型过拟合;最后,经过平滑层、全连接层与Softmax层得到分类结果outSoftmaxDenceFlattenpoolingconcatenateSelfAttentionConvConvConvPositionEmbeddingConvolutionEmbeddingOOInput图4融合注意力与卷积的网络模型4.1W
25、ord2Vec词向量嵌入本文使用CBOW模型得到系统调用序列的词嵌人矩阵,CBOW语言模型是利用上下文预测中心词的语言模型,其结构如下所示。上下文系统调用独热编码作为模型的输人,需要预测的系统调用作为输出,设上下文长度为C,系统调用函数个数为n,网络模型的数学表达式为C1hX,Wo(1)CUXni=1u,=g(h,Wl(2)nnXu采用负采样算法生成上下文系统调用与其对应的正例与负例,损失函数应尽可能让正例对应概6陈仲磊,等意力与卷积的系统调用异常检测第4期479率尽量大而负例对应概率尽量小,如式(3)所示:E=-log g(vh)-log(-vu,h)(3)wjeWneg式中:w。代表正例;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 注意力 卷积 系统 调用 异常 检测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。