基于集成学习策略的网络恶意流量检测技术研究_高源辰.pdf
《基于集成学习策略的网络恶意流量检测技术研究_高源辰.pdf》由会员分享,可在线阅读,更多相关《基于集成学习策略的网络恶意流量检测技术研究_高源辰.pdf(9页珍藏版)》请在咨信网上搜索。
1、730|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023DOI:10.12379/j.issn.2096-1057.2023.08.03 收稿日期:2 0 2 3-0 7-0 1 基金项目:国家重点研发计划项目(2 0 2 1 Y F B 3 1 0 1 5 0 0)通信作者:徐国胜(g u o s h e n g x u b u p t.e d u.c n)引用格式:高源辰,徐国胜.基于集成学习策略的网络恶意流量检测技术研究J.信息安全研究,2 0 2 3,
2、9(8):7 3 07 3 8基于集成学习策略的网络恶意流量检测技术研究高源辰 徐国胜(北京邮电大学国际学院 北京 1 0 0 8 7 6)(北京邮电大学网络空间安全学院 北京 1 0 0 8 7 6)(1 9 8 0 5 1 2 1 9 8b u p t.e d u.c n)R e s e a r c ho nN e t w o r kM a l i c i o u sT r a f f i cD e t e c t i o nT e c h n o l o g yB a s e do nE n s e m b l eL e a r n i n gS t r a t e g yG a oY
3、u a n c h e na n dX uG u o s h e n g(I n t e r n a t i o n a lS c h o o l,B e i j i n gU n i v e r s i t yo fP o s t sa n dT e l e c o mm u n i c a t i o n s,B e i j i n g1 0 0 8 7 6)(S c h o o l o fC y b e r s p a c eS e c u r i t y,B e i j i n gU n i v e r s i t yo fP o s t sa n dT e l e c o mm u
4、n i c a t i o n s,B e i j i n g1 0 0 8 7 6)A b s t r a c t N e t w o r k t r a f f i c i s t h em a i nc a r r i e r o f n e t w o r ka t t a c k s,a n d t h e i d e n t i f i c a t i o na n da n a l y s i so fm a l i c i o u s t r a f f i c i s a n i m p o r t a n tm e a n s t oe n s u r en e t w o
5、 r ks e c u r i t y.M a c h i n e l e a r n i n gm e t h o dh a sb e e nw i d e l yu s e d i nm a l i c i o u s t r a f f i c i d e n t i f i c a t i o n,w h i c hc a na c h i e v eh i g hp r e c i s i o n i d e n t i f i c a t i o n.I nt h ee x i s t i n gm e t h o d s,t h ef u s i o nm o d e l i s
6、m o r ea c c u r a t et h a nt h es i n g l es t a t i s t i c a lm o d e l,b u tt h ed e p t ho fn e t w o r kb e h a v i o rm i n i n gi si n s u f f i c i e n t.T h i sp a p e rp r o p o s e sas t a c k i n gm o d e lt h a ti d e n t i f i e sm u l t i-l e v e ln e t w o r kf e a t u r e sa n di
7、sM u l t i-S t a c k i n gf o rm a l i c i o u st r a f f i c.I te m p l o y st h en e t w o r kb e h a v i o rp a t t e r n so fn e t w o r kt r a f f i ci nd i f f e r e n ts e s s i o ng r a n u l a r i t ya n dc o m b i n e st h er o b u s t f i t t i n gc a p a b i l i t yo f t h es t a c k i n
8、 gm o d e l f o rm u l t i-d i m e n s i o n a ld a t at od e e p l yh e a pm a l i c i o u sn e t w o r kb e h a v i o r s.B y v e r i f y i n gt h ed e t e c t i o nc a p a b i l i t i e so f m u l t i p l ef u s i o n m o d e l so nt h eC I C I D S 2 0 1 7a n dC I C I D S 2 0 1 8d a t a s e t s,v
9、 a r i o u sd e t e c t i o nm e t h o d sa r ec o m p r e h e n s i v e l yq u a n t i f i e da n dc o m p a r e d,a n dt h e p e r f o r m a n c e o f M u l t i-S t a c k i n g d e t e c t i o n m e t h o d si n M u l t i-S t a c k i n gs c e n a r i o s i sd e e p l ya n a l y z e d.T h ee x p e
10、r i m e n t a lr e s u l t ss h o wt h a tt h em a l i c i o u st r a f f i cd e t e c t i o nm e t h o db a s e do nm u l t i-l e v e l s t a c k i n gc a nf u r t h e r i m p r o v e t h ed e t e c t i o na c c u r a c y.K e yw o r d s m a l i c i o u sd e t e c t i o n;t r a f f i ca n a l y s i
11、s;e n s e m b l em e t h o d s;s t a c k i n gm o d e l;m u l t i-l e v e lf e a t u r e s摘 要 网络流量是网络攻击的主要载体,对恶意流量识别与分析是保障网络安全的重要手段.机器学习方法已广泛应用于恶意流量识别,能实现较高精度的识别.在现有的方法中,融合模型较单一统计模型更准确,但对网络行为的挖掘深度不足.提出一种面向恶意流量识别的多层次网络特征的堆叠模型M u l t i-S t a c k i n g,利用网络流量在不同会话粒度的网络行为模式,结合堆叠模型对于多维数据的鲁棒拟合能力,深度挖掘恶意网络行
12、为.通过在C I C I D S 2 0 1 7和C I C I D S 2 0 1 8数据集上验证多种 网址 http:/|731学 术 论 文Research Papers融合模型的检测能力,综合量化比较各种检测方法,深入分析了M u l t i-S t a c k i n g检测方法在多类型攻击流量识别场景中的表现.实验结果表明,基于多层次堆叠的恶意流量检测方法可以进一步提升检测精度.关键词 恶意识别;流量分析;集成方法;堆叠模型;多层次特征中图法分类号 T P 3 0 6+.21 研究背景在信息技术进步和数字经济发展驱动下,互联网络系统不仅改变了通信方式,也影响了日常生活.然而,拒绝服
13、务、恶意代码等网络攻击也随之增加,对经济和社会稳定构成威胁.为了应对网络攻击,网络流量安全分析技术受到广泛关注,它有助于管理员进行流量统计及用户行为分析,识别并防止恶意流量的传播.现有恶意流量检测研究主要包括基于签名和机器学习的方法.前者依靠规则匹配检测恶意流量,但需手动更新规则,难以适应变化攻防场景1-2.后者用机器学习模型训练和检测流量,但单模型可能存在偏离3-5.集成学习策略可融合多模型,减少分类边界偏差,增强性能稳定性,提高恶意流量识别精度6-7.随着深度学习的发展,当前有多个研究围绕深度学习在恶意流量检测领域的应用展开工作.例如:文献8 针对S D N环境的D D o S攻击,提出基
14、于B a g g i n g的多模型融合方法;文献9 提出一种基于深度神经网络、极限梯度提升(X G B o o s t)和随机森林(r a n d o mf o r e s t)的3阶段攻击检测法,在不同数据集上实现了高准确率;文献1 0 采用启发式设计和B a g g i n g方法实现了特征降维和类型判断,在较少的特征基础上实现较高的准确率;文献1 1 结合B o o s t i n g和B a g g i n g方法,达到高准确率和低误报率;文献1 2 提出一种融合多种深度学习技术的HT T P恶意流量检测方法,通过C NN和L S TM提取数据包的空间特征和时序特征,并用全连接模块进
15、行分类,实现了高准确率;文献1 3 提出基于S S L证书和深度学习的恶意流量检测法,验证结果显示,该方法对恶意软件证书和钓鱼证书分别具有高准确率.综上可知,通过机器学习提取更多特征向量可以提高恶意网络行为的检测精确度,验证了机器学习算法的有效性.2 研究基础本文首先针对恶意流量识别的集成学习方法进行了统一范式化框架设计,整合了基于融合模型的恶意流量识别方法从原始数据到量化评估的完整实现过程,通过对各阶段研究基础的分析完善框架,使其更加适用于不同类型恶意流量识别和性能评估的场景,整体结构如图1所示.该框架包括数据和特征层、推断和学习层以及应用和评估层,分别对应流量会话包数据的处理与整形、流量行
16、为模式的推断与学习以及模型预测结果量化评估.2.1 数据处理与整形为提升检测精度,减少运行时间,本文进行了符号特征数值化和数据归一化处理与整形.使用o n e-h o t编码器将符号数据转换为数字数据,通过o n e-h o t编码对所有符号特征进行映射.采用M i n-M a x归一化方法对2个数据集中的数值进行归一化处理,将所有特征数据缩小到0,1 范围内.2.2 恶意流量预测结果评估现有衡量恶意流量检测的性能在特殊场景下的攻击检测任务中可能存在问题.这些常规度量指标试图从训练数据推断出的参数来估计测试数据的搁置情况,但并不是衡量恶意流量检测性能的最佳指标.为了提供更好地评估效果,本文采用
17、分类性能、模型波动性和结果可视化等多个方面的量化评估指标,评估所有集成检测模型的优劣.3 M u l t i-S t a c k i n g方法论述3.1 方法概述M u l t i-S t a c k i n g方法基于多层次网络行为特征与堆叠模型,实现了恶意流量检测,如图2所示.在多层次网络行为特征提取中,生成3个层732|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023图1 恶意流量识别场景下的集成学习框架图2 基于多层级网络特征的堆叠恶意流量检测方法次
18、的特征:子流层次、流层次和主机层次.多层次的特征是基于多层次的数据包序列产生的,每个层次中的数据包序列都表示了该层次中的1个会话.一般来说,细粒度的通信包序列是粗粒度通信包序列的1个子集.在数据包序列的基础上对数据包的属性进行统计从而得到具体会话流的特征.在堆叠模型构建中,采用基于堆叠模型的方法,首先随机组合多层次特征并训练多个基分类器,使其学习不同组合层次的相互影响.然后,设计第2层分类器,将多个基分类器的输出作为输入,深度挖掘不同层次与第1层分类器之间的关系,从而实现有效的恶意流量检测.3.2 多层次网络行为特征提取3.2.1 提取数据包统计信息为了避免内存消耗和崩溃风险,本文选择提取数据
19、包的基础信息而非全部报文信息.由于大多数加密流量只能解析传输层,传输层协议字段提供的是较少的传输内容线索和网络控制细节1 4,网址 http:/|733学 术 论 文Research Papers数据包的统计数据比协议细节更稳健.统计数据从多个层次测量网络行为,揭示应用程序通信内容的痕迹.其中5个最有价值的统计数据元素如表1所示:表1 数据包统计信息属性描述T L全部长度HL头部长度P L有效载荷长度R T相对时间O D序号3.2.2 网络行为层次根据聚合粒度的不同,网络会话可以划分为基于事件、基于通信进程和基于主机的会话.通过对不同层次的网络会话信息进行统计,提取会话子流层次、会话流层次和主
20、机层次的特征,可以捕获更准确的网络行为.会话子流层次描述了事件层次的会话行为,通信进程通常是基于事件产生会话消息,在大多数的时间保持沉默.因此,在五元组信息的基础上,可以根据通信时的活跃和静默将会话流划分为活动会话子流和静默会话子流.会话流层次描述了通信进程层次的会话行为.网络通信是进程与进程之间的消息传递,基于五元组信息可以将数据包归纳到1个单一的会话流.主机流层次描述了主机的会话行为,如图3所示.2个主机之间会产生多个会话流,因此,引入主机流层次的特征可以捕获更粗粒度的网络行为.图3 数据包统计的分布过程3.2.3 特征生成特征是基于会话包序列实例生成的.每个会话包序列实例维护一个数据包统
21、计序列来描述通信行为.为了捕捉通信行为的差异,需要计算序列统计量以生成特征(如表2所示).在生成特征后需要对齐不同级别的特征.对齐的粒度可以由流量的判定粒度决定,在本文中,判定粒度设定为会话流粒度,使用会话流统计数据作为基本特征,并将其他级别的统计数据在会话流上对齐,构成完整的多层次特征.表2 序列统计信息属性描述PKT数据包数量S UM总和统计M e a n均值统计M a x最大值值统计M i n最小值统计3.3 堆叠模型构建本文使用多层次特征和集成学习技术设计了2层分类器,以实现对恶意流量的准确检测.第1层分类器是由5个基分类器组成,每个基分类器应用不同的特征组合进行训练,进行差异化的恶意
22、网络行为学习.第2层分类器将第1层分类器的输出作为输入,并进一步挖掘基分类器及不同层次特征之间的相互影响,并输出最终的检测结果.3.3.1 基分类器构建基分类器构建利用直接特征实现基于网络行为的多层次差异化学习.首先,通过组合3个层次的特征,以会话流层次为主,筛选会话子流和主机流特征构成新的特征集合.这样构建的新数据集可以容纳不同侧重的信息,提升分辨准确性,同时减少数据特征维度,提高模型训练效率.其次,采用C A R T决策树作为基本模型,并使用相同参数进行配置.利用上述生成的差异化特征集合对模型进行训练.由于不同层次的特征相互影响,通过多个基分类器充分学习这些相互影响,可以显著提高恶意流量的
23、检测性能.3.3.2 堆叠分类器构建堆叠分类器构建的目的是进行模型预测结果的准确性学习.其原理是通过对基分类器分类效果的判断,识别准确的基分类器和误差较大的基分类器,并在此基础上进行2次学习和预测.该算法能有效克服每个基分类器的局限性,并提高整体的检测性能.逻辑回归模型的训练目标是最小化交叉熵损失函数,并通过随机梯度下降获得最佳的权重.逻辑回归是一种常见的分类算法,其使用一组权重来线性组合特征,并使用s i g m o i d函数将线734|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.
24、9 No.8 Aug.2023性组合的结果映射成一个取值为0,1 之间的概率.本文采用逻辑回归作为堆叠分类器,将所有基模型的输出结果作为逻辑回归模型的输入,以实现对恶意流量的准确检测.4 实验及结果本节基于2个恶意网络流量数据集、2种特征类型以及多种融合学习模型方法设计实验并进行对比分析.4.1 数据集本文选取C I C I D S 2 0 1 7及C I C I D S 2 0 1 8数据集1 5进行实验.除攻击流量之外,制作者同样模拟了正常行为的流量作为背景流量.由于这2个数据集包含较多的攻击行为,质量较高,被较多研究使用,因此本文选取这2个数据集对集成方法进行评价.4.2 评价指标恶意流
25、量检测可视为分类过程,常用的评价指标有准确率(A C C)、精确率(P R)、召回率(R C)和F1值等,这些评价指标大多依赖于混淆矩阵.混淆矩阵是使用矩阵的形式将算法性能的效果进行可视化展现.表3示出混淆矩阵4个参数的具体分布情况:表3 混淆矩阵实际预测正常攻击正常TNF P攻击FNT P 此外,本文还通过定量模型波动方差值的大小判定模型优劣,即模型方差越小模型稳定性越好.4.3 实验设定本文引入了3种集成模型进行比较:B a g g i n g,B o o s t i n g,S t a c k i n g.为避免不同基类模型集成造成的差异,上述集成模型都采用C A R T回归树作为基模型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 集成 学习 策略 网络 恶意 流量 检测 技术研究 高源辰
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。