基于机器学习的网络流量分类综述.pdf
《基于机器学习的网络流量分类综述.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的网络流量分类综述.pdf(8页珍藏版)》请在咨信网上搜索。
1、DOI:10.2023.04.009Journal of InformationEngineeringUniversityAug.20232023年8 月信息Vol.24 No.4程大学学报第2 4卷第4期基于机器学习的网络流量分类综述于治平,刘彩霞,刘树新,李星,王亚辉(信息工程大学,河南郑州450 0 0 1)摘要:网络流量分类对于网络优化、网络安全预警、用户个性化服务等具有重要意义。随着通信和信息技术的发展,传统的基于端口以及深度包检测的分类方法由于私有协议的广泛应用已不能满足需求。基于机器学习的分类算法被应用于流量分类研究,但加密技术为流量分类的特征提取带来一定难度。首先总结了网络流量
2、分类的基本流程;其次分析了分类粒度及其应用场景,并对目前流量分类的主要技术按照监督学习、半监督学习、无监督学习进行了分类研究;最后对网络流量分类技术的发展趋势及面临挑战做了展望,为网络流量分类研究提供一定的参考。关键词:网络流量;机器学习;分类;特征;算法中图分类号:TP393文献标识码:A文章编号:16 7 1-0 6 7 3(2 0 2 3)0 4-0 447-0 7Overview of Network Traffic Classification Based on Machine LearningYU Zhiping,LIU Caixia,LIU Shuxin,LI Xing,WANG
3、 Yahui(Information Engineering University,Zhengzhou 450001,China)Abstract:Network traffic classification is of great significance for network optimization,network se-curity early warning,user personalized service and so on.With the development of communicationand information technology,the tradition
4、al classification methods based on port and deep packet in-spection cannot meet the needs because of the wide application of private protocols.The classificationalgorithm based on machine learning is applied to the research of traffic classification,but the en-cryption technology brings some difficu
5、lties to the feature extraction of traffic classification.First,thebasic process of network traffic classification is summarized.Second,the classification granularityand its application scenarios are analyzed,and the main technologies of traffic classification are clas-sified according to supervised
6、 learning,semi supervised learning and unsupervised learning.Finally,the development trend and challenges of network traffic classification technology are prospected,which provides a certain reference for network traffic analysis and research.Key words:network traffic;machine learning;classification
7、;features;algorithm随着通讯与信息技术的发展,人们的日常生产生活会产生海量通信流量,这些流量与人们的社交、出行、金融等多个方面相关。网络流量分类对于网络服务质量(QualityofService,Q o S)评估、用户行为分析、网络异常流量监测、网络资源调配、网络安全预警等具有重要意义。网络流量分类相关研究已有2 0 年的历史传统的基于端口的和基于载荷的深度包检测每英寸点数(DotsPerInch,D PI)方法已被广泛应用于流量计费、异常流量监测等方面2 。但随着互联网通信技术的发展,特别是通信加密技术、自定义协议、边缘计算等技术的广泛使用,传统的分类方收稿日期:2 0 2
8、 2-0 7-0 5;修回日期:2 0 2 2-0 9-0 8作者简介:于治平(1991-),男,工程师,硕士生,主要研究方向为网络流量分析、异常检测。20233年程大学学报448信息法也正在失效。目前主要的研究方法是利用机器学习或深度学习算法,对流量特征进行学习分类。网络流量的特征包括载荷本身的统计特征、通信行为的关联特征、多维混合特征等。网络流量分类研究应注意把握以下3点:1)数据获取全面,数据须覆盖需要研究分类的全部领域,大多数研究者采用公开的数据集进行研究,也有部分研究者采用私有数据集进行研究。2)模型建立合理,分类模型能够按照分类需求对流量进行正确的分类识别,并且在分类计算效率及准确
9、性上达到应用需求。3)结果满足需要,分类结果可以应用于网络工程实际,能满足用户需求。随着大量加密技术和自定义协议的兴起,网络流量分类还面临以下挑战:1)加密技术的广泛应用使得原本流量的显性特征被掩盖,不利于分类模型的识别3。2)通信技术和物联网的发展致使网络流量激增,大量的未知协议数据给基于先验知识的流量分类带来了挑战4。3)实际应用对于分类算法资源消耗和计算效率有一定的要求5本文对目前流量分类的分类粒度进行了分析,并对当前主要技术按照监督学习、半监督学习、无监督学习进行了分类研究,对网络流量分类技术的发展趋势及挑战做出展望,为网络流量分类研究提供一定的参考。1研究现状网络流量分类的基本原理如
10、图1所示,即从网络流量中,提取分类识别的特征要素,构建合适的分类模型对特征要素进行分类训练,最后在结果满足预期的情况下利用模型对网络流量进行分类。网络流量多维特征集预期结果分类模型图1网络流量分类原理1.1流量分类粒度流量分类结果的粒度,根据分类应用场景由粗到细大致可分为:1)应用集层级,指具有相同或相似功能的应用程序如实时通信应用、文件传输应用等,此分类只对流量进行大致的分类,实际应用采用的较少。2)应用层级,以具体的应用为分类结果,如Facebook、Q Q、T w i t t e r,此分类主要用于流量计费,对于研究的参考价值不大。3)协议层级,以具体的网络协议为分类结果,如http、f
11、 t p、s mt p 等,此分类可作为用户或主机行为判断的依据,具有一定的参考价值,大多数流量分类结果均在此层级上。4)服务层级,以具体的网络服务为分类结果,如下载、聊天、文件传输等,此分类结果可用于对用户或主机行为描述,对于网络资源调配、网络安全预警具有较大的参考价值,但随着网络加密技术的普及,此分类识别难度较大,实际研究中涉及此方面的内容较少。5)行为层级,以用户或者终端的具体行为作为分类结果,如网上购物、交易、获取资讯等,此分类对用户或主机行为进行客观描述,对于网络异常检测、安全预警分析等有直接指导意义,但此分类结果实现难度较大,目前基于网络加密流量对用户行为识别的研究还处于起步阶段,
12、1.2流量分类基本流程基于机器学习的网络流量分类流程如图2 所示。数据清洗是指对数据进行提纯处理,数据预处理是指对数据按照模型需要进行处理,特征提取指从合适的维度提取训练特征,模型分类是指利用有标签或无标签特征对模型进行分类训练,最后对模型进行验证评估。数据清洗数据预处理模型分类特征提取图2流量分类流程图1.2.1数据清洗网络流量数据包含许多“杂质”,例如网络中的重传顿、mac地址、IP地址、端口号等标识信息,以及其他与分类识别无关的心跳、业务调整等数据,这些穴余的信息会影响分类算法的准确性,分类前应当将其去除。常用的处理方法有:1)基于IP源目的地址、IP协议号、源目的端口号五元组将原始流进
13、行分类提取。2)基于传输载荷的提取分于治平各流量分类综述449第4期类,一些业务数据在载荷部分有明显的标识,可根据这些标识位按需提取数据用于后续的分类计算。3)基于主机行为的数据提取,主要是以IP地址或mac地址作为数据提取的依据,这种方法提取的数据主要用于对用户行为描述的研究,也可以用于异常流量监测或低速分布式阻断服务(DistributedDenial of Service,DDoS)行为的发现1.2.2数据预处理数据的预处理需要尽可能地保留数据特征,预处理方法有:1)载荷填充/抽样,指根据选定模型的输人,将数据载荷按照一定规则进行抽取,如文献6 中,为了满足输人卷积神经网络(Convol
14、u-tional Neural Networks,CNN)的输人要求,将流量数据的有效载荷按照7 8 4字节进行标准处理。2)Mask,指遮蔽数据中可能会影响分类结果的要素,例如文献7 中为避免同一流数据中的IP地址、端口等信息对模型训练造成影响,对上述信息进行屏蔽。3)Embedding嵌入,指将提取待训练的数据特征嵌人到一个特征向量空间中,以便于更好地进行聚类分析,例如文献8 利用Embeding方法对数据进行预处理,用于后续自动编码分类处理1.2.3特征提取特征提取是分类算法成功的关键,常用的特征提取方法有:1)字节特征,是指载荷或者报头数据的字节信息,在实际处理过程中一般对字节采用归一
15、化处理,以便模型训练结果的普遍适用。文献9对载荷数据的字节流做归一化处理后使用一维CNN模型进行分类训练。2)统计特征,是指流量的常规统计特征,包括包长度、包均值、包到达时间、包持续时间、连接次数等。文献10 提出了一种基于层次结构窗口从多个角度提取用户流量特征信息,实现对数据行为的多角度特征提取1.2.4模型分类1)基本模型。研究者们对于流量特征的处理大多分为独立特征、关联特征,其中具有代表性的模型分别为CNN与长短期记忆(Long Short-Term Memory,LSTM)网络。CNN通常包含若干卷积层、池化层、全连接层等,对输入数据的特征提取分类训练,最终实现特定的识别分类功能。CN
16、N模型基本结构如图3所示。CNN网络搭建比较简单,训练速度相对较快,但是对于序列中关联信息识别能力较差,该模型适合对关联性较差的离散数据进行分类训练。在对网络流量分类处理中一维CNN比二维CNN效果更好,实际应用范围也更广泛特征图1特征图2特征图3全连接层输人输出卷积核特征提取分类输出图3卷积神经网络图LSTM是递归神经网络(Recurrent Neural Net-work,RNN)的一种改进模型,它可以学习长期相关信息,具有长时记忆功能,在处理相关数据上有一定优势。该模型解决了处理相关数据过程中可能存在的梯度消失和梯度爆炸的问题。图4为LSTM模型基本单元结构。HHH+CtanhaTata
17、nho图4LSTM神经网络结构图LSTM网络在训练时会使用之前时刻的信息,可解决CNN模型对时间相关性不敏感的问题,可对流量的通联行为进行一定的关联分析。此外,还有一些机器学习模型被用于流量分类,例如支持向量机(SupportVectorMachine,SVM)、随机森林(RandomForest,RF)、K 近邻(K-Nearest Neighbor,KNN)等算法。2)混合模型。混合模型是指利用多个模型并行或串行对特征进行处理,其优点是可综合利用多个模型的优势,缺点是模型构建复杂且训练效率较低,文献11 使用了CNN-LSTM混合模型,不仅可以利用CNN的卷积层学习处理高维数据特征,还使用
18、LSTM挖掘数据中的时序关联信息。该模型基本实现了对具体应用的服务层级的分类,具有一定的参考价值。文献12 中将CNN与门控循环神经网络(GatedRecurrentUnit,G R U)混合使用,在CNN模型的基础上,能够更好地捕捉时序数据中间隔较大的依赖关系,在与其他基本模型的对20233年450信息工程大学学报比实验中较好地实现了对协议层级的分类。3)其他模型。文献13 提出了一种基于欧几里得距离的多尺度模糊熵(EDM-Fuzzy)算法,根据流量的序列特征,对僵尸网络流量、DDoS流量等异常流量进行了分析,但文中对于数据的处理流程、特征提取方式未详细说明。文献14 提出了一种堆叠编码(S
19、t a c k e d A u t o-En c o d e r m,SA E)无监督训练分类框架,并在tor网络协议识别上取得了比CNN更好的结果。文献15 利用Transformer中的编解码技术提出了一种对加密流量的弱监督分类方法,并对多个数据集进行了分类对比实验,但是没有给出具体分类结果,只对总体结果进行了评价分析。文献16利用卷积自动编码技术(Convolutional Auto-Encode,CAE)将提取到的特征信息编码到低维度空间,然后将其解码回来,从而得到原始数据的隐藏结构特征,实现了对流量的半监督学习分类。2基于机器学习的流量分类综述目前对于网络流量分类研究主要是基于机器学
20、习或深度学习算法,大致可分为监督学习、半监督学习和无监督学习。研究者们大多从特征的提取处理以及模型的混合使用方面做研究,对流量分类结果的粒度研究大多停留在协议层级、少数达到服务层级。对加密流量的研究,大多在应用层级和协议层级,对服务层级和用户行为的研究涉及较少2.1监督学习监督学习是指提供一组数据和其对应的标签,然后搭建模型,让模型通过训练准确找到输入数据和标签之间的最优映射关系。文献9 利用ISCX公开数据集对一维CNN模型进行监督训练,以流数据的字节信息作为模型的输入,省去了特征提取处理环节,通过对比实验说明CNN模型确实可对部分加密流量进行分类处理,但该文献对加密流量的分类识别结果还只停
21、留在协议层级。文献17 对输人字节流加人自注意力机制,再对一维CNN模型进行分类训练,利用WIDE、U NIBS、ISCX3个数据集分类从协议层级、应用层级、流量类型3个层次对流量进行分类,该文中的流量类型实际上是粗略的行为划分。监督学习是机器学习最常见的一种方法,在流量分类研究中,通常以端口号或专家标记为数据样本的标签依据,难以大规模应用。2.2半监督学习为解决监督学习需要大量标签数据的难题,半监督学习也被广泛应用于流量分类的研究,半监督学习利用少量标记数据来进行识别工作,在流量分类识别中,研究者们大多采用生成对抗网络(Gen-erative Adversarial Networks,GAN
22、)的思想来对少量的标签数据进行处理文献18 修改GAN的发生器和鉴别器损失函数,使其可对无标记样本进行半监督学习,再通过CNN实现了利用少量标签数据对ISCX和USTC数据集加密流量的应用层级分类,在结果准确性上与监督学习的CNN不相上下。文献19对少量的标签数据添加随机噪声并利用反卷积与卷积层生成大量伪标签数据,再使用CNN作为鉴别分类器,对ISCX数据集进行了协议层级的分类实验,具有较好的分类性能。半监督学习可以利用少量的标记数据对大量的数据进行学习分类,使流量分类具备一定的可行性,但是其仍要依托一定的标签数据2.3无监督学习为解决分类学习中的人工干预问题,无监督学习方法被应用于网络流量分
23、类。无监督学习是指利用没有任何标签的数据对模型进行训练。文献10 中利用层次窗口对数据提取行为特征,再利用K-Means等机器学习算法进行聚类分析,最后实现了对这些行为特征的无监督聚类。其将行为划分为交互式、数据传输、网页浏览、视频回放和空闲行为,实现了对模拟仿真数据的用户行为粗略识别,但是对于加密流量的分类识别并未提及。文献16 利用CAE在无监督特征提取和数据降维方面的优势,结合监督分类学习技术,实现了对ISCX数据集中虚拟专网(VirtualPrivateNet-work,VPN)和非VPN流量的准确识别。但对于加密流量的识别粒度还停留在应用层级别,其利用卷积自动编码来提取流量的隐含特征
24、值得参考借鉴。文献15 使用Transformer中的编解码模型对数据进行预训练,从大规模的未标记数据中预训练出数据上下文关系的向量表示,然后对少量的特定标记数据进行简单微调,最后实现了对ISCX加密流量的应用层级和部分协议层的分类。流量分类的无监督学习主要用到聚类与自编码的技术,算法实现的难度在于对流量的特征提于治日的网络流量分类综述平第4期451取。无监督学习无需大量标签数据,便于实际的部署应用,但是目前无监督学习的准确率及分类效率都有待提高,分类粒度大多还处于应用层级和协议层级。表1罗列了一些在流量分类中可能会使用的算法及基本描述。表1分类算法对比核心算法描述优势劣势适用范围包括卷积层、
25、非线性激活、池化能够处理高维数据;自动提取忽略局部与整体间关联;易收CNN监督学习层和全连接层特征;训练速度快敛于局部最小值对时间相关性敏感,便于提取存在梯度爆炸、梯度弥散等问RNN对序列数据建模的深度模型监督学习相关特征题,训练时间较长可执行线性、非线性分类、回归可处理高维特征问题;无需依SVM效率低;对缺失数据敏感监督学习及异常值检测问题赖整个数据能处理高维数据;训练速度监督学习/RF由多个决策树的分类器组成对于低维数据效果不好快;实现简单无监督学习计算训练样本和测试样本中每计算量大速度慢;不能处理多KNN可做分类也可做回归无监督学习个样本点的距离进行分类特征的问题朴素贝叶斯分类效率稳定;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 网络流量 分类 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。