欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于机器学习的网络流量分类综述.pdf

    • 资源ID:639494       资源大小:5.88MB        全文页数:8页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于机器学习的网络流量分类综述.pdf

    1、DOI:10.2023.04.009Journal of InformationEngineeringUniversityAug.20232023年8 月信息Vol.24 No.4程大学学报第2 4卷第4期基于机器学习的网络流量分类综述于治平,刘彩霞,刘树新,李星,王亚辉(信息工程大学,河南郑州450 0 0 1)摘要:网络流量分类对于网络优化、网络安全预警、用户个性化服务等具有重要意义。随着通信和信息技术的发展,传统的基于端口以及深度包检测的分类方法由于私有协议的广泛应用已不能满足需求。基于机器学习的分类算法被应用于流量分类研究,但加密技术为流量分类的特征提取带来一定难度。首先总结了网络流量

    2、分类的基本流程;其次分析了分类粒度及其应用场景,并对目前流量分类的主要技术按照监督学习、半监督学习、无监督学习进行了分类研究;最后对网络流量分类技术的发展趋势及面临挑战做了展望,为网络流量分类研究提供一定的参考。关键词:网络流量;机器学习;分类;特征;算法中图分类号:TP393文献标识码:A文章编号:16 7 1-0 6 7 3(2 0 2 3)0 4-0 447-0 7Overview of Network Traffic Classification Based on Machine LearningYU Zhiping,LIU Caixia,LIU Shuxin,LI Xing,WANG

    3、 Yahui(Information Engineering University,Zhengzhou 450001,China)Abstract:Network traffic classification is of great significance for network optimization,network se-curity early warning,user personalized service and so on.With the development of communicationand information technology,the tradition

    4、al classification methods based on port and deep packet in-spection cannot meet the needs because of the wide application of private protocols.The classificationalgorithm based on machine learning is applied to the research of traffic classification,but the en-cryption technology brings some difficu

    5、lties to the feature extraction of traffic classification.First,thebasic process of network traffic classification is summarized.Second,the classification granularityand its application scenarios are analyzed,and the main technologies of traffic classification are clas-sified according to supervised

    6、 learning,semi supervised learning and unsupervised learning.Finally,the development trend and challenges of network traffic classification technology are prospected,which provides a certain reference for network traffic analysis and research.Key words:network traffic;machine learning;classification

    7、;features;algorithm随着通讯与信息技术的发展,人们的日常生产生活会产生海量通信流量,这些流量与人们的社交、出行、金融等多个方面相关。网络流量分类对于网络服务质量(QualityofService,Q o S)评估、用户行为分析、网络异常流量监测、网络资源调配、网络安全预警等具有重要意义。网络流量分类相关研究已有2 0 年的历史传统的基于端口的和基于载荷的深度包检测每英寸点数(DotsPerInch,D PI)方法已被广泛应用于流量计费、异常流量监测等方面2 。但随着互联网通信技术的发展,特别是通信加密技术、自定义协议、边缘计算等技术的广泛使用,传统的分类方收稿日期:2 0 2

    8、 2-0 7-0 5;修回日期:2 0 2 2-0 9-0 8作者简介:于治平(1991-),男,工程师,硕士生,主要研究方向为网络流量分析、异常检测。20233年程大学学报448信息法也正在失效。目前主要的研究方法是利用机器学习或深度学习算法,对流量特征进行学习分类。网络流量的特征包括载荷本身的统计特征、通信行为的关联特征、多维混合特征等。网络流量分类研究应注意把握以下3点:1)数据获取全面,数据须覆盖需要研究分类的全部领域,大多数研究者采用公开的数据集进行研究,也有部分研究者采用私有数据集进行研究。2)模型建立合理,分类模型能够按照分类需求对流量进行正确的分类识别,并且在分类计算效率及准确

    9、性上达到应用需求。3)结果满足需要,分类结果可以应用于网络工程实际,能满足用户需求。随着大量加密技术和自定义协议的兴起,网络流量分类还面临以下挑战:1)加密技术的广泛应用使得原本流量的显性特征被掩盖,不利于分类模型的识别3。2)通信技术和物联网的发展致使网络流量激增,大量的未知协议数据给基于先验知识的流量分类带来了挑战4。3)实际应用对于分类算法资源消耗和计算效率有一定的要求5本文对目前流量分类的分类粒度进行了分析,并对当前主要技术按照监督学习、半监督学习、无监督学习进行了分类研究,对网络流量分类技术的发展趋势及挑战做出展望,为网络流量分类研究提供一定的参考。1研究现状网络流量分类的基本原理如

    10、图1所示,即从网络流量中,提取分类识别的特征要素,构建合适的分类模型对特征要素进行分类训练,最后在结果满足预期的情况下利用模型对网络流量进行分类。网络流量多维特征集预期结果分类模型图1网络流量分类原理1.1流量分类粒度流量分类结果的粒度,根据分类应用场景由粗到细大致可分为:1)应用集层级,指具有相同或相似功能的应用程序如实时通信应用、文件传输应用等,此分类只对流量进行大致的分类,实际应用采用的较少。2)应用层级,以具体的应用为分类结果,如Facebook、Q Q、T w i t t e r,此分类主要用于流量计费,对于研究的参考价值不大。3)协议层级,以具体的网络协议为分类结果,如http、f

    11、 t p、s mt p 等,此分类可作为用户或主机行为判断的依据,具有一定的参考价值,大多数流量分类结果均在此层级上。4)服务层级,以具体的网络服务为分类结果,如下载、聊天、文件传输等,此分类结果可用于对用户或主机行为描述,对于网络资源调配、网络安全预警具有较大的参考价值,但随着网络加密技术的普及,此分类识别难度较大,实际研究中涉及此方面的内容较少。5)行为层级,以用户或者终端的具体行为作为分类结果,如网上购物、交易、获取资讯等,此分类对用户或主机行为进行客观描述,对于网络异常检测、安全预警分析等有直接指导意义,但此分类结果实现难度较大,目前基于网络加密流量对用户行为识别的研究还处于起步阶段,

    12、1.2流量分类基本流程基于机器学习的网络流量分类流程如图2 所示。数据清洗是指对数据进行提纯处理,数据预处理是指对数据按照模型需要进行处理,特征提取指从合适的维度提取训练特征,模型分类是指利用有标签或无标签特征对模型进行分类训练,最后对模型进行验证评估。数据清洗数据预处理模型分类特征提取图2流量分类流程图1.2.1数据清洗网络流量数据包含许多“杂质”,例如网络中的重传顿、mac地址、IP地址、端口号等标识信息,以及其他与分类识别无关的心跳、业务调整等数据,这些穴余的信息会影响分类算法的准确性,分类前应当将其去除。常用的处理方法有:1)基于IP源目的地址、IP协议号、源目的端口号五元组将原始流进

    13、行分类提取。2)基于传输载荷的提取分于治平各流量分类综述449第4期类,一些业务数据在载荷部分有明显的标识,可根据这些标识位按需提取数据用于后续的分类计算。3)基于主机行为的数据提取,主要是以IP地址或mac地址作为数据提取的依据,这种方法提取的数据主要用于对用户行为描述的研究,也可以用于异常流量监测或低速分布式阻断服务(DistributedDenial of Service,DDoS)行为的发现1.2.2数据预处理数据的预处理需要尽可能地保留数据特征,预处理方法有:1)载荷填充/抽样,指根据选定模型的输人,将数据载荷按照一定规则进行抽取,如文献6 中,为了满足输人卷积神经网络(Convol

    14、u-tional Neural Networks,CNN)的输人要求,将流量数据的有效载荷按照7 8 4字节进行标准处理。2)Mask,指遮蔽数据中可能会影响分类结果的要素,例如文献7 中为避免同一流数据中的IP地址、端口等信息对模型训练造成影响,对上述信息进行屏蔽。3)Embedding嵌入,指将提取待训练的数据特征嵌人到一个特征向量空间中,以便于更好地进行聚类分析,例如文献8 利用Embeding方法对数据进行预处理,用于后续自动编码分类处理1.2.3特征提取特征提取是分类算法成功的关键,常用的特征提取方法有:1)字节特征,是指载荷或者报头数据的字节信息,在实际处理过程中一般对字节采用归一

    15、化处理,以便模型训练结果的普遍适用。文献9对载荷数据的字节流做归一化处理后使用一维CNN模型进行分类训练。2)统计特征,是指流量的常规统计特征,包括包长度、包均值、包到达时间、包持续时间、连接次数等。文献10 提出了一种基于层次结构窗口从多个角度提取用户流量特征信息,实现对数据行为的多角度特征提取1.2.4模型分类1)基本模型。研究者们对于流量特征的处理大多分为独立特征、关联特征,其中具有代表性的模型分别为CNN与长短期记忆(Long Short-Term Memory,LSTM)网络。CNN通常包含若干卷积层、池化层、全连接层等,对输入数据的特征提取分类训练,最终实现特定的识别分类功能。CN

    16、N模型基本结构如图3所示。CNN网络搭建比较简单,训练速度相对较快,但是对于序列中关联信息识别能力较差,该模型适合对关联性较差的离散数据进行分类训练。在对网络流量分类处理中一维CNN比二维CNN效果更好,实际应用范围也更广泛特征图1特征图2特征图3全连接层输人输出卷积核特征提取分类输出图3卷积神经网络图LSTM是递归神经网络(Recurrent Neural Net-work,RNN)的一种改进模型,它可以学习长期相关信息,具有长时记忆功能,在处理相关数据上有一定优势。该模型解决了处理相关数据过程中可能存在的梯度消失和梯度爆炸的问题。图4为LSTM模型基本单元结构。HHH+CtanhaTata

    17、nho图4LSTM神经网络结构图LSTM网络在训练时会使用之前时刻的信息,可解决CNN模型对时间相关性不敏感的问题,可对流量的通联行为进行一定的关联分析。此外,还有一些机器学习模型被用于流量分类,例如支持向量机(SupportVectorMachine,SVM)、随机森林(RandomForest,RF)、K 近邻(K-Nearest Neighbor,KNN)等算法。2)混合模型。混合模型是指利用多个模型并行或串行对特征进行处理,其优点是可综合利用多个模型的优势,缺点是模型构建复杂且训练效率较低,文献11 使用了CNN-LSTM混合模型,不仅可以利用CNN的卷积层学习处理高维数据特征,还使用

    18、LSTM挖掘数据中的时序关联信息。该模型基本实现了对具体应用的服务层级的分类,具有一定的参考价值。文献12 中将CNN与门控循环神经网络(GatedRecurrentUnit,G R U)混合使用,在CNN模型的基础上,能够更好地捕捉时序数据中间隔较大的依赖关系,在与其他基本模型的对20233年450信息工程大学学报比实验中较好地实现了对协议层级的分类。3)其他模型。文献13 提出了一种基于欧几里得距离的多尺度模糊熵(EDM-Fuzzy)算法,根据流量的序列特征,对僵尸网络流量、DDoS流量等异常流量进行了分析,但文中对于数据的处理流程、特征提取方式未详细说明。文献14 提出了一种堆叠编码(S

    19、t a c k e d A u t o-En c o d e r m,SA E)无监督训练分类框架,并在tor网络协议识别上取得了比CNN更好的结果。文献15 利用Transformer中的编解码技术提出了一种对加密流量的弱监督分类方法,并对多个数据集进行了分类对比实验,但是没有给出具体分类结果,只对总体结果进行了评价分析。文献16利用卷积自动编码技术(Convolutional Auto-Encode,CAE)将提取到的特征信息编码到低维度空间,然后将其解码回来,从而得到原始数据的隐藏结构特征,实现了对流量的半监督学习分类。2基于机器学习的流量分类综述目前对于网络流量分类研究主要是基于机器学

    20、习或深度学习算法,大致可分为监督学习、半监督学习和无监督学习。研究者们大多从特征的提取处理以及模型的混合使用方面做研究,对流量分类结果的粒度研究大多停留在协议层级、少数达到服务层级。对加密流量的研究,大多在应用层级和协议层级,对服务层级和用户行为的研究涉及较少2.1监督学习监督学习是指提供一组数据和其对应的标签,然后搭建模型,让模型通过训练准确找到输入数据和标签之间的最优映射关系。文献9 利用ISCX公开数据集对一维CNN模型进行监督训练,以流数据的字节信息作为模型的输入,省去了特征提取处理环节,通过对比实验说明CNN模型确实可对部分加密流量进行分类处理,但该文献对加密流量的分类识别结果还只停

    21、留在协议层级。文献17 对输人字节流加人自注意力机制,再对一维CNN模型进行分类训练,利用WIDE、U NIBS、ISCX3个数据集分类从协议层级、应用层级、流量类型3个层次对流量进行分类,该文中的流量类型实际上是粗略的行为划分。监督学习是机器学习最常见的一种方法,在流量分类研究中,通常以端口号或专家标记为数据样本的标签依据,难以大规模应用。2.2半监督学习为解决监督学习需要大量标签数据的难题,半监督学习也被广泛应用于流量分类的研究,半监督学习利用少量标记数据来进行识别工作,在流量分类识别中,研究者们大多采用生成对抗网络(Gen-erative Adversarial Networks,GAN

    22、)的思想来对少量的标签数据进行处理文献18 修改GAN的发生器和鉴别器损失函数,使其可对无标记样本进行半监督学习,再通过CNN实现了利用少量标签数据对ISCX和USTC数据集加密流量的应用层级分类,在结果准确性上与监督学习的CNN不相上下。文献19对少量的标签数据添加随机噪声并利用反卷积与卷积层生成大量伪标签数据,再使用CNN作为鉴别分类器,对ISCX数据集进行了协议层级的分类实验,具有较好的分类性能。半监督学习可以利用少量的标记数据对大量的数据进行学习分类,使流量分类具备一定的可行性,但是其仍要依托一定的标签数据2.3无监督学习为解决分类学习中的人工干预问题,无监督学习方法被应用于网络流量分

    23、类。无监督学习是指利用没有任何标签的数据对模型进行训练。文献10 中利用层次窗口对数据提取行为特征,再利用K-Means等机器学习算法进行聚类分析,最后实现了对这些行为特征的无监督聚类。其将行为划分为交互式、数据传输、网页浏览、视频回放和空闲行为,实现了对模拟仿真数据的用户行为粗略识别,但是对于加密流量的分类识别并未提及。文献16 利用CAE在无监督特征提取和数据降维方面的优势,结合监督分类学习技术,实现了对ISCX数据集中虚拟专网(VirtualPrivateNet-work,VPN)和非VPN流量的准确识别。但对于加密流量的识别粒度还停留在应用层级别,其利用卷积自动编码来提取流量的隐含特征

    24、值得参考借鉴。文献15 使用Transformer中的编解码模型对数据进行预训练,从大规模的未标记数据中预训练出数据上下文关系的向量表示,然后对少量的特定标记数据进行简单微调,最后实现了对ISCX加密流量的应用层级和部分协议层的分类。流量分类的无监督学习主要用到聚类与自编码的技术,算法实现的难度在于对流量的特征提于治日的网络流量分类综述平第4期451取。无监督学习无需大量标签数据,便于实际的部署应用,但是目前无监督学习的准确率及分类效率都有待提高,分类粒度大多还处于应用层级和协议层级。表1罗列了一些在流量分类中可能会使用的算法及基本描述。表1分类算法对比核心算法描述优势劣势适用范围包括卷积层、

    25、非线性激活、池化能够处理高维数据;自动提取忽略局部与整体间关联;易收CNN监督学习层和全连接层特征;训练速度快敛于局部最小值对时间相关性敏感,便于提取存在梯度爆炸、梯度弥散等问RNN对序列数据建模的深度模型监督学习相关特征题,训练时间较长可执行线性、非线性分类、回归可处理高维特征问题;无需依SVM效率低;对缺失数据敏感监督学习及异常值检测问题赖整个数据能处理高维数据;训练速度监督学习/RF由多个决策树的分类器组成对于低维数据效果不好快;实现简单无监督学习计算训练样本和测试样本中每计算量大速度慢;不能处理多KNN可做分类也可做回归无监督学习个样本点的距离进行分类特征的问题朴素贝叶斯分类效率稳定;

    26、能处理多分类对缺损数据不敏感;受先验假使用概率知识且需要先验概率监督学习(NBM)任务设影响较大自动编码针对异常识别场景,训练数据通过编解码提取隐藏特征可不需要标记数据无监督学习(AE)需要为正常数据2.4数据集和评价指标2.4.1数据集受隐私保护、技术保密等因素影响,获取具有代表性的实验数据比较困难,在一定程度上为分类的功能性能指标对比评判带来不利的影响。一些研究者选择公开数据集进行分析研究,如文献16 采用ISCX数据集对VPN和非VPN流量进行了分类研究;一些研究者采用模拟仿真数据,如文献2 0 利用模拟环境获取了原始的协议数据样本,并在此基础上构建对比数据进行实验;一些研究者利用局域网

    27、私有数据,例如文献17 从某校园网中获取数据用于加密数据的分类研究。相对而言公开数据集在可信度及可复现性上高于私有数据集。常用的公开数据集如表2 所示。表2 常常用数据集数据集描述主要内容来源完整载荷ISCX VPN-nonVPN21VPN与非VPN对比数据集VOIP/VPN-VOIP,P2P/VPN-P2P模拟仿真是混杂正常流量和背景流量的CTU-13 22ARP、H T T P、U D P D D o s、I CM P模拟仿真是真实的户网络流量无载荷流量,可用于网络异常WIDE23DNS、H T T P、A R P、R IP真实数据否检测Browsing、A u d i o、CH A T、

    28、M a i l、P2 P、ISCXTor201624Tor流量有标签数据集模拟仿真是FILETRANSFER、VO I P含恶意流量,可用于恶意流量USTC-TFC2016 25Weibo、FT PBi t T o r r e n t,G m a i l,M y SQ L仿真+真实是检测ReCon dataset 26512个Android应用标记流量流数据:HTTP、A n d r o i d A PP真实数据是2.4.2评估指标网络流量分类模型结果的评估大多采用机器学习的评估指标,即采用准确率、精确率、召回率和F1值来衡量一个分类模型的好坏。对于样本的预测有以下4种情况:真正(TruePo

    29、sitive,T P),被模型预测为正的正样本,流量分类中指正确识别的类别;假正(FalsePositive,FP),被模型预测为正的负样本,流量分类中指将其他类别归为此类;假负(Fa l s e Ne g a t i v e,FN),被模型预测为负的正样本,流量分类中指某类数据归为其他类别;真负(TrueNegative,T N),被模型预测为负的负样本,流量分类中指正确识别非某类的数据20233年程大学学报信息452对于实验结果的验证评估,有的研究者采用多个数据集交叉验证评估算法的可靠性,在无法获得更多同类数据的情况下,一般采用以下两种方法进行验证评估。实际操作应根据数据集特点、计算设备、

    30、计算成本等综合考虑,选择合适的评估方法。1)留出法2 7 :将数据集划分成两部分(一般按1:2到1:4划分),较大的一部分作为训练集,另一部分作为测试集。当使用单个数据集且数据量比较大时一般使用该方法。2)交叉验证法2 8 :将全量数据集划分为不相交且相等的k份,并进行k次模型评估。第i次取第i份数据作为测试集,其余作为训练集。将k次模型评估结果取平均值,作为模型评估结果。本文还利用kddcup99数据集(网络异常连接数据集)以及一些自建的随机样本数据对常用的算法进行对比实验,结果如表3所示。但实际操作中还受数据集的大小维度、分类的粒度、计算机性能等影响,本文结果仅供参考。表3分类算法评估核心

    31、算法适用场景训练分类效率/s计算开销/MB使用条件CNN适用于提取数据的结构特征低(19.0 2 3 0)较小(8 45)需大量数据训练RNN适用于提取数据的序列特征低(32.150 0)大(947)需大量数据训练SVM适用于非线性、高维、小样本数据高(0.0 42 0)大(8 47)需保留数据统计特征RF适用于高维数据及不平衡数据高(0.2 54 0)大(7 6 0)需随机构造子数据集KNN适用于边界不规则数据的分类较高(0.50 46)大(8 6 3)需尽量排除噪声数据NBM适用于特征明显的独立数据高(0.0 199)较小(8 37)需去除特征的相关性AE适用于特征隐含提取中(7.96 1

    32、 0)小(415)需提前对数据提纯3方向与挑战目前对于流量分类识别技术的研究,研究者们更偏向于特征的提取和混合模型的研究。对于未知流量识别、用户行为解释、模型轻量化的研究还不够深人。此处将未来的研究方向归纳总结如下。1)未知流量识别分类:包括加密流量、自定义协议、恶意威胁流量等。目前网络流量中加密流量已经占据流量的大多数,且自定义协议也呈井喷式增长,对于未知流量的处理目前还没有相对成熟的方案,未知流量是未来流量识别分类中必须面对的挑战和研究方向。2)分类精细粒度:主要指对用户通信行为的解释,比如对于某应用的具体行为的识别和描述。例如文献10 中对于用户行为的分类,未来研究可以朝着更细致的行为描

    33、述方向发展,比如社交聊天、金融交易亦或是网络攻击行为等。3)模型的计算效率和轻量化:目前大多数分类算法研究都是以机器学习为基础,需要庞大的运算资源,实际应用中一些边缘计算设备很难满足模型训练和计算的需求,且对流量分类的时效性有一定要求。因此,模型的计算效率和轻量化也是未来研究的一个重要方面。与未来研究方向相对应,在网络流量分类技术研究领域目前主要面临来自以下3个方面的挑战。1)加密技术带来的挑战,随着互联网加密技术的广泛应用,数据显性特征被隐藏起来,使得原本的基于字节及其相关统计特征与其协议种类或用户行为不再具备相关性,传统的基于载荷及经典的机器学习难以从加密流量中提取并训练分类出有效的特征,

    34、原有的分类算法随之失效。2)私有协议广泛应用带来的挑战,随着物联网及边缘网络节点的发展兴起,各种私有协议层出不穷,为预设模型的分类算法带来一定的困扰,实用模型应当能自动识别新的未知协议并自动为其训练和分类。3)特征高维性与模型复杂性带来的计算性能的挑战。由于网络流量分类的现实应用需求(多为网关路由等边界节点)导致其分类过程中能分配使用的计算资源非常有限,因此在分类算法设计时还需考虑计算成本、功耗时效等因素4结束语随着通信与信息技术的发展,对网络流量分类的应用需求也越来越旺盛和迫切,但通信加密技术与自定义协议的广泛应用,给网络流量分类带来了新的挑战。目前网络流量分类标准不一,难以形成统一的分类标

    35、准和样式,大多是根据特定的场景和下转第48 3页)十治网络流量分类综述453第4期条件构建相应的分类模型和评价指标,对于未知流量、分类粒度、计算性能的研究还有待深人。参考文献:1REZAEI S,LIU X.Deep learning for encrypted trafficclassification:an overview J.IEEE CommunicationsMagazine,2019,57(5):76-81.2 ZHAO J J,JING X Y,YAN Z,et al.Network trffic classi-fication for data fusion:a survey

    36、 J.Information Fusion,2021,72:22-47.3 ROY S,SHAPIRA T,SHAVITT Y.Fast and lean encrypt-ed Internet traffic classification J.Computer Communi-cations,2022,186:166-173.4 TAHAEI H,AFIFI F,ASEMI A,et al.The rise of trafficclassification in loT networks:a survey J.Journal ofNetwork and Computer Applicatio

    37、ns,2020,154:102538.5 QI H,WANG J X,LI W X,et al.A blockchain-driven IIoTtraffic classification service for edge computingJ.IEEEInternet of Things Journal,2021,8(4):2124-2134.6 WANG W,ZHU M,ZENG X W,et al.Malware trafficclassification using convolutional neural network for rep-resentation learning C/

    38、2017 International Conferenceon Information Networking(ICOIN).Da Nang,Vietnam:IEEE,2017:712-717.7】XIE G R,LI Q,JIANG Y.Self-attentive deep learningmethod for online traffic classification and its interpret-ability J.Computer Networks,2021,196:108267.8 CHENG J,WU Y L,E Y P,et al.MATEC:a lightweightne

    39、ural network for online encrypted traffic classificationJ.Computer Networks,2021,199:108472.9WANG W,ZHU M,WANG J L,et al.End-to-end encrypt-ed traffic classification with one-dimensional convolutionneural networks C/2017 IEEE International Confer-ence on Intelligence and Security Informatics(ISI).Be

    40、i-jing,China:IEEE,2017:43-48.10 LABAYENV,MAGA AE,MORAT D,et al.Online clas-sification of user activities using machine learning onnetwork traffic J.Computer Networks,2020,181:107557.11 HU X Y,GU C X,WEI F S.CLD-Net:a network combi-ning CNN and LSTM for Internet encrypted traffic classi-fication J.Se

    41、curity and Communication Networks,2021,2021:5518460.12 BAKHSHI T,GHITA B.Anomaly detection in encryptedInternet traffic using hybrid deep learning J.Securityand Communication Networks,2021,2021:5363750.13 ZHOU R J,WANG X,YANG J J,et al.Characterizingnetwork anomaly traffic with euclidean distance-ba

    42、sedmultiscale fuzzy entropy J.Security and Communica-tion Networks,2021,2021:5560185.14 LOTFOLLAHI M,SIAVOSHANI M J,ZADE R S H,etal.Deep packet:a novel approach for encrypted trafficclassification using deep learning J.Soft Computing,2020,24(3):1999-2012.15 LIN X J,XIONG G,GOU G P,et al.ET-BERT:a co

    43、ntex-tualized datagram representation with pre-training trans-formers for encrypted traffic classification C/Pro-ceedings of the ACM Web Conference 2022.Virtual E-vent,Lyon,France:Association for Computing Machin-ery,2022:633-642.16 Guo L L,WU Q Q,LIU S L,et al.Deep learning-basedreal-time VPN encry

    44、pted traffic identification methodsJ.Journal of Real-Time Image Processing,2020,17(1):103-114.17 LIU C,HE L T,XIONG G,et al.FS-Net:a flow sequencenetwork for encrypted traffic classification C/IEEEINFOCOM 2019-IEEE Conference on Computer Commu-nications.Paris,France:IEEE,2019:1171-1179.18 MAO J M,ZH

    45、ANG M M,CHEN M,et al.Semisupervisedencrypted traffic identification based on auxiliary classifi-cation generative adversarial network J.Computer Sys-tems Science and Engineering,2021,39(3):373-390.19 WANG P,WANG Z X,YE F,et al.ByteSGAN:a semi-supervised generative adversarial network for encryptedtr

    46、affic classification in SDN Edge Gateway JJ.ComputerNetworks,2021,200:108535.2O JUNG Y,JEONG C M.Deep neural network-based auto-matic unknown protocol classification system using histo-gram feature J.The Journal of Supercomputing,2020,76(7):5425-5441.21 Canadian Institute for Cybersecurity.VPN-nonVP

    47、N data-set(ISCXVPN2016)DS/OL.2022-06-05.https:/www.unb.ca/cic/datasets/vpn.html.22 Czech Technical University.CTU-13EB/OL.2022-05-13.https:/mcfp.felk.cvut.cz/publicDatasets/CTU-13-Dataset/CTU-13-Dataset.tar.bz2.23WIDE Project.MAWI Working Group traffic archiveDB/0L.2022-06-07.http:/mawi.wide.ad.jp/m

    48、awi/.24 Canadian Institute for Cybersecurity.Tor-nonTor dataset(ISCXTor2016)DS/0L.2022-06-11.https:/www.unb.ca/cic/datasets/tor.html.(编辑:高明霞)上接第453页)(编辑:高明霞)第4期陈仲磊,等意力与卷积的系统调用异常检测483B,et al.Intrusion detection system based on integratedsystem calls graph and neural networks J.IEEE Ac-cess,2021,9:982

    49、2-9833.14院陈兴蜀,金逸灵,王玉龙,等.基于长短期记忆神经网络的容器内进程异常行为检测J.电子学报,2 0 2 1,49(1):149-156.15ABDERRAHMANE A,ADNANE G,YACINE C,et al.Android malware detection based on system calls analy-sis and CNN classification C/2019 IEEE WirelessCommunications and Networking Conference Workshop(WCNCW).Marrakech,Morocco:IEEE,20

    50、19:1-6.16MAIORCA D,ARIU D,CORONA I,et al.Stealth at-tacks:an extended insight into the obfuscation effects onAndroid malwareJ.Computers&Security,2015,51:16-31.17 VASWANI A,SHAZEER N,PARMAR N,et al.Atten-25 WANG W.USTC-TFC2016EB/OL.2022-07-01.ht-tps:/ D.ReCon datasetEB/OL.2022-06-10.https:/recon.medd


    注意事项

    本文(基于机器学习的网络流量分类综述.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 服务填表 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)    



    关注我们 :gzh.png  weibo.png  LOFTER.png