面向服务等级的网络流多任务分类方法.pdf

上传人：自信****多点

文档编号：327612

上传时间：2023-08-15

格式：PDF

页数：10

大小：8.31MB

《面向服务等级的网络流多任务分类方法.pdf》由会员分享，可在线阅读，更多相关《面向服务等级的网络流多任务分类方法.pdf（10页珍藏版）》请在咨信网上搜索。

1、第卷第期重庆邮电大学学报(自然科学版).年月 ().:./.面向服务等级的网络流多任务分类方法收稿日期:修订日期:通讯作者:董育宇 .基金项目:国家自然科学基金():()赵杰董育宁魏昕(南京邮电大学通信与信息工程学院南京)摘要:在网络流分类实践中网络运营商通常只需要知道网络流所需的服务类别()就可对网络流优先级和资源分配做出决定为了满足用户对体验质量的需求提出了面向服务等级的网络流多任务分类方法该方法是直接进行面向的流分类而不需要推断应用类型同时提出多任务框架利用领域知识定义宏特征组及应用合作博弈中的模型来合理分析特征并用决策树分箱来解决阈值划分问题采用真实网络数据

2、集进行实验通过在少量标记数据的情况下优化网络参数和调整各网络模型时间损耗和分类准确性的稳定相关系数结果表明该方法分类准确度(提高了.)和时间消耗(减少了.)性能优于现有文献方法同时分析了多分类实验结果并给出有关建议关键词:网络流分类多任务学习特征分析阈值划分中图分类号:文献标志码:文章编号:()(.):().:).(.)(.).:引言网络流分类()技术在互联网中有着广泛的应用如资源分配、服务质量()保证、网络服务提供商()计费和异常网络流量检测等早期经过了以下几个研究阶段:基于端口、深度包检测、主机行为但是这些方法无法适用于加密流随着机器学习逐渐取而代之出现了包括朴素贝叶斯估计、

3、无监督聚类、支持向量机、随机森林和等流分类模型近年来随着互联网流量中出现更为复杂的模式深度学习模型在方面取得了不错的成绩其学习复杂模式和自动提取特征能力使其成为的理想选择尤其是卷积神经网络()和循环神经网络()但这都需要收集大量的标记训练集而且都是面向应用类型上的无法满足高速变化且海量数据的流媒体环境实际上通常只需要知道数据流的所需服务类别()就可决定其优先权和资源分配为此本文研究直接为数据流分配标签而不必考虑其应用类别同时用多任务学习()方法中各任务间共享模型信息的特性来减少对标记数据的使用除了建立模型框架之外还需要合理解释模型选择的理由这对于直接方法来说是一个具有挑战

4、性的问题因为它忽略了应用类型识别的阶段本文借鉴博弈论通过将学习模型作为一个等价的合作博弈模型来计算每个特征对结果的影响()由于每条数据流有数百个特征要精确计算所有特征的值将导致很高的时间和空间复杂度其次是很难理解和分析每个特征对总体分类的贡献作用为此在实验中首先基于领域知识将流特征划分为个宏特征()分别在下进行值计算选择对模型贡献突出的特征映射为再将每个映射为一种服务类型本文的主要贡献如下)选择合适特征映射为标签包括基于领域知识将特征分为对每类进行分析选择出对模型贡献大的特征同时分析特征之间的皮尔森相关系数()为多任务模型()选择出贡献最大的特征进而映

5、射为标签任务与现有方法从用户角度和获取特征难易程度来选取任务不同本文考虑了选取的合理性)等级优化分析分析每个任务等级的分布情况利用决策树分箱()算法优化每个等级阈值()的划分提高总体准确性现有方法通过直方图和线性计算来划分阈值容易导致在预处理部分增加错分率本文中通过合理化阈值划分能够降低误分率)优化网络参数优化调整各网络模型时间损耗和分类准确性的稳定相关系数背景和相关工作.流分类模型常用的流分类机器学习方法分为有监督、无监督和半监督学习方法文献的平均聚类时间仅为传统凝聚分类器的三分之一左右在时间消耗上有着较明显的优势然而由于其简单性、手动特征提取以及缺乏捕获复杂模式的高

6、学习能力其准确率有所欠缺随着深度学习方法在图像分类、语音识别等各种问题上的成功应用研究人员将这些方法用于流量分类问题中如和堆叠式自动编码器()框架该框架使用从原始网络流量中提取高级特征利用对原始流量的统计特征()进行编码以减少信息损失虽然深度神经网络在一定程度上解决了机器学习初步人工特征选择的缺点但却需要大量的标记数据集既继承深度学习自动提取特征的优点又能使用少量标记数据完成较好的分类准确性文献提出通过将原始数据流转换为图片然后使用来预测流类别程序除了可以将原始字节数据转换成图片文献中利用再生核希尔伯特空间将每个流的时间序列特征转换为二维图像生成的图像被用作模型的输入其模

7、型以超过的准确率优于经典的机器学习方法二维图像的数据输入相比于原始流的输入具有更丰富的信息但如果对一些短流可能无法提取到足够的特征导致在转化图片时会用大量的无用信息()填充对于短流的流分类更符合早期在线流量分类问题文献讨论了能够处理加重庆邮电大学学报(自然科学版)第卷密流量分类问题的根本原因并提出基于长短时记忆()的双向流序列网络()其从原始流中学习出代表性特征然后输入到端到端分类模型对其进行分类并利用加密流的包长度和方向信息构造双向流量序列得到不错的准确性文献用顺序消息特征()和个成功提取的消息大小信息的输入特别是对于中值超过个消息段的大流量就可实现早期在线

8、流量分类这些方法都是面向应用类型的分类也就是根据应用类别为数据流分配标签无法解决新应用的不断出现为此可以研究面向的网络流分类直接标注标签而不必考虑它们的应用类别标签.简介在合作博弈论的启发下利用构建一个加性的解释模型所有的特征都视为“贡献者”对于每个预测样本模型都产生一个预测值就是该样本中每个特征所分配到的数值其最大的优势是能反映出样本中特征的正负影响力本文方法本文的框架模型主要分为个部分:数据预处理、特征分析和.数据预处理为了解决标记数据问题可以将数据流分类构造成一个其中带宽吞吐需求()和时间敏感度()任务随流量分类()一起预测对于前个任务使用大量

9、容易获得的无标签样本而对于任务使用少量的有标签样本可以获得较高的准确率因此避免了需要一个大的标记流量数据集分别在公共数据集和南邮数据集上进行实验验证了该预处理的有效性和合理性.特征分析基于领域知识将个分为两类利用分析每类下的特征对贡献分别讨论 ()、()、和的下个特征对模型的贡献值图为应用类型的特征分布横坐标为值每个点代表一个样本颜色越红说明特征本身数值越大颜色越蓝则说明数值越小可以看出 ()是一个很重要的特征它基本上与呈负相关 ()也会明显影响但不同的是它与成正相关图特征的贡献榜.除了对于单个数据进行解释之外还可以对整个模型特征的重要度进

10、行分析这里只考虑在本文模型下的特征贡献榜、重要度分别在和两类计算特征的图为统计特征序列箱形图图为下所有的部分图从图可以看出对模型的贡献最大其次是从图可以看出贡献最大各任务之间应该尽量不相关这样可以最大程度地发挥任务间的共享特性所以利用来计算特征之间的相关性总体相关系数定义为个变量、(特征)之间的协方差和两者标准差乘积的比值为 ()()()()()根据的特性和在.中定义服务等级的优先级有种该标准建议最高优先级为应用于关键性网络流量如路由选择信息协议()和开放最短路径优先()协议的路由表更新优先级和主要用于延迟敏感()应用程序如交互式视频和

11、语音优先级到主要用于受控负载()应用程序如流式多媒体和关键性业务流量同时.说明网络管理员可以根据实际来决定映射情况所以在本文中将和扩展为种不同的任务第期赵杰等:面向服务等级的网络流多任务分类方法图特征重要度.()用等级(常为个)来衡量用户服务等级所以大多继承了下个等级来确定流量优先级和资源分配合理优化等级也十分重要本文采用来合理化等级对所有样本只包含两个 ()和)的序列(样本标签)讨论和两种任务数据分布特性其箱形图分布分别记为和如图所示从图可以看出不同应用类型有较明显的集中区域分层现象的集中值最高的集中值最低从图可以看出和

12、的是一样的这也是合理的.决策树分箱在划分中通过对连续值属性进行分箱操作(离散化)使其对异常数据有更好的鲁棒性的原理是将要离散化的变量用树模型拟合目标变量用决策树内部节点的阈值作为分箱的切点根据系数最大的点作为阈值划分数据集这样得到不同任务的等级阈值划分如表所示图统计特征序列箱形图.表等级阈值划分.或对于复杂的问题分解为简单且相互独立的子问题来单独解决然后再合并结果得到解这样做看似合理其实不正确因为实际中很多问题不能分解为多个独立的子问题即使可以分解各个子问题之间也是相互关联的就是为了解决此问重庆邮电大学学报(自然科学版)第卷题把多个相关的任务放在一

13、起学习任务之间共享一些因素可以在学习过程中共享所学到的信息这是单任务学习所不具备的.本文模型本文模型框架如图所示主要分为预处理和两个阶段预处理阶段主要包括:提取原始数据利用提取统计特征基于领域知识将统计特征划分为宏特征特征分析并进行映射阶段中模型部分使用模型选用最大池化除了包含的最后一层之外模型中使用作为激活函数其他参数为卷积层()池化层()卷积层()池化层()卷积层()池化层()()输出图面向的.实验结果.数据集实验使用 ()数据集(简称为)和年在南京邮电大学校园网采集的南邮数据集(或)进行验证利用抓包工具通过在不同的网站抓取各种业务流数据包含点播和直播视

14、频流、文件下载、网页浏览和邮件共计条数据流经过预处理产生元组数据(时间戳、相对时间、数据包大小和数据包方向)的输入文件并利用计算个 (源地址、端口号、协议等在本文中用不到所以实验只用了个如表所示)包含不同应用程序的个加密流文件实验中主要用到、和五种应用数据本方法只使用小部分标签就可预测的数据流类别对于现代加密方法例如和.传输层协议有效负载信息基本没用所以本文将和作为单独的任务输出结果.评估指标实验的评估包括分类准确性和时间性能评估采用总体准确度()、精度()、召回率()和分数(详见.对比试验)来量化分类器的分类准确率其中是指所有分类正确的样本占全部样本

15、的比例为预测是正例的结果中确实是正例的比例是所有正例样本中被找出的比例是和的调和平均其计算公式为 ()()()()()()式中:和分别表示该类样本正确分类和错分的样本数和分别表示其他类样本误分为该类和正确分类的样本数时间性能指标为训练和识别时间平均值第期赵杰等:面向服务等级的网络流多任务分类方法表宏特征.特征 ()().多任务模型通过在上搭建模型进行训练和测试实验环境是为()()内存实验参数的设定:.分别采用、和个样本来训练达到稳定和防止过拟合优化器使用并自适应学习参数默认:.指数衰减率 .通过自适应学习以达到全局最优实际训练过程真实学习率

16、为时间步长 ()()()()使用交叉熵函数(见()式)()()()多分类中的函数为()()式中:表示样本标签表示样本预测为正类的概率图为下中各任务准确性迭代曲线从图可以看出和任务大约在个时就基本收敛只有任务在训练个时才收敛同时可以看出任务的准确性在.左右比(.)和(.)任务要高这是因为和这个单任务之间的关联性很弱但是他们对任务有贡献会为的模型共享参数提高其总体准确性而任务的准确性较低的原因是和在上较为相似弱化了最后的准确性图下中各任务准确性迭代曲线.单任务学习将、以及这个任务分别单独输入到模型中图为下单任务准确性迭代

17、曲线从图可以看出和在较短时间内可以达到高的准确性而相比于其他两个任务的准确性要低一点图下单任务准确性迭代曲线.迁移学习在迁移学习()中把预训练好的模型参数迁移到新模型来帮助其训练考虑到大部分数据或任务都是存在相关性的所以通过模型可以将已经学到前个任务模型的参数通过某种方式来分享给新模型从而加快并优化模型的学习效率图为下的任务准确性迭代曲线由图可见在个之后达到近.的稳定准确性不同于之处在于后者是在同一时间和空间下完成训练和识别过程而前者是在不同的时间和空间分别完成训练和识别重庆邮电大学学报(自然科学版)第卷过程图下的任务准确性

18、迭代曲线.对比试验在文献中从用户角度以及获取特征难易程度来选取任务却没有考虑其合理性本文尝试做出合理性解释并与文献方法进行性能对比表为数据集下的性能对比从表可以看出的个任务的准确性明显高于文献的方法尤其是任务文献方法的准确性在训练样本数为时也只有而在中当样本数为时就已经达到了较高的准确性随着样本数的增加逐渐出现过拟合现象体现了本文可以用更少的样本实现更高准确性的优势在框架下的准确性也比方法高在单任务模型下文献方法前个辅助任务()和()表现较好但最重要的任务却表现较差而本文方法在单任务框架下各任务都表现较好所以总体来说本文选择的任务和划分比文献的

19、效果更好其原因在于通过和进行特征选择间接将映射为任务并解释其合理性相比于文献从用户的角度选择任务更加合理而且在文献中对任务只是单纯地通过直方图和线性计算来划分阈值导致在预处理部分就增加了错分率本文通过合理划分阈值能够减少误分率表为数据集下的性能对比由表可见在下总体准确性优于文献表不同方法准确性对比().()本文方法文献单任务多任务.表不同方法准确性对比().本文方法文献单任务多任务.第期赵杰等:面向服务等级的网络流多任务分类方法表为本文方法与文献方法的时间性能对比在本文方法中单任务模型中各任务的训练时间()分别是.、.和.而模型下任务为

20、./相比之下的为./就显得比较长可能是因为其预处理过程较为复杂以更多的时间代价获得更高分类准确性同时可以看出单任务模型中各任务的识别时间()分别是.、.和.的为.由此可知通过迁移参数来帮助新模型训练增加了但降低了的相比之下多任务的比单任务和模型的长另外本文方法的比文献方法都要短这是因为做了更为复杂的预处理使训练过程简化同时降低体现了预处理的优越性表为个任务比较从表可知中任务性能最好体现了辅任务为主任务贡献参数的优点表本文方法与文献方法的(/)和(/样本)比较.(/)(/)方法/本文方法(././样本)(././样本)(././样本)(././样本)(

21、./样本)文献方法(././样本)(././样本)(././样本)(././样本)(././样本)表本文方法与文献方法三个任务的比较.指标本文方法文献.图为本文方法各任务混淆矩阵从图可以看到本文方法和两个任务的误分率非常低在中只有等级为的情况下被错分为(.)和(.)在任务下只有被错分为(.)不过误分率都比较大图为文献方法各任务混淆矩阵从图可知和两个任务的准确性较高的错分率比较大总的来说相对应的任务本文方法优于文献方法图本文方法各任务混淆矩阵.重庆邮电大学学报(自然科学版)第卷图文献方法各任务混淆矩阵.结束语提出了一种利用来

22、选择任务的方法通过基于领域知识将多维特征降维到二维以此来减少计算复杂度以每个为入手点借鉴博弈论来分析每个特征对模型的贡献大小()然后计算每个下贡献突出的特征之间的去除冗余特征选出的特征映射为和两种任务利用算法合理划分实验使用和将、和任务通过进行训练与单任务和模型对比有明显优势实验结果显示本文方案在准确性和方面优于文献方法本方法还有待改进之处例如如何提高模型的时间效率需要进一步的研究参考文献:.:.():.:.():./.:.():.():./.:./.:.刘纵横汪海涛姜瑛.基于混合神经网络的序列推荐算法.重庆邮电大学学报(自然科学版)():.()()

23、:./.:./.:./.:.:第期赵杰等:面向服务等级的网络流多任务分类方法 /.:./.:.:.():.:/.:.:/.:.():./.:./.:./.:./.:./.:.:/.:./.:./.:.:/.:./.:.作者简介:赵杰()男安徽滁州人硕士主要研究方向为多媒体通信和网络流量识别:.董育宁()男江苏南京人教授博士博士生导师中国电子学会和中国通信学会高级会员主持和完成了国家自然科学基金、江苏省自然科学基金等项目余项在 /、电子学报等国际国内权威学术期刊和国际会议上发表论文余篇主要研究方向为多媒体通信和网络流量识别:.魏昕()男江苏南京人教授博士主要研究方向为多媒体通信主持国家自然科学基金面上项目、江苏省自然科学基金面上项目等多项研究课题在国际国内核心学术期刊上发表学术论文余篇:.(编辑:刘勇)重庆邮电大学学报(自然科学版)第卷

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 面向服务等级网络任务分类方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。