基于改进Inception-ResNet的加密流量分类方法.pdf
《基于改进Inception-ResNet的加密流量分类方法.pdf》由会员分享,可在线阅读,更多相关《基于改进Inception-ResNet的加密流量分类方法.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2471-2476ISSN 10019081CODEN JYIIDUhttp:/基于改进Inception-ResNet的加密流量分类方法郭祥,姜文刚*,王宇航(江苏科技大学 自动化学院,江苏 镇江 212100)(通信作者电子邮箱)摘要:基于深度学习的加密流量分类方法中的分类模型大多是深层直筒型结构,存在梯度消失的问题,且网络层数的增加会使模型结构和计算的复杂度显著上升。为此,提出了一种基于改进Inception-ResNet的加密流量分类方法。该方法通过改进Inceptio
2、n模块,并将该模块作为残差块以残差结构连接的方式嵌入卷积神经网络来构建分类模型;此外,改进分类模型的损失函数,并使用VPN-nonVPN数据集来验证所提方法的有效性。实验结果表明,所提方法在2种场景的分类实验中的精确率、召回率、F1值分别达到了94.21%、92.53%和93.31%以上。在与其他方法的对比实验中,以分类难度最大的12分类实验为例,所提方法比C4.5决策树算法和1D-CNN(1 Dimensional-Convolutional Neural Network)在精确率上分别高出13.91和9.50个百分点,在召回率上分别高出14.87和1.59个百分点。与CAE(Convolu
3、tional Auto Encoding)和SAE(Stacked Auto Encoder)等方法相比,所提方法虽然在各项指标上没有明显提升,但在单次训练时长上却有明显缩短,充分表明了所提方法的先进性。关键词:深度学习;批量归一化层;残差结构;不平衡数据集;损失函数中图分类号:TP393.08 文献标志码:AEncrypted traffic classification method based on improved Inception-ResNetGUO Xiang,JIANG Wengang*,WANG Yuhang(College of Automation,Jiangsu Uni
4、versity of Science and Technology,Zhenjiang Jiangsu 212100,China)Abstract:Most classification models in deep learning-based encrypted traffic classification methods have deep and straight structure with the problem of vanishing gradient,and the increase of the number of network layers leads to signi
5、ficant increase of model structure and computational complexity.Based on these,an encrypted traffic classification method based on improved Inception-ResNet was proposed.In the method,the classification model was constructed by improving the Inception module and embedding it into the convolutional n
6、eural network as a residual block in a residual structural connection way.In addition,the loss function of the classification model was improved,and the effectiveness of the proposed method was verified by using VPN-nonVPN dataset.Experimental results show that the proposed method achieves the preci
7、sion,recall,and F1 score of more than 94.21%,92.53%,and 93.31%,respectively,in the classification experiments of two senerios.In the comparison experiments with other methods,taking the 12-class classification experiment,which is the most difficult one,as an example,the proposed method is higher tha
8、n C4.5 decision tree algorithm and 1D-CNN(1 Dimensional-Convolutional Neural Network)by 13.91 and 9.50 percentage points higher in precision and by 14.87 and 1.59 percentage points in recall.Compared with the algorithms such as CAE(Convolutional Auto Encoding)and SAE(Stacked Auto Encoder),the propos
9、ed method not has obvious improvement on the indicators,but has significant shorter single training time,fully demonstrating that the proposed method is a state-of-the-art method.Key words:deep learning;batch normalization layer;residual structure;imbalanced dataset;loss function0 引言 近些年来,互联网的飞速发展使各
10、类新型网络技术不断涌现。在众多新型网络技术中,SSL VPN(Secure Sockets Layer Virtual Private Network)技术因为良好的稳定性、安全性和网络适用性得到了广泛的应用1。虽然SSL VPN技术在安全传输、安全访问等方面有效保护用户隐私,但一些不法分子也通过SSL VPN技术躲避安全检查,给网络安全带来了巨大的挑战。对SSL VPN加密流量的识别分类对防御网络攻击、保护网络安全具有重要意义。在过去的流量识别领域研究中,大都采用基于端口和基于深度包检测的方法完成网络流量的识别分类任务,但随着网络技术的发展以及互联网的普及,网络流量变得越来越复杂,且呈现出海
11、量化的特征,此类方法难以胜任如今的流量识别分类任务,只作为一些辅助方法。近些年来,随着计算机技术的飞速发展,机器学习/深度学习在图像处理、自然语言处理、计算机视觉等领域大放异彩,一些研究者也尝试使用基于机器学习/深度学习的方法开展流量识别领域的研究。机器文章编号:1001-9081(2023)08-2471-06DOI:10.11772/j.issn.1001-9081.2022071030收稿日期:20220714;修回日期:20221117;录用日期:20221121。基金项目:国家自然科学基金资助项目(61702235);江苏省研究生创新计划项目(KYCX21_3482)。作者简介:郭祥
12、(1997),男,安徽六安人,硕士研究生,主要研究方向:多媒体与信息安全、深度学习;姜文刚(1973),男,江苏镇江人,教授,博士,主要研究方向:伺服控制器、网络拥塞控制;王宇航(1996),女,吉林长春人,硕士,主要研究方向:多媒体与信息安全、深度学习。第 43 卷计算机应用学习/深度学习在很大程度上突破了以往方法在处理加密流量和海量化数据方面的限制。除此之外,在流量识别分类领域的研究中,基于机器学习的方法(诸如决策树、聚类等)还具有易于理解、运算速度快、精确率高的优点。基于深度学习方法(诸如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络等)能
13、够以端到端的方式自动提取特征,学习能力强。虽然基于机器学习/深度学习的方法在流量识别领域的研究中具有诸多优势,但此类方法也存在着很多其他方面的问题。例如使用基于机器学习的方法需要人工提取特征,耗时耗力,提取的特征易受主观因素影响,且分类的精度依赖于特征的选择是否合理。基于深度学习的方法所设计的分类模型大都结构复杂,网络深、参数多,需要巨大的计算开销。此外,数据集不均衡问题也严重影响了基于机器学习/深度学习的方法在流量识别领域中的表现。针对上述问题,本文提出了基于改进Inception-ResNet的加密流量分类方法。先分析数据集中数据包的长度,选定合适的截断长度后,再使用构建的加密流量分类模型
14、完成加密流量的分类。本文的工作如下:1)通过在卷积层和全连接层后引入批量归一化层,改进传统的Inception模块,并将改进后的Inception模块作为残差块以残差结构嵌入CNN来构建分类模型。不仅能够加宽、加深网络结构以提取更丰富的特征,而且能够有效避免梯度消失的问题,减少参数量、计算量,可大幅提高训练速度。2)改进了分类模型的损失函数,通过引入识别难度因子将数据集各种类样本数量不均衡问题转化为分类难度不均衡问题。为不同的数据样本赋予不同的权重,让模型在训练时更专注于难分类的样本,从而解决数据不平衡问题。1 相关工作 王洋等2先提取加密流量的荷载特征,再引用决策树分类加密流量;连晓伟等3结
15、合流量的荷载特征和统计特征,再通过构建确定性有限自动机与支持向量机结合的识别模型对Shodan流量进行识别,达到了99.41%的识别精度。虽然这类基于机器学习的方法也能够取得较好的识别效果,但此类方法都需要人工提取特征,不仅依赖专家经验,耗时耗力,且提取的特征易受主观因素影响,对流量的识别分类未必有用。Wang等4通过预处理将数据包前784个字节转为图片,并使用CNN对这些图片进行处理,实现恶意流量和加密流量的分类,该方法虽然取得了不错的分类效果,但并没有解释选取前784个字节的原因且这种做法会使提取的流量特征丢失很多有用的信息。此外,该方法使用的数据集中不同种类流量数量也相差很多,并未考虑数
16、据类别不平衡造成的影响。Lotfollahi等5提出了Deep Packet方法对加密流量进行分类。该方法在对数据集预处理后,使用 SAE(Stacked Auto Encoder)和CNN两种深度学习模型识别加密流量,召回率达到了94%。但该方法并未解释两种模型参数选择的依据,且该文献中使用欠采样(即随机删除数量的种类的样本,直到各种类样本的数量相对平衡)的方法解决数据集不平衡问题,不仅会造成数据浪费,使一些特征提取不充分,还会改变原有的数据分布,易带来偏差。Rezaei 等6-7提出了模糊流的概念,并使用 CNN+LSTM(Long Short-Term Memory)的方式定位流,取得了
17、不错的效果。该方法使用相邻多个流量的特征来识别某个流量的源APP,虽然这样能够达到较高的精度,但该方法网络的结构非常深,且存在计算量过大、耗时的问题。Lu等8使用基于并行Inception和LSTM的神经网络来完成加密流量服务识别的任务,该方法通过在 CNN 中引入Inception模块进行报文局部空间特征提取,再通过LSTM模块进行报文时间序列特征提取,然后融合特征,扩展特征信息,增强报文特征的表征能力,并根据数据集中不同种类流量数为各类流量分配不同的权重,让损失函数更加关注样本量不足的数据以缓解数据不平衡问题。该方法虽然识别准确率高,但存在网络深、结构复杂、计算开销大的问题,且根据数量来分
18、配权重的分类方法效果并不一定好。Ren等9提出了一种基于树状结构递归神经网络的加密流量分类方法,将大分类转为小分类,然后再为每个小分类设置一个特定的分类器,该方法虽然取得了不错的分类效果;但当分类数目较多时,需要训练大量的小分类器,会耗费大量的时间和成本。增加网络的宽度和深度,不仅会增大计算量,而且当网络加深到一定程度时,单纯的加深还可能出现梯度消失、网络过拟合等问题。Soleymanpour 等10根据数据集中各类别流量的数量分布,通过为每个错误分类分配代价创建代价矩阵,并在训练过程中利用这些代价提高识别精度;但这种以数据集中各类样本数或者比例作为错误分类代价的方法并不能很好地反映数据真实的
19、类分布特征11,学习效果无法保证。综上,当前基于深度学习的流量识别方法大多通过增加网络深度或者将多种神经网络模型融合到一起来实现流量的识别分类,虽然这样做能够取得不错的效果;但此类方法的分类模型大多结构复杂、参数多,需要巨大的计算开销,且在解决数据集不平衡问题时,它们在本质上都是通过数据集中各类别样本数来缓解数据不平衡问题,然而在实际的识别分类任务中,并不是某类样本少就一定要增加少数类样本的数量或是增加其在损失函数中的比重。自 Inception-ResNet12提出后很多研究人员借鉴其结构在图像识别、文本分析、语音识别进行研究并取得了不错的效果,本文也借鉴其思想采用所提的基于改进Incept
20、ion-ResNet的加密流量识别方法进行加密流量的分类。2 本文分类方法2.1数据预处理为了将原始流量数据转换为深度学习能够接受的输入格式,基于文献 4 中提出的图像化的思想,决定将Pcap格式转换为idx格式。数据集的预处理如图1所示。图1数据预处理Fig.1Data preprocessing流量分割和清洗 依据五元组信息,利用SplitCap分割原始数据集中的Pcap文件,分割后的流量中存在很多重复文件,这些文件的哈希值相同,通过finddupe软件计算这些文件的哈希值,再删除哈希值完全一致的重复文件。图片生成 数据包的截取长度决定了图片的生成质量。为获得最合理的截取长度,现以数据包长
21、度分布来分析数据包的截取长度。为确保训练的数据中至少含有一个完整的数据包,根据图2的结果,将截断长度设置为1 521字节:对于长度超过1 521字节的数据包做截断处理,对于长度小于1 521字节2472第 8 期郭祥等:基于改进Inception-ResNet的加密流量分类方法的数据包则进行末尾补零,再通过Python以二进制的方式分别读取各段流量数据,并将其转为3939的灰度图片。格式转换 利用Python,将生成的png文件转换为idx文件。在idx文件中,处理好的流量数据和它所属的应用类别标签是对应的。2.2本文模型设计近年来各种深度学习模型不断对网络结构加深加宽,让模型的参数量显著增加
22、。本文将改进后的Inception模块以残差结构连接,以控制网络参数规模,减少参数量和计算量,提高训练速度。连接方式如图3所示,其中N代表残差块数。本文通过在卷积层和全连接层后引入批量归一化层13来改进Inception模块,并将改进后的Inception模块作为残差结构的残差块嵌入卷积神经网络,以提高分类模型的泛化能力,控制网络模型的参数规模。最后改进分类模型的损失函数解决数据集不平衡问题。本文模型详细结构如图4所示。图4本文模型的结构Fig.4Structure of the proposed model网络深度的增加可能会造成过拟合现象和协方差偏移14,针对此,本文在卷积层和全连接层后分
23、别引入批量归一化层,使得训练过程中每层的输入尽可能保持相同的分布。批归一化计算如下:y=Var X +(-E X Var X +)(1)其中:X为待归一化的特征向量;E X 为均值;Var X 为标准差;,分别为放缩和偏移系数。2.2.1改进Inception模块GoogLeNet15即为 Inception V1,由 Inception 模块组成。Inception模块的结构如图5所示,从图5中可以看出,Inception模块将网络输入特征分为4部分,3个卷积分支和1个最大池化分支,以并行的方式提取特征,然后将不同分支获得的特征图拼接作为输出特征图。相较于其他的深度学习网络,Inceptio
24、n 网络具有如下优点:1)使用11的卷积核,在相同尺寸的感受野中叠加更多的卷积,使提取的特征更丰富;2)使用3种不同尺寸的卷积核,使模型在同一层级上获得多种不同尺度的特征信息,提高模型的表征能力;3)不同尺度的特征的分布不均匀,会使相关性强的特征集在一起,相关性弱的特征被弱化。输出的冗余特征少,减少参数,提高训练速度。本文方法的核心在于残差块的设计。分析Inception模块的优点后,设计改进Inception模块作为本文模型的残差块,残差块的设计使用11卷积层,以减少卷积核参数,降低计算成本,提高训练速度;同时采用不同的卷积尺寸进行不同级别上的提取特征,融合强相关性的关键特征,弱化弱相关性的
25、非关键特征,为最后分类判断时提供更多依据,提高网络分类性能;而且在卷积层后引入批量归一化层,使数据分布平稳,避免梯度消失。本文设计的残差块如图6所示。图6残差块Fig.6Residual block图2数据包长度分布Fig.2Distribution of data packet length 图3残差结构连接Fig.3Residual structural connection图5Inception模块的结构Fig.5Structure of Inception module2473第 43 卷计算机应用2.2.2数据不平衡数据集中各类样本数不均衡会使深度学习模型在训练时会偏向数量较多的一类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 Inception ResNet 加密 流量 分类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。