基于卷积神经网络的加密代理流量识别方法_李敬.pdf
《基于卷积神经网络的加密代理流量识别方法_李敬.pdf》由会员分享,可在线阅读,更多相关《基于卷积神经网络的加密代理流量识别方法_李敬.pdf(8页珍藏版)》请在咨信网上搜索。
1、722|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No.8 Aug.2023DOI:10.12379/j.issn.2096-1057.2023.08.02 收稿日期:2 0 2 2-0 9-1 3 引用格式:李敬.基于卷积神经网络的加密代理流量识别方法J.信息安全研究,2 0 2 3,9(8):7 2 27 2 9基于卷积神经网络的加密代理流量识别方法李 敬(山东高等技术研究院计算科学研究中心 济南 2 5 0 1 0 0)(j i n g.l i i a t.c n)E n
2、c r y p t e dP r o x yT r a f f i c I d e n t i f i c a t i o nM e t h o dB a s e do nC o n v o l u t i o n a lN e u r a lN e t w o r kL i J i n g(C o m p u t a t i o n a lS c i e n c eR e s e a r c hC e n t e r,S h a n d o n gI n s t i t u t eo fA d v a n c e dT e c h n o l o g y,J i n a n2 5 0 1 0
3、 0)A b s t r a c t A m e t h o df o r i d e n t i f y i n ge n c r y p t e dp r o x yt r a f f i cb a s e do nc o n v o l u t i o n a ln e u r a ln e t w o r ki sp r o p o s e d.F i r s t,t h es t r e a mr e a s s e m b l yo p e r a t i o ni sp e r f o r m e do nt h es e l f-d e p l o y e da n ds e
4、l f-c a p t u r e dr a we n c r y p t e dt r a f f i c,a n dt h e nt h ef i r s tLLb y t e so ft h ef i r s tNd a t ap a c k e t so ft h er e s t o r e dd a t a s t r e a ma r e e x t r a c t e d t o f o r mag r a y s c a l e i m a g e a s t h e s t r e a mf e a t u r e i m a g eo f t h ed a t as t
5、r e a mw h o s e(H e i g h t,W i d t h,C h a n n e l)i s(NL,L,1).A f t e r t h a t,a l l t h e s a m p l e s a r ed i v i d e di n t ot r a i n i n gs e t,v e r i f i c a t i o ns e t,a n dt e s ts e t,w h i c ha r eu t i l i z e db yt h ed e s i g n e dc o n v o l u t i o n a ln e u r a ln e t w o
6、r k m o d e lf o rt r a i n i n g,v e r i f i c a t i o na n dt e s t i n gr e s p e c t i v e l y.F i n a l l y,b ys e l e c t i n gd i f f e r e n tc o m b i n a t i o n so ft h ef i r s tNd a t ap a c k e t sa n dt h ep a c k e tl e n g t hs t r a t e g yLt oc o n d u c te x p e r i m e n t s,i t
7、i sf i n a l l y m e a s u r e dt h a tw h e nN=4,L=4 04 0,t h eh i g h e s ti d e n t i f i c a t i o na c c u r a c yo ft h e m o d e lc a nr e a c h9 9.3 8%,w h i c hh a sc e r t a i na d v a n t a g e si nt e r m so fa c c u r a c yc o m p a r e dw i t ho t h e r r e l a t e ds i m i l a rm e t
8、h o d s.K e yw o r d s e n c r y p t e dp r o x y;s t r e a mr e a s s e m b l y;s t r e a mf e a t u r e i m a g e;d e e p l e a r n i n g;c o n v o l u t i o n a ln e u r a ln e t w o r k摘 要 提出了一种基于卷积神经网络的加密代理流量识别方法.首先对使用自主部署、自主采集方法捕获的原始加密流量进行流还原操作,然后提取还原后数据流的前N个数据包的前LL个字节,组成1张(H e i g h t,W i d t
9、 h,C h a n n e l)为(NL,L,1)像素的灰度图片,作为该数据流的流特征图(s t r e a mf e a t u r e i m a g e).此后将全部的样本分成训练集、验证集、测试集,分别输入设计的卷积神经网络模型进行训练、验证和测试.最后,通过选取不同的前N个数据包和包长策略L组合进行实验,测得在N=4,L=4 04 0时,该模型的最高识别准确率能够达到9 9.3 8%,与其他相关同类方法相比,在准确率方面有一定的优势.关键词 加密代理;流还原;流特征图;深度学习;卷积神经网络中图法分类号 T P 3 9 3.0 8 网址 http:/|723学 术 论 文Resea
10、rch Papers 网络代理是一种特殊的网络服务,它允许一个网络终端(通常称为客户端)通过该服务与另一个网络终端(通常称为服务器端)进行非直接的交互.代理服务器(p r o x ys e r v e r)代表客户端向服务器端获取数据,更形象地说,它是网络通信的中介,负责转发合法的网络请求,能够对接收到的请求进行访问控制.代理技术能够在一定程度上隐藏网络终端的真实信息,并提供基本的网络边界隔离1.网络代理技术在提供便捷的网络服务的同时,也存在窃取和篡改用户数据、侵犯用户隐私等问题.不法分子也会利用网络代理技术能够间接访问的特性,突破I P封锁的限制,绕过防火墙和入侵检测系统的防护,规避国家网络
11、安全部门的监管,非法访问被国家禁止的境外网站,触犯国家的相关法律2.多数的代理服务器支持将加密、伪装、混淆等技术和代理技术相结合,极大地增加了网络监管的难度,对国家、社会和个人的网络与信息安全造成严重威胁.这就要求我们能够对这部分加密代理流量进行精准的识别.鉴于此,本文提出了一种基于卷积神经网络的加密代理流量识别方法.与以往加密流量识别方法不同的是,本文方法加入了对原始流量的流还原操作,然后为每个训练样本生成1张流特征图,并将其作为卷积神经网络的输入进行训练.最后利用测试集对训练的模型进行评价.实验结果表明,本文方法能够高效、快速地对加密代理流量进行识别,并取得了较高的准确率.1 相关工作目前
12、针对加密代理流量的识别研究工作偏少,更多的研究是对普通的加密流量进行识别.普通的加密流量大多依附于某一特定的应用或协议.这些应用或协议在传输建立阶段存在明文交互的过程,后续的数据传输阶段虽然数据经过加密处理,但是由于基于公开特定的协议存在较为明显的流量特征3,而加密代理流量则多数基于自实现的私有协议,通过第三方渠道预共享加密算法和密钥的机制,实现了全域数据加密,避免了明文传输的阶段,且部分应用支持流量混淆和协议伪装技术,以规避相应的流量检测,加大了识别的难度4.两者的主要异同如表1所示:表1 常见加密应用协议与加密代理应用对比应用协议协议公开流量混淆协议伪装O p e n V P N是否否H
13、t t p s是否否O p e n S S H是否否S h a d o w s o c k s否否否S h a d o w s o c k s R否是否T r o j a n否是是V 2 R a y否是是早期的流量分类方法主要有基于端口和基于有效载荷的分类方法5.基于端口的分类方法通过假设大多数应用程序使用默认的端口号来推断流量的类型.然而端口伪装、端口转发、端口随机化等技术的应用使得该方法的可靠性显著降低.基于有效载荷的方法亦称作深度包检测(d e e pp a c k e t i n-s p e c t i o n,D P I)技术,通过匹配数据包的载荷内容来确定流量类别.以上2种方法均不
14、适用于加密代理流量的识别,加密代理软件多数使用高位随机端口,且D P I技术无法识别加密后的数据包6.当下对于加密流量识别的研究工作主要集中在机器学习相关的方法上.根据使用的机器学习算法不同,可以分为基于统计特征的机器学习算法和基于神经网络的深度学习算法7.基于统计特征的机器学习算法对加密流量的识别主要存在2个问题:其一是需要对待分类的加密流量提取多维的特征集,特征的选取高度依赖人工经验,不同的特征集对识别结果影响巨大;其二就是基于统计特征的机器学习算法存在很大的局限性,难以表征复杂的内在规律8.王勇等人9提出了基于L e N e t-5深度卷积神经网络的分类方法,通过不断调整参数产生最优分类
15、模型,测试结果表明该方法优于主成分分析、稀疏随机映射等方法;王伟1 0提出一种基于C NN的异常流量检测方法,该方法利用C NN特征学习能力,准确地对流量的特征进行提取,将提取到的特征用于流量分类并取得了良好的结果,最终将该模型用于异常流量检测;陈雪娇等人1 1利用卷积神经网络的识别准确率高和自主进行特征选择的优势,将其应用于加密流量的识别,测试结果表明该方法优于D P I方法.L i m等人1 2利用深度学习提出了基于数据包724|信 息 安 全 研 究Journal of Information Security Research第 9 卷 第 8 期 2023 年 8 月Vol.9 No
16、.8 Aug.2023的网络流量分类方法,该方法提取网络会话中的前几个数据包将其处理成等长的向量,然后利用C NN和R e s N e t进 行 训 练 和 流 量 分 类;R a n等人1 3提出了一种将3维卷积神经网络应用于无线网络流量分类的方法,实验结果表明该方法优于1维和2维卷积神经网络;W e i等人1 4提出了基于表征学习的恶意流量分类方法,将原始流量数据视为图片,用图片识别的C NN模型进行分类,取得了理想的结果.总结现有文献,本文将卷积神经网络模型应用于加密代理流量的识别.主要创新和工作点如下:1)参照图像识别领域经典的L e N e t-5网络模型,设计了包含2个卷积 池化层
17、和2个全连接层的卷积神经网络分类模型;2)自主部署并捕获主流加密代理软件的原始流量;图1 本文方法处理流程框架3)利用L i b n i d s入侵检测库实现T C P UD P流的还原工作,弥补了现有研究直接使用原始流量包的缺陷;4)提出了流特征图概念,截取每条数据流的前N个数据包的LL个字节,拼接成1张(NL,L,1)像素的灰度图片,作为C NN分类模型的输入;5)通过选取不同的训练参数和超参数,对设计的分类模型进行训练、验证和测试,并对实验结果进行分析比对.2 设计与实现2.1 方法概述图1所示为本文方法的处理流程框架,具体步骤如下:步骤1.本文实验选用S h a d o w s o c
18、 k s,S h a d o w-s o c k s R,T r o j a n,V 2 R a y这4款当下使用较多的加密代理软件.步骤2.部署以上加密代理软件的服务器端,并由客户端发起真实的代理请求.在此过程中,在服务器端执行t c p d u m p-i e t h 0 t c pa n dp o r tP O R Ta n dn o t a r pa n dn o t i c m pa n dn o t i pm u l t i c a s t-wA P P.p c a p n g进行精准流量捕获.其中P O R T为具体加密代理的部署端口,A P P为具体的加密代理软件名.步骤3.使
19、用L i b n i d s库对捕获的原始流量进行流还原,同时将还原后的每条数据流的前N个包载荷存储在M y S Q L数据库中.步骤4.使用P y T o r c h框架构建卷积神经网络模型.步骤5.读取M y S Q L数据库,构建流特征图 网址 http:/|725学 术 论 文Research Papers集合,并将全部的数据集按照7 1 2的比例分成训练集、验证集和测试集.步骤6.将训练集和验证集分别输入模型进行训练,训练集负责训练模型参数,验证集确定终止训练条件.步骤7.由测试集对训练的模型进行评价.2.2 预备知识定义1.流特征图(s t r e a mf e a t u r e
20、 i m a g e).1条数据流本质上是一系列数据包字节的有序组合,截取每个数据流前N个数据包载荷的前LL字节,按照列方向拼接成1张(H e i g h t,W i d t h,C h a n n e l)为(NL,L,1)像素的灰度图片,称为该数据流的流特征图,如图2所示.经过还原的数据流本质上是一个序列不等长的字节流.每个字节由8 b组成,这与图像中的1个像素取值范围相符合.本文认为数据流开始后的前N个包对识别工作起了至关重要的作用,前N个包更能表现数据流的根本特征,后续数据包更多地取决于加密代理服务的上层应用,而非加密代理本身.由于每个数据包的载荷长度不同,而C NN模型的输入要求一致
21、,因此还需对每个数据包载荷进行填充或者截取,以实现归一化处理.图2 流特征图的生成 定义2.UD P流.为生成流特征图,需要提取数据流的前N个数据包,这就要求我们能够明确数据流的开始与结束.T C P协议天然支持流式传输,分别使用3次握手和4次挥手数据包,标识流的开始与结束.而UD P协议是一种无连接的传输协议,仅提供B e s t-E f f o r t最大努力交付服务,无需建立连接便可发送数据,亦无传输结束数据包.为此,本文参考L i n u x3.0内核T C P I P协议栈的实现,选取2倍的t c p_f i n_t i m e o u t作为U D P流的超时结束时间,即1 2 0
22、 s,对1个U D P流作出如下定义:相同UD P五元组第1个UD P包记为UD P流的开始,当该五元组在1 2 0 s内未收到新的数据包时,认为该UD P流结束.当作出以上定义后就可以将T C P流与UD P流统一对待,以下文中将不再对T C P流与UD P流作明确的区分,统一称为数据流.2.3 卷积神经网络相较基于统计特征的机器学习方法,使用卷积神经网络模型进行分类省去了特征提取的过程,特征的选择更加依赖人工经验,费时费力.通常卷积神经网络适用于图像识别,所以如何实现数据流到图像的转换,也是流量分类过程中一个很重要的环节,本文方法利用流特征图来表征数据流.参照经典图像识别模型L e N e
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 卷积 神经网络 加密 代理 流量 识别 方法 李敬
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。