基于Res-CAN的Tor网站指纹识别模型.pdf
《基于Res-CAN的Tor网站指纹识别模型.pdf》由会员分享,可在线阅读,更多相关《基于Res-CAN的Tor网站指纹识别模型.pdf(9页珍藏版)》请在咨信网上搜索。
1、中国人民公安大学学报(自然科学版)2023 年第 2 期 No.2 2023Journal of People蒺s Public Security University of China(Science and Technology)总第 116 期 Sum116基于 Res-CAN 的 Tor 网站指纹识别模型王曦锐,摇 芦天亮,摇 杨摇 成,摇 于兴崭(中国人民公安大学信息网络安全学院,北京摇 100038)摘摇 要摇 网站指纹识别技术通过分析流量特征判断用户访问的网站站点,能够有效监管 TOR 匿名网络的用户行为。现有的识别方法通常需要大规模的数据样本以获得高的识别准确率,且普遍存在概念
2、漂移问题。针对以上问题,本文提出一种基于残差和协作对抗网络(Residual network and Collaborative and Adversarial Network,Res-CAN)的网站指纹识别模型。该模型使用残差网络(Residual network)作为特征提取器以减少网络的优化难度。同时,将协作对抗网络(Collaborative and Adversarial Network,CAN)应用于网站指纹识别问题,使得特征提取器同时学习领域相关和领域无关特征,实现源域与目标域的特征空间对齐。实验结果表明,本文提出的方法在小样本环境下网站指纹识别准确率达到 91郾 2%,优于现有
3、的利用对抗领域自适应网络(Domain鄄Adversarial Neural Networks,DANN)迁移学习方法,且抗概念漂移能力较高。关键词摇 网站指纹;匿名网络;残差网络;领域自适应;迁移学习中图分类号摇 D918郾 91文献标志码摇 A收稿日期摇2023鄄01鄄20基金项目摇北京市社会科学基金(21JCC108);中国人民公安大学 2022 年基本科研业务费项目(2022JKF02022)。作者简介摇王曦锐(1998),男,江苏徐州人,在读硕士研究生。主要研究方向为网络信息安全、网络攻防。通讯作者摇芦天亮(1985),男,博士,副教授。E鄄mail:lutianliang Res鄄
4、CAN Based Tor Website Fingerprinting Identification ModelWANG Xirui,摇 LU Tianliang,摇 YANG Cheng,摇 YU Xingzhan(School of Information and Cyber Security,People蒺s Public Security University of China,Beijing 100038,China)Abstract:Website fingerprint identification technology can effectively supervise th
5、e user behavior of Toranonymous network by analyzing traffic characteristics to determine the websites visited by users.Currentrecognition methods usually need large鄄scale data samples to obtain high recognition accuracy,and thereis a widespread problem of concept drift.In view of the above problems
6、,a website fingerprint identifica鄄tion model is proposed based on residual network and Collaborative and Adversarial Network.Residualnetwork is used as feature extractor to reduce the difficulty of network optimization.At the same time,thecollaborative and adversarial network is applied to website f
7、ingerprint identification,so that domain in鄄formative and domain uninformative features can be learned by the feature extractor,realizing the featurespace alignment of source domain and target domain.The experimental results show that the accuracy forwebsite fingerprint identification of the method
8、proposed in this paper can reach 91郾 2%in a small sampleenvironment,which is better than the current transfer learning methods using domain鄄adversarial neuralnetworks.Furthermore,the ability to resist concept drift is high.Key words:website fingerprint;anonymous network;residual network;domain adapt
9、ation;transferlearning67王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型0摇 引言TOR(The Onion Router)网络作为目前应用最为广泛的匿名通信系统,为用户提供网络通信身份的匿名性和通信内容的隐私性、完整性服务1。不法分子利用匿名通信系统的特性隐匿其犯罪活动2,在暗网(Dark Web)平台中充斥着信息泄露、网络赌博、军火贩卖等违法犯罪活动,严重威胁国家网络安全和社会治安。为了有效打击和监管暗网犯罪而提出的网络指纹识别方法,其本质是识别者进行有效部署从而
10、被动监听用户流量,分析流量特征判断用户访问的站点。现有的网站指纹识别模型存在以下问题:(1)为获得较高的实验准确率,实验模型需要大规模训练数据,一方面导致模型的训练效率较低;另一方面,在真实部署情况下,监听收集的流量数据无法短时间内满足大样本要求。(2)模型的灵活性较差,普遍存在概念漂移问题3,即目标变量的统计特性随着时间的推移以不可预见的方式变化,训练良好的模型使用一段时间后收集的数据测试,模型准确率显著下降。鉴于以上问题,从模型的性能和实用性出发,本文提出基于残差和协作对抗网络的网站指纹识别模型,主要贡献如下:(1)特征学习方面,模型使用残差结构的卷积神经网络作为特征提取器,在简化优化问题
11、的同时解决因神经网络层数过深导致的训练错误问题。(2)把基于领域自适应思想的协作对抗网络4用于网站指纹识别。该网络利用特征提取器同时学习领域相关和领域无关特征,在实现源域与目标域特征空间对齐的同时,保留目标域的特征信息,使得模型能够在少量样本的环境下获得较高的识别准确率。(3)通过多个数据集的实验,证明 Res-CAN 模型在小样本环境下准确率最高可达 91郾 2%,模型灵活性好的同时其抗概念漂移能力也较高。1摇 相关工作网站指纹识别5技术通常将嗅探设备部署在客户端和 TOR 匿名通信系统入口代理链路上,收集用户流量,通过分析流量数据包的时序、大小等特征,利用机器学习等方法完成分类任务。目前,
12、网站指纹识别分别在两种场景下评估,在封闭世界(close鄄world)场景下,TOR 用户仅访问受监管网站,识别者判断用户访问的网站种类,属于多分类任务。在开放世界(open鄄world)场景下,TOR 用户可以访问除受监管网站之外的其他网站,识别者判断其是否访问受监管网站,属于二分类任务。网站指纹识别方法由 Hintz5首先提出,通过分析加密报文大小和方向判断用户访问的网页,证实了网站指纹识别的有效性;Liberatore 等6最早提出了基于朴素贝叶斯的识别模型;Panchenko 等7提出 CUMUL 方法,该方法利用数据包累加特征,使用基于径向基(RBF)内核的支持向量机对 100 个网
13、站进行识别,准确率达到 90%;Hayes 等8使用随机决策森林方法,基于特征重要性选择数据包数量等特征,实验得到与 CUMUL 方法相似的准确率,同时其研究了对 TOR 的包填充等防御手段的识别。机器学习的方法依赖手工特征的处理和选择,随着混淆技术的发展,手工特征的稳定性逐渐丧失而导致模型的性能下降。深度学习方法因利用神经网络的非线性变换自动提取原始数据中的抽象特征,拥有更为强大的学习能力而被广泛运用到网站指纹识别研究中。Rim鄄mer 等9利用堆叠降噪自编码器(Stacked DenoisedAutoencoder,SDAE)、卷积神经网络(ConvolutionalNeural Netw
14、ork,CNN)和 长 短 期 记 忆 网 络(LongShort鄄Term Memory,LSTM)进行网站识别,证明深度学习方法较之传统机器学习方法更为灵活有效;Sirinam 等10提出 DF(Deep Fingerprinting)方法,利用 CNN 对 WTF-PAD 和 Walkie-Talkie 防御方案进行识别,对 WTF-PA 防 御 的 识 别 准 确 率 达 到90郾 7%;马陈城等11利用 CNN 对 TOR 的 brust 级别特征进行提取和分析,在概念漂移、绕过防御机制等方面有较好的表现;Rahman 等12结合数据包方向和时间构建新的突发级(Brust-Level
15、)特征。以上深度学习方法通过改进模型和特征处理方法增加了指纹识别的准确率13。Attarian 等14提出基于流处理算法的自适应在线网站指纹识别方法来解决概念漂移问题;Sirinam 等15提出 TF(TripletFingerprinting)方案,利用 N鄄shot 学习和迁移学习思想,使用小样本训练三重网络,在训练数据和测试数据分布不同的情况下,依然能获得 87%的准确率。为解决概念漂移问题提供新思路,Wang 等16提出AF(Adaptive Fingerprinting)方案,将对抗领域自适应网络 DANN 应用于网站指纹识别,相较于 TF 方77王曦锐等:基于 Res-CAN 的
16、Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型案,在小样本环境下模型表现更好。传统的网站指纹识别通过训练大规模的样本数据获得高准确率,导致模型的训练开销大,训练效率低。同时,模型的灵活性不足,普遍存在概念漂移问题。有学者利用 N鄄shot 学习和迁移学习思想使用少量样本训练获得较高准确率,但此类方法识别准确率相较于传统的识别方法仍然较低,针对此问题,本文在现有研究基础上做出如下改进:一是,特征提取过程中使用残差结构的卷积神经网络替换简单的前馈网络,减少了网络的优化难度。二是,将协作对抗网络 CAN 应用到网站指纹识别中,补充
17、了现有研究中忽略的相关性特征,利用特征提取器同时学习领域相关特征和领域无关特征,实现源域与目标域的特征空间对齐。最终提升了模型的泛化性,使得模型在小样本的环境下识别准确率进一步提升,且有效解决概念漂移问题。图 1摇 基于 Res-CAN 的 Tor 网站指纹识别模型2摇 基于 RES-CAN 的 TOR 网站指纹识别模型在海量数据样本的支撑下,机器学习尤其是深度学习算法在计算机视觉等领域得到广泛应用并取得较大成功17,但在现实应用中带标签数据收集耗时且代价昂贵。领域自适应方法通过训练大量带标签的,与目标域数据不同但是相关的源域数据训练模型,并将其应用于目标域,解决了真实环境中目标域带标签数据量
18、稀少的问题。网站指纹攻击领域普遍存在概念漂移问题,随着时间的推移,因网页内容更新、链路状态变化等原因导致同样的目标变量的数据分布产生了变化,致使攻击模型的准确率下降。本文所使用的领域自适应方法属于异构域适应方法,即源域和目标域具有不同的特征空间或标签空间,将所有源域数据视为有标签数据,目标域数据包含少量有标签数据和无标签数据。2郾 1摇 基于 Res-CAN 的网站指纹识别流程基于 Res-CAN 的网站指纹识别流程包括 3 个阶段。根据域不同将数据划分为源域数据和目标域数据,根据识别阶段不同,将目标域数据划分为目标域训练数据和目标域测试数据。如图 1 所示,在预训练阶段,将源域和目标域训练数
19、据输入 Res-CAN 网络,使用残差结构的卷积神经网络作为特征提取器提取数据特征,直接将输入信息传送至输出位置,保留了原始特征的信息完整性,得以缓解在深度神经网络中增加深度带来的梯度消失问题。利用 CAN 网络中的领域判别器优化特征提取器,使得特征提取器抽取领域不变性特征18和领域相关性特征,将源域和目标域数据映射到同一特征空间的同时保留目标域的特征信息,利用标签分类器对源域数据进行分类任务优化特征提87王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型取器学习目标域特征的能力。将训练好的特
20、征提取器应用到训练及测试阶段。在训练阶段,将目标域训练数据输入特征提取器,目的是优化 KNN 分类器参数,提高最终的识别准确率。最终在测试阶段使用目标域测试数据进行最终的目标域分类任务,评价识别模型的性能。2郾 2摇 网站指纹识别场景本文假设的网站指纹识别场景如图 2 所示,用户通过 TOR 路由器访问目标网站服务器,数据包的网络协议是 TOR 的专用协议,用户与服务器之间的通信加密。识别者在客户端和入口节点间被动监听网络流量,无法解密数据包的有效载荷信息,其目标是通过分析加密数据包的大小和方向等特征判断用户访问的网站。在此场景中,假定识别者不知道通信密钥,采集流量的过程中不添加或丢失数据包。
21、用户每一次只访问一个网站,而不是同时点击多个网站,从而保证噪声流量尽可能的小。该场景与其他网站指纹识别研究一致19。图 2摇 网站指纹识别场景摇每一个网站实例仅保留数据包的方向特征,用+1 表示通向网站服务器的数据包,用-1 表示源自网站服务器的数据包,网站实例 X 可表示为:X=+1,-1,+1(1)通过对实例进行截取和填充操作使其长度相等,若序列长度超过 5 000 则截断,反之进行零字节填充操作,最终作为神经网络的输入,在之前的大量研究中都采用该方法作为特征数据集9。2郾 3摇 Res-CAN 模型2郾 3郾 1摇 协作对抗网络 CANCAN 网络由特征提取器、标签分类器以及领域判别器组
22、成。其中,特征提取器由 m 个特征提取块组成。在每个块后面放置一个域判别器,目的是使得特征提取器在网络低层的块中学习领域的相关性特征。因为低层的特征提取角落和边缘有效信息,这些信息有助于最终的标签分类。在网络高层的块中利用对抗思想学习领域的无关性特征,目的是将不同分布的目标域与源域数据映射到同一特征空间20,并通过在特征提取块和域判别器之间连接梯度反转层(Gradient Reversal Layer,GRL)实现。CAN网络结构和传播过程如图 3 所示,其中 F1、F2和 Fm是特征提取块,D1、D2和 Dm是领域判别器,C 是标签分类器,LC为标签分类损失值,LD为领域判别损失值。图 3摇
23、 CAN 网络结构摇在 CAN 网络中,通常用 Ds=(xsi,ysi)|Nsi=1表示源域数据,其中 xsi表示第 i 个源域数据,ysi表示其对应 的 标 签,Ns表 示 源 域 数 据 数 量。用 Dt=xti|Nti=1表示目标域数据,其中 xti表示第 i 个目标域数据,Nt表示目标域数据数量。CAN 网络的损失值包含领域判别损失值和标签分类损失值,其中领域判别损失值包含领域相关性特征学习和领域无关性特征学习两个部分。我们用 F 表示一个特征提取块之前的特征表示,用 f 表示经过该特征提取块后的特征表示,即用 f=F(x;兹)表示 f 为 F 的输出,其中 兹 为特征提取块参数。为了
24、学习领域相关性或无关性特征,在特征提取块后放一个领域判别器 D:f寅0,1,其损失值可表示为:LD(兹,w)=1N移Ni=1LD(D(F(xi;兹);w),di)(2)其中 w 为领域判别器 D 的参数,N 表示训练数据总量,di=0,1表示领域标签集合,di=0 表示为源域数据,di=1 表示为目标域数据,LD为分类交叉熵损失。假设在特征提取器中包含 m 个特征提取块,在每个块后添加领域判别器,为每个判别器引入参数 姿k(k=1,m),用 W=w1,wm表示所有领域判别器的参数集合,其中 wk表示第 k 个领域判别器的参数,用 专F=兹1,兹m表示所有网络参数的集合,其中 兹k表示包括第 k
25、 个特征提取97王曦锐等:基于 Res-CAN 的 Tor詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬詬网站指纹识别模型块及其之前的网络的参数。整体域判别的优化目标可表示为:min专F,姿LCAN=移m-1k=1姿kminwkLD(兹k,wk)+姿mminwmLD(兹m,wm),s.t.移m-1k=1姿k=姿0,|姿k|臆姿0(3)其中 姿k(k=1,m-1)在反向传播过程中自动优化,姿0和 姿m是超参数。当 姿k逸0 时,特征提取块倾向于学习域的相关性特征从而使判别器更好区分源域和目标域特征。当 姿k0 时,特征提取快倾向于学习域的无关性特征,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Res CAN Tor 网站 指纹识别 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。