换一换

咨信网 > 资源分类 > PDF文档下载

预览

自信AI助手

自信AI导航

基于CNN-BiLSTM迁...馈学习的小样本恶意域名检测_吴涛.pdf

资源ID：237396 资源大小：1.56MB 全文页数：6页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

开通VIP

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

声明 | 会员权益获赠5币写作

1、填表： 下载求助索取发票退款申请

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

基于CNN-BiLSTM迁...馈学习的小样本恶意域名检测_吴涛.pdf

1、小型微型计算机系统：年月第期收稿日期：收修改稿日期：基金项目：民航局安全能力建设项目（，）资助作者简介：吴涛，男，年生，硕士，助理研究员，研究方向为民航安全管理、空中交通管理等；王占海，男，年生，硕士，副研究员，研究方向为民航安全管理；张健，男，年生，硕士，高级工程师，研究方向为民航安全管理、应急研究；陈奇，男，年生，硕士，高级工程师，研究方向为民航安全信息管理；逯佳丽，女，年生，硕士，研究方向为交通运输工程基于迁移自反馈学习的小样本恶意域名检测吴涛，王占海，张健，陈奇，逯佳丽（中国民航科学技术研究院，北京）（北方工业大学，北京）：摘要：针对现有恶意域

2、名检测算法对于新出现或新变种等小样本恶意域名检测精度不高和检测范围较小的问题，本文提出一种迁移自反馈学习的小样本恶意域名检测算法首先，该算法融合卷积神经网络（，）和双向长短时记忆神经网络（，）的串行混合模型（），在提取域名字符特征的基础上保留上下文语义信息；然后，将学习到的网络模型参数迁移至小样本的恶意域名检测模型中；最后，利用提取的多维人工特征验证小样本恶意域名检测模型的检测结果，并将其检测结果反馈至迁移模型中，重新优化网络模型通过在多家族域名数据集和小样数据集上进行测试验证，算法结果表明，本文模型在保持检测精度的基础上，能够识别出更多种新出现或新变种的小样本恶意域名关键词：小样本恶

3、意域名检测；迁移自反馈学习中图分类号：文献标识码：文章编号：（），（，）（，）：，（），（）（），：；引言近年来，“智慧民航”业务的快速发展给用户的出行带来了许多便利，同时，出于不同目的的民航信息化系统网络安全事件不断增多如年波兰航空公司的用户管理系统遭遇黑客攻击，致使系统瘫痪长达小时，数个班次的航班被取消；年，英国托马斯库克航空公司信息化系统遭遇黑客攻击，致使数万名用户信息泄露分析该类事件的主要原因都是攻击者通过域名生成算法批量生成伪随机域名，然后尝试与服务器建立通信，在短时间内发起集群攻击致使网络瘫痪，影响合法用户的访问请求，恶意域名的危害不容小视现有的恶意域名检测算法

4、主要通过构造域名黑名单数据列表，根据计算访问域名与黑名单数据列表中的每一恶意域名之间的相似度值，给出合法与恶意的判断，及时封堵恶意域名并响应合法域名的访问请求，但是随着域名检测方法的丰富，恶意域名的变种不断增多，并且每一恶意域名经过攻击后才被加入到恶意域名黑名单列表中，因此利用该种防御措施难以实时精确检测出新变种或新出现的恶意域名随着深度学习在语音、文本和计算机视觉等方面的广泛应用，利用深度学习并结合域名自身的构词特征识别出恶意域名，成为近年来恶意域名检测的主流方法如文献利用长短时记忆神经网络检测恶意域名，结果表明该算法对长度较长、随机性较高的恶意域名具有较高的区分度；文献利用循环神经网络

5、结合注意力机制进一步提升了恶意域名的检测性能；文献将可分离卷积应用于恶意域名检测中，对长度较长、多种家族恶意域名的拼接域名检测效果较好，此外有效降低了检测时间开销；文献融合卷积神经网络和长短时记忆神经网络，有效扩展了家族恶意域名的检测范围以上方法对随机性较高的恶意域名具有较好的检测精度，但对随机性较低的恶意域名假阴性较高针对现有恶意域名检测方法检测范围局限和对新变种或新出现恶意域名检测精度较低的问题，在混合模型的基础上引入自反馈学习机制，提高了模型的泛化能力，扩展了家族恶意域名的识别种类网络结构图给出了本文算法的检测流程，包括词嵌入层、卷积神经网络层、双向长短时记忆神经网络层、全连接层

6、和自反馈层其中，词嵌入层对输入域名字符串进行规整编码，每个字符表示为维向量；卷积神经网络层通过采用多个不同大小的卷积核提取域名的局部特征；双向长短时记忆神经网络层将卷积层的输出作为输入，提取局部特征的上下文信息；全连接层将学习到的特征映射为合法域名与恶意域名的类别属性；自反馈层利用专家知识库验证待测域名的标签，并将误报和漏报信息反馈至知识模型，重新优化网络模型参数，适应新变种或新出现的域名样本图算法整体框架数据预处理从、和安全联盟等国内外各大网站上收集与整理合法域名和恶意域名，并去除域名中的顶级域名，提取二级、三级、四级等域名级，构造合法域名样本集和恶意域名样本集词嵌入层域名为字母与

7、字母、字母与数字、字母与符号等的组合，因此需要将字符转换成向量，作为网络的输入首先，通过统计域名样本集中所有可能出现的字符，假设该域名样本集中不同字符总数为，设定字符编码的长度为，文根据码字符集设定映射字典为维，每一字符映射成对应的向量；然后将该域名中所有字符对应的向量按照字符在中的顺序拼接得到网络的输入域名向量化如图所示图以“”为例说明域名量化过程首先将输入域名字符串统一为定长的，当域名字符串长度大于时，对超出部分进行裁剪；当域名字符串长度不足时，采用补齐字符串裁剪采用公式（）：（），（），（），（）（）式中：（）表示经过裁剪后的定长向量，表示每一标准化的域名；表示

8、零向量卷积神经网络层域名字符串是一维的文本序列，因此，采用多卷积核的一维卷积神经网络代替传统模型，提取不同位置隐含的图域名向量化流程域名构词特征设域名长度为，卷积核个数为，卷积核长度为，则每个域名词向量表示如公式（）所示：（，）（）将域名词向量作为卷积神经网络层的输入，利用多卷积核对每个词向量进行特征提取，并将多特征按列连接，构造域名字符特征图表示如公式（）所示：，（）期吴涛等：基于迁移自反馈学习的小样本恶意域名检测式中：表示第个卷积核对应的特征图图为特征提取示意图图特征提取示意图层网络学习到的特征具有平移不变形，缺少上下文语义信息，此外，合法域名和恶意域

9、名的生成方式和构造规则不同，在形式上相对自由，但在词法组成上仍存在上下文依赖关系因此，本文在网络提取局部特征的基础上，利用网络进一步学习字符之间的上下文关系网络结构如图所示图网络结构假设输入域名字符串序列，表示域名字符串序列中的第个字符的维词嵌入向量，表示域名集中的第个域名包含的所有字符嵌入拼接的维矩阵时刻利用进行上下文特征提取，计算如公式（）所示：?（）式中：?表示时刻的输出；表示权重矩阵，?表示时刻的正向输出，?表示时刻的反向输出，表示时刻的偏置全连接层全连接层在神经网络中起到“分类器”的作用，将学习到的特征表示映射为样本标记的类别属性，即合法域

10、名或恶意域名在训练时采用层，通过随意丢弃一定概率的特征值，降低网络训练过学习的风险，本文取值采用函数和交叉熵进行损失计算如公式（）所示：（）（）（）式中：表示训练样本总数，表示样本真实标签，为模型预测标签小样本迁移网络训练专家知识验证为躲避与合法域名的碰撞，恶意域名通常使用字符、数字、特殊符号和特殊运算符等的随机组合设计网络域名，而合法域名为了便于用户记忆与理解，通常采用汉语拼音、英文名称等的简写设计域名因此，可以根据域名在结构、字符组成等方面的差异区分合法域名与恶意域名本文在文献的基础上，构建专家知识库特征特征集如表所示表特征集描述序号特征序号特征域名长度数字

11、个数子域名个数连续数字个数字母个数特殊符号特殊敏感词协议头包含知名域名顶级域名个数同形异义字符字母与数字转换比例最长连续非元音字符串长度元音字母个数二级域名长度子域名中字母与数字转换比例元音字母与辅音转换比例包含地址频次重复字符串个数香农熵连续字母个数编辑距离参数迁移恶意域名的变种随着检测手段的增多不断丰富，当构词特征发生改变的新变种或新出现恶意域名样本数据量不足时，很难通过模型的优化实现对该类恶意域名的精确检测而迁移学习可以将某领域已学习到的知识应用到另一相关领域中，根据先验知识和少量的样本就可以完成对该领域的学习因此，本文将卷积神经网络和双向长短时记忆神经网络的混合模型预训练

12、所得到的参数迁移至小样本恶意域名检测模型中小样本迁移网络训练与检测的流程如图所示图小样本迁移网络训练与检测流程新变种或新出现的小样本恶意域名经过数据标准化和词嵌入传入迁移模型并进行训练为避免参数固定导致训练效果不理想或模型过拟合等问题，本文仅将迁移的知识应用于模型的初始化，在之后的训练过程中，迁移部分小型微型计算机系统年的模型参数仍参与训练更新在检测阶段，当检测结果与专家知识库验证结果一致时，即合法域名预测为合法域名或恶意域名预测为恶意域名；反之，采用间隔训练的方法收集与整理误报或漏报的域名数据，重新训练网络，再次训练更新实验与分析实验环境是亚马逊公司面

13、向公众提供评估域名流行度的一种服务，通过对各域名在访问次数、链接指向等方面进行统计与分析，根据分析结果对域名进行综合评价并排名，因此本文选择排名较高的万条域名作为合法域名样本集；恶意域名主要包括、安全联盟和等多种家族恶意域名万条由于部分家族恶意域名数量较少，不足以支撑网络的训练，因此本文选择提供的数据较为充足的种家族恶意域名、和安全联盟等提供的数据样本进行迁移知识的预训练；选择提供数据量较少的其余家族恶意域名样本作为小样本恶意域名模型参数微调的训练样本，且训练集和测试选择小样本集的，剩余作为测试集数据集详细信息如表所示表数据集描述类型描述数量合法

14、域名集万恶意样本（）：万其它来源安全联盟、威胁检测报告万数据量充足、万小样本家族、万实验环境为位，核，模型基于深度学习框架，开发环境为，版本为评价指标采用精准率、召回率和值等评价指标，计算如公式（）所示：|（）式中：表示准确检测出的恶意域名总数；表示将恶意域名误报为合法域名的个数；表示将合法域名误报为恶意域名的个数；表示被算法准确检测出的恶意域名总数实验结果分析为验证本文引入专家知识库建立自反馈机制的效果，在提供的小样本数据集上分别构造基于特征决策的恶意域名检测算法、和深度学习算法、及联合算法、和本文模型等进行对比训练过程如图所示，评价指标结果如表

15、所示由图可知，本文结合专家知识库的的恶意域名检测算法迭代至第轮附近时，在训练集上的损失仅高于和算法，但此时在验证集上的损失明显低于其他所有恶意域名检测算法，表明引入专家知识库提高了模型的泛化性能此外表给出了各恶意域名检测算法在相同数据集上的检测性能，优势明显；验证了在的基础上引入专家知识库构建自反馈学习机制对于恶意域名检测的高效性图训练集和验证集上的损失值变化趋势图给出了本文模型对于样本量充足的、和提供的种家族恶意域名的检测性能；图给出了本文模型对于提供的种新变种或新出现的小样本恶意域名检测算法的检测性能期吴涛等：基于迁移自反馈学习的小样本恶意域名检测

16、表不同方法的检测结果对比（）（）（）本文算法图数据量充足的多家族检测性能图小样本家族恶意域名检测性能由图和图可知，本文模型对于数据量充足的传统多家族恶意域名能够保持平均检测精度为，其中对于提供的种家族恶意域名检测精度达到以上；对于和等传统黑名单列表中的多家族恶意域名的检测精度分别达到和；对于种新出现或新变种的小样本家族恶意域名平均检测精度为，其中种小样本家族恶意域名检测精度保持在以上验证了本文模型在保持高检测精度的基础上，扩展检测范围的设计初衷结束语本文在混合模型的基础上，引入专家知识库构建一种自反馈学习机制提高模

17、型对于合法域名与恶意域名的检测精度通过在多数据集上进行测试，实验验证了本文模型不仅适用于传统多家族的恶意域名检测，同时也适用于当前新变种或新出现的小样本恶意域名家族的检测在抵御新型变种僵尸网络、木马等攻击方面具有一定的实际应用价值此外，多尺度迁移模型涉及的网络参数较多，导致模型在训练时开销较大因此，在保持现有模型检测精度和检测范围优势的基础上降低模型整体的时间开销，是后续研究中应考虑的重点问题：，（）：，（）：，（）：，（）：，（）：，（）：，（）：，（）：，（）：，（）：，（）：，：，：，（）：小型微型计算机系统年，：，（）：，：，（）：，（）：，：，（）：附中文

18、参考文献：袁福祥，刘粉林，芦斌基于历史数据的异常域名检测算法通信学报，（）：赵宏，常兆斌，王乐基于词法特征的恶意域名快速检测算法计算机应用，（）：彭成维，云晓春，张永铮一种基于域名请求伴随关系的恶意域名检测方法计算机研究与发展，（）：吴警，芦天亮，杜彦辉基于改进模型的恶意域名训练数据生成技术信息网络安全，（）：陈立国，张跃冬，耿光刚基于型循环神经网络的随机域名检测计算机系统应用，（）：杨路辉，白惠文，刘光杰基于可分离卷积的轻量级恶意域名检测模型网络与信息安全学报，（）：张洋，柳厅文，沙泓州基于多元属性特征的恶意域名检测计算机应用，（）：黄凯，傅建明，黄

19、坚伟一种基于字符及解析特征的恶意域名检测方法计算机仿真，（）：刘兵，杨娟，汪荣贵结合记忆与迁移学习的小样本学习计算机工程与应用，（）：小型微型计算机系统征订启事小型微型计算机系统创刊于年，由中国科学院主管，中国科学院沈阳计算技术研究所主办，中国计算机学会会刊（月刊），国内外公开发行小型微型计算机系统内容涵盖计算机学科各领域，包括：计算机科学理论、体系结构、数据库理论、计算机网络与信息安全、人工智能与算法、服务计算、计算机图形与图像等收录情况：中文核心期刊；中国学术期刊文摘（中英文版）；中国科学引文数据库（）来源期刊；英国科学文摘（）；美国剑桥科学文摘（自然科学）（）；（）等小型微型计算机系统（月刊），国内外公开发行，大开，页，每期定价元，全年定价元，全国各地邮局均可订阅国内邮发代号：国外发行代号：国内统一连续出版物号：国际标准连续出版物号：编辑部地址：沈阳市浑南区南屏东路号小型微型计算机系统编辑部邮政编码：电话：网址：期吴涛等：基于迁移自反馈学习的小样本恶意域名检测

注意事项: 本文（基于CNN-BiLSTM迁...馈学习的小样本恶意域名检测_吴涛.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】