基于CNN-BiLSTM迁...馈学习的小样本恶意域名检测_吴涛.pdf
《基于CNN-BiLSTM迁...馈学习的小样本恶意域名检测_吴涛.pdf》由会员分享,可在线阅读,更多相关《基于CNN-BiLSTM迁...馈学习的小样本恶意域名检测_吴涛.pdf(6页珍藏版)》请在咨信网上搜索。
1、小 型 微 型 计 算 机 系 统 :年 月 第 期 收稿日期:收修改稿日期:基金项目:民航局安全能力建设项目(,)资助作者简介:吴 涛,男,年生,硕士,助理研究员,研究方向为民航安全管理、空中交通管理等;王占海,男,年生,硕士,副研究员,研究方向为民航安全管理;张 健,男,年生,硕士,高级工程师,研究方向为民航安全管理、应急研究;陈 奇,男,年生,硕士,高级工程师,研究方向为民航安全信息管理;逯佳丽,女,年生,硕士,研究方向为交通运输工程基于 迁移自反馈学习的小样本恶意域名检测吴 涛,王占海,张 健,陈 奇,逯佳丽(中国民航科学技术研究院,北京)(北方工业大学,北京):摘 要:针对现有恶意域
2、名检测算法对于新出现或新变种等小样本恶意域名检测精度不高和检测范围较小的问题,本文提出一种迁移自反馈学习的小样本恶意域名检测算法 首先,该算法融合卷积神经网络(,)和双向长短时记忆神经网络(,)的串行混合模型(),在提取域名字符特征的基础上保留上下文语义信息;然后,将学习到的网络模型参数迁移至小样本的恶意域名检测模型中;最后,利用提取的多维人工特征验证小样本恶意域名检测模型的检测结果,并将其检测结果反馈至迁移模型中,重新优化网络模型 通过在多家族域名数据集和小样数据集上进行测试验证,算法结果表明,本文模型在保持检测精度的基础上,能够识别出更多种新出现或新变种的小样本恶意域名关 键 词:小样本恶
3、意域名检测;迁移自反馈学习中图分类号:文献标识码:文 章 编 号:(),(,)(,):,(),()(),:;引 言近年来,“智慧民航”业务的快速发展给用户的出行带来了许多便利,同时,出于不同目的的民航信息化系统网络安全事件不断增多 如 年波兰航空公司的用户管理系统遭遇黑客攻击,致使系统瘫痪长达 小时,数 个班次的航班被取消;年,英国托马斯库克航空公司信息化系统遭遇黑客攻击,致使数万名用户信息泄露 分析该类事件的主要原因都是攻击者通过域名生成算法批量生成伪随机域名,然后尝试与 服务器建立通信,在短时间内发起集群攻击致使网络瘫痪,影响合法用户的访问请求,恶意域名的危害不容小视现有的恶意域名检测算法
4、主要通过构造域名黑名单数据列表,根据计算访问域名与黑名单数据列表中的每一恶意域名之间的相似度值,给出合法与恶意的判断,及时封堵恶意域名并响应合法域名的访问请求,但是随着域名检测方法的丰富,恶意域名的变种不断增多,并且每一恶意域名经过攻击后才被加入到恶意域名黑名单列表中,因此利用该种防御措施难以实时精确检测出新变种或新出现的恶意域名随着深度学习在语音、文本和计算机视觉等方面的广泛应用,利用深度学习并结合域名自身的构词特征识别出恶意域名,成为近年来恶意域名检测的主流方法 如文献利用长短时记忆神经网络 检测恶意域名,结果表明该算法对长度较长、随机性较高的恶意域名具有较高的区分度;文献利用循环神经网络
5、结合注意力机制进一步提升了恶意域名的检测性能;文献将可分离卷积应用于恶意域名检测中,对长度较长、多种家族恶意域名的拼接域名检测效果较好,此外有效降低了检测时间开销;文献融合卷积神经网络和长短时记忆神经网络,有效扩展了家族恶意域名的检测范围 以上方法对随机性较高的恶意域名具有较好的检测精度,但对随机性较低的恶意域名假阴性较高针对现有恶意域名检测方法检测范围局限和对新变种或新出现恶意域名检测精度较低的问题,在 混合模型的基础上引入自反馈学习机制,提高了模型的泛化能力,扩展了家族恶意域名的识别种类 网络结构图 给出了本文算法的检测流程,包括词嵌入层、卷积神经网络层、双向长短时记忆神经网络层、全连接层
6、和自反馈层 其中,词嵌入层对输入域名字符串进行规整编码,每个字符表示为 维向量;卷积神经网络层通过采用多个不同大小的卷积核提取域名的局部特征;双向长短时记忆神经网络层将卷积层的输出作为输入,提取局部特征的上下文信息;全连接层将学习到的特征映射为合法域名与恶意域名的类别属性;自反馈层利用专家知识库验证待测域名的标签,并将误报和漏报信息反馈至知识模型,重新优化网络模型参数,适应新变种或新出现的域名样本图 算法整体框架 数据预处理从、和安全联盟等国内外各大网站上收集与整理合法域名和恶意域名,并去除域名中的顶级域名,提取二级、三级、四级等域名级,构造合法域名样本集和恶意域名样本集 词嵌入层域名为字母与
7、字母、字母与数字、字母与符号等的组合,因此需要将字符转换成向量,作为网络的输入 首先,通过统计域名样本集中所有可能出现的字符,假设该域名样本集中不同字符总数为,设定字符编码的长度为,文根据 码字符集设定映射字典为 维,每一字符映射成对应的 向量;然后将该域名中所有字符对应的 向量按照字符在 中的顺序拼接得到网络的输入 域名向量化如图 所示图 以“”为例说明域名量化过程 首先将输入域名字符串统一为定长的,当域名字符串长度大于 时,对超出部分进行裁剪;当域名字符串长度不足 时,采用 补齐字符串裁剪采用公式():(),(),(),()()式中:()表示经过裁剪后的定长向量,表示每一标准化的域名;表示
8、零向量 卷积神经网络层域名字符串是一维的文本序列,因此,采用多卷积核的一维卷积神经网络代替传统模型,提取不同位置隐含的图 域名向量化流程 域名构词特征 设域名 长度为,卷积核个数为,卷积核长度为,则每个域名 词向量表示如公式()所示:(,)()将域名词向量作为卷积神经网络层的输入,利用多卷积核 对每个词向量进行特征提取,并将多特征按列连接,构造域名字符特征图 表示如公式()所示:,()期 吴 涛 等:基于 迁移自反馈学习的小样本恶意域名检测 式中:表示第 个卷积核对应的特征图 图 为特征提取示意图图 特征提取示意图 层 网络学习到的特征具有平移不变形,缺少上下文语义信息,此外,合法域名和恶意域
9、名的生成方式和构造规则不同,在形式上相对自由,但在词法组成上仍存在上下文依赖关系 因此,本文在 网络提取局部特征的基础上,利用 网络进一步学习字符之间的上下文关系 网络结构如图 所示图 网络结构 假设输入域名字符串序列 ,表示域名字符串序列中的第 个字符的 维词嵌入向量,表示域名集中的第 个域名包含的所有字符嵌入拼接的 维矩阵 时刻利用 进行上下文特征提取,计算如公式()所示:?()式中:?表示 时刻 的输出;表示权重矩阵,?表示 时刻 的正向输出,?表示 时刻 的反向输出,表示 时刻的偏置 全连接层全连接层在神经网络中起到“分类器”的作用,将学习到的特征表示映射为样本标记的类别属性,即合法域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CNN BiLSTM 学习 小样 恶意 域名 检测 吴涛
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。