1、小 型 微 型 计 算 机 系 统 :年 月 第 期 收稿日期:收修改稿日期:基金项目:民航局安全能力建设项目(,)资助作者简介:吴 涛,男,年生,硕士,助理研究员,研究方向为民航安全管理、空中交通管理等;王占海,男,年生,硕士,副研究员,研究方向为民航安全管理;张 健,男,年生,硕士,高级工程师,研究方向为民航安全管理、应急研究;陈 奇,男,年生,硕士,高级工程师,研究方向为民航安全信息管理;逯佳丽,女,年生,硕士,研究方向为交通运输工程基于 迁移自反馈学习的小样本恶意域名检测吴 涛,王占海,张 健,陈 奇,逯佳丽(中国民航科学技术研究院,北京)(北方工业大学,北京):摘 要:针对现有恶意域
2、名检测算法对于新出现或新变种等小样本恶意域名检测精度不高和检测范围较小的问题,本文提出一种迁移自反馈学习的小样本恶意域名检测算法 首先,该算法融合卷积神经网络(,)和双向长短时记忆神经网络(,)的串行混合模型(),在提取域名字符特征的基础上保留上下文语义信息;然后,将学习到的网络模型参数迁移至小样本的恶意域名检测模型中;最后,利用提取的多维人工特征验证小样本恶意域名检测模型的检测结果,并将其检测结果反馈至迁移模型中,重新优化网络模型 通过在多家族域名数据集和小样数据集上进行测试验证,算法结果表明,本文模型在保持检测精度的基础上,能够识别出更多种新出现或新变种的小样本恶意域名关 键 词:小样本恶
3、意域名检测;迁移自反馈学习中图分类号:文献标识码:文 章 编 号:(),(,)(,):,(),()(),:;引 言近年来,“智慧民航”业务的快速发展给用户的出行带来了许多便利,同时,出于不同目的的民航信息化系统网络安全事件不断增多 如 年波兰航空公司的用户管理系统遭遇黑客攻击,致使系统瘫痪长达 小时,数 个班次的航班被取消;年,英国托马斯库克航空公司信息化系统遭遇黑客攻击,致使数万名用户信息泄露 分析该类事件的主要原因都是攻击者通过域名生成算法批量生成伪随机域名,然后尝试与 服务器建立通信,在短时间内发起集群攻击致使网络瘫痪,影响合法用户的访问请求,恶意域名的危害不容小视现有的恶意域名检测算法
4、主要通过构造域名黑名单数据列表,根据计算访问域名与黑名单数据列表中的每一恶意域名之间的相似度值,给出合法与恶意的判断,及时封堵恶意域名并响应合法域名的访问请求,但是随着域名检测方法的丰富,恶意域名的变种不断增多,并且每一恶意域名经过攻击后才被加入到恶意域名黑名单列表中,因此利用该种防御措施难以实时精确检测出新变种或新出现的恶意域名随着深度学习在语音、文本和计算机视觉等方面的广泛应用,利用深度学习并结合域名自身的构词特征识别出恶意域名,成为近年来恶意域名检测的主流方法 如文献利用长短时记忆神经网络 检测恶意域名,结果表明该算法对长度较长、随机性较高的恶意域名具有较高的区分度;文献利用循环神经网络
5、结合注意力机制进一步提升了恶意域名的检测性能;文献将可分离卷积应用于恶意域名检测中,对长度较长、多种家族恶意域名的拼接域名检测效果较好,此外有效降低了检测时间开销;文献融合卷积神经网络和长短时记忆神经网络,有效扩展了家族恶意域名的检测范围 以上方法对随机性较高的恶意域名具有较好的检测精度,但对随机性较低的恶意域名假阴性较高针对现有恶意域名检测方法检测范围局限和对新变种或新出现恶意域名检测精度较低的问题,在 混合模型的基础上引入自反馈学习机制,提高了模型的泛化能力,扩展了家族恶意域名的识别种类 网络结构图 给出了本文算法的检测流程,包括词嵌入层、卷积神经网络层、双向长短时记忆神经网络层、全连接层
6、和自反馈层 其中,词嵌入层对输入域名字符串进行规整编码,每个字符表示为 维向量;卷积神经网络层通过采用多个不同大小的卷积核提取域名的局部特征;双向长短时记忆神经网络层将卷积层的输出作为输入,提取局部特征的上下文信息;全连接层将学习到的特征映射为合法域名与恶意域名的类别属性;自反馈层利用专家知识库验证待测域名的标签,并将误报和漏报信息反馈至知识模型,重新优化网络模型参数,适应新变种或新出现的域名样本图 算法整体框架 数据预处理从、和安全联盟等国内外各大网站上收集与整理合法域名和恶意域名,并去除域名中的顶级域名,提取二级、三级、四级等域名级,构造合法域名样本集和恶意域名样本集 词嵌入层域名为字母与
7、字母、字母与数字、字母与符号等的组合,因此需要将字符转换成向量,作为网络的输入 首先,通过统计域名样本集中所有可能出现的字符,假设该域名样本集中不同字符总数为,设定字符编码的长度为,文根据 码字符集设定映射字典为 维,每一字符映射成对应的 向量;然后将该域名中所有字符对应的 向量按照字符在 中的顺序拼接得到网络的输入 域名向量化如图 所示图 以“”为例说明域名量化过程 首先将输入域名字符串统一为定长的,当域名字符串长度大于 时,对超出部分进行裁剪;当域名字符串长度不足 时,采用 补齐字符串裁剪采用公式():(),(),(),()()式中:()表示经过裁剪后的定长向量,表示每一标准化的域名;表示
8、零向量 卷积神经网络层域名字符串是一维的文本序列,因此,采用多卷积核的一维卷积神经网络代替传统模型,提取不同位置隐含的图 域名向量化流程 域名构词特征 设域名 长度为,卷积核个数为,卷积核长度为,则每个域名 词向量表示如公式()所示:(,)()将域名词向量作为卷积神经网络层的输入,利用多卷积核 对每个词向量进行特征提取,并将多特征按列连接,构造域名字符特征图 表示如公式()所示:,()期 吴 涛 等:基于 迁移自反馈学习的小样本恶意域名检测 式中:表示第 个卷积核对应的特征图 图 为特征提取示意图图 特征提取示意图 层 网络学习到的特征具有平移不变形,缺少上下文语义信息,此外,合法域名和恶意域
9、名的生成方式和构造规则不同,在形式上相对自由,但在词法组成上仍存在上下文依赖关系 因此,本文在 网络提取局部特征的基础上,利用 网络进一步学习字符之间的上下文关系 网络结构如图 所示图 网络结构 假设输入域名字符串序列 ,表示域名字符串序列中的第 个字符的 维词嵌入向量,表示域名集中的第 个域名包含的所有字符嵌入拼接的 维矩阵 时刻利用 进行上下文特征提取,计算如公式()所示:?()式中:?表示 时刻 的输出;表示权重矩阵,?表示 时刻 的正向输出,?表示 时刻 的反向输出,表示 时刻的偏置 全连接层全连接层在神经网络中起到“分类器”的作用,将学习到的特征表示映射为样本标记的类别属性,即合法域
10、名或恶意域名 在训练时采用 层,通过随意丢弃一定概率的特征值,降低网络训练过学习的风险,本文 取值 采用 函数和交叉熵进行损失计算 如公式()所示:()()()式中:表示训练样本总数,表示样本真实标签,为模型预测标签 小样本迁移网络训练 专家知识验证为躲避与合法域名的碰撞,恶意域名通常使用字符、数字、特殊符号和特殊运算符等的随机组合设计网络域名,而合法域名为了便于用户记忆与理解,通常采用汉语拼音、英文名称等的简写设计域名 因此,可以根据域名在结构、字符组成等方面的差异区分合法域名与恶意域名 本文在文献的基础上,构建专家知识库特征 特征集如表 所示表 特征集描述 序号特 征序号特 征域名长度数字
11、个数子域名个数连续数字个数字母个数特殊符号 特殊敏感词协议头包含知名域名顶级域名个数同形异义字符字母与数字转换比例最长连续非元音字符串长度元音字母个数二级域名长度子域名中字母与数字转换比例元音字母与辅音转换比例包含 地址 频次重复字符串个数香农熵连续字母个数编辑距离 参数迁移恶意域名的变种随着检测手段的增多不断丰富,当构词特征发生改变的新变种或新出现恶意域名样本数据量不足时,很难通过模型的优化实现对该类恶意域名的精确检测 而迁移学习可以将某领域已学习到的知识应用到另一相关领域中,根据先验知识和少量的样本就可以完成对该领域的学习 因此,本文将卷积神经网络和双向长短时记忆神经网络的混合模型 预训练
12、所得到的参数迁移至小样本恶意域名检测模型中 小样本迁移网络训练与检测的流程如图 所示图 小样本迁移网络训练与检测流程 新变种或新出现的小样本恶意域名经过数据标准化和词嵌入传入迁移模型 并进行训练 为避免参数固定导致训练效果不理想或模型过拟合等问题,本文仅将迁移的知识应用于模型的初始化,在之后的训练过程中,迁移部分 小 型 微 型 计 算 机 系 统 年的模型参数仍参与训练更新在检测阶段,当检测结果与专家知识库验证结果一致时,即合法域名预测为合法域名或恶意域名预测为恶意域名;反之,采用间隔训练的方法收集与整理误报或漏报的域名数据,重新训练 网络,再次训练更新 实验与分析 实验环境 是亚马逊公司面
13、向公众提供评估域名流行度的一种服务,通过对各域名在访问次数、链接指向等方面进行统计与分析,根据分析结果对域名进行综合评价并排名,因此本文选择 排名较高的 万条域名作为合法域名样本集;恶意 域 名 主 要 包 括 、安 全 联 盟 和 等多种家族恶意域名 万条由于部分家族恶意域名数量较少,不足以支撑网络的训练,因此本文选择 提供的数据较为充足的 种家族恶意域名、和安全联盟等提供的数据样本进行迁移知识的预训练;选择 提供数据量较少的其余家族恶意域名样本作为小样本恶意域名模型参数微调的训练样本,且训练集和测试选择小样本集的,剩余作为测试集 数据集详细信息如表 所示表 数据集描述 类 型描 述数量合法
14、域名集 万恶意样本 ():万其它来源 安全联盟、威胁检测报告 万数据量充足、万小样本家族、万 实验环境为 位 ,核 ,模型基于 深度学习框架,开发环境为 ,版本为 评价指标采用精准率、召回率 和 值 等评价指标,计算如公式()所示:|()式中:表示准确检测出的恶意域名总数;表示将恶意域名误报为合法域名的个数;表示将合法域名误报为恶意域名的个数;表示被算法准确检测出的恶意域名总数 实验结果分析为验证本文引入专家知识库建立自反馈机制的效果,在 提供的小样本数据集上分别构造基于特征决策的恶意域名检测算法、和深度学习算法、及 联 合 算 法、和本文模型等进行对比 训练过程如图 所示,评价指标结果如表
15、所示由图 可知,本文结合专家知识库的 的恶意域名检测算法迭代至第 轮附近时,在训练集上的损失仅高于 和 算法,但此时在验证集上的损失明显低于其他所有恶意域名检测算法,表明引入专家知识库提高了模型的泛化性能 此外表 给出了各恶意域名检测算法在相同数据集上的检测性能,优势明显;验证了在 的基础上引入专家知识库构建自反馈学习机制对于恶意域名检测的高效性图 训练集和验证集上的损失值变化趋势 图 给出了本文模型对于样本量充足的、和 提供的 种家族恶意域名的检测性能;图 给出了本文模型对于 提供的 种新变种或新出现的小样本恶意域名检测算法的检测性能 期 吴 涛 等:基于 迁移自反馈学习的小样本恶意域名检测
16、 表 不同方法的检测结果对比 ()()()本文算法 图 数据量充足的多家族检测性能 图 小样本家族恶意域名检测性能 由图 和图 可知,本文模型对于数据量充足的传统多家族恶意域名能够保持平均检测精度为,其中对于 提供的 种家族恶意域名检测精度达到 以上;对于 和 等传统黑名单列表中的多家族恶意域名的检测精度分别达到 和;对于 种新出现或新 变 种 的 小 样 本 家 族 恶 意 域 名 平 均 检 测 精 度 为,其中 种小样本家族恶意域名检测精度保持在以上 验证了本文模型在保持高检测精度的基础上,扩展检测范围的设计初衷 结束语本文在 混合模型的基础上,引入专家知识库构建一种自反馈学习机制提高模
17、型对于合法域名与恶意域名的检测精度 通过在多数据集上进行测试,实验验证了本文模型不仅适用于传统多家族的恶意域名检测,同时也适用于当前新变种或新出现的小样本恶意域名家族的检测 在抵御新型变种僵尸网络、木马等攻击方面具有一定的实际应用价值 此外,多尺度迁移模型涉及的网络参数较多,导致模型在训练时开销较大 因此,在保持现有模型检测精度和检测范围优势的基础上降低模型整体的时间开销,是后续研究中应考虑的重点问题:,():,():,():,():,():,():,():,():,():,():,():,:,:,():小 型 微 型 计 算 机 系 统 年 ,:,():,:,():,():,:,():附中文
18、参考文献:袁福祥,刘粉林,芦斌 基于历史数据的异常域名检测算法 通信学报,():赵 宏,常兆斌,王 乐 基于词法特征的恶意域名快速检测算法 计算机应用,():彭成维,云晓春,张永铮 一种基于域名请求伴随关系的恶意域名检测方法 计算机研究与发展,():吴 警,芦天亮,杜彦辉 基于 改进模型的恶意域名训练数据生成技术 信息网络安全,():陈立国,张跃冬,耿光刚 基于 型循环神经网络的随机域名检测 计算机系统应用,():杨路辉,白惠文,刘光杰 基于可分离卷积的轻量级恶意域名检测模型 网络与信息安全学报,():张 洋,柳厅文,沙泓州 基于多元属性特征的恶意域名检测 计算机应用,():黄 凯,傅建明,黄
19、坚伟 一种基于字符及解析特征的恶意域名检测方法 计算机仿真,():刘 兵,杨娟,汪荣贵 结合记忆与迁移学习的小样本学习 计算机工程与应用,():小型微型计算机系统征订启事小型微型计算机系统创刊于 年,由中国科学院主管,中国科学院沈阳计算技术研究所主办,中国计算机学会会刊(月刊),国内外公开发行小型微型计算机系统内容涵盖计算机学科各领域,包括:计算机科学理论、体系结构、数据库理论、计算机网络与信息安全、人工智能与算法、服务计算、计算机图形与图像等收录情况:中文核心期刊;中国学术期刊文摘(中英文版);中国科学引文数据库()来源期刊;英国科学文摘();美国剑桥科学文摘(自然科学)();()等小型微型计算机系统(月刊),国内外公开发行,大 开,页,每期定价 元,全年定价 元,全国各地邮局均可订阅国内邮发代号:国外发行代号:国内统一连续出版物号:国际标准连续出版物号:编辑部地址:沈阳市浑南区南屏东路 号小型微型计算机系统编辑部邮政编码:电 话:网 址:期 吴 涛 等:基于 迁移自反馈学习的小样本恶意域名检测