分销赏收藏举报申诉 / 12

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > mVulSniffer：一种多类型源代码漏洞检测方法.pdf

mVulSniffer：一种多类型源代码漏洞检测方法.pdf

上传人：自信****多点

文档编号：879176

上传时间：2024-04-02

格式：PDF

页数：12

大小：1.02MB

《mVulSniffer：一种多类型源代码漏洞检测方法.pdf》由会员分享，可在线阅读，更多相关《mVulSniffer：一种多类型源代码漏洞检测方法.pdf（12页珍藏版）》请在咨信网上搜索。

1、2023 年 9 月 Journal on Communications September 2023 第 44 卷第 9 期通信学报 Vol.44 No.9mVulSniffer：一种多类型源代码漏洞检测方法张学军1，张奉鹤1，盖继扬1，杜晓刚2，周文杰1，蔡特立1，赵博3（1.兰州交通大学电子与信息工程学院，甘肃兰州 730070；2.陕西科技大学电子信息与人工智能学院，陕西西安 710021；3.国家电网甘肃省电力公司，甘肃兰州 730000）摘要：针对现有基于深度学习的源代码漏洞检测方法使用的代码切片不能全面覆盖漏洞类间细微差异特征，且单一深度学习检测模型对跨文件、跨

2、函数代码语句间较长的上下文依赖信息学习能力不足的问题，提出一种多类型源代码漏洞检测方法。首先，基于程序依赖图中的控制依赖和数据依赖信息，抽取包含可区分漏洞类型的细粒度两级代码切片。其次，将两级切片转化为初始表示向量。最后，构建适用于两级代码切片的深度学习漏洞检测融合模型，实现对多类型源代码漏洞的准确检测。在多个合成数据集及 2 个真实数据上的实验结果表明，所提方法的检测效果优于现有的多类型源代码漏洞检测方法。关键词：多类型漏洞检测；深度学习；注意力机制；数据依赖；控制依赖中图分类号：TP311 文献标志码：A DOI:0.11959/j.issn.1000436x.2023184 mVulS

3、niffer:a multi-type source code vulnerability sniffer method ZHANG Xuejun1,ZHANG Fenghe1,GAI Jiyang1,DU Xiaogang2,ZHOU Wenjie1,CAI Teli1,ZHAO Bo3 1.School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China 2.School of Electronic and Information and Artificial

4、Intelligence,Shaanxi University of Science and Technology,Xian 710021,China 3.State Grid Gansu Electric Power Company,Lanzhou 730000,China Abstract:Given the problem that the code slice used by existing deep learning-based vulnerability sniffer methods could not comprehensively encompass the subtle

5、characteristics between vulnerability classes,and a single deep learning sniffer model had insufficient ability to learn long context-dependent information between cross-file and cross-function code statements,a multi-type source code vulnerability sniffer method was proposed.Firstly,fine-grained tw

6、o-level slices containing the types of vulnerabilities were extracted based on the control dependency and data dependency information in program dependency graph.Secondly,the two-level slices were transformed into initial feature vector.Finally,a fusion model of deep learning vulnerability sniffer s

7、uitable for two-level slices was constructed to achieve accurate vulnerability detection of multi-type source code.The experimental results on multiple synthetic datasets and two real datasets show that the proposed method outperforms the existing multi-type source code vulnerability sniffer methods

8、.Keywords:multi-type vulnerabilities sniffer,deep learning,attention mechanism,data dependency,control dependency 0 引言随着信息技术的高速发展，计算机软件已经渗透到人们生活的各个方面，软件规模及其复杂性不断升高，软件漏洞类型和数量也呈现递增趋势。据美国国家漏洞数据库（NVD,national vulnerability 收稿日期：20230407；修回日期：20230628 基金项目：国家自然科学基金资助项目（No.61762058）；甘肃省自然科学基金资助项目（No.21JR

9、7RA282）；甘肃省教育厅产业支撑基金资助项目（No.2022CYZC-38）；国家电网科技基金资助项目（No.W32KJ2722010,No.522722220013）Foundation Items:The National Natural Science Foundation of China(No.61762058),The Natural Science Foundation of GansuProvince(No.21JR7RA282),The Industrial Support Project of Gansu Provincial Department of Educati

10、on(No.2022CYZC-38),TheState Grid Science and Technology Project(No.W32KJ2722010,No.522722220013)150 通信学报第 44 卷 database）的数据显示：软件漏洞数量已连续 5 年超过 1 万条，除了数量增加，软件漏洞也呈现复杂性和多样性，给计算机系统安全带来了极大的威胁，甚至会造成严重的后果1。软件漏洞是指在软件系统或产品的软件生命周期中，由于操作实体有意或无意的疏忽而产生的设计错误、编码缺陷、运行故障等，它们以不同的形式存在于软件系统的各个层次与环节之中2-3。攻击者往往基于这些软件缺

11、陷非法访问目标主机并获取敏感数据。显然，及时对设备、应用及系统软件进行漏洞检测，并修补各类漏洞，对软件系统的安全稳定运行具有重大的意义。目前，研究者提出了多种漏洞检测方法，其可大致分为动态漏洞检测方法和静态漏洞检测方法4。动态漏洞检测方法是在整个程序运行中挖掘程序本身存在的缺陷，如模糊测试5和动态符号执行6。动态漏洞检测方法虽然在小规模软件测试中取得了一定的成效，但在面对大型复杂的软件系统漏洞时，仍然面临检测效率较低的问题7，如符号执行方法虽然能以较少的测试用例覆盖尽可能多的程序路径，但仍存在路径爆炸、约束求解难、内存建模与并行处理复杂等问题8。静态漏洞检测方法是在不运行程序的情况下，对程序的

12、二进制代码或源代码的语法、语义、控制流和数据流进行分析，从而检测目标程序是否存在漏洞，主要有基于二进制代码的漏洞检测方法和基于源代码的漏洞检测方法。基于二进制代码的漏洞检测方法先将软件反编译为二进制流，然后通过分析二进制流中是否包含漏洞特征，判断软件是否存在漏洞，但由于二进制流缺失了源代码的语义和语法信息，存在检测误报率较高的问题。基于源代码的漏洞检测方法能够最大限度地保留源代码中丰富的语义和语法信息，解决了动态漏洞检测无法完全覆盖所有代码的问题，且其不需要代码编译环境，实现效率较高，从而得到了广大研究者的高度重视。基于源代码的漏洞检测方法主要分为基于规则的漏洞检测方法9和基于学习的漏洞检测方

13、法10。基于规则的漏洞检测方法需要专家手动定义漏洞规则，如开源工具 ITS4（interrogating transactional system for security）、Flawfinder、RATS（rough auditing tool for security）等。基于学习的漏洞检测方法11-28利用机器学习、深度学习技术对正常样本和漏洞样本之间的特征差异进行学习来确定漏洞检测边界，但该类方法最初将源代码看作文本序列进行处理11-13，忽略了编程语言的结构信息8，如控制流和语法结构等，使模型难以学习到程序源代码的重要漏洞特征，影响了模型的检测准确率。Agrawal 等29研究发现，

14、在基于学习的软件漏洞检测方法中，数据预处理比模型选择更重要。为了学习到更丰富的代码特征，文献14-22在基于学习的漏洞检测方法中使用语义和语法图进行数据预处理，有效提高了模型的漏洞检测准确率。但是，这些漏洞检测方法的检测粒度为整个程序或函数级，可能会带来较大的噪声和冗余，难以有效捕捉代码缺陷特征。为了实现细粒度的漏洞检测，Li 等24-25引入代码切片的概念，最先提出了基于深度学习的源代码漏洞检测方法 VulDeePecker和软件漏洞检测框架 SySeVR，获得了良好的检测效果，然而它们仅能检测出一段代码（如多行代码）中是否存在漏洞，无法精准指出漏洞的类型22。漏洞类型会体现漏洞发生的原理，

15、有助于开发人员和代码审核员快速确定漏洞的准确位置、减少工作量、提高工作效率。鉴于大规模预训练语言模型在程序语言和自然语言30中表现出的优异性能以及自然语言和高级编程语言之间的紧密联系，Chandra等23提出了基于 Transformer 大规模预训练模型的多类型软件漏洞检测方法，取得了良好的漏洞检测性能，但其需要大量的算力，限制了其应用。Zou等28提出了一种基于深度学习的多分类漏洞检测方法 VulDeePecker，它在 VulDeePecker 数据集上进行扩充，增加了控制依赖作为切片依据，并将漏洞类型加入其中，并通过定义 code atten-tion 和构建新的双向长短时记忆（BLS

16、TM,bidi-rectional long short-term memory）网络漏洞检测模型，在不需要大量算力的情况下，不仅能够检测出一段代码中是否存在漏洞，而且能够准确检测出漏洞的具体类型。然而，VulDeePecker 数据集中的非漏洞样本均被标记为非缺陷类型，不存在类型信息，可能会影响模型的判断31。而且，VulDeePecker 在切片时进行前后向切片，同时考虑数据依赖和控制依赖，提取可区分漏洞类型的代码切片难度较大；BLSTM 漏洞检测模型面对跨文件、跨函数代码语句间较长的上下文依赖信息时学习能力不足。综上所述，当前多类型漏洞检测方法依然面临以下挑战：1)虽然通过代码切片能够进

17、行细粒度的第 9 期张学军等：mVulSniffer：一种多类型源代码漏洞检测方法 151 漏洞类型检测，但是如何进行有效切片以覆盖全面的漏洞特征仍然是一个难题；2)基于单一深度学习的漏洞检测模型对跨文件、跨函数代码语句间较长的上下文依赖信息的学习能力不足，影响检测效果。针对以上挑战，本文提出了一种多类型源代码漏洞检测方法 mVulSniffer，通过两级代码切片提取更易于区分漏洞类型信息的特征，并设计了适用于两级代码切片的多种深度学习漏洞检测融合模型加强对较长上下文依赖信息的学习能力，有效提高了多类型源代码漏洞的检测能力。本文主要贡献如下。1)提出基于两级代码切片的多类型源代码漏洞检测方法

18、。首先，依据 4 种漏洞语法特征对程序依赖图进行切片得到确定是否包含漏洞的初级漏洞代码（PrVC,primary vulnerability code）块；然后，依据 3 种漏洞语法规则对初级漏洞代码块进一步切片，得到包含更加易于区分漏洞类型信息的扩展语法漏洞代码（ExSyVC,extended syn-tax-based vulnerability code）块，从而获得更全面的漏洞特征。2)设计了适用于两级代码切片的双向门控循环单元（BGRU,bidirectional gate recurrent unit）神经网络、卷积神经网络（CNN,convolu-tional neural ne

19、twork）模型和漏洞检测融合模型来分别提取初级漏洞代码块和扩展语法漏洞代码块的语法特征，在融合层基于注意力机制提取关键漏洞特征，解决已有多类型漏洞检测模型难以对跨文件、跨函数代码语句间较长的上下文依赖信息进行学习的问题，实现了更有效的多类型源代码漏洞检测。3)在包含 10 类源代码漏洞的数据集，基于库/应用程序接口（API）函数调用（FC,function call）、数组使用（AU,array usage）、指针使用（PU,pointer usage）和算术表达式（AE,arithmetic expression）4 种易引发漏洞语法特征的 4 个数据集和 2 个真实源代码漏洞数据集 De

20、vign 和 REVEAL 上进行了全面的实验对比和验证。结果表明，mVulSniffer 的漏洞检测效果优于现有方法。1 相关工作基于源代码的漏洞检测是一种静态漏洞检测方法7，它通过对源代码的语法、语义、控制流和数据流进行分析来检测目标程序代码是否存在漏洞。本文将基于源代码的漏洞检测方法分为基于规则的源代码漏洞检测方法和基于学习的源代码漏洞检测方法。1.1 基于规则的源代码漏洞检测方法基于规则的源代码漏洞检测方法发展历史悠久，SteveJohnson 开发了 Lint，通过代码语法规则对 C 语言代码中存在的错误进行挖掘。目前常见的漏洞检测工具主要通过词法分析进行漏洞检测，如 ITS4、

21、Flawfinder、RATS 等。其中，ITS4通过简单词法分析进行漏洞检测；Flawfinder 和RATS 对每种漏洞维护内建的特征库，然后通过词法分析算法对其中条目进行匹配，从而挖掘代码中的漏洞，可以有效地挖掘由 API 误用等问题导致的漏洞。1.2 基于学习的源代码漏洞检测方法目前，机器学习和深度学习技术在漏洞检测任务中也表现了良好的效果。Yamaguchi 等11使用主成分分析（PCA,principal components analysis）和词频和逆文本频率（TF-IDF,term frequency-inverse document frequency）技术得到代码的向量

22、表征，并利用机器学习模型进行漏洞检测。Park 等12使用机器学习方法学习变量初始值和其允许取值的范围来检测由变量引起的软件漏洞。为了更准确地挖掘软件漏洞特征，Russell 等13提出了基于深度学习的代码表示，以检测源代码中的软件漏洞。但是，以上 2 种方法将源代码序列当作自然语言序列处理，忽略了编程语言本身的特性，例如控制流和语法结构等。Wang 等14和 Li 等15基于源代码对应的抽象语法树（AST,abstract syntax tree），分别利用深度置信网络（DBN,deep belief network）和 CNN 实现漏洞检测。Dam 等16基于AST 的树结构信息，利用树状

23、长短时记忆（LSTM,long short-term memory）网络对源代码漏洞特征进行学习，进而实现漏洞检测，但上述工作仅考虑了AST 的语义、语法信息，忽略了其他代码表示包含的上下文语义特征。Kim 等17提出从 AST 和控制流图（CFG,control flow graph）分别获取语义语法和控制流的特征，并采用基于注意力的 LSTM 模型实现漏洞检测。Harer 等18对比了基于源代码和基于 CFG 的向量表征，并使用机器学习算法进行漏洞检测，证明了机器学习对函数级漏洞检测的有效性。Duan 等19将源代码对应的代码属性图（CPG,code property graph）编码为特

24、征张量并输入神经网152 通信学报第 44 卷络，实现漏洞检测。为了学习源代码中多维度的数据流、控制流特征，Zhou 等20和 Cao 等21将图神经网络引入漏洞挖掘任务中，获得良好的漏洞检测性能。Fan 等22构建了包含 AST、CFG、数据流图（DFG,data flow graph）和代码序列信息的综合代码图，并设计了圆形门控图神经网络进行漏洞检测，获得了更优的检测效果。为了实现更细粒度的漏洞检测，Li 等24引入代码切片概念，并基于 BLSTM 训练漏洞检测模型来检测源代码是否包含漏洞，但仅引入库/API 函数调用语法规则对源代码进行切片。随后，Li 等25又提出了一种源代码

25、漏洞检测框架 SySeVR，该框架将源代码基于 4 种漏洞语法规则进行切片，并基于向量化表征和循环神经网络（RNN,recurrent neural network）训练漏洞检测模型，该框架可用于不同编程语言的源代码漏洞检测。杨宏宇等26基于包含数据依赖和控制依赖信息的图结构代码切片，构建了图神经网络模型实现漏洞检测，但漏洞检测模型训练时间较长。胡雨涛等27提出了改进的图神经网络解释器（GNNExplainer,generating explanation for graph neural network）对基于深度学习的漏洞检测模型输出结果进行解释。但上述工作仅检测源代码中是否存在漏洞，没有

26、挖掘漏洞的具体类型。Zou 等28最先利用深度学习技术提出一种多类型漏洞检测模型VulDeePecker，该方法引入 C/C+漏洞源代码构建包含数据依赖信息的 code gadget 和包含控制依赖且能区分漏洞类型信息的 code attention 代码切片，并通过设计 code attention 抽取方法和构建多层LSTM 漏洞检测模型实现了多类型的源代码漏洞检测。通过考虑大规模预训练语言模型在程序语言和自然语言任务中优异性能30以及自然语言和编程语言之间的紧密联系，Chandra 等23提出了基于Transformer 的大规模预训练模型软件漏洞检测方法，

27、如 BERT（bidirectional encoder representation from transformers）和 CodeBERT，获得比上述方法更优的软件漏洞检测性能，但其需要大量的算力，且检测粒度仍然较粗。本文基于两级代码切片，设计了一种更细粒度的多类型源代码漏洞检测方法 mVulSniffer。与其他使用单一深度学习模型的软件漏洞检测方法相比，mVulSniffer 通过 BGRU 和 CNN 增加了对两级切片中易于区分漏洞类型的特征与上下文依赖信息的学习能力，在不需要大量算力的情况下有效提高了多类型源代码漏洞的综合检测性能。2 本文方法 2.1 问题描述 mVulSnif

28、fer 方法涉及的主要概念如下。定义 1 源程序28。一个程序 P 是一个有序的程序语句集，123,nPp ppp，其中ip（1in）是一条程序语句，也是一个代码令牌的有序集合，表示为12,iiiimpttt，其中代码令牌ijt（1jm）为变量标识符、函数标识符、常量、关键字或运算符等。定义 2 数据依赖28。给定一个程序123,nPpppp，存在一条程序语句ipP，一个代码令牌ijitp为数据元素，若ijt在up（upP）中被使用，则up数据依赖于ip。定义 3 控制依赖28。存在2条程序语句,ijp pP，且ij，若jp的执行受到ip执行结果的影响，则jp控制依赖

29、于ip。定义 4 初级漏洞代码块。给定一组易引发漏洞的语法规则 kHh，14k，H是对引发漏洞语法规则的描述25，具体如下：1)1h表示基于库/API函数调用；2)2h表示指针使用；3)3h表示算术表达式；4)4h表示数组使用。这4种语法规则引发的漏洞覆盖了SARD漏洞库中93.6%以上的漏洞。同时，给定一个程序语句12,iiiimpttt，若ip至少满足一种易发生漏洞语法规则kh，则将与ip具有控制依赖与数据依赖关系的前向切片和后向切片合并构成PrVC，即PrVC,istpp，其中，1in，1stn。初级漏洞代码块PrVC是由多行代码组成的有序代码集合，基于满足易引发漏洞

30、的语法规则H的语句及源代码对应的程序依赖图进行切片所得，主要包含程序中语句之间的数据依赖关系和控制依赖关系信息，是判断一段程序是否包含漏洞的重要依据。定义 5 扩展语法漏洞代码块。给定一组描述漏洞语法特征 kRr，13k，R是对漏洞语法特征的描述28，具体如下：1)1r表示代码的语法属性表现为库/API函数中变量/参数的定义语句；2)2r表示代码语法属性表现为条件控制语句；3)3r表示代码包含函数库/API函数表达式。同时，给定一个至少满足一种漏洞语法规则kh的语句第 9 期张学军等：mVulSniffer：一种多类型源代码漏洞检测方法 153 ip，将ip所对应的初级漏洞代

31、码块PrVC=(,)istpp依据漏洞语法特征R进行切片构成ExSyVCi，即ExSyVC(,)iqrpp，其中，sqrt。ExSyVC为漏洞检测模型提供更加准确的语义、语法信息，主要包含某个特定PrVC中可引发漏洞的代码语句，此类代码语句集合的语法信息能够反映不同类型漏洞的细微差异。例如，对库/API调用函数中数据源、函数执行关键路径以及函数是否正确使用的检查可挖掘漏洞的直接原因。因此，扩展语法漏洞代码块包含的语义、语法信息对确定漏洞的类型具有重要的意义。2.2 mVulSniffer 整体架构 mVulSniffer主要由代码解析器、向量转化器和漏洞检测器组成，其架构如图1所示。其中，

32、代码解析器主要用于对源代码依据特定的语法规则进行切片，向量转化器主要用于将得到的代码切片转化为神经网络可识别的向量表示，漏洞检测器用于训练深度学习检测模型并挖掘源代码中是否包含漏洞及或检测漏洞类型。2.3 代码切片过程 2.3.1 PrVC生成过程 PrVC生成过程包含生成漏洞候选集、对漏洞候选集中语句进行向前切片、向后切片和切片合并4个步骤，具体如算法1所示。算法 1 PrVC生成算法输入程序P，语法规则 kHh，14k 输出 PrVCi 1)生成程序 P 对应的程序依赖图PDGP，其顶点集合为N，单个顶点nN 2)在PDGP中进行漏洞语法特征匹配，生成漏洞候选集,sijPpp 3)fo

33、r_sliceip 4)back_sliceip 5)PrVCi 6)for each ispP do 7)遍历PDGP，得到ip 前驱顶点集合fN 8)for each ffnN do 9)if fn 与ip 存在数据依赖或控制依赖关系 then 10)for_slicefor_sliceiippfn 11)end if 12)end for 13)遍历PDGP，得到ip 的后继顶点集合bN 14)for each bbnN do 15)if bn 与ip 存在数据依赖或控制依赖关系 then 16)back_sliceback_slice iippbn 17)end if 18)end f

34、or 19)end for 20)PrVCfor_sliceback_sliceiiipp 21)return PrVCi 步骤1)步骤2)生成程序 P 的漏洞候选集sP。首先，利用代码分析工具Joern生成程序 P 对应的程序依赖图PDGP；然后，在PDGP中搜索语法属性满足语法规则 H 的代码语句节点，并将搜索到的代码语句ip的集合称为漏洞候选集,sijPpp。具体而言，在遍历 P 对应的程序依赖图PDGP的过程中，若节点代表的程序语句语图 1 mVulSniffer 架构 154 通信学报第 44 卷法属性满足漏洞语法规则 H 之一，则将该代码语句并入

35、漏洞候选集sP。步骤3)步骤5)为变量的初始化，将语句ip 的前向切片集合for_sliceip、后向切片集合back_sliceip和初级漏洞代码块集合PrVCi置空。步骤6)步骤12)为获得漏洞候选集中语句的前向切片。具体而言，首先，遍历程序依赖图PDGP，得到ip 前驱顶点集合fN；其次，遍历前驱顶点集合fN，如果其中的语句fn 与ip 具有数据依赖或控制依赖关系，则将 nf并入ip 的前向切片集合for_sliceip。步骤13)步骤19)为获得漏洞候选集中语句的向后切片。首先，遍历程序依赖图PDGP，得到ip后继顶点集合 Nb；其次，遍历前驱顶点集合 Nb，如果其

36、中的语句bn 与ip 具有数据依赖或控制依赖关系，则将bn 并入ip 的后向切片集合back_sliceip。步骤20)步骤21)为合并前向切片for_sliceip和后向切片back_sliceip形成PrVCi，并返回最终的结果。2.3.2 ExSyVC生成过程 ExSyVC的生成过程主要包括分析程序语句语法属性、与漏洞语法规则 R 进行匹配和合并ExSyVCi结果3个步骤，具体如算法2所示。算法 2 ExSyVC生成算法输入 PrVCi，语法规则 kRr 输出 ExSyVCi 1)for each PrVCiip do 2)通过分词及正则表达式解析得出ip 的语法属性kc 3)for

37、each krR do 4)ifip 的语法属性 kc与 kr 匹配 then 5)ExSyVCExSyVCiiip 6)end if 7)end for 8)end for 9)return ExSyVCi 首先，输入算法1得到的PrVCi以及漏洞语法规则 R；其次，通过分词技术将PrVCi中的每个语句解析为一组有序的Tokens；接着，使用正则表达式以及上下文语句分析PrVCi中每个代码语句ip的语法属性kc，如函数定义、条件语句等，并将kc与 R 中的每种语法规则kr 进行匹配，若满足匹配规则，则将对应的代码语句ip 纳入扩展语法漏洞代码块集合ExSyVCi。具体而言，步骤1)将PrVC

38、i中每个语句进行遍历；步骤2)通过词法分析得出ip 的语法属性；步骤3)步骤7)通过遍历漏洞语法规则 R得出该语句ip 的语法属性是否满足任一种漏洞语法规则，若满足，则该条语句并入ExSyVCi；步骤9)返回得到的ExSyVCi。2.4 PrVC 和 ExSyVC 的数据清洗及向量化为了避免源代码中冗余信息及编写代码的主观因素对模型训练产生影响，需要对PrVC和ExSyVC进行数据清洗。首先，剔除源代码中包含大量与代码执行逻辑和顺序无关的非ASCII码字符和代码注释；其次，程序员编码风格各异等因素会导致不同软件源代码中函数名和变量名的定义多样化，可能影响基于源代码的漏洞检测模型的检测准确率，

39、因此利用词法分析技术将切片中的源代码划分为标识符、运算符和关键字等不同标记，对源代码中所有自定义函数名和变量名进行标准化命名，将自定义函数名依次重命名为FUN1、FUN2等，变量名依次重命名为VAR1、VAR2等；最后，本文利用FastText中的Embedding词嵌入技术将PrVC和ExSyVC转化为漏洞检测深度学习可识别的特征向量。2.5 多类型源代码漏洞检测模型为了适应两级切片和解决现有多类型漏洞检测模型难以对跨文件、跨函数代码语句间较长的上下文依赖信息进行学习的问题，本文提出一种BGRU和CNN融合的漏洞检测模型，分为局部模型模块、融合模块和全局模型模块，具体结构如图2所示。该融合

40、模型能分别提取初级漏洞代码块PrVC和扩展语法漏洞代码块ExSyVC的语法特征，并在融合层基于注意力机制提取关键漏洞特征。由图2可知，局部模型模块分为上下两部分。上部分由BGRU组成，下部分由CNN组成。在C/C+中，全局变量的定义语句往往距离函数调用较远，所以需要记忆PrVC中较长距离的特征，GRU具有记忆长期依赖信息的特点，相对于LSTM，其结构简单，参数较少，训练速度更快，同时为了学习PrVC中的双向特征，采用双向GRU学习PrVC代码切片中代码间的长期依赖关系。ExSyVC作为一种更细粒度的补充训练数据，提取其中的关键漏洞语法特征有助于区分漏洞的特定类型。相对于第 9 期张学军等：m

41、VulSniffer：一种多类型源代码漏洞检测方法 155 BGRU模型，CNN模型提取短文本和细微特征差异的能力更突出，所以本文使用CNN对ExSyVC进行特征提取。该局部模型由2个Convolution层、一个Batch Normalization层和一个Average Pooling组成。融合模块的功能是通过一个Merger层将局部模型训练结果中的模型参数进行融合。全局模型模块主要由注意力机制和Softmax层组成。Softmax层为激活层，其功能是输出检测模型的分类结果，如果目标程序有漏洞，那么输出特定漏洞对应的标签，如1、2等；否则输出0，表示不包含漏洞。3 实验设计与结果分析 3.

42、1 参数配置实验环境软硬件参数配置如下：操作系统为Windows10，RAM大小为32 GB，GPU型号为GeForce RTX 3060。本文所提模型主要基于TensorFlow框架实现。为了验证mVulSniffer的综合性能，本文设计并讨论了在多类型源代码漏洞上的检测性能、不同漏洞语法规则引发的漏洞的识别能力和真实软件中漏洞的检测能力，并与最近具有代表性的基于深度学习的源代码漏洞检测方法Russell13、VulDeePecker 28、SySeVR 25、基于BERT-base23和基于CodeBERT23的漏洞挖掘方法进行对比。需要说明的是：本文基于Zou等28提出的多类型源代码漏

43、洞检测方法VulDeePecker，使用BLSTM构建源代码漏洞检测模型进行实验；基于Li等25提出的深度学习漏洞检测框架SySeVR，使用BGRU（简称SySeVR-BGRU）和引入注意力机制的BGRU（简称SySeVR-ABGRU）来构建源代码漏洞检测模型进行实验。另外，基于Chandra等23提出的大规模预训练模型源代码漏洞检测方法，使用BERT-base（简称Based BERT-base）和CodeBERT（简称Based CodeBERT）来构建源代码漏洞检测模型进行实验。针对每个实验，本文从实验数据集中选取80%的样本作为训练集，20%的样本作为测试集。通过对PrVC切片和ExS

44、yVC切片中词长进行统计，在将PrVC和ExSyVC转化为向量时，将其向量维度分别设为400和200。因此，PrVC和ExSyVC在输入神经网络中对应的词向量维度分别设置为400和200，同时添加Dropout层防止模型训练过程过拟合，Dropout值设置为0.5，优化函数采用Adamax，损失函数采用Categorical_Crossentropy，激活函数采用tanh，学习率设置为0.001，Batch size设置为64，最大Epoch设置为50。其他对比方法及消融实验模型的参数设置与本文方法一致。3.2 数据集为了验证模型对多类型源代码漏洞的检测能力，本文从SARD（software

45、 assurance reference dataset）漏洞库中的C/C+语言的漏洞数据集中选择了27 605条数据，以库/API函数调用作为漏洞语法规则进行切片。其中，包括21 519条无漏洞样本数据和6 086条包含10类特定漏洞的样本数据。每个CWE-Id对应漏洞的简单描述以及用于模型训练的样本数量如表1所示，本文使用110对每种包含特定CWE-Id漏洞的样本添加标签Label，便于模型训练。图 2 多类型漏洞检测融合模型 156 通信学报第 44 卷表 1 10 类漏洞的描述及 CWE 编号 Label CWE-Id 漏洞类型数量/个 1 CWE-404 不正确的资源关闭

46、或释放 248 2 CWE-476 空指针解引用 270 3 CWE-119 缓冲区错误 2849 4 CWE-706 消息或数据结构执行不当 167 5 CWE-665 不正确的初始化 289 6 CWE-074 注入 626 7 CWE-704 不正确的类型转换 840 8 CWE-311 敏感数据缺失加密 118 9 CWE-400 不受控制的资源消耗 568 10 CWE-020 输入验证 111 为了验证对不同漏洞语法规则引发的漏洞的识别能力，使用SySeVR25中基于SARD库的漏洞样本数据集，引入API的FC、AU、PU和AE这4种可引发漏洞的语法规则分别对源代码切片得到4个数据

47、集进行实验。此外，为验证mVulSniffer对于真实软件中漏洞的检测能力，使用Zhou等20公开的数据集Devign和Chakraborty等32公开的数据集REVEAL进行切片及实验。以上6个漏洞数据集样本量如表2所示。表 2 6 个漏洞数据集的样本量数据集样本有漏洞/个样本无漏洞/个样本总量/个 FC 13 603 50 800 64 403 AE 3 475 18 679 22 154 AU 10 926 31 303 42 229 PU 28 396 263 496 291 892 Devign 11 854 14 124 25 978 REVEAL 2 098 20 050

48、 22 148 3.3 评价指标实验采用准确率（Acc,accuracy）、加权平均F1值（W_F1,weighted-F1）和对单个样本的平均检测时间（DT,detection time）作为验证所提方法对多类型漏洞的检测性能和消融实验的评价指标，并使用各类样本在总体样本中的占比作为加权平均F1值的权重。设 N 为类型数，本文设置 N=11，i 为某一样本的标签，Xi为标签为 i 的样本，当 i=0时表示该样本无漏洞，当11iN 时表示具体漏洞类型。第 i 类的Precision和Recall分别为 TPPrecisionTPFPiiii(1)TPRecallTPFNiiii=+(2)Ac

49、c和W_F1分别为 00(TPTN)Acc=(TPTNFNFP)NiiiNiiiii(3)002Precision Recall1W_F1PrecisionRecallNiiiNiiiii=X+X(4)实验采用准确率（A,accuracy）、召回率（R,recall）、F1值（F1-score）作为验证mVulSniffer对不同漏洞语法规则引发的漏洞的识别能力和mVulSniffer在真实软件漏洞数据集下检测能力的评价指标，计算式分别为 TP+TNTP+TN+FN+FPA(5)TPFP+TPP(6)TPTP+FNR (7)F12PRPR(8)其中，TN（true negative）表示无漏洞

50、的样本被检测为无漏洞样本的数量；FN（false negative）表示无漏洞样本被检测为有漏洞样本的数量；TP（true positive）表示有漏洞样本被检测为有漏洞样本的数量；FP（false positive）表示有漏洞样本被检测为无漏洞样本的数量。3.4 结果与分析 3.4.1 在多类型源代码漏洞上的检测性能 mVulSniffer及对比方法在10类源代码漏洞数据集上Acc、W_F1和DT的实验结果如表3所示。表 3 不同方法对应的模型性能指标对比方法 Acc W_F1 DT/ms Russell13 90.59%88.36%2.08 VulDeePecker28 95.38%95

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: mVulSniffer 一种类型源代码漏洞检测方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。