分销赏收藏举报申诉 / 10

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于混合代码表示的源代码脆弱性检测.pdf

基于混合代码表示的源代码脆弱性检测.pdf

上传人：自信****多点

文档编号：639014

上传时间：2024-01-22

格式：PDF

页数：10

大小：1.62MB

《基于混合代码表示的源代码脆弱性检测.pdf》由会员分享，可在线阅读，更多相关《基于混合代码表示的源代码脆弱性检测.pdf（10页珍藏版）》请在咨信网上搜索。

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2517-2526ISSN 10019081CODEN JYIIDUhttp：/基于混合代码表示的源代码脆弱性检测张琨，杨丰玉*，钟发，曾广东，周世健（南昌航空大学软件学院，南昌 330063）（通信作者电子邮箱）摘要：软件脆弱性对网络与信息安全产生了极大的威胁，而脆弱性的根源在于软件源代码。因为现有的传统静态检测工具和基于深度学习的检测方法没有完整地表示代码特征，并且简单地使用词嵌入方法转换代码表示，所以检测结果准确率低，误报率高或漏报率高。因此，提出了一种基于混合代码表示

2、的源代码脆弱性检测方法来解决代码表示不完整的问题，并提升检测性能。首先将源代码编译为中间表示（IR），并提取程序依赖图；然后基于数据流和控制流分析进行程序切片来得到结构化的特征，同时使用doc2vec嵌入节点语句得到非结构化的特征；接着使用图神经网络（GNN）对混合特征进行学习；最后使用训练好的GNN进行预测和分类。为了验证所提方法的有效性，在软件保证参考数据集（SARD）和真实世界数据集上进行了实验评估，检测结果的F1值分别达到了95.3%和89.6%。实验结果表明，所提方法有较好的脆弱性检测能力。关键词：脆弱性检测；中间表示；表示学习；图神经网络；深度学习中图分类号：TP311 文献标志码

3、：ASource code vulnerability detection based on hybrid code representationZHANG Kun，YANG Fengyu*，ZHONG Fa，ZENG Guangdong，ZHOU Shijian（School of Software，Nanchang Hangkong University，Nanchang Jiangxi 330063，China）Abstract:Software vulnerabilities pose a great threat to network and information security

4、，and the root of vulnerabilities lies in software source code.Existing traditional static detection tools and deep learning based detection methods do not fully represent code features，and simply use word embedding method to transform code representation，so that their detection results have low accu

5、racy and high false positive rate or high false negative rate.Therefore，a source code vulnerability detection method based on hybrid code representation was proposed to solve the problem of incomplete code representation and improve detection performance.Firstly，source code was compiled into Interme

6、diate Representation（IR），and the program dependency graph was extracted.Then，structural features were obtained through program slicing based on data flow and control flow analysis.At the same time，unstructural features were obtained by embedding node statements using doc2vec.Next，Graph Neural Networ

7、k（GNN）was used to learn the hybrid features.Finally，the trained GNN was used for prediction and classification.In order to verify the effectiveness of the proposed method，experimental evaluation was performed on Software Assurance Reference Dataset（SARD）and real-world datasets，and the F1 score of de

8、tection results reached 95.3%and 89.6%respectively.Experimental results show that the proposed method has good vulnerability detection ability.Key words:vulnerability detection;Intermediate Representation(IR);representation learning;Graph Neural Network(GNN);deep learning0 引言随着信息技术的发展，社会智能化程度越来越高，数

9、字服务和软件产品成为人们生活与工作的必需品。与此同时，软件安全问题成为当今社会的一个热点。不安全的软件来源于代码中的脆弱性，脆弱性又称软件安全漏洞1，是指在软件生命周期中，软件设计者在需求、设计、编码、配置和运行等阶段产生的软件缺陷，从而使得攻击者在未经授权的情况下访问计算机资源2。根据美国国家脆弱性数据库的统计，近五年来脆弱性报告数量呈逐年增长趋势，2016年报告的脆弱性数量为6 454，在2017年急速增长至14 714，并且2017年到2021年报告的脆弱性数量为87 089，超过了近22年报告的数量总数（166 893）的一半。为了应对挑战，许多软件源代码脆弱性（下文简称脆弱性）检测方

10、法被提出以解决脆弱性快速增长的问题，其中最主要的一种方法是基于静态分析3的检测。静态分析是指不运行被测程序本身，在源代码中查找导致错误的代码片段，所以文章编号：1001-9081（2023）08-2517-10DOI：10.11772/j.issn.1001-9081.2022071135收稿日期：20220731；修回日期：20221107；录用日期：20221107。基金项目：江西省自然科学基金资助项目（20212BAB212009）。作者简介：张琨（1998），男，江西新余人，硕士研究生，CCF会员，主要研究方向：源代码脆弱性检测；杨丰玉（1980），男，江西九江人，副教授，硕士，CCF

11、会员，主要研究方向：软件测试、大数据分析；钟发（1999），男，江西宜春人，硕士研究生，主要研究方向：软件缺陷预测；曾广东（1998），男，江西赣州人，硕士研究生，主要研究方向：软件缺陷预测；周世健（1966），男，江西吉安人，教授，博士，CCF会员，主要研究方向：智能系统。第 43 卷计算机应用静态分析可以显著减少检测时间。静态分析常用于软件开发初期，能够很大程度地节省软件开发和测试的成本。静态分析方法有污点分析、符号执行、指针分析等。传统的静态分析工具有 RATS（Regression Analysis of Time Series）、Flawfinder、Carraybound等，这些工

12、具通过扫描待检测程序预定义检测规则，然后报告代码中存在的缺陷。虽然检测速度快，但是这些工具过于依赖人工定义的检测规则，且由于检测规则数量有限无法实现高质量检测，同时还具有很高的误报率或漏报率。近年来，基于机器学习的静态分析方法2被应用于源代码脆弱性检测领域，成为该领域的热点，同时深度学习技术因在分类任务中的巨大优势，逐渐被脆弱性检测领域研究者青睐。为了提高检测准确率，深度学习方法需要合适的样本特征作为输入，该特征除了要包含源代码的脆弱性信息，还要是神经网络模型可以接受的格式。脆弱程序的敏感语句通常表现为各种不同类型的代码特征，比如代码文本、函数/应用程序编程接口（Application Pro

13、gramming Interface，API）调用、控制流和数据流等，这些特征可以被用来区分包含脆弱性的代码，因为它们能表示代码的结构或语义特性，比如程序的执行顺序关系、各行代码之间的依赖关系等。目前有很多研究结合深度学习和代码特征来进行静态的源代码脆弱性检测4-6，它们从不同的粒度（例如包、文件、函数、切片、图等）出发，基本思路是先将源代码转化为某种表示形式，然后将表示输入到神经网络模型中进行训练，最后使用训练好的模型实现预测和分类。目前这些研究存在两个局限性：一方面，有些研究7-8仅仅关注某些特定类型的脆弱性进行检测，无法应用到其他更广泛的脆弱性类型上；另一方面，大部分工作使用的代码表示不

14、够完善，比如只是简单地分析部分代码特征（例如VulDeePecker9仅使用数据流分析），它们未对代码的结构信息进行全面分析，忽略了代码中丰富的结构信息，所以检测结果未得到有效提升。综上，源代码脆弱性检测面临的挑战包括以下两点：1）使用的代码表示方法不能完整地提取脆弱性特征；2）脆弱性检测的粒度不够细致。鉴于目前脆弱性检测领域存在的问题，本文提出了一种基于混合代码表示的脆弱性检测方法，实现了一个自动化的脆弱性检测工具VulSaviour。本文首先将源代码编译为中间表示（Intermediate Representation，IR），得到包含结构化信息和非结构化信息的混合特征；然后使用图神经网络

15、（Graph Neural Network，GNN）学习混合特征；最后，在软件保证参考数据集（Software Assurance Reference Dataset，SARD）和真实世界数据集上进行了实验验证，脆弱性检测结果的F1值分别达到了95.3%和89.6%。与传统静态检测工具以及4种最先进的方法进行比较，实验结果表明，本文方法有较好的脆弱性检测能力。1 相关工作本章分别介绍基于传统静态分析方法和基于深度学习的脆弱性检测方法。1.1传统静态分析方法传统静态检测工具有 Clang Static Analyzer、Coverity、Checkmarx、RATS和Flawf

16、inder等，这些工具根据预定义的脆弱性规则，通过污点分析或指针分析等方法扫描源程序，然后根据匹配到的模式来报告代码中可能存在的脆弱性。除此之外，一些学术研究也关注于内存错误和信息泄露检测，提出了许多有效性检测方法。高凤娟等10提出了一种流敏感、上下文敏感的按需指针分析方法来检测数组越界问题；梁娟娟等11提出了一种基于符号执行的静态分析方法实现了高效率C语言代码扫描。上述这些工具和研究都需要人类安全专家或研究者预先定义代码检测规则，但是人的主观性会影响规则的定义；同时人工定义的规则有限，无法检测到所有的脆弱性。因此，这些检测工具都有很高的误报率或漏报率，在检测结束后依然需要重新进行确认，如此下

17、来耗时耗力，这就需要一种改进的方法来减少对人类专家的依赖，同时可以自动学习代码中的脆弱性特征。1.2基于深度学习的脆弱性检测方法Li等9提出的脆弱性检测工具VulDeePecker通过对敏感API语句的上下文进行程序切片得到code gadget，向量化后使用双向长短期记忆（Bidirectional Long Short-Term Memory，BiLSTM）网络训练和分类；但是BiLSTM只能操作线性序列，无法学习到程序中更全面的结构和语义。VulDeeLocator7通过提取源代码的语法特征和基于IR的语义特征，实现更细粒度的检测，并且能够定位到有问题的代码行。VulDeeLocator

18、考虑了更深层的代码表示，但忽略了代码中上下文的结构特征。上述研究都是将源代码视为线性序列的自然语言文本，先处理源代码得到代码表示，接着采用嵌入技术（例如word2vec）将表示转换为固定长度的向量，最后使用神经网络模型（例如BiLSTM）进行特征学习和预测。这些方法忽略了代码中丰富的结构化信息，还会在向量化的过程中因为截断token造成一定的语义损失。与挖掘源代码中的扁平信息相比，一些研究提取代码中的结构信息作为特征。Zhow8提出了一种联合图的代码表示Devign，首先使用静态分析工具 Joern 提取抽象语法树（Abstract Syntax Tree，AST

19、）和控制流图（Control Flow Graph，CFG），再加入数据流图（Data Flow Graph，DFG）联合作为新表示，最后输入到神经网络模型中进行学习。虽然Zhow等考虑了代码的结构信息，但是他们提出的方法只能检测函数级别的脆弱性，并且没有考虑具体的脆弱性类型。VGDetector12在源代码的CFG上进行控制流分析和程序切片，得到了子图切片，再使用图卷积神经网络（Graph Convolutional neural Network，GCN）学习图上的节点与边的信息并进行后续的检测任务，但是它只考虑了控制流信息，忽略了其他重要的信息。使用图表示代码可以减少重要信息的丢失，但上述

20、方法并没有将结构化的特征考虑完整。综上，有必要考虑一种更有效的脆弱性特征学习方案，自动地学习代码中的脆弱性模式，同时结合多种类型的代码特征，完整考虑代码的结构化和非结构化信息，以捕获脆弱性和非脆弱性语句之间的语义和语法差距，从而学习更多的脆弱性类型和模式。本文使用了中间代码表示方法，以提取隐藏的结构信息，同时结合了代码的数据流、控制流和依赖流信息，再利用切片技术聚集了脆弱性代码，切片之后获得了具有结构化和非结构化的混合特征，最后使用图神经网络模型对提取到图形式和向量形式的特征进行学习以识别脆弱性。2 方法介绍本文方法的框架如图1所示，此方法主要包括4个阶段：2518第 8 期张琨等：基于混合

21、代码表示的源代码脆弱性检测1）预处理源代码；2）提取控制流和数据流，构建程序依赖图（Program Dependency Graph，PDG），基于程序兴趣点进行程序切片；3）对切片进行嵌入，生成混合特征；4）使用图神经网络学习特征后，对数据集进行检测。2.1源代码预处理程序语言具有丰富的语义信息和依赖关系，这些特征对于代码表示是至关重要的。源代码中的依赖关系可能是隐式的，例如，一个变量可以在多个地方被定义和使用，而且它们可能共享一个名称，在使用自动检测方法来扫描代码时，这个问题可能会引起混淆。本文采用中间表示的方法，使用LLVM IR表示源代码。转换后的LLVM IR具有显式的数据依赖和控制

22、依赖关系，去除了不相关的信息，同时减少了噪声的干扰。本文使用Clang编译器将源代码转换为LLVM IR，LLVM IR以静态单赋值（Static Single Assignment，SSA）形式给出，确保每个变量只定义一次。变量的每次使用都被分配一个新的标识符，并且所有这些标识符都连接到一个公共寄存器，这种形式让深度学习模型很容易理解程序中的依赖关系。如程序 1所示，源代码中的一个样本被转化为 LLVM IR 形式。在LLVM IR中，自定义的变量被重命名为统一的“%number”格式。这种命名方法确保了一个固定的词汇表，缓解了词汇不足问题。此外，控制流在LLVM IR中由“br”和“lab

23、el”指定，这些特征有助于深度学习模型的理解。程序1 程序源代码样本及LLVM IR。程序源代码：void CWE190_Integer_Overflow_char_fscanf_multiply_01_bad（）char data；data=；/*POTENTIAL FLAW：Use a value input from the console*/fscanf（stdin，%c，&data）；if（data 0）/*ensure we won t have an underflow*/*POTENTIAL FLAW：if（data*2）CHAR_MAX，this will overflow*

24、/char result=data*2；printHexCharLine（result）；LLVM IR：；Function Attrs：noinline nounwind optnone uwtabledefine void CWE190_Integer_Overflow_char_fscanf_multiply_01_bad（）#0%1=alloca i8，align 1%2=alloca i8，align 1store i8 32，i8*%1，align 1%3=load%struct._IO_FILE*，%struct._IO_FILE*stdin，align 8%4=call i32

25、（%struct._IO_FILE*，i8*，）_isoc99_fscanf（%struct._IO_FILE*%3，i8*getelementptr inbounds（3 x i8，3 x i8*.str，i32 0，i32 0），i8*%1）%5=load i8，i8*%1，align 1%6=sext i8%5 to i32%7=icmp sgt i32%6，0br i1%7，label%8，label%14；：8：；preds=%0%9=load i8，i8*%1，align 1%10=sext i8%9 to i32%11=mul nsw i32%10，2%12=trunc i32%

26、11 to i8store i8%12，i8*%2，align 1%13=load i8，i8*%2，align 1call void printHexCharLine（i8 signext%13）br label%14；：14：；preds=%8，%0ret void2.2程序切片程序切片的目的是获取LLVM IR中对整体功能影响最大的部分片段，这些片段最可能是造成脆弱性的语句，同时去除无关的语句以及作用较小的语句。2.2.1构建程序依赖图定义1 数据依赖（data-dependence）。数据依赖通过数据流图上的定义和使用（def-use）关系得到，数据流图上每个节点表示了一条程序语句，每

27、条边表示了两条语句中变量的def-use关系。给定数据流图上的两个节点X和Y（X！=Y），如果Y使用的变量在X处定义，则Y数据依赖于X。定义2 控制依赖（control-dependence）。控制依赖通过程序的控制流图计算，控制流图中的每个节点表示一条程序语句，边表示语句之间的执行顺序。控制依赖通过后向支配（post-dominance）定义，给定控制流图上的两个节点 X 和Y（X！=Y），如果所有的从X到控制流图末端的路径都经过Y，则Y后向支配X。Y控制依赖于X需要满足：1）存在一条从X到Y的有向路径T，T上的任意一个节点N（除了X和Y）都被Y图1本文方法的整体框架Fig.1Overall

28、 framework of the proposed method2519第 43 卷计算机应用后向支配；2）X不被Y后向支配。定义3 程序依赖图。程序依赖图（PDG）表示程序中的数据依赖和控制依赖，作为有向图，PDG上的每个节点表示一条程序语句，边表示语句中变量的数据依赖关系或语句之间的控制依赖关系。本文先生成LLVM IR的控制流图和数据流图，基于这两种图再生成IR中语句的控制依赖和数据依赖关系，然后基于这些依赖关系构建程序依赖图。2.2.2提取程序兴趣点程序中脆弱性的关键部分是执行安全敏感操作的一句语句或多句语句行，本文将这些语句作为指导程序切片的标准，并将它们称作程序兴趣点（progr

29、am points of interest）。本文选取源代码中的四大类语句作为选取程序敏感点的原则：库/API函数调用、数组使用、指针使用和算术表达式，并使用静态分析工具Checkmarx分析源代码中的涉及安全敏感操作的语句，得到语法规则。由于将源代码转为LLVM IR后，源代码中的一行语句可能会转为多行IR语句，这时需要在转换过程中使用一个行号备忘录记录涉及安全敏感操作语句的行号，后续在IR上提取程序兴趣点通过行号来对应相关语句。算法1简述了在IR语句中确定程序兴趣点的准则。算法1 从IR中确定程序兴趣点。输入源代码语句集合S=s1，s2，sm，IR 语句集合G=g1，g2，ge，敏感操作

30、语句规则集合R=r1，r2，rk，行号备忘录集合V=v1，v2，vz；输出程序兴趣点确定准则集合C。1）C 2）对于程序S3）根据规则rk来找到程序兴趣点，将行号记录到备忘录vz中4）将IR语句ge中对应的行号记录到vz中5）C C (sm，ge，vz)6）return C2.2.3生成切片算法2简述了切片的过程，构建完程序依赖图后，本文从程序兴趣点pi出发进行前向和后向切片，生成程序切片图（Program Slice Graph，PSG）。PSG中的节点为一条或多条IR语句，边为语句之间的控制依赖或数据依赖关系。前向切片是从pi出发前向遍历PDG，即从pi沿着PDG有向边的方向向前遍历，得

31、到前向切片语句集Sf。后向切片是从pi出发反向遍历PDG，即从pi沿着PDG有向边的方向反向遍历，得到反向切片语句集合Sb。Sf和Sb组成了最后的切片集合Sf Sb，切片中的语句即PSG的节点语句，节点语句中包含了丰富的语义信息；切片中的边包含了复杂的结构化信息，即控制依赖和数据依赖关系。最后基于这些节点删除PDG中无关的节点与边，生成PSG。算法2 生成程序切片图。输入程序兴趣点集合P，PDG；输出 PSG集合PSGs。1）初始化PSGs为空集合2）for pi P do3）向前遍历PDG得到Sf4）向后遍历PDG得到Sb5）S=Sf Sb6）通过S生成PSGi7）将PSGi加入PSGs8

32、）return PSGs本文的切片方法过程的一个示例如图2所示。首先通过构造控制依赖（实线边）和数据依赖（虚线边）来生成PDG，如图2（a）所示。之后，沿着PDG执行向前和向后遍历程序兴趣点（图中节点7）获得前向语句集（8、9、10和11）和后向语句集（1、2、3和4），将无关的语句删除，生成PSG的节点。最后，遵循PDG的控制依赖和数据依赖边来连接相关节点，例如节点1和节点2通过边1 2连接，因为节点2控制依赖于节点1，如图2（c）所示。2.3生成混合代码表示本文提出了一种混合代码表示方法，通过集成结构化和非结构化特征，尽可能保留脆弱性特征信息，减少关键信息的损失。在2.2.3节中已经得到了

33、具有结构化信息的PSG，为了得到相应的非结构化信息，需要对节点语句进行下述的操作。2.3.1语句预处理在预处理期间，每条LLVM IR语句都被抽象为更规范的表示，消除了原始语句中的一些不相关信息。本文用“%FUNn”表示自由命名的函数名，库/API函数名保持不变；同时，使用“%ID”和“%LABELn”分别替换变量名称和标签；整数和浮点值分别被“INT_VAL”和“FLOAT_VAL”取代，因为这些值范围很广，无法学习每个值的表示；最后，结构体类型被改为“%STRUCE_TYPE”。通过语句预处理可以消除个性命名造成的差异同时减少噪声影响，需要注意的是，符号化后的语义信息并没有改变。语句预处理

34、的一些示例如表1所示。图2程序切片示例图Fig.2Example diagram of program slicing2520第 8 期张琨等：基于混合代码表示的源代码脆弱性检测2.3.2向量化在预处理后本文将PSG中每个节点的语句向量化，转换为神经网络模型可以接受的向量格式。经过转换后，由上向下的语句中的文本内容分别被转换为“vector0”“vector1”“vector2”等向量，如图3所示。doc2vec13是一种无监督模型，可以将整个代码语句编码为固定长度的向量。doc2vec的关键算法称为段落向量的分布式内存版本（distributed memory version of para

35、graph vector）。使用doc2vec能更完整和准确地表示语句的特征，因为其他的词嵌入方法在获得固定长度的向量过程中将过长的token进行了裁切操作，可能会造成某些具有关键语义信息的token丢失，所以本文使用doc2vec来进行向量化的工作。2.3.3生成混合代码表示通过提取PSG上的节点和边的信息，可以得到相应的结构化信息。通过集成2.3.2节得到的特征向量，可获得具有两种属性的混合代码表示：具有结构化特征的PSG和具有非结构化特征的向量，如图4所示。2.4图神经网络模型设计图神经网络可以直接在图上计算从而实现学习图上的结构化信息；此外，图神经网络可以聚合节点的邻居信息，适用于分类

36、或预测节点和边的任务，例如链路预测、社交网络分析和基于图的脆弱性检测等。本文使用的图神经网络结构由多个图卷积-池化块和一层图读出层连接组成，同时在图卷积层集成了4种不同的图神经网络用来对比，分别是GCN14、图注意力神经网络（Graph ATtention neural network，GAT）15、K维图神经网络（K-dimensional Graph Neural Network，K-GNN）16和门控图神经网络（Gated Graph Neural Network，GGNN）17。本文模型的整体结构由多个图卷积-池化块、一层图读出层、多层感知机（MultiLayer Perceptron

37、，MLP）与 Softmax层组成，如图5所示。在每个图卷积-池化块中，PSG中的结构化信息和非结构化信息被提取和压缩。图读出层用于输出不同图层次的特征。多个图卷积-池化块之间使用残差连接的方式连接。最后，MLP用于预测，通过Softmax层获取最终的标签。可以看到，卷积-池化块的数量可以很多，目的是获取更抽象的图特征。1）图卷积层。图卷积层中的节点特征传播规则如式（1）：f(l)(v)=()f(l-1)(v)W(l)1+N(v)f(l-1)()W(l)2（1）其中：f(l)(v)R1 d(l)表示节点v在l层的输出特征向量；d(l)表示特征维度；N（v）表示节点v的邻居节点；W(l)Rd(l

38、-1)d(l)表示l层的权重矩阵矩阵；()表示激活函数。2）图池化层。使用图池化层可以减少输入的大小，即减少图中的节点数，这是通过应用池化率k (0，1实现的。经过一层图池化层后，图上的M个节点将删减为k M。图池化层的设置不仅可以减少计算量，还可以防止过拟合。在输入的图中，让每个节点与池化向量p做内积，接着删除内积结果末位的M-k M个节点，这样每次池化操作后保留了对全图贡献最大的节点。F=f(0)，f(1)，f(N)RN d表示节点特征向量矩阵；A 表示图的邻接矩阵；图池化层的传播规则从(F，A)到(F，A)可以表示为：图3节点语句向量化Fig.3Vectorization of node

39、 statements表1IR预处理的示例Tab.1Examples of IR preprocessingLLVM IR语句store i32%15，i32*%length left，align 4，！dbg！182br i1%cmp27，label%if.end30，label%if.then29，！dbg！201%call99=call i32 rip6_entry_print（%dissect_options*%79，%info6*%80，i32 0），！dbg！268%ru6_nets32=bitcast%union.anon*%rip6un31 to1 x%info6*，！dbg！

40、207call void llvm.memcpy.p0i8.p0i8.i64（i8*%11，i8*%13，i64 4，i32 2，i1 false），！dbg！474预处理后store i32%ID，i32*%IDbitcast INT VAL x%STRUCT TYPE *，%STRUCT TYPE*%IDcall i32（%STRUCT_ TYPE*，%STRUCT_ TYPE*，i32）%FUN0bitcast INT_VAL x%STRUCT_TYPE *，%STRUCT_TYPE*%IDcall void（i8*，i8*，i64，i32，i1）llvm.memcpy.p0i8.p0i

41、8.i64图4混合代码表示Fig.4Hybrid code representation图5本文模型结构Fig.5Structure of the proposed model2521第 43 卷计算机应用y=Fpp（2）l=topk(y，k)（3）F=(Ftanhy)l（4）A=Al，l（5）其中：表示L2范式；top-k表示选择输入向量的前k个下标；表示元素间乘法；l表示索引操作。3）图读出层。图读出层的作用是将图上所有节点的特征向量展平成一个向量，从而生成整张图的图向量，用来后续进行图的分类。在每个卷积-池化块后本文采用平均池化和最大池化将图的多个节点向量平坦为一个图向量，这样操作可以根

42、据各个节点的特征更好地表示整个图的特征。除此之外，本文还借鉴了残差连接结构的思想，在读取所有卷积-池化块后将结果组合。第m层的图向量s(m)R1 d(l)可以表示为：s(m)=1N(m)i=1N(m)f(m)(i)|maxN(m)j=1f(m)(j)（6）其中：f(m)(i)表示节点i的特征向量；N(m)表示第m层的图上的节点个数；|表示连接操作。通过对所有卷积-池化块的输出进行叠加()即s=m=1Ls(m)，本文实现了保留各种规模的图特征。图上的特征最终被输入MLP中，在Softmax层输出最终的预测标签。Softmax层根据计算的概率值决定最终的标签（0或1），本文设定1表示存在脆弱性，0

43、表示无脆弱性。3 实验设计和结果分析本文提出了一种基于混合代码表示的源代码脆弱性检测方法，并基于此方法实现了一个脆弱性检测工具VulSaviour。为了评估本文方法的有效性，在实验部分与多种代码表示方法进行了对比；同时还与两种传统的静态检测工具以及4种先进的基于深度学习的方法进行了比较。3.1实验数据集本文选用的数据集是Cheng等18收集和标注的SARD和两个开源的真实世界项目数据集（Lua和reids）。数据集中脆弱性类型越多，深度学习模型越可以学习更多的特征；同时标签的正确性直接决定了最终分类结果的准确性。本文所选的SARD为脆弱性检测领域的基准数据集，包含10种脆弱性类型，所带标签经

45、最前的10个C/C+脆弱性代码用于评估有效性。2）真实世界数据集。为了评估本文方法在真实项目上的有效性，本文选取了Cheng等18收集的两个开源项目用于实验：redis-5.0.8和Lua-5.3.4。redis是一个著名的数据库系统服务器，报告的脆弱性类型主要是越界读取和越界写入。Lua是一种高效、轻量级的脚本语言，报告的脆弱性类型主要是栈溢出和内存泄漏。3.1.2数据集标签1）包含 SARD 的数据集已经在代码行级别被标记为“good”（不包含脆弱性）“bad”（包含一个或多个特定的脆弱性）或“mixed”（包含脆弱性及补丁的版本），并且它们还带有脆弱性类型标签。2）为了确保真实世界项目数

46、据集标签的质量，Cheng等18首先通过排除不包含任何与错误相关的关键字（例如“overflow”和“memory error”）；然后专业团队总共花费了 720个工时进行了两轮数据标记和交叉验证；最后检查提交后版本中的代码，从补丁版本中标记无脆弱性的代码行，从旧版本中标记脆弱性的代码行。3）本文方法是在 PSG 级别上进行训练和预测，即报告PSG是否存在脆弱性。本文基于程序兴趣点进行程序切片生成PSG，然后基于源代码的标签给PSG打标签。在SARD中，如果 PSG 是从标签为“good”的样本中提取的，那么本文将PSG标记为“0”（无脆弱性），如果它是从“bad”或“midxed”样本中提取

47、的，且生成的PSG节点中存在标签为有脆弱性的代码行，则将该PSG标记为“1”（有脆弱性）。同理，对于真实世界项目，如果从中提取的PSG包含有脆弱性标签的代码行，则表2数据集统计数据Tab.2Dataset statistics数据集CWE-119CWE-20CWE-125CWE-190CWE-22CWE-399CWE-787CWE-254CWE-400CWE-78Lua-5.3.4redis-5.0.8总计#LOI7 811 9967 728 4771 528 4541 611 9327 728 4775 552 5455 525 53714 576 2451 210 852703 66068

48、 222735 27550 067 406#Pointer2 992 1083 205 748595 807653 6293 205 7481 895 2442 129 2515 079 282458 445290 14852 585401 52018 337 496#Object59 759601 656118 084108 248601 656359 892425 057965 62571 08850 4781 86914 4613 424 166#Call84 85765 39416 70418 25065 39463 50060 567151 98719 6545 3834 76411

49、9 216625 006|VCFG|2 657 4882 828 956532 091612 1642 828 9561 780 5181 884 2664 535 930428 373242 14859 05545 73716 118 260|ECFG|2 962 3823 133 667595 730690 5793 133 6672 013 5592 098 4105 096 619495 526263 66572 82956 50518 066 536|VDFG|2 333 5652 420 491466 155496 6012 420 4911 419 4671 663 8243 8

50、98 307331 910217 122100 701654 49514 443 657|EDFG|2 526 6992 420 491479 682512 8002 471 6871 566 6151 813 0454 102 872337 427200 428106 830778 85415 342 3342522第 8 期张琨等：基于混合代码表示的源代码脆弱性检测将它标记为“1”，反之标记为“0”。3.1.3数据集样本分布SARD数据集中包含了102 696个脆弱的用例和1 408个良性用例（如表3所示）；经过中间代码转化及控制流分析后，得到了129 038个脆弱的PDG和774 714

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于混合代码表示源代码脆弱检测

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。