分销赏收藏举报申诉 / 13

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于Spark和三路交互信息的并行深度森林算法.pdf

基于Spark和三路交互信息的并行深度森林算法.pdf

上传人：自信****多点

文档编号：634896

上传时间：2024-01-20

格式：PDF

页数：13

大小：2.20MB

《基于Spark和三路交互信息的并行深度森林算法.pdf》由会员分享，可在线阅读，更多相关《基于Spark和三路交互信息的并行深度森林算法.pdf（13页珍藏版）》请在咨信网上搜索。

1、2023 年 8 月 Journal on Communications August 2023 第 44 卷第 8 期通信学报 Vol.44 No.8基于 Spark 和三路交互信息的并行深度森林算法毛伊敏1,2，周展1，陈志刚3（1.江西理工大学信息工程学院，江西赣州 341000；2.韶关学院信息工程学院，广东韶关 512026；3.中南大学计算机学院，湖南长沙 410083）摘要：针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题，提出了基于 Spark 和三路交互信息的并行深度森林（PDF-STWII）算法。首

2、先，提出基于特征交互的特征选择（FSFI）策略过滤原始特征，剔除无关及冗余特征；其次，提出多粒度向量消除（MGVE）策略，融合相似类向量，缩短类向量长度；再次，提出级联森林特征增强（CFFE）策略提高信息利用率，加快模型收敛速度；最后，结合 Spark 框架提出多级负载均衡（MLB）策略，通过自适应子森林划分和异构倾斜数据划分，提高并行化训练效率。实验结果表明，所提算法能显著提升模型分类效果，缩短并行化训练时间。关键词：Spark 框架；并行深度森林算法；特征选择；多级负载均衡中图分类号：TN92 文献标志码：A DOI:10.11959/j.issn.1000436x.2023143 Pa

3、rallel deep forest algorithm based on Spark and three-way interactive information MAO Yimin1,2,ZHOU Zhan1,CHEN Zhigang3 1.School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China 2.College of Information Engineering,Shaoguan University,Shaoguan 512026,China

4、 3.College of Computer Science and Engineering,Central South University,Changsha 410083,China Abstract:To address issues such as excessive redundancy and irrelevant features,long class vectors,slow model con-vergence,and low efficiency of parallel training in parallel deep forests,a parallel deep fo

5、rest algorithm based on Spark and three-way interactive information was proposed.Firstly,a feature selection based on feature interaction(FSFI)strat-egy was proposed to filter the original features and eliminate irrelevant and redundant features.Secondly,a mul-ti-granularity vector elimination(MGVE)

6、strategy was proposed,which fused similar class vectors and shortened the class vector length.Subsequently,the cascade forest feature enhancement(CFFE)strategy was proposed to improve the utilization of information and accelerate the convergence speed of the model.Finally,a multi-level load balancin

7、g(MLB)strategy was proposed,combined with the Spark framework,to improve the parallelization efficiency through adaptive sub-forest division and heterogeneous skew data partitioning.Experimental results demonstrate that the proposed algo-rithm significantly improves the model classification effect a

8、nd reduces the parallelization training time.Keywords:Spark framework,parallel deep forest algorithm,feature selection,multilevel load balancing 收稿日期：20230417；修回日期：20230701 通信作者：陈志刚，基金项目：广东省重点提升基金资助项目（No.2022ZDJS048）；科技创新 2030-“新一代人工智能”重大基金资助项目（No.2020AAA0109605）Foundation Items:Key Promotion Proje

9、ct of Guangdong Province(No.2022ZDJS048),“2030 Innovation Megaprojects”-NewGeneration Artificial Intelligence Project(No.2020AAA0109605)第 8 期毛伊敏等：基于 Spark 和三路交互信息的并行深度森林算法 229 0 引言深度森林是 Zhou 等1提出的一种基于决策树结构的深度学习模型，其包含多粒度扫描和级联森林两大组成部分，因其超参数少、参数敏感度低及模型深度自适应等优点，已被广泛应用于网络流量分类2、文本分类3、故障诊断4、目标识别5、恶意代码分类6

10、等领域。然而，随着新一代信息技术的革新和大数据时代的来临，各领域将产生亟待处理的海量数据，这些数据通常表现出数据量大、数据价值密度低等特性，深度森林难以有效处理这类数据，因此如何设计出适合处理大数据问题的深度森林算法已成为一大研究热点。Spark7作为专门处理大规模数据问题开发的并行计算框架，因其出色的计算能力和良好的通用性，被广泛应用于企业项目开发和学术研究中。文献8提出了用于退网用户预测的并行深度森林（PDF-OGUP,parallel deep forest for off-grid user prediction）算法，为节省多粒度扫描阶段的空间占用，设计了基于下标的扫描算法，并以随机

11、采样构建随机森林的方式减少所需内存空间。针对网络入侵问题，文献9设计了基于特征分割和深度并行随机森林（FS-DPRF,feature segmentation and deep structure of parallelized random forest）检测模型，提出了 RDD（resilient distributed datasets）层次替换策略解决了 RDD 重用问题，提高了作业效率。为进一步提高并行深度森林算法的计算能力，文献10结合 Spark 框架设计了一种全新的并行深度森林BLB-gcForest（bag of little bootstraps-gcForest）算法。首

12、先，该算法使用 BLB（bag of little bootstrap）自助采样法替换传统采样法，减少了大量特征在级联森林各层级中的传输，提高了计算效率和通信效率；其次，提出自适应子森林划分算法，以确保每个子森林并行计算的资源利用率最大化；最后，利用轮询机制来实现节点的负载均衡。以上列举的3 种并行深度森林算法虽然在训练效率上有了一定的提升，但仍然存在以下不足。1)在特征选择阶段，无法有效去除原始数据携带的大量冗余和无关特征，导致后续模型训练过程中存在冗余及无关特征问题。2)在多粒度扫描阶段，输入的原始特征经过滑动窗口扫描后，将产生大量的特征子序列，拼接多个输出的类向量将导致类向量过长问题。3

13、)在级联森林训练阶段，级联森林的每一层都将拼接原始特征和上层特征作为本层输入，但相对于原始特征的维度，每层转化后的增广特征的维度则要小得多，这将导致增广特征被淹没11，使模型收敛速度缓慢。4)在模型并行化训练阶段，子森林的划分粒度不能依据模型训练效果自适应确定，加之异构节点情况下存在中间数据倾斜，将导致模型并行训练效率低下。针对上述问题，本文提出了基于 Spark 和三路交互信息的并行深度森林（PDF-STWII,parallel deep forest algorithm based on spark and three-way interactive information）算法，其主要工

14、作如下。1)提出基于特征交互的特征选择（FSFI,fea-ture selection based on feature interaction）策略，通过消除原始特征中存在的大量冗余及无关特征，解决了冗余及无关特征过多的问题。2)提出多粒度向量消除（MGVE,mul-ti-granularity vector elimination）策略，通过将多粒度扫描产生的任意 2 个相似类向量融合为一个向量，解决了多粒度扫描过程中产生的类向量过长问题。3)提出了级联森林增强（CFFE,cascade forest feature enhancement）策略，密集连接所有级联层输出的增

15、广特征的同时动态缩减部分原始特征，解决了模型收敛速度慢的问题。4)提出了多级负载均衡（MBL,multi-level load balancing）策略，通过自适应子森林划分（ASFS,adaptive sub-forest splitting）算法控制森林划分粒度和异构倾斜数据划分（HSDP,heterogeneous skew data partition）算法平衡异构数据的倾斜，提高了模型的并行化训练效率。1 相关概念介绍定义 1 互信息12常用来衡量变量之间的相关性程度，互信息越大，变量间的相关性越强，反之，则相关性越弱。反映随机变量if和jf 相关性的互信息(;)ijI ff可定义

16、为 (;)()(|)ijiijI ffH fH ff(1)其中，()iH f为变量if 的信息熵，表示变量不确定性程度；(|)ijH ff为变量jf 确定时if的条件熵(;)min(),()ijijI ffH ff。定义 2 对称不确定性13常用于相关特征选取，其通过归一化互信息修正了互信息在选取特征时存在的偏置。2个随机变量if和jf的对称不确定230 通信学报第 44 卷性SU(,)ijff可定义为 2(;)SU(,)()()ijijijI ffffH fH f(2)从式(2)可知，SU(,)0,1ijff。定义 3 三路交互信息14作为互信息的扩展可用来度量特征之间的交互性，其

17、值可为正数、零和负数。当三路交互信息为正数时，2个特征共同对标签提供的信息大于它们单独对标签提供信息的和，此时2个特征存在互补性；当三路交互信息为负数时，2个特征对标签提供的信息存在冗余；当三路交互信息为零时，2个特征提供给标签的信息是独立的。对于特征if和jf及标签C，三路交互信息(;)ijI ff C可表示为 (;)(,)ijijI ff Cp ff C (,)(,)(,)log()()()ijijijp ffp f C p f Cp fp fp C(3)其中，()()()ijp fp fp C为三者的联合概率。定义 4 近似马尔可夫毯15可用于冗余特征的检验，如果特征jf是特征if的近似

18、马尔可夫毯，则2个特征之间存在冗余，SU(,)SU(,)jif Cf C和SU(,)SU(,)jiifff C同时成立。定义 5 皮尔逊相关系数常用来衡量2个向量之间的相似程度，取值范围为 1,1，其绝对值越大，相关性越强。当取值为正时，2个向量呈正相关，当取值为负时，2个向量呈负相关；当取值为零时，2个向量无关。皮尔逊相关系数定义为 E()()cov(,)(,)XYXYXYXYX YP X Y 2222E()E()()E()E()E()E()XYX E YXXYY(4)其中，cov(,)X Y表示2个向量之间的协方差，X和Y分别表示向量X和向量Y的标准差，表示向量均值，E表示数学期望值。2

19、PDF-STWII 算法说明 PDF-STWII算法主要包括4个阶段：特征选择、多粒度扫描、级联森林训练、模型并行化训练。各阶段的主要任务如下。1)特征选择。提出FSFI策略，通过度量特征的相关性和冗余度，消除大量冗余及无关特征，同时挖掘出存在交互作用的特征，过滤大量冗余及无关特征。2)多粒度扫描。提出MGVE策略，融合任意2个相似类向量，缩短类向量长度。3)级联森林训练。提出CFFE策略，密集连接各层增广特征，同时逐层削减部分特征，防止增广特征被淹没，加快模型收敛速度。4)模型并行化训练。提出了MBL策略，其包含两方面内容。在算法并行处理层面，提出ASFS算法，通过分析子森林训练效果，自适应

20、确定森林的划分粒度，提高算法并行度。在数据并行化处理方面，提出了HSDP算法，分析分布式异构环境中各计算节点的性能差异，将中间数据合理分配到各节点，以平衡中间数据倾斜，最终从算法和数据两方面提高模型并行化训练效率。2.1 特征选择针对原始数据集包含大量冗余及无关特征问题，提出的FSFI策略从特征相关性、冗余度和特征交互三方面综合考虑特征选取，高效剔除冗余无关特征。FSFI包括无关特征过滤、冗余特征消除和特征综合评分。2.1.1 无关特征过滤在特征选择过程中，由于相对于特征的冗余度和交互性计算，特征的相关性计算更快，所以在特征选择的初始阶段，提出特征相关性系数（FRC）过滤大量无关特征，删除

21、小于相关性阈值的特征，并利用FRC对特征排序。定理 1 特征相关性系数（FRC）。已知数据集n mDR，其中n和m分别为数据的样本量和特征，则if与标签C的相关性系数FRCi定义为 (,)FRCmin(),()iiiI f CDH fH C(5)211111nnsisissDffnn(6)其中，sif表示样本s中if的值。证明对标签具有较强区分度的特征，通常存在较大的方差，可用标准差反映特征if对类别的区分能力。D为特征if的标准差，标准差越大，特征区分标签类别的能力越强；由互信息定义可知(;)min(),()iiI f CH fH C，互信息的大小受特征和标签信息熵的限制，直接使用互信息来

22、衡量相关性时，具有越大信息熵的特征越有可能被选取，因第 8 期毛伊敏等：基于 Spark 和三路交互信息的并行深度森林算法 231 此将互信息(;)iI f C除以特征if和标签C的最小信息熵以消除偏置，最终将反映特征区分度的标准差和消除偏置的互信息相乘获得特征相关性系数FRC，证毕。2.1.2 冗余特征消除经过无关特征初步过滤过程，特征的维度大幅缩减，但冗余特征并未消除，为此，在特征消除阶段提出冗余度指标R来衡量特征之间的冗余程度。冗余消除过程如下。首先，利用近似马尔可夫毯快速判断冗余特征并消除；然后，利用冗余度指标R计算特征间的冗余度，对比冗余度指标和冗余度阈值，进一步消除冗余特征。定

23、理 2 冗余度指标R。已知存在特征if和特征jf，则计算特征间的冗余度指标R可表示为 SU(,)ijRPff(7)SU(,)SU(,)1()()2jiijf Cf CPH fH f(8)证明 SU(,)if C为特征if与标签C的对称不确定性，根据对称不确定性定义可知，SU(,)if C可度量特征if与标签C的相关信息量，同理，SU(,)ijff可度量2个特征之间的相关信息量，反映特征信息重叠大小。()iH f为if的信息熵，表示特征自身信息量的大小。当SU(,)()iif CH f和SU(,)()jjf CH f越大时，在一个确定信息空间中的特征if和特征jf的信息重叠概率也就越大，即越可能

24、存在信息冗余。综上，P可表示冗余概率，SU(,)ijff可表示冗余信息量，冗余概率和冗余信息量联立获得冗余度指标R，证毕。2.1.3 特征综合评分经过无关特征过滤和冗余特征消除过程，剩余的特征都具有较高质量，为了进一步挖掘出更高质量的特征子集，从特征相关性、冗余度和特征交互性出发，设计特征综合评估函数FSFIJ，获取更优特征子集。定理 3 特征综合评估函数FSFIJ。假设候选特征if与标签C的相关性为(;)iI f C，与已选特征jf的冗余度为(;)ijI ff，候选特征if和已选特征jf对标签的交互性为(;)ijI ff C，特征综合评估函数FSFIJ可表示为 FSFIargmax(;)i

25、ifFJI f C(;)(;)(;)max(;)jsiijijfFiI f CI ffI ff CI f C(9)其中，F表示候选特征集，sF表示已选特征集。证明特征评估函数FSFIJ的目标在于每次从候选特征集F中选取好的特征if使评估函数FSFIJ的值最大，好的特征应具有高相关性，且与已选特征具有低冗余度和高交互性，反映在函数中分别对应(;)iI f C、(;)(;)(;)iijiI f CI ffI f C、(;)ijI ff C。当候选特征if与标签C的相关性较高时，(;)iI f C越大，(;)(;)(;)iijiI f CI ffI f C越大，FSFIJ越大，候选特征if越容易被

26、选择。当候选特征if和已选特征jf的冗余度较低时，(;)ijI ff越小，(;)(;)(;)iijiI f CI ffI f C越大，FSFIJ越大，候选特征if越容易被选择。当候选特征if与已选特征jf的交互性较高时，(;)ijI ff C越大，FSFIJ越大，候选特征if越容易被选择。综上，特征评估函数FSFIJ在选择特征时能够有效挖掘出高相关性、低冗余度且具有交互作用的候选特征，证毕。FSFI的伪代码如算法1所示。算法 1 FSFI 输入特征集F，相关性阈值，冗余度阈值m，最终选取的特征数目m 输出已选特征集sF 1)初始化,stFFF 2)计算F中所有特征的FRC 3)将FRC的特

27、征放入F并按降序排列 4)当sF中的jf是F中if的近似马尔可夫毯时，将if从F中删除 5)利用R与进一步删除F中的冗余特征 6)计算FSFIJ并将候选特征放入tF 7)从tF中选取使FSFIJ最大的特征kf 8)将kf放入sF中并统计sF中的特征数量 9)重复步骤7)和步骤8)，直到sF中特征数目为m 232 通信学报第 44 卷 2.2 多粒度扫描多粒度扫描16利用多种尺寸的滑动窗口对原始特征进行切片，随后将切片得到的多个窗口尺寸大小的特征子序列传入随机森林中进行训练，最后将训练得到的类向量拼接传入级联森林中训练。然而由于滑动窗口扫描得到的特征子序列存在大量相同特征，训练得到的大

28、量类向量也相似，拼接大量相似类向量将使传入级联森林的类向量过长，增加级联森林训练开销。针对多粒度扫描过程中产生的类向量过长问题，本节设计了MGVE策略将相似类向量融合。其具体过程如图1所示。定理 4 相似类向量判定函数(,),)S PA B。已知在多粒度扫描阶段随机森林输出类向量 A 和B，则2个向量的相似性判定表示为 1,(,)(,),)0,(,)PS PPA BA BA B (10)其中，(,)PA B 为向量 A 和 B 的皮尔逊相关系数，为设定的相似度阈值。当(,)PA B时，(,),)1S PA B表明2个向量相似，反之不相似。证明由于(,)PA B 能直接反映2个

29、向量之间的线性相关程度，同时每个随机森林输出的类向量为各个类别的概率，这使每个向量的内部概率值的和为1。当用皮尔逊相关系数测得2个向量相关性越大时，2个向量方向越趋于一致，此时2个向量内对应的各数值就越接近，2个向量相似度越高，因此用皮尔逊相关系数与设定的阈值相比可判定2个向量是否相似，证毕。MGVE的伪代码如算法2所示。算法 2 MGVE 输入原始特征sF，相似度阈值输出转化后特征cF 1)初始化,cvFF 2)用大小为m的滑动窗口对sF扫描 3)训练窗口切片获取类向量iV，vviFFV 4)对于vF中的任意2个向量aV和bV 5)如果(,)abPV V，则2abcVVV 6),vva

30、bFF V V,vvcFFV 7)ccvFFF 2.3 级联森林训练针对级联森林训练过程中模型收敛速度慢的问题，本节提出了CFFE策略，其主要过程如下。首先，密集连接每一层级联森林产生的增广特征；其次，为维持总的输入特征的维度不变，每一层级联森林训练后都根据训练效果给原始特征赋予不同的特征重要性权重w，去除部分权重低的特征。具体过程如图2所示。定理 5 特征j重要性权重()w j。假设RF()iwj表示特征j是级联森林中第i个随机森林RFi中的权重，m个随机森林训练使用了特征j，则特征j在本层的重要性权重()w j为 RF1()()imiwjw jm(11)证明假设在构建决策树时，决策树内

31、部的节点i被预测为类别c的概率为()p c，则节点i的信息熵()E i可表示为 1()()ln()cE ip cp c(12)特征j将节点i划分为左右子节点，左右子节点的信息熵分别为l()E i和r()E i，则节点i被j划分的效果(,)Q i j可表示为 lr(,)exp()()Q i jE iE i(13)决策树总共有N个节点，特征j在决策树中的局部权重()wj可表示为图 1 MGVE 过程第 8 期毛伊敏等：基于 Spark 和三路交互信息的并行深度森林算法 233 1(,)()NiQ i jwjN(14)为评估决策树权重，使用袋外误差作为评估标准。设决策树的袋外误差为，则随机森林

32、中决策树的归一化权重可表示为 11max(15)通过式(14)和式(15)，获得特征j在决策树中的局部权重()wj和决策树权重，则特征j在单个随机森林RF中的权重RF()wj可表示为 RF()()max()jwjwjwj(16)其中，RF()iwj表示特征j是级联森林中第i个随机森林RFi中的权重，m个随机森林训练使用了特征j，则特征j在本层的权重为 RF1()()imiwjw jm(17)证毕。2.4 模型并行化训练针对模型并行化训练效率低的问题，本节提出了MLB策略，从算法和数据2个层面提升模型的并行化训练效率，包含算法层面的ASFS算法和数据层面的HSDP算法。2.4.1 自适应子森林

33、划分在算法层面，为提高模型的并行化训练效率，本节提出了ASFS算法，其主要过程为如下。首先，采用自助采样法将采样特征分配到子森林中；然后，根据各个子森林的训练结果给每个子森林设定子森林权重系数SFW；最后，利用子森林的权重SFW计算出整个森林划分得分因子Fscore以确定森林划分粒度。具体过程如图3所示。图 3 子森林划分定理 6 子森林权重系数SF()Wr。设第r个子森林中包含Q个决策树，利用OOB数据集验证获得第i个决策树的袋外误差errOOBi，则第r个子森林的权重系数SF()Wr可表示为 SFflu()errOOBQWr (18)0flu|errOOBerrOOB|Qii(19)图

34、 2 CFFE 过程 234 通信学报第 44 卷 0errOOBerrOOBQiiQ(20)证明由于errOOBi为第i个决策树的袋外误差，errOOB为子森林中决策树的袋外误差的均值，则flu可以统计子森林内决策树误差相距平均误差波动总和。误差波动总和越小，子森林预测的稳定性越高；平均袋外误差errOOB越小，子森林整体的预测准确率越高，所以SF()Wr可同时将子森林稳定性flu和准确率errOOB作为权重的考虑对象，使具有较高预测稳定性和高预测准确率的子森林获得高权重，证毕。定理 7 森林划分得分因子Fscore()s。将第s个森林划分为r个子森林，则第s个森林的森林划分得分因

35、子为 SF0F(1errOOB)()score()riiWisr(21)证明 1errOOBi为第i个子森林的平均预测准确率，准确率越高，子森林整体的分类能力越强。SF()Wi为子森林权重系数，权重越大，子森林的稳定性越强、准确率越高，一个森林包含多个子森林，每个子森林的预测效果又包含准确率和稳定性两方面特性，因此结合两方面特性的Fscore()s可表示子森林的整体预测效果，证毕。ASFS的伪代码如算法3所示。算法 3 ASFS 输入级联层数T，每层森林数S，预设最大子森林数R，子森林中树的数量Q 输出子森林划分矩阵P 1)for 1:iT 2)for 1:jS 3)score0 4)fo

36、r 1:kR 5)计算SF()Wk和score k 6)end for 7)获取使score最大的k 8)ijkP 9)end for 10)end for 11)根据划分矩阵划分子森林 2.4.2 异构倾斜数据划分在数据层面，由于Spark在Shuffle阶段采用默认的哈希分区策略极易引起中间数据倾斜，严重影响模型的并行化训练效率，为此本文提出HSDP算法。平衡中间数据倾斜需进行如下操作。1)倾斜评估。Spark以哈希分区作为默认的分区方式将产生2种数据倾斜情况：同一键值包含大量键值对，经过Shuffle过程被分配到同一分区，导致这一分区数据量巨大；大量不同键值对应同一分区索引，导致大量不

37、同键对应的键值对分配到同一分区。以上2种数据倾斜情况在节点异构环境下将更加严重，对此，本文提出异构倾斜度量因子D来评估在节点异构条件下中间数据的倾斜程度。定理 8 异构倾斜度量因子D。假设中间数据包含m个不同的key，且第i个key对应的数据容量为iQ，N个桶对应N个计算节点，第j个桶包含的key表示为1,2,jjm jKKK，每个桶的数据量依次表示为1,jNqqq,avgq为所有桶的平均数据量，则异构倾斜度量因子D可表示为 avgDDq(22)2avg11(RC)NjjjDqqN (23)capabilityRCavg_capabilityjj(24)其中，RCj表示第j个计算节点的相对计算

38、能力。证明由于avgq和avg_capability是实际环境中的固定值，于是可设定系数表示两者的比例，即avgavg_capabilityq。capabilityjjq为第j个桶的理论最大负载和实际负载的差值，D为实际负载和理论负载的标准差，实际负载和理论负载越接近，异构倾斜度量因子D越小，因此可用D作为异构倾斜度量因子来衡量中间数据倾斜程度，证毕。2)中间数据预测。为降低数据统计耗时，采用主从整体采样法预测中间数据。首先，从节点通过RDD操作计算所有Map任务的mapPartitionsRddSize；然后，设置采样率r，通过sampleSize mapPartionsRdd

39、Sizer计算总共的采样大小，根据sampleSizePerPartion计算每个Map任务采样的样本大小；其次，每个从节点利用sampleSizePartion的大小调用RDD的sample函数对RDD数据分区进行采样，统计出本地样本中key值记录，随后将(,)iiK Q传输到主节点；最后，主节点汇总每个Map任务的所第 8 期毛伊敏等：基于 Spark 和三路交互信息的并行深度森林算法 235 有样本数量，根据采样率得到中间数据集1122(,),(,),(,)mmK QK QKQ的整体分布情况。3)异构倾斜数据划分。通过整体采样方法获得中间数据的预测，根据节

40、点的异构情况采用贪心策略将中间数据合理分配到各个桶中。HSDP的伪代码如算法4所示。算法 4 HSDP 输入中间数据1122(,),(,),(,)mmK QK QK Q 桶的平均容量avgq，桶的数量N 输出分区集合P 1)for 1:jN/初始化剩余容量 2)avgRB RCjjq 3)end for 4)遍历1122(,),(,),(,)mmK QK QKQ 5)hash()%ixKN/默认哈希分区 6)if RB ixQ 7)yx，,ijPPK K 8)else if RBiQ 9)idiyQ大于且剩余容量最小桶的 10),iPPK y 11)else TempTemp,iiK Q

41、12)根据数据量的大小将Temp降序排列 13)用剩余容量大的桶装大的中间数据 14),iPPK y 2.5 算法时间复杂度分析 PDF-OGUP、FS-DPRF和BLB-gcForest等算法都基于Spark框架设计，且各自采用不同的优化策略提高算法性能，因此选取这3种算法与本文算法进行实验对比。PDF-STWII算法主要包括特征选择、多粒度扫描、级联森林训练、级联森林并行化训练。各阶段的时间复杂度分别标记为1T、2T、3T、4T。特征选择包括无关特征过滤、冗余特征消除、特征综合评分。已知数据样本量为n，特征数目为m，无关特征过滤遍历所有样本和特征，其时间复杂化度为()O nm；冗余特征消除

42、需要计算近似马尔可夫毯和三路交互信息，需要的时间复杂度为2()O m；特征综合评分阶段需要的时间复杂度为2()O m n，因此特征选择时间1T为 221()TO m nmmn(25)在多粒度扫描阶段，时间复杂度主要取决于特征子集在随机森林训练以及类向量融合的时间开销。假设经过特征选择后的特征个数为s，滑动窗口大小为w，样本数目为n，随机森林的个数为N,则2T为 22()()()TO swO s sw nNO N(26)其中，()O sw为窗口扫描时间复杂度，()O s sw nN为特征子集训练时间复杂度，2()O N为类向量融合的时间复杂度。在级联森林训练阶段，假设传入级联

43、森林的原始特征的个数为v，样本数目为n，每一层森林的个数为N，每个森林包含Q棵树,级联森林层数为L，则3T为 3()TO Lv nN(27)在模型并行化训练阶段中，时间复杂度主要由子森林划分、异构数据分区两部分组成。假设每一层森林的个数为N，每个森林包含Q棵树，级联森林的层数为L，每个森林可划分为r子森林，并行节点数量同样为r，则4T为 24()()TO NLQO r(28)其中，()O NLQ为自适应子森林划分的时间复杂度，2()O r为异构数据分区的时间复杂度。综上，PDF-STWII算法的时间复杂度为 1234PDF-STWIITTTTTr(29)其中，r为单个森林划分的子森林个数。在大

44、数据环境下，深度森林模型训练的时间复杂度主要取决于多粒度扫描阶段中输出的类向量长度和级联森林训练层数，即算法的时间复杂度T主要由3T中的v和L决定。由于算法PDF-OGUP、FS-DPRF和BLB-gcForest都没在多粒度扫描阶段对相似类向量进行融合，从而使PFG-OGUPv PDF-STWIIv，FS-DPRFPDF-STWIIvv，BLB-gcForestPDF-STWIIvv。又由于本文在级联森林中使用了CFFE策略加快了模型收敛，因此需要的训练层数相对更少，从而使PFG-OGUPPDF-STWIILL，FS-DPRFPDF-STWIILL，BLB-gcFore

45、stL PDF-STWIIL。综上，相较于PDF-OGUP、FS-DPRF和BLB-gcForest算法，PDF-STWII算法具有更低的时间复杂度。3 实验结果分析 3.1 实验环境为验证本文算法的性能表现，本文设计了相关实验。在硬件方面，本文实验设置8个计算节点，其中包括1个主节点和7个从节点。各个计算节点的硬件236 通信学报第 44 卷配置均为Intel(R)Core(TM)i7-11800H CPU、16 GB DDR4 RAM、1 TB SSD，实验中的计算节点处于同一局域网内，通过1 GB/s的以太网相连。在软件方面，各计算节点配置均为Ubuntu16.04、Hado

46、op 2.7.4、JDK 1.8.0。各节点的详细配置如表1所示。表 1 节点详细配置节点类型主机名 IP 地址 Master M 192.168.110.1 Slaver S1 192.168.110.2 Slaver S2 192.168.110.3 Slaver S3 192.168.110.4 Slaver S4 192.168.110.5 Slaver S5 192.168.110.6 Slaver S6 192.168.110.7 3.2 实验数据与设置实验数据。所有算法采用4个来自UCI（university of California Irvine）公共数据库的数据集，分

47、别为Farm Ads、Susy、Connect-4和FMA，其中Farm Ads是从12个网站文本中搜集的各种有关农场动物的话题；Susy是记录粒子在加速器条件下是否产生超对称粒子信号过程的数据集；Connect-4数据集记录了四子棋游戏中所有合法的8层位置信息；FMA记录了包括歌曲标题、专辑、艺术家等众多曲目信息。各数据集的详细信息如表2所示。表 2 实验数据集数据集样本数/条特征数/种数据特点 Farm Ads 4413 54877 样本少特征多 Susy 5000 000 18 样本多特征少 Connect-4 67557 42 样本特征适中 FMA 106574 518 样本特

48、征适中实验设置。对于实验数据划分，采用所有算法数据划分一致性原则，即70%为训练集，30%为测试集；对于模型参数，设数据的特征长度为d，在多粒度扫描阶段中滑动窗口大小依次设置为16d、8d、4d，每个子森林中的决策树的数量初始化为随机森林中决策树数量的开方，每一层级联森林包含2个随机森林和2个完全随机森林。3.3 评价指标 3.3.1 加速比加速比是指同一任务在单处理器系统和在并行处理器系统中运行消耗的时间的比率，常用来衡量并行系统或程序并行化的性能和效果，加速比越大，算法的并行化程度越高，其定义如下 spPTST(30)其中，sT表示在串行系统中的执行时间，PT表示在并行系统中的执行时间

49、。3.3.2 准确率准确率（Accuracy）是指在分类模型中正确分类的样本数与总的样本数的比值，能够反映算法的分类能力，其定义为 TPTNAccuracyTPFNFPTN(31)其中，TP、TN、FP、FN在混淆矩阵中分别表示真正例、真反例、假正例、假反例。3.4 算法性能的比较分析算法整体性能需考虑多方面指标，为综合衡量算法性能，利用算法运行时间来度量算法训练速度，利用加速比来度量算法并行处理能力，利用准确率来度量算法分类性能。3.4.1 算法运行时间对比分析为检验4种算法训练速度，将PDF-OGUP、FS-DPRF、BLB-gcForest与本文算法（PDF-STWII）在上述4个

50、数据集上进行对比实验，森林中决策树数量为200，实验采用10折交叉验证方式，实验结果如图4所示。图 4 不同数据集上 4 种算法的运行时间从图4中可知，在对4个数据集的测试中，本文算法所需要的运行时间最低，并且当数据集的特征数量越多时，本文算法相对其他算法缩短的运行时间比例也越大，在特征量最少的数据集Susy中，本文算法相比PDF-OGUP、FS-DPRF、BLB-gcForest第 8 期毛伊敏等：基于 Spark 和三路交互信息的并行深度森林算法 237 运行时间分别减少了2.62%、10.41%、3.41%；在特征量最多的数据集Farm Ads中，PDF-STWII算法相比PDF-O

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Spark 交互信息并行深度森林算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。