基于随机森林的分布式数据关联性深度挖掘方法.pdf
《基于随机森林的分布式数据关联性深度挖掘方法.pdf》由会员分享,可在线阅读,更多相关《基于随机森林的分布式数据关联性深度挖掘方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、基于随机森林的分布式数据关联性深度挖掘方法吕立新(安徽商贸职业技术学院 信息与人工智能学院,安徽 芜湖 241000)摘要 针对现有分布式数据关联性深度挖掘方法存在的挖掘质量差、内存占比高等问题,提出一种基于随机森林的分布式数据关联性深度挖掘方法。通过设置Pearson线性相关系数与Spearman秩相关系数,得到数据关联性的深度挖掘参数,根据挖掘参数的取值设置关联性判定标准。在分布式系统中收集并处理初始数据,利用随机森林算法划分分布式数据类型,在考虑数据维度关联性的情况下,计算Pearson线性相关系数和Spearman秩相关系数的具体取值,得出最终的分布式数据关联性深度挖掘结果。通过实例分
2、析得出结论:关联性挖掘偏离程度低于0.1,满足对数据关联性挖掘质量的要求,同时,降低了挖掘方法运行程序的内存占用量。关键词 随机森林;分布式数据;数据关联性;深度挖掘中图分类号 TP391文献标志码 A文章编号 1671-0185(2023)04-0308-07Distributed Data Association Deep MiningMethod Based on Random ForestLYU Li-xin(School of Information and Artificial Intelligence,Anhui Business College,Wuhu 241000,Chin
3、a)Abstract:Aiming at the problems of poor mining quality and high memory ratio in existing distributed data association deep mining methods,this paper proposed a distributed data association deep mining method based onrandom forest.By setting the Pearson linear correlation coefficient and the Spearm
4、an rank correlation coefficient,the deep mining parameters of the data association were obtained,and the relevance judgment standard was setaccording to the values of the mining parameters.The initial data was collected and processed in the distributedsystem,the distributed data types were divided b
5、y the random forest algorithm,and the specific values of Pearsonlinear correlation coefficient and Spearman rank correlation coefficient were calculated considering the dimensioncorrelation of data,so as to obtain the final deep mining results of distributed data correlation.Through the example anal
6、ysis,it is concluded that the deviation degree of correlation mining is less than 0.1,which meets the requirement of the quality of data correlation mining and reduces the memory consumption of running program ofthe mining method.Key words:Random forest;Distributed data;Data association;Deep excavat
7、ion通过分布式存储方案,解决了集中式存储存在的数据拥塞问题,降低了服务器的存储负荷。将数据分别存储在不同的设备与系统中,存储的数据也称为分布式数据。在信息爆炸的社会背景下,在分布式环境中获取有效数据资源成为巨大的难题和挑战1。为提高分布式数据的挖掘效率,针对分布式数据之间的关联性进行挖掘与分析,为数据挖掘工作提供数据关联关系。分布式数据关联性深度挖掘的最终目的,是查找并提取与目标数据之间存在的关联以及因果关系结基金项目:安徽省高校优秀青年人才支持计划项目(gxyq2018236)作者简介:吕立新,安徽商贸职业技术学院信息与人工智能学院副教授,硕士。DOI:10.14045/ki.15-122
8、0.2023.04.004第38卷第4期内蒙古民族大学学报(自然科学版)Vol.38No.42023年07月Journal of Inner Mongolia Minzu UniversityJuly 2023构,并将挖掘结果作为数据挖掘规则,从而应用到数据挖掘工作中。从当前的发展情况来看,针对数据关联性深度挖掘的研究成果较少,其中,发展相对成熟的关联性深度挖掘方法主要应用了PCA技术,也称为主元分析技术。但在实际的应用工作过程中,发现该技术存在挖掘的数据关联性不成立、内存比重大、存储与计算能力低等问题,为此,引入随机森林的概念。随机森林是利用多棵树对样本进行训练并预测的一种分类器,在构造决策
9、树时是在随机子空间中选取最优分裂点,在一定程度上保证了基分类器的准确性。将随机森林相关理论与技术应用到分布式数据关联性深度挖掘工作中,以期能够提升挖掘结果的质量与效率。1分布式数据关联性深度挖掘方法设计1.1确定分布式数据关联性深度挖掘参数确定分布式数据相关性挖掘参数指的是,确定每个相关算法中每个决策变量的数值与每个决策变量的数值,把一组相关算法的参数称为分布式大数据相关深度挖掘的有效解。通过这种方法,理想点法的思想就能使决策者对每个相关算法的参数都得到满意值。在分布式数据相关性算法中,将真实值和期望值进行比较,确定有效解的参数2。分别设置Pearson线性相关系数、Spearman秩相关系数
10、作为分布式数据关联性的2个深度挖掘参数,假设待关联性挖掘的2组分布式数据均来自二元正态总体的样本,则可以得出Pearson线性相关系数的计算公式为:(X,Y)=i=1n()xi-x()yi-y i=1n()xi-x 2i=1n()yi-y 2(1)式(1)中,()xi,yi和()X,Y表示的是2个分布式数据样本集合中的任意一个数据特征,x 和y 表示X和Y的样本均值,从公式(1)中得到的样本Pearson线性相关系数可作为2个正态()X,Y的相关系数的无偏和一致估计量3。另外,Spearman秩相关系数用单调函数来描述数据间的相关性,如果2个分布数据取值的2个集合都不存在相同的2个元素,那么当
11、一个分布式数据可以表示为另一个数据的单调函数时,2个数据之间的Spearman秩相关系数可以达到+1或-1。Spearman秩相关系数的量化表达式如下:=(arrayd,arrayn)(2)式(2)中,d和n分别表示分布式数据关联观察值秩差和对数,计算时不使用绝对值,而用秩来计算。1.2设置关联性判定标准从关联方向和关联程度2方面设置关联性的判定标准来看,关联方向的判定就是分布式数据之间呈现的关联形式为正相关或负相关,主要根据Spearman秩相关系数的具体取值,若该相关系数取值为正,则表示分布式数据之间存在正相关关系,否则为负相关关系。而关联程度的判定主要取决于Pearson线性相关系数的取
12、值,具体的关联程度判定标准见表1。表1针对Pearson线性相关系数的关联程度判断标准Tab.1 Evaluation criteria for the degree of Pearson linear correlation coefficient关联程度极强关联强关联中等程度关联弱关联极弱关联或无关联相关系数取值上限0.80.60.40.20.0相关系数取值下限1.00.80.60.40.2然而在关联性判定之前,需要对待关联性深度挖掘的分布式数据集合进行自相关判定,如果分布式数据序列的相关系数不会随样本相关系数的改变而发生改变,则认为两组分布式数据之间无相关性,即第4期吕立新:基于随机森林
13、的分布式数据关联性深度挖掘方法309内蒙古民族大学学报2023年使求解得出的Pearson线性相关系数值很高,做出的回归也是伪回归,得出的关联性挖掘结果不成立4。因此,在开始挖掘之前,先定义2组分布式数据均为平稳的一阶相关序列,可以用公式(3)来表示。Xt+1=c+aXt+XtYt+1=d+bYt+Yt(3)式(3)中,a、b、c和d均为常数系数,Xt和Yt为2个数据集合中相互独立的正态随机变量。在此基础上计算分布式数据集合的自相关性,计算公式如下:()Xt,Yt=E()XtYt-E()XtE()YtD()XtD()Yt(4)式(4)中,E()和D()对应的是数据样本的期望值和方差函数。将待关
14、联性挖掘的分布式样本进行自相关性判断,若式(4)得出的计算结果不高于0.8,则可以执行关联性深度挖掘参数的计算,否则无计算意义。1.3收集并处理分布式数据在多个数据存储系统和设备中,通过传感器与线路传输设备收集分布式数据。由于不同的存储环境中,数据的存储方式与格式存在细微差别,各分布式数据之间有不同的数量单位,且变量之间的差值较为明显,从而影响数据相关挖掘结果的质量5。对数据分析结果进行标准化处理的目的是保证数据之间的可比性以及可操作性。首先,对原始数据进行中心化处理,该处理过程不会对分布式数据间的位置造成任何影响。在数据集中处理之后,每个列向量的均值为0,所以对于这个列向量的方差可表示为:v
15、ar()uj=1ni=1n()uij-uj2(5)式(5)中,uij和-uj分别表示原始数据和列向量的中心值。当数据处理时,若各数据量纲一致,则可采用欧氏距离直接度量样本中各点之间的距离6。为消除不同数据间的不同量纲而引起的数据处理误差,需要对原始数据进行无量纲化的处理,处理过程可表示为:u*ij=uijvar()uj(6)从式(6)中可以看出,数据的无量纲化处理就是让每一个分布式数据的方差均为1,同时执行中心化和无量纲化操作,完成对数据的标准化处理工作。1.4利用随机森林算法划分分布式数据类型分布式数据类型划分的目的是生成多组关联性深度挖掘样本集合,形成两两对应的数据关系。构建随机森林分类器
16、时,将每个决策树随机选取训练子集,并在节点分裂时按所设定的数目来选择特征空间7。根据设定值选取数据子集,当子集的数目决定了构建决策树的数目。在构造决策树时,用 Bagging有放回方式抽取样本集,在所有特征空间中选取出的子集和用特征子集构造决策树,可以使不同的决策树模型产生不同的结果8。随机森林算法将所有参与投票的基分类器的投票结果进行汇总,在汇总结果中得分最高的类别即为测试样本的分类标签,可以表示为:H(x)=argmaxykI()hk(u)=(7)式(7)中,I()和hk(u)分别为指示器函数和决策树模型,为决策树输出的分类结果。构建的随机森林结构见图1。针对高维海量数据,随机森林中的每个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 随机 森林 分布式 数据 关联性 深度 挖掘 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。