探究链接在多关系数据挖掘中的应用_涂芳.pdf
《探究链接在多关系数据挖掘中的应用_涂芳.pdf》由会员分享,可在线阅读,更多相关《探究链接在多关系数据挖掘中的应用_涂芳.pdf(3页珍藏版)》请在咨信网上搜索。
1、DOI:1019392/jcnki1671-7341202308024探究链接在多关系数据挖掘中的应用涂 芳1*曾 铭2邓左祥31上汽通用五菱汽车股份有限公司广西柳州545007;2湖南湖大艾盛汽车技术开发有限公司湖南长沙410221;3广西科技大学计算机科学与技术学院广西柳州545006摘要:随着大数据时代的来临,数据挖掘已经成为热门的研究方向,多关系数据挖掘,是数据挖掘的研究内容之一。本文对多关系数据挖掘进行概述,介绍了描述链接存在于多关系之中,通过多关系数据挖掘的五个研究成果,探究链接在多关系数据挖掘中的应用。已有的一些研究成果证实,在多关系中巧妙地利用链接,可以研究出高效的多关系数据挖
2、掘算法,链接在多关系中的作用是非常大的,可以节省空间和时间,提高准确率,有很大的可扩展性。关键词:数据挖掘;多关系;链接;应用中图分类号:TP311文献标识码:AAbstract:With the advent of the era of big data,data mining has become a popular research directionMulti-relational datamining is one of the research contents of data miningThis paper gives an overview of multi-relation
3、al data mining,introduces theexistence of description links in multi-relationship,through five research results of multi-relational data mining,and explores theapplication of links in multi-relational data miningSome existing research results confirm that skillfully using links in multi-rela-tionshi
4、ps can study efficient multi-relational data mining algorithms,The role of links in multiple relationships is very large,whichcan save space and time,improve the accuracy,and have great scalabilityKeywords:Data mining;multiple relations;link;application1 多关系数据挖掘概述随着网络技术的不断发展和进步,人类社会已经进入大数据时代1,数据在关系数
5、据库中的存储,通常以多关系,也就是多表的形式来存储。多关系数据挖掘2,是在关系数据库中相互关联的多张表(也就是关系)上,进行知识学习。对于多关系进行数据挖掘来说,一个传统方法,就是把多张表集成到一张表中,然后运用传统的数据挖掘算法,对集成后的表进行挖掘。但是在实践中,这种传统方法,存在着很多问题。这种传统方法,不但需要大量的计算,而且有可能丢失数据原有的结构特点,造成信息丢失,使得效率、可扩展性都很差。因此,有必要寻找一种直接在多关系上进行挖掘的算法,对可以直接在多关系上进行数据挖掘的算法进行研究,是一个值得研究的问题,当然也会面临一些挑战。多关系数据挖掘的算法,可以减少多关系数据挖掘所需要的
6、时间和空间,能够增大效率并具有可扩展性。多关系数据挖掘的任务,主要包括在多关系上进行分类、在多关系上进行聚类、在多关系上进行关联规则挖掘。多关系分类,是一个在多关系中,进行分类的过程,它基于存储在多关系中的信息,并且还可以进行预测。在多关系分类中,有一个目标关系,它的元组称为目标元组,它们都有一个类标签,如果假设有两个类,则可以把一个类称为正类,另一个类称为负类。多关系分类,就是在可以与目标关系进行连接操作的关系中,根据目标关系中元组的正负类,来区别出关系中正类的元组和负类的元组。多关系聚类,就是使用多关系中数据的信息,根据它们之间的相似度,来把数据对象划分成一系列簇的过程。多关系关联规则挖掘
7、,它的目标是发现存在于不同关系中相互关联的项的模式,进而可以产生多关系关联规则。2 链接存在于多关系之中链接在互联网有着巨大的作用。互联网上的网页,通过链接,互相关联在一起,对于数据挖掘来说,链接同样有着重要的作用,比如多关系数据挖掘。关系数据库是最流行的结构数据的贮存器。在关系数据库中,多关系通过实体 关系模型相互链接在一起。在多关系中,每个关系和每个关系之间主键和外键的对应,就是多关系中链接的表现形式之一。如果多关系数据库中的两个关系,可以通过数据库中物理连接的操作,连接在一起,则这个关系就存在链接。许多分类方法(比如神经网络和支持向量机),仅仅能够运用在单关系表格中,也就是说,数据存储在
8、一个独立的表格。然而,在现实世界中,多关系数据是普遍和大量存在的。有效地运用多关系之间的链接,可以实现多关系17科技风 2023 年 3 月电子信息数据挖掘,也就是直接在多关系之中进行挖掘,提高挖掘的准确率和效率。3 链接在多关系数据挖掘中的应用有效地利用多关系中的链接,可以解决多关系数据挖掘的问题,直接从多关系中挖掘知识,节省时间和空间,提高准确率、可扩展性。一些研究学者,巧妙地利用多关系中的链接,已经提出一些高效的多关系数据挖掘算法。本小节,通过描述一些多关系数据挖掘的研究成果,来探究链接在多关系数据挖掘中的应用,包括五个研究成果,分别是:CrossMine3、Graph-NB4、Cros
9、sClus5、LinkClus6、Distinct7。31 CrossMine:一种有效的在多关系中分类的算法传统的方法,在处理多关系分类时,采取物理连接多关系的方法,例如 ILP 分类方法。ILP 把 FOIL 作为它的分类算法,为了实现分类,FOIL 需要创建一个个规则,每个规则都包含一个个谓词,FOIL 通过评估每个谓词的好坏,在现有的规则中,加入最好的谓词。在这种情况下,需要一个估计谓词的方法,可以用 Foil Gain 来估计每一个谓词。拥有最大 Foil Gain 的谓词,就是最好的谓词。但是,ILP 采用对关系进行物理连接的方法,来计算出 Foil Gain,这就会造成耗时大的问
10、题。CrossMine 是一种有效的在多关系中分类的算法。与ILP 类似,CrossMine 也同样要一次一个地把谓词加进规则里去,也要计算出 Foil Gain,以找出最好的谓词。但是,与ILP 不同的是,CrossMine 不用直接对表进行连接,就可以计算出 Foil Gain,它采取的是一种基于多关系之间链接的元组 ID 传播的方法。在一般情况下,多关系数据库的目标关系中的主键,代表每个目标元组的 ID。CrossMine 使用元组 ID 传播的方法,在所有活动的关系中(初始情况下,只有目标关系是活动关系),以及那些可以与活动关系进行物理连接的关系中,寻找拥有最大 Foil Gain 的
11、谓词。算法 FOIL 和 CrossMine 大体上类似,所不同的是,FOIL 采用物理连接,CrossMine 采用基于多关系之间链接的元组 ID 传播。因此,CrossMine 在时间和空间上的花费,都比物理连接的 FOIL 少很多,对于准确率、效率、可扩展性来说,CrossMine 也比 FOIL 要更高。32 Graph-NB:一个有效、准确的多关系贝叶斯分类算法Graph-NB 是一个有效、准确的多关系贝叶斯分类算法。第一,它可以直接地处理多关系,也就是说,并不需要对关系进行连接操作,就可以分类,节省时间和空间。而现有的其他贝叶斯分类法在处理多关系时,都必须先对关系进行物理连接,相比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 探究 链接 关系 数据 挖掘 中的 应用 涂芳
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。