知识发现.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 发现
- 资源描述:
-
知识发现定义: 知识发现(KDD:Knowledge Discovery in Databases)是他是从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。 知识发现与数据挖掘的关系: 数据挖掘(Data Mining),就是从海量的数据中挖掘出隐含在其中的矿藏——知识。 一般认为广义的数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database),简称知识发现(KDD)。 狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据关系之间关系的过程,是知识发现过程的一个步骤,一个完整的知识发现过程如图所示: 从图可见,数据挖掘只是只是发现过程中一个发现模式的子过程,并且是最核心的过程。 知识发现的过程模型: KDD基本过程(the process of the KDD) 完成从大型源数据中发现有价值知识的过程可以简单概括为: 首先从数据源中抽取出感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后调用相应的算法生成所需要的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文<From Data Mining to knowledge discovery>中总结出了KDD包含的5个最基本步骤. 1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用于我们的KDD工程中. 2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的错误以及缺失信息. 3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化. 4: data mining: 应用数据挖掘工具. 5: interpretation/evaluation: 了解以及评估数据挖掘结果. 2.常用KDD过程模型 (KDD process model) 随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年总结出的KDD 5个基本步骤, 各种不同的KDD过程模型在此基础上发展以及完善起来.整体来说,KDD过程模型包含"学术模型"(academic research model)以及"工业模型"(industrial model)两大类. 常见的KDD过程模型有: 1996 年Fayyad等人提出的 "9 步骤模型"(nine-steps model). 1999 年 european commission 机构起草的CRISP-DM 模型. (cross-industry standard process for data mining) “7步骤模型”KDD过程模型: 1. 目标定义 2. 创建目标数据集 3. 数据预处理 4. 数据转换 5. 数据挖掘 6. 解释和评估 7. 采取行动 选取几个比较有代表性的KDD模型构架加以介绍: 阶梯处理过程模型: 阶梯处理过程模型将数据库中的知识发现看作是一个多阶段的处理过程,在整个知识发现过程中包括很多处理阶段。 Usama M.Fayyad等人给出的一个多阶段处理模型: 数据源 目标数据 预处理后的数据 模式 缩减后的数据 数据预处理 数据选择 数据挖掘 数据缩减 模式解释与评估 在对挖掘的知识进行评价后,根据结果可以决定是否重新进行某些处理过程,在处理的任意阶段都可以返回以前的阶段进行再处理。整个KDD模型呈现出阶梯状的递进过程。 螺旋处理过程模型: G.H.John在其博士论文中给出的螺旋处理过程模型,该模型在整个处理过程的组织和表达上,强调领域专家参与的重要性,并以问题的定义为中心循环评价挖掘的结果。当结果不令人满意时,就需要重新定义问题,开始新的处理循环。每次循环都使问题更清晰结果更准确,因此他是一个螺旋式上升过程。 抽取数据 清洗数据 数据工程 算法工程 挖掘算法 分析结果 定义问题 该处理过程主要强调需要领域专家的参与。由领域的专业知识指导数据库中的知识发现的各个阶段,并对发现知识进行评价。整个KDD过程通过问题定义来和用户交互和改进挖掘质量,使得通过迭代反复使挖掘任务越来越清晰、算法参数越来越准确,进而挖掘质量螺旋式上升。 CRISP-DM(cross-industry standard process for data mining跨行业数据挖掘过程标准): CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段. 1:business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来. 2.data understanding: 数据的理解以及收集,对可用的数据进行评估. 3:data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求. 4:modeling: 即应用数据挖掘工具建立模型. 5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的. 6:deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告) 参考文献: 2.纪希禹主编.数据挖掘技术应用实例[M].机械工业出版社,2009. 1. Richard J.Roiger,Michael W.Geatz.DATA MINING A TUTORIAL-BASED PRIMER[M].清华大学出版社,2003. 3.毛国君,段立娟,王实,石云.数据挖掘原理与算法(第二版)[M].清华大学出版社,2007.展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




知识发现.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/6623388.html