分享
分销 收藏 举报 申诉 / 8
播放页_导航下方通栏广告

类型数据挖掘功能.doc

  • 上传人:精****
  • 文档编号:9804334
  • 上传时间:2025-04-09
  • 格式:DOC
  • 页数:8
  • 大小:51.04KB
  • 下载积分:6 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 挖掘 功能
    资源描述:
    数据挖掘功能——可以挖掘什么类型的模式? 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。 在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽象层)的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式带上一个确定性或“可信性”度量。 数据挖掘功能以及它们可以发现的模式类型介绍如下。 1 概念/类描述:特征和区分 数据可以和类或概念相关联。例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类和一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。 数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和汇总。 例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地和用户交互。 数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。 例 1.4 数据挖掘系统应当能够产生一年之内在AllElectronics 花费$1000 以上的顾客汇总特征的描述。结果可能是顾客的一般轮廓,如年龄在40-50、有工作、有很好的信誉度。系统将允许用户在任意维下钻,如在occupation 下钻,以便根据他们的职业来观察这些顾客。 数据区分是将目标类对象的一般特性和一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。例如,你可能希望将上一年销售增加10%的软件产品和同一时期销售至少下降30%的那些进行比较。用于数据区分的方法和用于数据特征的那些类似。 “区分描述如何输出?”输出的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分目标类和对比类。用规则表示的区分描述称为区分规则。用户应当能够对特征和区分描述的输出进行操作。 例 1.5 数据挖掘系统应当能够比较两组AllElectronics 顾客,如定期(每月多于2 次)购买计算机产品的顾客和偶尔(即,每年少于3 次)购买这种产品的顾客。结果描述可能是一般的比较轮廓,如经常购买这种产品的顾客80%在20-40 岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者太老,或者太年青,没有大学学位。沿着维下钻,如沿occupation 维,或添加新的维,如income_level,可以帮助发现两类之间的更多区分特性。 2 关联分析 “什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。 更形式地,关联规则是形如X ⇒ Y,即”A1 ∧...∧ Am ⇒ B1 ∧...∧ Bn”的规则;其中, Ai (i∈{1,...,m}), Bj(j∈{1,...,n})是属性-值对。关联规则解释为“满足X 中条件的数据库元组多半也满足Y 中条件”。 例 1.6 给定 AllElectronics 关系数据库,一个数据挖掘系统可能发现如下形式的规则 age(X ,"20 − 29") ∧ income(X ,"20 − 30K")⇒buys(X ,"CD _ player") [support = 2%,confidence = 60%] 其中,X 是变量,代表顾客。该规则是说,所研究的AllElectronics 顾客2%(支持度)在20-29 岁,年收入20-29K,并且在AllElectronics 购买CD 机。这个年龄和收入组的顾客购买CD 机的可能性有60%(置信度或可信性)。 注意,这是一个以上属性之间(即 age, income 和buys)的关联。采用多维数据库使用的术语,每个属性称为一个维,上面的规则可以称作多维关联规则。 假定作为 AllElectronics 的市场部经理,你想知道在一个事务中,哪些商品经常一块购买。这种 规则的一个例子是 contains(T,"computer")⇒contains(T,"software") [support = 1%,confidence =50%] 该规则是说,如果事务T 包含”computer”,_______则它也含”software”的可能性有50%,并且所有事务的1%包含二者。这个规则涉及单个重复的属性或谓词(即,contains)。包含单个谓词的关联规则称作单维关联规则。去掉谓词符号,上面的规则可以简单地写成computer ⇒ software[1%,50%]。 3 分类和预测 分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。 “如何提供导出模型?”导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。 分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。 相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。 例 1.7 假定作为AllElectronics 的销售经理,你想根据对销售活动的反映,对商店的商品集合分成三大类:好的反映,中等反映和差的反映。你想根据商品的描述特性,如price, brand, place_made和category,对这三类的每一种导出模型。结果分类将最大限度地区别每一个类,提供有组织的数据集视图。假定结果分类用判定树的形式表示。例如,判定树可能把price 看作最能区分三个类的因素。该树可能揭示,在price 之后,帮助进一步区分每类对象的其它特性包括brand 和place_made。这样的判定树可以帮助你理解给定销售活动的影响,并帮助你设计未来更有效的销售活动。 4 聚类分析 “何为聚类分析?”和分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而和其它聚类中的对象很不相似。所形成的每个聚类可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观察组织成类分层结构,类似的事件组织在一起。 例 1.8 聚类分析可以在AllElectronics 的顾客数据上进行,识别顾客的同类子群。这些聚类可以表示每个购物目标群。图1.10 展示一个城市内顾客的2-D 图。数据点的三个聚类是显而易见的。 5 局外者分析 数据库中可能包含一些数据对象,它们和数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。然而,在一些应用中(如,欺骗检测),罕见的事件可能比正规出现的那些更有趣。局外者数据分析称作局外者挖掘。 局外者可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为局外者。基于偏差的方法通过考察一群对象主要特征上的差别识别局外者,而不是使用统计或距离度量。 图 1.10 关于一个城市内顾客的2-D 图,显示了3 个聚类,每个聚类的“中心”用“+”标记 例 1.9 局外者分析可以发现信用卡欺骗。通过检测一个给定帐号和正常的付费相比,付款数额特别大来发现信用卡欺骗性使用。局外者值还可以通过购物地点和类型,或购物频率来检测。 6 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。 例 1.10 假定你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望调查高科技工业公司股份。股票数据挖掘研究可以识别整个股票市场和特定的公司的股票演变规律。这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资作出决策。 8 / 8
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:数据挖掘功能.doc
    链接地址:https://www.zixin.com.cn/doc/9804334.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork