7空间数据挖掘与可视化(完).ppt
《7空间数据挖掘与可视化(完).ppt》由会员分享,可在线阅读,更多相关《7空间数据挖掘与可视化(完).ppt(75页珍藏版)》请在咨信网上搜索。
1、空间数据挖掘与可视化空间数据挖掘与可视化信息工程大学地理空间信息学院信息工程大学地理空间信息学院李宏伟李宏伟2空间数据挖掘研究空间数据挖掘研究1背景背景3实例实例:空间关联规则挖掘空间关联规则挖掘5空间知识可视化空间知识可视化6几点思考几点思考4数据挖掘软件数据挖掘软件1背景背景By 李德仁李德仁数据(数据(DataData)信息(信息(InformationInformation)知识(知识(KnowledgeKnowledge)智能(智能(WisdomWisdom)DIKW大数据大数据海量数据海量数据数量数量价值价值多样性多样性速度速度数量数量2.1 2.1 空间分类挖掘空间分类挖掘 分类
2、和预测是两种数据分析形式,用于提取描述重要数据分类和预测是两种数据分析形式,用于提取描述重要数据类的数据类型或预测未来的趋势类的数据类型或预测未来的趋势。空间分类挖掘解决大量数据空间分类挖掘解决大量数据分类问题。分类问题。2空间数据挖掘研究空间数据挖掘研究空间空间分类分类挖掘挖掘方法方法决策树方法:经典算法决策树方法:经典算法-Quinlan-Quinlan的的ID3ID3方法方法贝叶斯分类方法:朴素贝叶斯方法和贝叶贝叶斯分类方法:朴素贝叶斯方法和贝叶 斯网络方法斯网络方法神经网络方法:前向型、反馈型、随机型、神经网络方法:前向型、反馈型、随机型、自组织型自组织型支持向量机方法:基于统计学习理
3、论,适于支持向量机方法:基于统计学习理论,适于 数据预处理、样本化应用数据预处理、样本化应用空间分类挖空间分类挖掘方法(续)掘方法(续)K-K-最邻近分类法最邻近分类法基于案例的推理分类法基于案例的推理分类法遗传算法和进化计算遗传算法和进化计算粗糙集分类法粗糙集分类法2.2 2.2 空间聚类挖掘空间聚类挖掘统计学方法统计学方法机器学习方法机器学习方法数据库方法数据库方法模式识别方法模式识别方法基于模型的方法基于模型的方法基于密度的方法基于密度的方法基于划分的方法基于划分的方法基于层次的方法基于层次的方法基于网格的方法基于网格的方法混合方法混合方法方方法法分分类类具具体体方方法法 聚类与分类不同
4、,待划分的类是未知的。聚类将数据对象聚类与分类不同,待划分的类是未知的。聚类将数据对象分组为多个类或簇,使同一个簇中的对象之间相似度最高,不分组为多个类或簇,使同一个簇中的对象之间相似度最高,不同簇中的对象相似度最低。同簇中的对象相似度最低。2.3 2.3 空间关联规则挖掘聚类挖掘空间关联规则挖掘聚类挖掘基基本本研研究究内内容容确定性关联规则挖掘确定性关联规则挖掘量化关联规则挖掘量化关联规则挖掘增量式关联规则挖掘增量式关联规则挖掘模糊关联规则挖掘模糊关联规则挖掘广义关联规则挖掘广义关联规则挖掘经典算法:经典算法:AprioriApriori算法算法A Ap pr ri io or ri i算算
5、法法改改进进利用利用hashhash表的表的DHPDHP方法方法基于采样的方法基于采样的方法并行关联规则挖掘的方法并行关联规则挖掘的方法分布式关联规则挖掘的方法分布式关联规则挖掘的方法多层次关联规则挖掘的方法多层次关联规则挖掘的方法数值扩展的关联规则挖掘的方法数值扩展的关联规则挖掘的方法形象规则的发现方法形象规则的发现方法关联规则快速学习方法关联规则快速学习方法基于兴趣度进行数值型关联规则合并的基于兴趣度进行数值型关联规则合并的方法方法采样采样trietrie树进行关联规则挖掘树进行关联规则挖掘利用概念格的关联规则挖掘的方法利用概念格的关联规则挖掘的方法2.4Internet和和Web空间数据
6、挖掘空间数据挖掘W We eb b挖挖掘掘内容挖掘内容挖掘结构挖掘结构挖掘用法挖掘用法挖掘基于机基于机器学习器学习技术的技术的文本搜文本搜索引擎索引擎基于协同的方法基于协同的方法基于内容的方法基于内容的方法2.5空间数据挖掘智能方法空间数据挖掘智能方法 神经计算、进化计算、免疫克隆计算、模糊计算神经计算、进化计算、免疫克隆计算、模糊计算与模糊推理与模糊推理3 3 实例:空间实例:空间关联规则关联规则挖掘挖掘发展阶段发展阶段萌芽阶段萌芽阶段萌芽阶段萌芽阶段199320002006201119931993年,年,AgrawalAgrawal等等人人提出频繁提出频繁项集挖项集挖掘的掘的Apriori
7、Apriori算法算法。19951995年,年,Koperski Koperski and Han and Han 引入引入空间空间谓词构造空间谓词构造空间事务事务 表表,给出空间,给出空间关联关联规则的定义及挖掘规则的定义及挖掘过程。过程。20002000年,年,Clementini Clementini 等考虑等考虑空间不确定空间不确定性性并对多层次空间并对多层次空间关联进行挖掘关联进行挖掘 2001 2001年,年,Shekhar Shekhar 等给出空间同位模等给出空间同位模式的式的一般挖掘算法一般挖掘算法2004-20052004-2005年,年,YooYoo等通过等通过减少连接计
8、减少连接计算算以提升同位模式以提升同位模式挖掘的效率挖掘的效率20062006年年,陈江平陈江平等提出了一种面向等提出了一种面向主题的主题的基于多层次基于多层次空间概念空间概念的关联规的关联规则挖掘算法则挖掘算法 2008 2008年,张雪伍、年,张雪伍、苏奋振等提出苏奋振等提出面向面向时空过程的时空过程的关联规关联规则挖掘算法则挖掘算法20092009年,沙宗尧年,沙宗尧等人提出等人提出局部的空局部的空间关联模式挖掘间关联模式挖掘20112011年,年,Mohan Mohan 等等基于事件时序关系基于事件时序关系提出级联模式的概提出级联模式的概念及挖掘算法念及挖掘算法20142014年,邓敏
9、、石年,邓敏、石岩等岩等基于聚类分割基于聚类分割方法方法研究了太平洋研究了太平洋气候指数与我国极气候指数与我国极端降水事件的遥相端降水事件的遥相关模式关模式3.1 3.1 空间关联规则挖掘研究的发展空间关联规则挖掘研究的发展3.2 3.2 空间空间关联规则分类关联规则分类不同地理实体间空间依存、相互作用、因果或共生的模式邻近地理空间内频繁出现的布尔型要素(或事件)子集地理事件间远距离的相互关联模式空间关联空间关联规则规则基于空间谓基于空间谓词规则的关词规则的关联模式联模式空间同位模空间同位模式式遥相关遥相关模式模式城城市市分分布布交交通通发发展展降降水水 海海温温3.3 3.3 当前研究当前研
10、究重点重点l着眼于研究挖掘算法本身着眼于研究挖掘算法本身l着眼于研究空间关联规则的不确定性信息着眼于研究空间关联规则的不确定性信息l着眼于研究关联挖掘的可视化着眼于研究关联挖掘的可视化l着眼于研究弱空间关联规则着眼于研究弱空间关联规则3.4 3.4 空间空间关联规则挖掘方法关联规则挖掘方法将各个空间或非空间属性作为一个图层,对每个图层上的数据点进将各个空间或非空间属性作为一个图层,对每个图层上的数据点进行聚类,然后对聚类产生的空间紧凑区进行关联规则挖掘行聚类,然后对聚类产生的空间紧凑区进行关联规则挖掘。利用空间叠加、缓冲区分析等方法发现利用空间叠加、缓冲区分析等方法发现挖掘挖掘目标目标之间的空
11、间谓词之间的空间谓词,将将其其组成空间事务数据库,进行单层布尔型关联规则挖掘。组成空间事务数据库,进行单层布尔型关联规则挖掘。通过用户指定的邻域,遍历所有可能的邻域窗口,进而通过邻通过用户指定的邻域,遍历所有可能的邻域窗口,进而通过邻域窗口代替空间事务,然后进行空间关联规则的挖掘。域窗口代替空间事务,然后进行空间关联规则的挖掘。基于聚类的图层覆盖法基于聚类的图层覆盖法基于空间事务的挖掘方法基于空间事务的挖掘方法无空间事务挖掘法无空间事务挖掘法3.5 3.5 空间空间关联规则挖掘过程关联规则挖掘过程以基于事务的空间关联规则挖掘过程为例以基于事务的空间关联规则挖掘过程为例web3.6 3.6 空间
12、空间关联规则挖掘算法关联规则挖掘算法l挖掘算法:挖掘算法:AprioriAprioriFP-GrowthFP-GrowthEclatEclat3.7 3.7 存在存在问题问题空间数据的特性空间数据的特性在当今“数据爆炸”的大环境下,开发出效率高,负载数据量大的新算法是趋势所在。大多数空间关联规则挖掘工具都是基于事先定义好的参数进行黑箱式挖掘,挖掘过程中的交互性较差。频繁项的过滤环节,没有充分地运用空间数据的独特性质,即没有将“地理学思想应和空间数据有效结合”。海量数据的挖掘算法效率海量数据的挖掘算法效率可视化挖掘可视化挖掘4 4、数据挖掘软件、数据挖掘软件代代特征特征数据挖掘算法数据挖掘算法集
13、成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的部区域的计算机群计算机群集集有些系统支持有些系统支持对象对象,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数
14、据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第四代代和移动数据和移动数据/各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 4.1 第一代数据挖掘软件l特点支持一个或少数几个数据挖掘算法挖掘向量数据(vector-valued data)数据一般一次性调进内存进行处理典型的系统如Salford Systems公司早期的CART系统(www.salford-)
15、l缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。l l举例举例举例举例:CBA:CBA:CBA:CBA 新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测4.2 4.2 第二第二代数据挖掘软件代数据挖掘软件l l特点特点特点特点与数据库管理系统(与数据库管理系统(与数据库管理系统(与数据库管理系统(DBMSDBMSDBMSDBMS)集成)集成)集成)集成 支持数据库和数据仓库,和它们具有高性能的接口,支持数据库和数据仓库,和它们具有高性能的接口,支持数据库和数据仓库,和它们具有
16、高性能的接口,支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性具有高的可扩展性具有高的可扩展性具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(通过支持数据挖掘模式(通过支持数据挖掘模式(通过支持数据挖掘模式(data mining schemadata mining schemadata mining schemadata mining schema)和)和)和)和数据挖掘查询语言增加系统的灵活性数据挖掘查询语言增加系统的灵活性数据挖掘查询语言
17、增加系统的灵活性数据挖掘查询语言增加系统的灵活性 典型的系统如典型的系统如典型的系统如典型的系统如DBMinerDBMinerDBMinerDBMiner,能通过,能通过,能通过,能通过DMQLDMQLDMQLDMQL挖掘语言进行挖挖掘语言进行挖挖掘语言进行挖挖掘语言进行挖掘操作掘操作掘操作掘操作l l缺陷缺陷缺陷缺陷只注重模型的生成,如何和预言模型系统集成导致只注重模型的生成,如何和预言模型系统集成导致只注重模型的生成,如何和预言模型系统集成导致只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发了第三代数据挖掘系统的开发了第三代数据挖掘系统的开发了第三代数据挖掘系统的开发
18、举例举例1 1:DBMinerDBMiner举例举例2 2:SAS Enterprise MinerSAS Enterprise Miner4.3 4.3 第三代数据挖掘软件第三代数据挖掘软件l l特点特点特点特点和预言模型系统之间能够无缝的集成,使得由数据和预言模型系统之间能够无缝的集成,使得由数据和预言模型系统之间能够无缝的集成,使得由数据和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模挖掘软件产生的模型的变化能够及时反映到预言模挖掘软件产生的模型的变化能够及时反映到预言模挖掘软件产生的模型的变化能够及时反映到预言模型系统中型系统中型系统中型系统中
19、由数据挖掘软件产生的预言模型能够自动地被操作由数据挖掘软件产生的预言模型能够自动地被操作由数据挖掘软件产生的预言模型能够自动地被操作由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联型系统吸收,从而与操作型系统中的预言模型相联型系统吸收,从而与操作型系统中的预言模型相联型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能合提供决策支持的功能合提供决策支持的功能合提供决策支持的功能 能够挖掘网络环境下(能够挖掘网络环境下(能够挖掘网络环境下(能够挖掘网络环境下(Internet/ExtranetInternet/ExtranetInternet/
20、ExtranetInternet/Extranet)的分布)的分布)的分布)的分布式和高度异质的数据,并且能够有效地和操作型系式和高度异质的数据,并且能够有效地和操作型系式和高度异质的数据,并且能够有效地和操作型系式和高度异质的数据,并且能够有效地和操作型系统集成统集成统集成统集成 l l缺陷缺陷缺陷缺陷不能支持移动环境不能支持移动环境不能支持移动环境不能支持移动环境举例:举例:SPSS SPSS ClementineClementinel l以以以以PMMLPMML的格式的格式的格式的格式提供与提供与提供与提供与预言模预言模预言模预言模型系统型系统型系统型系统的接口的接口的接口的接口4.44
21、.4第四第四代数据挖掘软件代数据挖掘软件l特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)
22、的第四代数据挖掘系统。l第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷l第三、四代系统强调预测模型的使用和操作型环境的部署l第二代系统提供数据管理系统和数据挖掘系统之间的有效接口l第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口l目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导5.1 5.1 可视化分类可视化分类5 5 空间知识可视化
23、空间知识可视化数据可视化信息可视化知识可视化 数据可视化数据可视化:运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论和方法。散点矩阵法投影矩阵法平行坐标法层次显示技术动态显示技术图标表示技术直方图法 信息可视化信息可视化:利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知。信息可视化将非空间数据的信息对象的特征值抽取、转换、映射、高度抽象与整合,用图形、图像、动画等方式表示信息对象内容特征和语义的过程。信息对象包括文本、图像、视频和语音等类型。一维信息可视化二维信息可视化三维信息可视化多维信息可视化层次信息可视化文档信息可
24、视化网络信息可视化 知识可视化知识可视化:是数据可视化和信息可视化基础上,将人类的知识,包括见解、经验、态度、价值观、意见、预测等加以表达,并帮助他人正确地重构、记忆和应用这些知识的过程。三种可视化方式的比较三种可视化方式的比较方法方法类型类型数据可视化数据可视化信息可视化信息可视化知识可视化知识可视化可视化对象空间数值型数据非空间非数值型数据人类知识可视化目的将抽象数据以直观的方式表示出来从大量抽象数据中发现一些新信息促进群体知识传播和创新可视化技术很多方法,如散点图、平行坐标图非常多,如轮廓图、锥形树等知识图表、视觉隐喻交互类型人机交互人机交互人机交互5.2 5.2 知识分类知识分类按世界
25、经合组织分类按地理实体时空特性分类分类描述表达方式知道是什么:叙述地理事实空间结构知识描述地理事实,解译地理知识。表示普遍几何知识、空间分布、空间分类规则、空间聚类规则、空间关联规则点、线、面知识要素知道为什么:知道事物现象的原理和规律知道怎么做:地理空间事物技能类知识逻辑结构知识反映地理概念、面向对象的知识、空间区分规则、语义关联规则示意性拓扑图知道是何物:因果演化,推理地学规律时空演变知识反映空间演变规律、语义演变规律等趋势虚拟技术结合地图动画重点讲空间知识可视化重点讲空间知识可视化5.3 5.3 挖掘可发现知识类型挖掘可发现知识类型普遍的几何知识和面向对象的知识普遍的几何知识和面向对象的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据 挖掘 可视化
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。