基于关系数据模型的多维数据建模方法的研究.pdf
《基于关系数据模型的多维数据建模方法的研究.pdf》由会员分享,可在线阅读,更多相关《基于关系数据模型的多维数据建模方法的研究.pdf(65页珍藏版)》请在咨信网上搜索。
1、国防科学技术大学研究生院学位论文摘要(数据模型是数据仓库的核心问题之一。很多研究表明,传统的数据模型(如 关素数据模型)难以有效地表示数据仓库应用中的数据结构和语义,也难以支 持OLAP的应用。由于OLAP具有多维特征,因此多维数据建模技术引起了人 们的普遍关注和广泛兴趣。随着商业竞争的日益激烈,原有的管理信息系统已经不能满足企业领导决 策的需求,他们迫切需要一个高效的数据仓库系统来辅助决策。怎样在原有的 管理信息系统的基础上构建数据仓库,怎茂在关系数据模型的基础上构建多维 数据模型的研究越来越显得重要和迫切X本逛于这样一个现实背景,对多维数据建模的概念、目的、基本方法、关键技术、国内外研究现
2、状进行多深入地归纳总结;对基于关系数据模型的多 维数据建模方法进行了系统总结,并用形式化方法对其主要操作进行了分类描 述。针对证券行业这样一个特定背景,在详细分析基于ME/R的多维数据概念建 模方法的基础上,运用它对股票交易主题进行了概念建模,同时也把ME/R模型 与常用的多维数据模型进行了对比;根据课题背景,对基于关系数据模型的多 维数据建模方法进行了详细地阐述。在具体的建模过程中,对时间维作了一定 的修正,提出了一种基于竞争机制的时间维模型,为基于时间的分析提供了更 加充分的信息;同时本文也对常用的多维数据模型的结构作了改进,采用了一 种称作为星族模式的结构,这种结构结合了星型模式和雪片模
3、式的优点,同时 又对各自的缺点进行了修正,并在实际中得到了很好的应用。关键词:数据仓库数据集市关系数据模型ME/R模型多维数据模型多维数据 建模m国防科学技术大学研究生院学位论文AbstractData model is one of the key problems of data warehouse.And many learns proved that traditional Relation Data Models couldnt effectively describe the structure and semantic of data warehouse applications
4、,and couldnt meet the requirement of OLAPs applications also.Because the OLAP is multidimensional,the multidimensional data modeling techniques attract humans general attentions and wide interests.With the business competition becomes more and more hotly,the MISs couldnt completely meet the leaders
5、requirements.They needed urgently a Data Warehouse System to help their decision-making.And how to build a Data Warehouse System based on MISs,how to build a Multidimensional Data Model based on Relation data Model attract humans general attentions.On these situations,this paper concluded the concep
6、t,motive,basic techniques,key problems and the present situation of researching of Multidimensional Data Modeling seriously.Based on the stock exchange,This paper described the approach of Conceptual Multidimensional Data Modeling Based on Multidimensional E/R Model in detail,and used it to model th
7、e stock exchange subject,then compared it with the existing Multidimensional Data Models.Based the applications,This paper described systemically the Multidimensional Data Modeling techniques,and stated classifiedly the main operations used in this technique with formalization means.This paper state
8、d vividly the approach of building the Multidimensional Data Model based on the Relation data Model.In the process of building the Multidimensional Data Model,We made some mends on the time dimension,adapted the time model based on competition,and this model provided enough information for the later
9、 analysis based on time.And contempary,this paper used a new schema called Star Cluster Schema as the basic structure of the Multidimensional Data Model.The Cluster Schema is the joint of Star Schema and Snowflake Schema,it inherits their merits,and mends their disadvantages.This schema made good us
10、e in the application of stock exchange.Key Words;data warehouse,data mart,re I at i on data mode I,ME/R mode I,multidimensional data model,mu 11 i d i mens i onaI data modeling国防科学技术大学研究生院学位论文第一章绪论1.1 引言数据仓库和OLAP是20世纪90年代初提出的概念,到90年代中期已经形 成潮流。在美国,数据仓库已经成为仅次于Intemet之后的又一技术热点。数据 仓库是市场激烈竞争的产物,它的目标是达到有效
11、的决策支持。数据仓库将大量用于事物处理的传统数据库数据进行清理、抽取和转换,并 按决策主题的需要进行重新组织数据仓库的数据可分为近期基本数据、历史 数据和综合数据(其中综合数据是为决策服务的)。数据仓库中的数据一般采用 星型结构存储在关系数据库中。星型结构由事实表和维表组成,多个维表之间形 成多维数据结构。星型结构的数据体现了空间的多维立方体。这种高度集中的 数据为各种不同决策需求提供了有用的分析基础。随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和 管理面向决策主题的数据;而OLAP则侧重于数据仓库中的数据分析,并将其转 换成辅助决策信息。OLAP的一个重要特点是多维数据
12、分析,这与数据仓库的多 维数据组织正好形成相互结合、相互补充的关系。OLAP技术中比较典型的应用 是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关 数据。OLAP的一个重要基础就是多维数据模型的建立。很多研究表明网,随着数 据的积累,达到一定规模以后(如Brabyte级),目前常用的几种数据建模方法(如ER方法等)已经不能满足数据日益增长的要求,很难为决策支持服务,而 且,目前普遍认为上述传统模型主要运用在面向事务的分析处理(OLTP)工作 之中。由于需要管理的数据量极为庞大,并为决策支持服务,因此需要有新的数 据建模方法来完成海量数据的建模和组织。Codd提出的OLAP
13、标准指出,OLAP具有多维特征。因此,多维数据模 型引起了人们的注意,相应地,多维数据建模(MDM)技术也越来越受到人们 的关注。在MDM中,一个表和关系的模型是根据关系数据库中优化决策性能的 目的来建立的,与正在被建模的商业过程结果的一种度量或度量集相对应。相反,传统的E-R建模是根据以下目的来建立的:(a)消除数据模型中的冗余,(b)容 易恢复某些含有特定标识的单个记录,以及(c)优化在线事务处理(OLTP)性 能。随着管理信息系统的广泛应用,各大企业都建立了自己的企业管理信息系 统。由于关系数据库有着雄厚的理论基础,经过多年的发展,在技术上也很完善,故现在使用的管理信息系统绝大部分都是建
14、立在关系数据库的基础上。随着商业 竞争的日益激烈,怎样充分利用各个企业积累下来的数据,怎样在原有的管理信 息系统的基础上构建数据仓库,怎样在关系数据模型的基础上构建多维数据模型 逐渐引起了人们的广泛关注。在关系数据模型的基础上构建多维数据模型的研 究有着广泛的现实意义:1)可以节省数据仓库系统开发的周期因为事物数据绝大部分来自关系型数据库,它们己经建立在关系数据模型的第1页国防科学技术大学研究生院学位论文第一章绪论1.1 引言数据仓库和OLAP是20世纪90年代初提出的概念,到90年代中期已经形 成潮流。在美国,数据仓库已经成为仅次于Internet之后的又一技术热点。数据 仓库是市场激烈竞争
15、的产物,它的目标是达到有效的决策支持。数据仓库将大量用于事物处理的传统数据库数据进行清理、抽取和转换,并 按决策主题的需要进行重新组织加。数据仓库的数据可分为近期基本数据、历史 数据和综合数据(其中综合数据是为决策服务的)。数据仓库中的数据一般采用 星型结构存储在关系数据库中。星型结构由事实表和维表组成,多个维表之间形 成多维数据结构。星型结构的数据体现了空间的多维立方体。这种高度集中的 数据为各种不同决策需求提供了有用的分析基础。随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和 管理面向决策主题的数据;而OLAP则侧重于数据仓库中的数据分析,并将其转 换成辅助决策信息。O
16、LAP的一个重要特点是多维数据分析,这与数据仓库的多 维数据组织正好形成相互结合、相互补充的关系。OLAP技术中比较典型的应用 是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关 数据。OLAP的一个重要基础就是多维数据模型的建立。很多研究表明,随着数 据的积累,达到一定规模以后(如Terabyte级),目前常用的几种数据建模方法(如ER方法等)已经不能满足数据日益增长的要求,很难为决策支持服务,而 且,目前普遍认为上述传统模型主要运用在面向事务的分析处理(OLTP)工作 之中。由于需要管理的数据量极为庞大,并为决策支持服务,因此需要有新的数 据建模方法来完成海量数据的建模
17、和组织。Codd提出的OLAP标准指出,OLAP具有多维特征叫 因此,多维数据模 型引起了人们的注意,相应地,多维数据建模(MDM)技术也越来越受到人们 的关注。在MDM中,一个表和关系的模型是根据关系数据库中优化决策性能的 目的来建立的,与正在被建模的商业过程结果的一种度量或度量集相对应。相反,传统的ER建模是根据以下目的来建立的:(a)消除数据模型中的冗余,(b)容 易恢复某些含有特定标识的单个记录,以及(c)优化在线事务处理(OLTP)性 能。随着管理信息系统的广泛应用,各大企业都建立了自己的企业管理信息系 统。由于关系数据库有着雄厚的理论基础,经过多年的发展,在技术上也很完善,故现在使
18、用的管理信息系统绝大部分都是建立在关系数据库的基础上。随着商业 竞争的日益激烈,怎样充分利用各个企业积累下来的数据,怎样在原有的管理信 息系统的基础上构建数据仓库,怎样在关系数据模型的基础上构建多维数据模型 逐渐引起了人们的广泛关注。在关系数据模型的基础上构建多维数据模型的研 究有着广泛的现实意义:1)可以节省数据仓库系统开发的周期因为事物数据绝大部分来自关系型数据库,它们已经建立在关系数据模型的 国防科学技术大学研究生院学位论文基础上,如果能在这个基础上定义一套转换规则,可以非常方便地把关系数据模 型转换为相应的多维数据模型,这样就大大节省了数据仓库中建模阶段的时间,从而也就缩短了数据仓库系
19、统的开发周期。2)可以节省数据仓库系统的开发费用构建一个数据仓库系统的费用非常高,如果能在已有的企业管理信息系统的 基础上构建数据仓库系统,使得以前的投资得到有效的利用。同时,在新建的数 据仓库系统中,也减少了数据清洗、装载的工作量,也就减少了相应的费用,这 样构建数据仓库系统比完全从零开始构建一个数据仓库系统所花的代价要小得 多。3)加速了数据仓库系统的普及基于上面两点,数据仓库的开发周期减少了,费用降低了,自然其应用就会 得到相应的普及,同时也促进了社会的经济发展。本文以“CRM-BI数据开采工具软件包”协作项目为背景,针对证券行业的 股票交易分析主题,对多维数据建模技术进行了广泛的研究。
20、研究的主要内容有 多维数据概念建模技术,基于关系数据模型的多维数据建模方法,并根据具体的 项目背景对这种方法进行了详细说明,在实际应用中,对常用的多维数据模型作 了一些改进,这在项目中得到了很好的应用。1.2 多维数据建模的研究现状目前,多维数据建模的理论、方法和工具方面的研究已经取得了一定的进展。但是尚未得到广泛的认可。1.2.1数据的存储从数据的存储角度来看,目前,解决多维数据存储的方法一般有两种:1.关系型它采用已经成熟的关系数据库作为海量数据的存储方式,在建模时,将多 维数据模型转换成为关系模式进行物理存储。这种方式目前使用得最多,各个数 据库厂商(如Oracle、Sybase、IBM
21、、Microsoft等)在其数据库产品的基础上 针对其技术特点将其产品进行扩充以满足存储多维数据的要求。为了改善性能,一些公司还针对多维数据关系存储的特点开发了特定的技术来提高信息检索的 速度,其中以Sybase公司的Bitwise技术最为突出。这种方式支持关系型的 联机分析处理(ROLAP)o2.多维型多维型就是采用多维数据库(Multi-Dimension Database)的方式对海量数 据进行组织和管理。多维数据库是完全按照多维数据自身特点形成的数据库系 统。多维数据库已经有了 20多年的研究历史,只是当数据仓库和联机分析处理 成为决策支持新方法时,多维数据库才得到蓬勃发展。在多维数据
22、库中,数据以 n维立方体方式存储(n-Dimension Cube),这种组织方式会导致“存储空洞”,即稀疏矩阵。这种方式的好处在于可以将时间作为多维数据库中的一维,同时在 第2页国防科学技术大学研究生院学位论文速度优化和查询方面更加容易实现,较采用关系数据库方式简洁。这种方式支持 多维型的联机分析处理(MOLAP)。另外,在一些文献中提到采用虚拟数据仓库的方式存储数据刖。它不存在数 据的“集中”存储,而是构造“视图”方式将分布在不同物理位置的数据库形成 逻辑数据仓库。1.2.2多维数据模型从理论角度来看,目前在学术界已经提出了一些多维数据模型,这些数据模 型可以分为以下几类:1.简单立方体模
23、型简单立方体模型把数据集合视为多维空间中的点集,把数据集合的属性分为 维和度量(或事实)属性两类,维属性用来描述度量属性,是多维空间的维度,度量属性用来进行分析处理,是多维空间中的点。简单多维数据模型具有一个致 命的弱点,即没有维层次结构的概念和语义,不能表示维层次结构。简单立方体 模型包括星型模式。2.结构化立方体模型电电结构化立方体模型考虑了如何表示多维数据集合的维层次结构问题,为用户 导航立方体提供了更好的指导。这些信息在查询优化时也很有用。一般通过以下 途径获取层次关系:分组关系、维合并功能、度量图、上钻功能、格或把明确的 层次树结构作为立方体的一部分。在相关研究中,Agrawal R
24、.和Li C提出的多 维数据模型只是部分地间接支持维层次结构的表示,而不能直接地表示多维数据 集合的完整维层次结构。Li C提出的数据模型通过组合多个维关系的方法表示 维层次结构,Agrawal R.提出的数据模型通过维合并功能来表示维层次结构。Lehner W.提出的数据模型能够明确地支持维层次结构的表示。但是它只允许每 个维具有单层次路径(即我们的数据模型中定义的层次链)。Pedersen TB.提出 的数据模型能够支持维层次结构,而且能够表示一个维的多个层次路径,但是该 数据模型要求维层次结构必须是一个代数格。这些方法提出的多维数据模型只是 部分地间接支持维层次结构的表示,而不能直接地表
25、示多维数据集合的完整维层 次结构。3.统计对象模型皿Rafanelli M.提出的统计对象模型支持结构化的分类层次,但是每个结构化 的分类层次必须与一个特定的聚集函数相关,而且每个结构化的分类层次只能定 义在一个度量属性上,用来回答特定的统计分析查询。显然,统计对象模型具有 很大的局限性,缺少灵活性。但是这种模型使用聚类语义提供一些保护,避免得 到一些对用户无意义的或不正确的结果。从工具角度来看,目前大型数据库厂商在其数据仓库产品中或多或少增加了 一些相关工具(如 Oracle、Sybase、IBM、Microsoft、Platinum 等)。这些工具 主要集中在实体化视图设计、数据存储和维护
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 关系 数据模型 多维 数据 建模 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。