基于维度方法的数据仓库建模与实现.pdf
《基于维度方法的数据仓库建模与实现.pdf》由会员分享,可在线阅读,更多相关《基于维度方法的数据仓库建模与实现.pdf(74页珍藏版)》请在咨信网上搜索。
1、巾山大学硕士学位论文摘要模型是对现实的抽象和反映,它强调事物的本质特性,扬弃事物的次要因素,既反映了事物的原型,又不完全等于原型,它可以帮助人们更加清晰地了解客观 世界。数据仓库建模在业务需求分析之后开始,是数据仓库正式开始的第一步,正确而完备的数据模型是用户业务需求的体现,是数据仓库项目成功与否最重要 的技术因素。数据仓库技术发展到现在,形成了众多的数据仓库建模技术,其中 的维度建模方法越来越被广泛接受。本文首先对数据仓库和维度建模方法进行概要介绍,论述常见的ERM建模 方法与维度建模方法的关系,然后通过对一个实际的项目一广东移动经营分 析系统进行维度建模并在DB2数据库中实现,来证实维度建
2、模方法的可行性和 有效性。关键字:数据仓库维度建模ERM建模中山大学硕士学位论文Modeling and realizing of data warehouse based on dimension methodComputer software engineering ABSTRACTThe model is to the abstract and reflection of reality,it can help people to understand the objective world more clearly.The warehouse modeling of the data
3、begins after the business demand is analysed,It is the first step begun formally in data warehouse,The conect and complete data model is the embodiment of the customer service demand,The most important technological factor that it is the warehouse project of the data to succeed or not.The warehouse
4、technology of the data is developed till now,Have formed numerous data warehouse modeling technology,Dimensional modeling method among them is being accepted extensively.This article introduces data warehouse and dimensional modeling briefly in the first place,Describe relations of common ERM modeli
5、ng method and dimensional modeling method.Then,Dimensional modeling in Actual project Guangdong Mobile Communication Company analyticl system of managing and realizing in DB2 database that Verify the feasibility and validity of dimensional modeling method.Keywords:data warehouse dimensional modeling
6、 ERM modeling中山大学硕士学位论文第1章:综述1.1问题的背景计算机信息技术的迅速发展和广泛应用,使得企业管理进入一个崭新的时 期,多年来,企业建立了各种在线事务系统,对R常业务处理提供了有效的支 持。这些在线事务系统具有如下特点:1)各个信息系统都各自比较完整地管理着客户某一部分的信息,众多的 客户数据、市场营销数据、帐务数据以不同的数据格式和访问方式分 散在不同的系统中,形成众多的信息孤岛,而且在各个信息孤岛中存 在着冗余和不一致。2)这些系统都是联机事务处理系统,实时处理在线事务,不能适应数据 挖掘应用大规模、频繁的检索和查询操作。3)各系统大都是集中式系统,几年来数据急剧增
7、加,在这些剧增的数据 背后隐藏着许多重要的信息,企业希望能够对其进行更高层次的分析,以便更好地利用这些数据,解决“数据庞大,信息缺乏”的问题。然而,面对当今竞争日趋激烈与瞬息万变的市场,各级管理人员迫切希望 能够根据企业的现状和历史数据做出判断和决策。数据仓库就是针对上面的问题而产生的技术解决方案,它是基于大规模数 据库的决策支持系统的核心。正因为数据仓库以数据库为基础,许多人就错误 地认为“数据仓库只是数据库在企业某个地方的拷贝,聚集在一起就行了”,当然,他们采用的方法也会是传统数据库的建模方法,这样建造出来的数据仓 库复杂而且效率低下,很快就会被放弃不用,所以,在国内,数据仓库建了不 少,
8、真iE好好用起来的并不多,其中一个重要的技术原因就是模型建得不合理。一般来说,数据仓库项目都是大型项目,投入非常地惊人,项目失败会导致大 量企业资金甚至国家财富流失。综上所述,本文在理解数据仓库特点的基础上,阐述一种改良的建模方法 维度建模法,并将它应用到实际项目广东移动经营分析系统这一 大型数据仓库项目中。中山大学硕士学位论文1.2 研究现状现在称之为“数据仓库”的这一技术,发源于80年代初W.HJnmon的研 究,即在其“记录系统”、“本原数据(Atom沁Data)、“决策支持数据库”等专 题中。Devlin和Murphy在1988年曾披露过IBM的一项内部研究计划,这个 计划的目的是构造
9、一种“以关系数据库为基础的、公司数据的集成化仓储问 这种仓储的使用者不是信息技术的专业人员,而是各级决策者,他们将使用“一 组相容的工具”从仓库中提取有助于决策的信息,这组工具应当得到“业务数 据字典”的有效支持,这个“业务数据字典”描述了决策者的可用信息。在九 十年代,欧美已经有一些公司成功实施了数据仓库,例如零售商沃尔玛,也建 立了比较完善的数据仓库技术和方法理论体系。国内的数据仓库应用在九十年 代后期兴起,本世纪初达到一个小高峰,但真正成功实施的很少,原因在于没 有很好理解数据仓库的特点,还是采用传统的开发方法和建模方法。伴随着数据仓库的发展,出现过多种建模方法,如:ERM建模、暂时数据
10、 建模、面向模式数据建模、数据体系结构建模等,但应用结果均不如人意,它们不能很好地适应数据仓库和现代操作系统的特点,束缚于传统的建模思维。用这些方法建立起来的数据仓库复杂且难以扩展,这很难适应数据仓库的分析 需求不时地变动的特点。近来,在传统的建模方法基础上出现一种改良的建模 技术一维度建模法,虽然还不尽完善,但已经慢慢被接受。它追求简单、实 用及易扩展性,也正是它的这些特性,使数据仓库的性能有了很好的改善131.3 技术思路现代操作系统和关系数据库系统都应用内存缓冲区技术来改善系统的性 能,这是因为内存的读取速度相对于外存快,但内存的价格非常昂贵,所以一 般计算机的内存缓冲区的容量都不会太大
11、。数据仓库由于累积了长时间的数据,尺寸比传统操作型数据库大得多,而且往往有那么几个特大的事实表。这样,在运行某些查询应用的时候,当内存缓冲区比中间结果集或结果集小得多时,会被数据库系统或者操作系统频繁交换出外存或者读入内存,从而导致性能急 剧下降。数据仓库中的主要应用是分析查询,这种应用的特点是CPU不会是应 中山大学硕士学位论文用性能的主要瓶颈,内存和外存才是关键资源。这样,在资源有限的前提下,解决问题的办法是怎样使得源表、中间结果集或者结果集减小,从而减少外存 的I/O:在外存独立设备较多的情况下,还可以将1/0尽量分布到各个独立设备 上,使I/O并行操作。针对事实表过大,可以采取水平分割
12、、垂直分割及使用 代理关键字等技术来解决;对于维表过大,一般是将维表的常被引用的属性放 在一起,其他的放在一起,分拆为两个或多个子维表;太多小维表或小参考表 也会影响系统的性能,因为操作系统或数据库系统是按块来分配的阿,一个块 上往往可以存放很多条记录,若这些单独的小表分布在不同的块上的话,可能 导致1/0明显增加,处理办法是将这些小表集中到一个表中,它本身也不大,会占用很少的块,从而I/O减少。企业级数据仓库集成信息来自企业各个业务操作处理子系统的信息,很多 时候某些子业务系统本身就是具有复杂关系的系统,可以想象,若按传统的ER 关系建模的话,整个模型会是多么的复杂,这种复杂会让开发者头疼,
13、也会让 使用者却步。数据仓库的稳定性使得没有必要保证数据一定不冗余,可以让模 型不按第3范式建模,根据需要允许部分数据冗余,如:将一些复杂关系如雪 花模型降解为星型模型等。适度的冗余会让人很容易理解模型,处理简单了,性能也有一定的提高。但也要很好地掌握冗余的度,否则会导致很多重复工作,也会误导开发者和使用者,让他们无所适从。1.4 担当的角色和应用结果广东移动经营分析系统是一个庞大的数据仓库项目,分3期、5年规 划,项目组共有26个成员,分为需求分析组、模型组、ETL组、前端展示组及 系统集成组,本人主要负责系统集成组的工作,同时也是模型组的主要参与者。参考移动总公司的逻辑模型,根据广东移动的
14、实际需求,同时兼顾现有的各个 数据源系统,按照维度建模要求的步骤建模。目前,这个项目的一期已经投入使用,效果比预想的要好,在不到一个月 的时间内就装载完近1年的历史数据,最复杂的任务运行时间也不过十二分钟。中山大学硕土学位论文第2章:维度建模概要2.1 数据仓库概述传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和 分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的 日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服 务的,注重响应时间,数据的安全性和完整性:分析型处理则用
15、于管理人员的 决策分析,经常要访问大量的历史数据。而传统数据库系统优于企业的日常事 务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化 的要求。操作型处理和分析型处理的分离成为必然。相对于传统数据库应用来说,数据仓库是一个面向主题的、集成的、不可 更新的(稳定的)、随时间变化的用来支持管理人员决策的数据集合,它形成一 个综合的,面向分析的环境。数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个 在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域,典型 的主题领域如:顾客、产品、交易或活动等。数据仓库的集成特性是指在数据 进入数据仓库之前,必须经过数据
16、加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向 面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内,而 不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根 本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存 时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历 史时期。2.2 维度建模与ERM建模的关系传统数据库一般是面向应用的业务系统,常采用ERM建模方法的建模方法;而面向主题分析的数据仓库要适应分析决策系统的需要,在它的发展过程中,4中山大学硕上学位论文使用过多种
17、建模方法:ERM建模、维度建模、暂时数据建模、面向模式数据建 模、数据体系结构建模等,但人们越来越倾向在信息集成中采用维度建模的方 法。ERM建模方法可使用以下两个基本概念产生特定兴趣领域的数据模型:实 体和实体关系囹。实体可定义为人、地点、事情,以及商业或组织的相关事件,例如“产品”,如图1所示。实体代表一类对象,它们是现实世界中可以按属 性和特征进行观察和分类的一些事物。实体关系描述模型中各实体之间的结构 性交互和关联显示了实体间的相关性。例如,图27中,箭头从“产品”指向“订单”。箭头每一端的数字定义了关系的基数,本例中为1对n(或1对多)。图2“销售ER模型另外信息集成中的ERM数据建
18、模通常采用3NF模型。因为这类模型最初是 为最小化数据冗余而设计的,该模型在值发生改变时,可使数据库中的更新数 量达到最小,这对降低维护复杂度是非常有价值的。维度建模是一种将数据模型概念化和形象化为一组可用一般商业概念描述 的度量的技术囚。在总结和重新整理数据以及显示数据视图以支持数据分析时,该技术特别有用。维度建模主要处理数字数据,比如:值、计数、重量和出现 次数。维度模型包含的基本概念有:事实、维度、度量。事实是相关数据项的集合,包含度量和环境数据。每个事实一般代表商业 项、商业事物或可以在商业或商业过程分析中使用的事件。中山大学硕士学位论文维度是从特定角度描述事实数据的一组成员或单位。在
19、图表中,维度通常 是用轴来表示的。在维度模型中,事实表中的每个数据点都与多维中每个维度 的一个成员相关联。维度决定了事实的环境背景。度量是事实的数字属性,表示商业相对于维度的性能和行为。其实际成员 称为变量。例如,度量为销售额、销售量、供应量等等。度量由维度的成员组 合来决定,并定位到事实表中。维度建模的基本模型为如图2-2所示的星型模型。该模型通常有一个较大 的中央表(事实表)和一组以放射状围绕在事实表周围的较小的表(维度表)。图2-2交易维度模型可以看出,以上两种方法有明显相似的地方:可以使用相同的符号,比如 在ERM图中实体、关系、属性等。在维度建模也有,只不过在维度建模中称 为:事实、
20、维度、度量等。但它们也有很多的不同之处:A)在ERM图中,各实体的关系是平等的;而在维度建模中,主要是星形 模型,事实与维度的关系是不平等的。B)ERM一般来说都满足3NF,没有数据冗余或只有少量的数据冗余,因6中山大学便士学位论文此可以从源系统或通过应用程序非常快地进行更新。但在很大且复杂 的系统中,ERM图中有可能出现类似如下图2-3的雪花模型,现在的关系数据库管理系统不能高效地查询规范化模型,它的复杂性淹没 了数据库的优化设计从而导致性能上出现灾难性后果。而在维度模型中,因为追求简单性、可访问性,一般来说它不满足第3范式,甚至有时候要 进行反规范化,这样它的模型中几乎不会出现雪花模型,它
21、的简单性也带 来了查询性能方面的好处,但数据会出现冗余,-一致性也就会难以保障,不过这些在不可更新的数据仓库不会带来什么问题。综合上面所述,ERM建模适合少数据量、可更新的实时交易系统,而维度 建模适合大数据量的、不可更新的分析系统。当然这并非是很严格的界线,比 如在对数据仓库进行高级建模(逻辑模型)时,有时采用的就是ERM建模方 法,在低层建模(物理模型)时,才采取反规范化手段,这样的高层模型有利 于人们理解。2.3 维度建模的步骤1)选取要建模的业务处理过程7中山大学硕士学位论文业务处理过程是机构中进行的一般都由源数据收集系统提供支持的自 然业务活动。典型的业务处理过程包括:订货、存取款、
22、运输、话单处理、开票等。2)定义业务处理的粒度粒度定义意味着对各个事实表行实际代表的内容给出明确的说明。典 型的粒度定义包括:每个银行账号的月快照、每个电话的电话清单项内容、顾客购物券上扫描设备一次拾取的分列项内容等。一个合适的粒度对数据 仓库非常重要,它决定了数据仓库能回答用户的问题的详细程度。3)选定用于每个事实表行的维度维度可以理解为如何描述从业务处理过程得到的数据,也就是理解成 观察这些数据的角度。常见的维度例子包括:日期、产品、客户等。4)确定用于形成每个事实表行的数字型事实事实的确定可以通过回答“要对什么内容进行评测”这个问题来进行。常见的事实是:交易额、订货量、支出额等这些可加性
23、的数字数据。明显 属于不同粒度的事实必须放在单独的事实表中。维度建模的输入是业务需求和源数据,在按照上述四步确定相关内容的时 候,一定要同时考虑以上两者,偏向任何一方都会有可能导致失败。当开发团队设计出一整套在企业范围具有统一解释的标准化维度与事实 后,企业数据仓库的数据体系结构的框架就建立起来了,也就可以去实现按照 体系结构进行迭代开发的独立数据中心。这种方法下的数据仓库的基本组成如下图2-4所示:中山大学硕士学位论文图2T数据仓库的基本组成2.4 维度建模的常用技术A)数据仓库总线矩阵开发传统的操作型系统一般瀑布式的开发方法,它是由需求驱动 的,其中的每一项活动都是确定的,并且只有一个活动
24、结束后,下一个 活动才会被触发开始。而在数据仓库系统中,用户的需求是变化的,常 用迭代式或者螺旋式的开发方法,它从数据源开始,同时考虑用户的需 求,将数据集成,分布实施建设。想要一步建设好一个功能强大的,集 中式的数据仓库几乎只能招致失败。在按照数据来源理清了机构的业务处理后,可以采用矩阵形式把它 布局出来,下面对订单管理过程建立矩阵如下图2-5示日期产品顾客营销代表发货货主报价VVV订单JVV装运VV发票VJVVV图2-5总线矩阵9中山大学硕士学位论文矩阵的列代表企业范围内使用的共同维度,它还有助于优选出哪些 维度因其突出作用而应该首先满足一致性的要求。一致的维度具有一致 的维度关键字、一致
25、的属性列名字、一致的属性定义以及一致的属性值,一致性维度被所有事实表共享使用。B)代理关键字代理关键字是相对自然关键字或者操作型关键字来说的,因为在操 作型系统中,关键字中可能包含技巧性的内容,但这些主观上的任何设 想最后可能无效,而在填充维度时按需要分配的整型的代理关键字则不 存在这个问题,但它会增加ETL的工作:需要将自然关键字或者操作 型关键字映射到代理关键字。这些辛苦会带来长远的好处:一、能够对数据仓库环境的操作型变化进行缓冲。代理关键字允许 数据仓库团队维持对环境的控制,而不会受到操作型系统自然 关键字的生成、更新、删除、再生与重用等操作型规则的防碍。二、是支持处理维度表属性修改的一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 维度 方法 数据仓库 建模 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。