维度建模方法.pptx
《维度建模方法.pptx》由会员分享,可在线阅读,更多相关《维度建模方法.pptx(77页珍藏版)》请在咨信网上搜索。
1、数据仓库中的元数据元数据:关于数据的数据;描述数据结构、内容、码、索引等信息。元数据的重要性元数据的内容元数据的重要性管理人员做分析时,往往先从元数据入手。例如:从元数据中查广义索引,再进一步搜索支持数据转换:DB环境的数据DW环境的数据元数据描述“转换”;元数据本身具有良好的灵活性,适应变化。例如:不同时期,数据结构是变化的支持对数据仓库中数据的理解例如:结构、粒度层次、分片策略、索引等元数据的分类技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用
2、户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;业务的关注点,比如销售量,客户购买情况维度建模方法维度建模维度建模的相关概念维度建模的基本步骤多维数据模型直观的表示现实中的复杂关系基本组成维度量(变量、指标)立方体Example:计算每一个商场,每一产品销售额产品、商场交叉表产品、商场交叉表联机分析(OLAP)维度模型多维数据模型的组成维(Dimension)维层次路径、维层次、维成员(维实例)、维层次属性事实(Fact)度量(Measure)数据立方体(Cube)维维:对数据进
3、行分类的一种结构,以用于从特定的角度观察数据。(例如:时间、地区、产品)维的两个用途选择针对期望详细程度的层次的数据分组对细节数据综合(聚集)到相应的详细程度的数据层次维维的组织方式:维层次路径(HIERARCHY)维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度维层级层级是维度属性组内属性之间的两级或多级结构。高一级的属性(组)构成的维度完全包含低一级的一个或多个属性(组)构成的维度。CountryStateCountyCity事实(度量)度量(指标):数据的实际意义,一般是一个数值度量指标例如:销售量、销售额,而具体数据(如“10000”)是变量的一
4、个值事实:存储一个多维数据表达期望分析的主题(目的、感兴趣的事情、事件或者指标等)具有一定的粒度,粒度的大小与维层次相关一个事实中通常包含一个或者多个度量一个度量的两个组件数字型指标聚集函数立方体(CUBE)按照一定维层次结构和度量(事实)的逻辑上的组织其逻辑上相当于一个多维数组多维数组多维数组:一个多维数组表示为:(维1,维2,.,维n,变量)例如:(时间、地区、销售渠道、销售额)可扩展维数:如(时间、地区、销售渠道、商品类型、销售额)数据单元(Cell)数据单元(单元格):多维数组的取值可表示为:(维1维成员,维2维成员,.,维n维成员,变量的值)例如:(1997年1月,北京,批发,100
5、00)多维分析多维多维的的切片(切片(slice)从多维数组选定一个二维子集,切出一个“平面”多维多维的的切块(切块(dice)从多维数组选定一个三维子集,切出一个“立方体”切片切片和切块多维分析2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294旋转 改变一个报告(或页面)显示的维方向旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度56139693季度2
6、397624季度558294钻取根据维层次,改变数据的粒度“上卷”(roll_up)是指沿某一个维的概念分层向上归约;“下钻”(drill_down)是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;其它OLAP操作“钻过”(Drill Across)是指对多个事实表进行查询;“钻透”(Drill Through)是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。多维数据模型的实现Relational OLAP(ROLAP)(关系数据库)利用关系数据库来存储
7、和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理,具有良好的可扩展性Multidimensional OLAP(MOLAP)利用多维数据库来存放和管理基本数据和聚合数据,其中需要对稀疏矩阵处理技术对预综合的数据进行快速索引Hybrid OLAP(HOLAP)利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。多维数据的组织存放(细节数据)关系数据库中的数据组织多维数据库中的数据组织MDB方法的优点(细节数据)清晰简明,占用存储少性能好,尤其像“冰箱销售总量是多少?”的查询RDB方法:找出有关“冰箱”的记录,再对销售MDB方法:找到有关“冰箱”的行,按行求和多维
8、数据的组织存放(综合数据)RDB中数据组织MDB中数据组织MDB方法的优点(综合数据)多维概念表达清晰,占用存储少对数据进行综合的速度快(只需按行/列累加)在RDB中,“总和”作为某个域上的取值(属性值)与列定义语义不符用关系结构表示多维数据关系数据库使用广泛,相当成熟用二维表表达多维概念用两类表来表示多维结构:事实表,维表事实(fact)表用来存储变量值和各维的码值维表用来存储维的描述信息(元数据),包括层次和类等维度模型一种非规范化的关系模型由一组属性构成的表所组成表与表之间的关系通过关键字和外键来定义以良好的可理解性和方便的产生报表来进行组织,很少考虑修改的性能通过MDX或相关的工具实现
9、数据的查询和维护E-R模型和维度模型ER模型模型维模型维模型数据组织一张表代表一个实体数据组织以事实表为核心要求目标最少的数据冗余最大的可理解性优化策略面向Update操作进行优化面向检索进行优化面向系统面向事务处理的模型面向数据仓库的模型星形模型Product TableProduct_idProduct_disc,.Time TableDay_idMonth_idYear_id,.Sales Fact TableProduct_idStore_idItem_idDay_idSales_amountSales_units,.Item TableItem_idItem_desc,.Store
10、TableStore_idDistrict_id,.Central fact tableDenormalizeddimensionsFact Table每一个事实表通常包含了处理所关心的一系列的度量值每一个事实表的行包括具有可加性的数值型的度量值与维表相连接的外键事实表(fact table)Year Product Type Sales Region Marketing Campaign Buyers Age Total Sales 2003Mythic WorldNortheastHistory Mag Spring Ad02556,3422003Mythic WorldNortheast
11、History Mag Spring Ad2535104,5472003Mythic WorldNortheastHistory Mag Spring Ad3545234,3852003Mythic WorldNortheastHistory Mag Spring Ad4555534,5322003Mythic WorldNortheastHistory Mag Spring Ad5565829,2822003Mythic WorldNortheastHistory Mag Spring Ad65+284,540事实表讨论 假设,以上案例中marketingcampaign维有8个成员,yea
12、r维度有6个成员,producttype维度有4个成员,salesregion维有4个成员,buyersage维有6个成员,事实表中的记录数可达到:8 6 4 4 6 or 4608 rows in the SalesFact table.度量组(measure group)事实表的特征非常大列数较少经常发生(数据追加)变化事实表的使用各类度量值的聚集计算Dimension Table每一张维表对应现实世界中的一个对象或者概念例如:客户、产品、日期、地区维表的特征包含了众多描述性的列通常情况下,跟事实表相比,行数相对较少内容相对固定维表的应用基于维属性的过滤(切片、切块等)基于维属性的个中聚集
13、操作(上卷、下钻)报表中各类标签的主要来源事实表通过维表进行应用Snowflake Schema ModelTime TableWeek_idPeriod_idYear_idDept TableDept_idDept_descMgr_idMgr TableDept_idMgr_idMgr_nameProduct TableProduct_idProduct_descItem TableItem_idItem_descDept_idSales Fact TableItem_idStore_idProduct_idWeek_idSales_amountSales_unitsStore TableS
14、tore_idStore_descDistrict_idDistrict TableDistrict_idDistrict_desc慢变维(SCD)相对与事实表,维表的内容稳定新的事务或交易不断产生新产品的加入却相对较少新商场的开张更少有些维度内容尽管变化相当缓慢,但维度属性可能随着时间发生变化客户地址发生变化商场根据地域进行分组,或者由于企业重组,地域的划分也随之改变数据仓库的生成(Extract)数据的抽取(Transform)数据的转换(Clean)数据的清洗(Load)数据的装载数据抽取、转换和加载(ETL)“Effective data extract,transform and l
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 维度 建模 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。