构建企业级好数据(Dataphin智能数据建设与治理白皮书).pdf
《构建企业级好数据(Dataphin智能数据建设与治理白皮书).pdf》由会员分享,可在线阅读,更多相关《构建企业级好数据(Dataphin智能数据建设与治理白皮书).pdf(77页珍藏版)》请在咨信网上搜索。
1、卷首语仰望星空,脚踏实地2015 年 12 月,阿里巴巴正式实施数据中台战略,数据中台话题热度逐步攀升,在这一过程当中,我们也发现不同角色对其理解以及期望各有侧重。阿里巴巴关注的是建立统一数据体系,同时贴近业务场景打造出体验一流的数据服务与产品;企业管理者会关心数据中台可以带来哪些业务变革与增量价值;而数据与技术从业者,则更倾向于去探求其与数据仓库、数据湖的不同之处,去了解数据中台的技术领先性2018 年,基于阿里巴巴数据中台内部实践经验和成果,面向不同行业的实际业务场景,Dataphin 应运而生,作为阿里巴巴数据中台方法论的工具化沉淀,Dataphin 希望能帮助企业探索更加复杂与多样的数
2、据中台建设之路。2021 年,阿里巴巴集团数据中台、业务中台、客服系统、供应链服务等多个部门融合升级为瓴羊,将“阿里巴巴最佳实践”完整、系统、产品化地全面对外输出。2022 年首度提出了 DAAS 转型体系,涵盖基础层(Data:自生长数据底座)、洞察层(Analytics:普惠型深度洞察)、应用层(Applications:规模化场景应用),以及战略层(Success:数据驱动企业成功)四个方面。2023 年升级瓴羊数据智能服务,包括 Data SaaS 瓴羊One、Data PaaS 瓴羊数据中台、Data Exchange 瓴羊港,瓴羊数据中台中核心聚焦数据治理的产品 Dataphin
3、致力于帮助企业治理好数据,为未来数据资产要素化流通创造积极条件。我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,形成企业特有的数据资产体系;同时,企业还需要完成数据人才组织建设,并辅以数据文化,让人人都能理解数据、用好数据。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。目录页一、数据建设与治理的现状与诉求.61.当前数据建设与治理所面临的问题.62.构建企业级数据中台的核心诉求.73.企业数据能力建设的三
4、个发展阶段.7二、用中台方法论构建与治理企业级好数据.91.概览.92.规划:高屋建瓴,总览企业数据体系.123.研发:高效建设,稳定运行.184.特色研发能力.355.资产治理:高价值数据,助力企业高质量发展.426.数据服务:集中管控,快速服务业务系统.647.自助分析:灵活分析,快速释放数据价值.688.资产目录:主题式的目录,打造精品数据.719.开放能力:自由拓展,满足企业个性化需求.72三、产品订购与部署说明.761.公有云在线服务.762.本地化部署.76四、关于瓴羊.78一、数据建设与治理的现状与诉求6一、数据建设与治理的现状与诉求随着全球数字化进程的加速,企业面临着更加严峻的
5、市场竞争,各行各业的企业都开始建设数据中台。1.当前数据建设与治理所面临的问题从阿里巴巴数据中台的建设历程,以及阿里云多年在数据中台领域的耕耘中,当前数据建设与治理所面临的问题有:数据标准问题:烟囱式开发及局部业务服务支撑,导致指标同名不同口径问题频发;历史上不同业务系统逐步迭代上线,相同对象属性编码不一致等问题突出。数据质量问题:重复建设导致任务链冗长、任务繁多,计算资源紧张,数据时效性不好;口径梳理定义的文档沉淀到开发代码实现之间存在脱节,数据准确性保障风险高。需求响应问题:烟囱式开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满意的同时技术又觉得没有沉淀与成长;既懂业
6、务又懂数据的人才不足,需求理解到开发实现涉及大量沟通,服务效率较差。一、数据建设与治理的现状与诉求7成本资源问题:烟囱式开发的重复建设浪费技术资源;上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难的同时,大量无用计算和存储造成资源浪费。2.构建企业级数据中台的核心诉求企业构建数据中台既要解决以上所遇到的问题,又有着更高的要求:数据体系化组织:数据中台的数据来自企业的业务系统,而企业中各个业务有着各自独立的系统。系统之间的数据可能存在交叉,全部抽取到数据中台后,需要进行体系化的组织,否则就是一团乱麻,无法快速准确的找到想要的数据。需要一个将数据按照统一的体系
7、来组织,这个体系内,数据标准一致,并且有数据落标后可以被稽核,企业可以获得高质量的,口径统一的,可用性高的数据。数据高效生产:数据中台来自很多个业务系统,对应着海量的业务分析需求。企业希望数据中台可以快速响应业务端的需求,并且保障数据生产的安全可靠和数据正确。同时,又要降低在生产过程中的各种成本,提升投入产出比。数据便捷服务:数据中台需要服务业务,需要有便捷的数据消费方式。数据消费需要接入便捷,安全可控,响应及时。3.企业数据能力建设的三个发展阶段一、数据建设与治理的现状与诉求8企业构建数据中台,所遇到的问题挑战不是一下子全部出现的,而是在建设历程中逐渐显现出来的。基于阿里巴巴数据中台内部实践
8、经验,企业数据能力建设可以分为三个阶段:在线开发阶段:起步阶段,数据量相对较小,团队规模不大,以满足业务需求为主要目标。随着数据量的增加,人员的扩张,就需要回答数据的价值在哪里的问题,以匹配所投入的成本。自然地,就进入下一阶段。数据平台构建与管理阶段:数据量级提升,数据来源多样,除了来自业务的取数和基本分析需求之外,开始梳理数据之间的关系,挖掘潜在的价值,同时还需要保障数据的质量,这就是数据资产化。这个阶段的数据平台,除了基本的数据开发功能之外,还需要提供资产管理和质量监测的能力。数据综合治理阶段:当数据平台内部的建设完备之后,就需要回馈平台外的各个业务。这个回馈不是应答业务的需求,而是通过挖
9、掘出数据的价值,反向来促进业务的发展。二、用中台方法论构建与治理企业级好数据9二、用中台方法论构建与治理企业级好数据1.概览阿里巴巴在 2015 年提出全面启动中台战略,并在集团内部开启了一系列数据技术建设探索,沉淀下特有方法论捋清了数据全生命周期的管理思路,将其植入到瓴羊智能数据建设与治理 Dataphin 产品中,并与 Quick BI(数据可视化分析)、Quick Audience(全域消费者运营增长)一同形成数据中台建设核心产品体系。自 2018 年问世以来,Dataphin 已发展出了内容丰富的功能大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现,可以帮助企业高效地完
10、成好数据的构建。1)产品架构Dataphin 产品架构图Dataphin 从下而上可分为四个大板块:平台底座:二、用中台方法论构建与治理企业级好数据10引擎平台兼容:可支持不同的引擎及部署环境,可纳管不同的引擎,包括但不限于MaxCompute、EMR、Hadoop 体系(CDH、华为、星环、亚信等)、交互式分析Holo、Impala、ADB for PG、Starrocks 等,Flink 商业及开源版等,也支持不同云平台环境的部署及私有 IDC 部署多样化开放接口:开放数据集成、数据处理、调度、运维、元数据、质量、安全、标准等几百个标准化接口,可与企业自有系统进行对接集成或进行功能个性与定
11、制配置化能力:开放了关于消息渠道、审批渠道、认证、审批模板、样式配置等客制化的能力,更好的适配企业的规范及场景。数据建设平台:全域数据可集成:通过配置化的方式完成数据的模型构建及指标的构建,并同时支持代码编写模式,更灵活的适应不同的场景和诉求,并支持日千万级调度能力。规范建模:Dataphin 遵循 Ralph Kimball 的维度建模理论,可根据业务实际情况在 Dataphin 设计并创建概念模型,并通过概念模型中的业务实体(业务对象或业务活动)创建对应的维度表、事实表、原子指标、业务限定、指标、汇总逻辑表。指标构建与管理:通过构建的规范化的要素(原子指标、统计周期、维度、业务限定),配置
12、化的方式构建指标;也可将通过代码方式已经加工好的指标注册到汇总表上,进行统一的指标管理。标签工厂:可通过配置化的方式加工标签,让业务人员也可进行标签的二次加工及群组的圈选;通过快捷的配置,提供群组及标签的服务;根据元数据进行标签及群组进行治理、运行和管理。数据服务:通过数据服务,可将提供高效的 API 开发及运维能力,可将数据资源通过 API 统一服务业务系统。隐私计算:打通内外循环,实现数据不出域的自由流通,让数据可用不可见,数据价值化的同时保障数据的安全合规。全域数据治理:Dataphin 不仅仅治理数仓内的数据,也需要治理全域数据资产。二、用中台方法论构建与治理企业级好数据11资产盘点:
13、在数据治理开始前,需要对全域的数据进行盘点,对元数据进行丰富标准及规范:Dataphin 可支持数据的规范、研发的规范,制定数据标准,让数据治理“有法可依”;通过数据标准的手动和自动映射,可将表资产的字段与标准进行关联,并进行元数据和内容的稽核和监控资产质量:提供全域的资产质量校验及跟踪方案,从质量稽核与评估(质量大盘、配置质量规则、查看校验记录、质量监控、智能报警)、质量治理(质量工作台、质量整改跟踪)、查看质量报告等功能。数据安全:通过自动及手动的方式,可对资产进行分类及分级打标,对数据的权限申请流通进行规范的管理,也可对高敏数据在流通前就对数据进行加密处理,避免数据泄露资源治理:通过元数
14、据,对数据存储与计算资源诊断与治理,在数据价值挖掘的同时,也控制数据的成本,避免数据沼泽。全域数据运营:数据在消费者手中用起来才能发挥数据的价值,全域运营是将数据资产推送到数据消费场景中,让数据在消费者手动实现价值化。全域数据运营板块主要提供一下功能模块:资产目录:业务及消费视角的数据资产目录,可快速搜索查找推荐数据资产,推动企业数据文化。针对不同的人群,Datpahin 可定制多套目录满足不同场景不同人群的找数、看数需求。数据门户:通过提供场景式、主题是的数据门户,让用数的成本进一步降低,数据可找到正确的人。自助消费:通过打通 BI 分析系统,面向业务人员运营人员,实现从可见到可用;通过提供
15、即系分析的功能,可通过简单的 SQL、Python 能力,进行数据分析2)三大核心优势Dataphin 产品经过了几年的沉淀,积累的丰富的产品能力,也形成了独特的产品核心优势:二、用中台方法论构建与治理企业级好数据12三大核心优势多样的计算引擎兼容,可利旧降本:除了支持大数据离线和实时计算主流引擎外,我们还会不断探索和集成更多的计算引擎,以满足不同客户的需求。我们会不断优化引擎的性能和稳定性,以提高计算效率和降低成本。在部署的平台底座上,我们也适配支持了不同的云平台,包括阿里云的公共云多租户、阿里云专有云、阿里云公共云 VPC 部署,IDC 部署,以及其他云平台上进行部署。资产化驱动构建数据:
16、阿里巴巴多年的内部的实践,我们沉淀了一套完整的方法论,帮助数据资产的构建。这套方法论和产品也在 100 多家客户中进行了深度的验证。价值导向、消费驱动的数据治理:我们将进一步完善数据治理体系,包括数据盘点、数据质量管理、数据安全与合规等方面。我们还将借鉴和应用更多的经验和案例,不断提升数据治理的水平和效果。同时,我们也会更加注重数据的价值和消费者需求,以提供更有针对性和可用性的数据治理解决方案。2.规划:高屋建瓴,总览企业数据体系1)Dataphin 模型体系数据中台是数据沉淀、建设、管理与使用的一整套体系。Dataphin 的核心优势是在数据的建设与治理上,引入了阿里巴巴多年来数据中台建设沉
17、淀出的建模方法论,可以帮助企业通过智能数据建设与治理,构建数据中台。在这个方法论中,某一个完整独立的业务对应一个业务板块,数据建模是基于一个业务板二、用中台方法论构建与治理企业级好数据13块来进行的,分四层模型:主题域模型:在数据中台,主题对应一个宏观的分析领域,比如销售分析就是分析“销售”这个主题,联系较为紧密的主题的集合就是主题域。每一个行业都可以拆分为有多个(十个左右不等)主题域组成的主题域模型。概念模型:在主题域的基础上,每个主题域内增加了实体以及实体之间的关系。逻辑模型:在概念模型的基础上,增加每个实体的属性以及属性的约束。业务分析模型:行业中重要的以及常用的分析方法与分析视角。在逻
18、辑模型基础上,将业务分析问题转换为 Dataphin 特有的派生指标,并进一步提炼出原子指标和业务限定。板块划分、主题域模型、概念模型从宏观整体层面规划整个企业的数据体系。2)划分业务板块企业的规模有大有小,业务复杂度和跨度也不同,数据反映业务,所以每个企业的数据中二、用中台方法论构建与治理企业级好数据14台也是不同的。数据中台建设的第一步是做规划,规划的第一步是全盘梳理企业的业务架构,将业务划分为一个个独立业务,对应到 Dataphin 就是业务板块的划分。业务板块的划分总原则是高内聚,低耦合。可以通过业务活动之间以及业务活动与业务对象之间的关系来厘定业务板块的边界:存在上下游的关系或者有共
19、同的业务对象的几个业务流程属于同一个业务板块。反之,如果两个业务流程之间不存在任何直接或者间接的上下游关系,也没有直接或者间接共同的业务对象,他们就不应当被放在同一个业务板块。与业务活动相关的业务对象与业务活动同属一个板块某些业务对象是企业级共用的,比如,公司的员工、行政地理区划(没错,这个也属于业务对象)等,可以冗余在每一个板块中。3)主题域建模主题域建模,即在业务板块下进一步将业务划分为多个主题域。主题域的划分没有客观原二、用中台方法论构建与治理企业级好数据15则,主要根据数据模型师的行业经验与业务理解来划分。具体以零售行业为例来说明。零售行业的主题域划分:公共主题域:在所有业务流程中都会
20、被引用的数据,如地理位置数据、企业的人员组织数据。消费者主题域:该主题域主要是零售企业内用户(消费者)运营相关的业务活动数据。商品主题域:商品的管理(类目管理、品牌管理等),商品结构管理(组货)等相关的业务活动数据。其他还有商家主题域、流量主题域、交易主题域、履约主题域、服务主题域、交互主题域、营销主题域、内容主题域、供应链主题域等。二、用中台方法论构建与治理企业级好数据164)概念建模概念模型主要由业务实体以及实体关系来组成。a)业务实体业务对象是参与业务的人或事物,在企业组织的业务模式确定时就存在的,偏静态的实体。根据复杂程度,业务对象可以分为:普通对象,复杂的、有很多属性的对象。狭义上,
21、业务对象就是普通对象。枚举对象,简单的基础对象。如性别,其取值可以穷举(男/女/未知)。虚拟对象,在业务定义中,没有任何属性的基础对象,如姓名。层级对象,多个业务对象之间有上下级关系,这一组对象就是层级对象。业务活动是一个或者多个业务对象在某个时间(段)为了达成某种目的所进行的活动或者是某种活动的结果。业务活动有以下几个关键要素(属性):活动主体,活动的发起者,是一个业务对象。可选的活动客体,活动的参与者,可能有多个,也是业务对象。活动时间,可以是一个单点时刻,也可能是一个有开始和结束的时间段。根据业务活动持续时间的长短,可以将业务活动细分为:业务流程,持续一段时间,有明确生命周期的业务活动。
22、二、用中台方法论构建与治理企业级好数据17(业务)事件,发生在某一个时刻,持续时间极短(瞬间)。事件一般对应业务流程的一次状态变化。业务快照,是一系列活动在某一个时刻点的状态和结果,比如库存、账户余额。b)实体关系在实际业务中,业务实体并不是孤立存在的,他们之间有着各种各样的联系,Dataphin 将这些联系定义为“实体关系”。有以下实体关系:实体关系说明关联1.业务对象 A 是业务对象 B 的属性,则业务对象 B 关联了业务对象 A,如:地址 是 客户 的属性之一,客户实体 关联了 地址实体2.业务对象 A 是业务活动 C 的参与者,则业务活动 C 关联了业务对象 A,如:客户 是 销售 的
23、参与者,销售实体 关联了 客户实体继承普通对象 B 是 普通对象 A 的一种,但是比普通对象 A 多一些独有的属性,则 普通对象 B 继承了 普通对象 A。如:会员 本身也是 用户,除了用户的姓名,性别等属性外,会员 还独有会员等级等属性,会员 继承了用户。层级层级对象的多个对象间为层级关系包含业务活动 A 有三个处理节点 B、C、D,每个节点对应一个业务事件,业务事件发生后,A 的状态将发生变化。业务活动 A 包含 业务事件 B、C、D。如:销售活动 包含 销售下单,销售付款,销售完结 等业务事件。流转业务活动 A 有三个处理节点 B,C,D,每个节点对应一个业务事件,事件按照 B-C-D
24、的顺序发生,则 B、C、D 之间为流转关系。前后序进入业务活动 B 之前必须先完成 业务活动 A,则 A 是 B 的前序活动,B是 A 的后序活动。如:销售完成后,才可以退款退货(销退),则销售是销退的前序活动,销退是销售的后序活动。二、用中台方法论构建与治理企业级好数据183.研发:高效建设,稳定运行1)全域数据汇聚,打破数据孤岛企业在构建数据中台时,首先就是要将企业内部各个业务系统的数据同步集成到数据中台,然后进行后续的数据研发工作。一句话总结数据集成的能力,就是提供不同数据源之间的通道能力,解决异构数据源之间,读取、转换和写入三个流程。Dataphin 中的数据集成模块是一个简单高效的数
25、据同步平台,通过组件拖拽式的方式,提供了丰富的异构数据源间高速稳定的数据同步能力,与强大的数据预处理能力,汇集全域数据,打破数据孤岛,为数据中台的建设打好坚实的数据基座。a)支持丰富的异构数据源在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,使得企业在发展过程中积累了大量不同存储方式的业务数据,采用的数据管理系统也大不相同。从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。Dataphin 数据集成支持丰富的异构数据源,包括关系型数据库、二、用中台方法论构建与治理企业级好数据19大数据存储、文件存储、消息队列、NoSQL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 构建 企业级 数据 Dataphin 智能 建设 治理 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。