1、苏宁数据中台建设与技术实践目录数据中台建设背景12数据中台总体架构3数据仓库构建4统一维度库构建5数据服务构建6未来展望 第一部分数据中台建设背景PART 01数数据据中中台台建建设设前前情情况况数仓交易数据集市物流数据集市流量数据集市诸葛天眼鹰眼易道数据采集开放平台数据集市缓冲层基础层汇总层存存在在的的痛痛点点数据孤岛数据集市间数据信息共享存在屏障,数据难以高效共享,也带来业务重复开发的情况痛点开发成本高缺少统一数据分析引擎,数据团队需要各自选择和搭建分析引擎,开发使用成本高指标孤立指标缺少体系管理,往往易出现不同产品间指标数据不一致数据分析门槛高缺少数据服务市场,业务分析往往需要从底层分析
2、,难以直接使用其他团队沉淀业务数据维度孤立缺少维度定义和管理,不同产品间常出现分析视角不一致数据产品多业务分析使用时,常需要在不同产品间频繁切换 第二部分数据中台总体架构PART 02数数据据中中台台架架构构离线计算(Hadoop、Spark、Hive)实时计算(Flink、SparkStreaming)存储计算引擎DW汇总DW明细应用层统一维度近源ODS易购线上门店线下供应链零售云财务客服物流金融交易流量会员营销职能物流客服销售分析流量分析店铺分析会员分析物流分析客服分析供应链分析标签用户标签商品标签人群标签行为标签商户标签数据应用引擎数据应用数据分析引擎数据服务引擎可视化引擎维度服务引擎数
3、据分析报表大屏直播精准营销精准广告个性化推荐个性化搜索开发工具平台离线计算实时计算可视化计算数据探查数据集成维度服务OLAP服务指标服务报表服务数据资产元数据数据标准数据质量数据血缘数据生命周期数据模型数据治理数据安全资产地图 第三部分数据仓库构建PART 03数数仓仓整整合合构构建建思思路路指指标标整整合合维维度度整整合合业业务务矩矩阵阵DW明明细细模模型型DW汇汇总总模模型型盘点所有数据产品指标,整合治理不合理指标梳理数据域和业务过程,确认业务过程分析维度和指标基于数据域+分析主体构建业务主体汇总模型盘点所有产品指标分析维度,整合治理不合理维度基于数据域+业务过程构建DW明细模型数数仓仓模
4、模型型整整合合通用指标通用维度近源ODSDW明细层应用层事务事实表周期快照事实表累计快照事实表DW汇总层商品主体汇总店铺主体汇总供应商主体汇总业务主体通用业务下沉DW业务过程数据域数据域通过DW扎口维度、指标计算口径实实时时数数仓仓构构建建爬虫数据业务系统埋点采集系统日志数据集成工具数据应用(指标服务及数据产品服务)实时计算flinkspark Streamingstorm应用层DW汇总层DW明细层主题+业务过程模型主题+业务主体模型应用模型kafkakafkahbaseolap近源ODS数数仓仓bitmap应应用用生成唯一数字编码去重指标汇总用户会员分析全局数据字典DW明细层交易明细表用户访
5、问明细表生成-会员字典编码生成-设备字典编码.DW汇总层店铺主体汇总表商品主体汇总表买家数bitmap订单数bitmap用户数bitmap新老会员分析复购会员分析精确去重指标计算无法实现再汇总人群分析留存会员分析多维会员交叉分析难点难点 第四部分统一维度库构建PART 04统统一一维维度度库库建建设设背背景景标准 维度业务口径不统一,缺乏有效的管理流程来对其进行管理和约束,维度建设存在重复和歧义成本 对于维度服务的开发,各个产品中心需要各自实现,造成开发成本重复投入。例如公司、城市的维度。工具 ETL开发人员/产品人员,存在手工配置表需要维护,缺乏快速开发工具。平台 业务人员想查询维度信息,缺
6、乏可靠的公共平台去快速方便的查询。统统一一维维度度库库建建设设目目标标 根据业务需求,提供快速定义维度的功能,保证维度的唯一性 完善的维度管理流程,对维度新增,变更,下线全生命周期管理 提供高效、稳定的维度查询服务,满足高并发的查询 建立维度全链路统一的数据监控体系,提升平台数据安全维度开发管理维度信息管理维度数据服务维度监控管理统统一一维维度度库库建建设设架架构构维度库Hive(离线维表)Kafka(实时维表)维度服务MysqlHbaseES数据服务平台数据可视化平台统一权限数据门户平台维度管理维度表管理维度层级管理权限维管理发布管理维度数据探查维度整合维度溯源数据计算服务维度查询服务维度推
7、送服务维度名映射服务.第五部分数据服务构建PART 05统统一一数数据据服服务务架架构构数仓数据服务统一维度库模型层OLAP数据API指标层可视化数据层:可视化引擎任务调度数据加速引擎查询引擎解析引擎计划引擎执行引擎应用层指标定义管理指标数据服务事实表+维度表DW层DruidClickhouseESPG指指标标定定义义指标基础信息 多种时间粒度 多种时间周期 多单位换算度量 计算函数:max/min/count/count distinct/sum/avg/abs 累计函数:lastday衍生计算表达式 支持逻辑流 支持运算符 时间计算函数 异常数据个性化筛选条件 统一维度支持 自定义维度支持
8、 自定义参数支持指标属性 可比 占比 同环比 均值可视化测试 多维度数据验证 性能验证数数据据服服务务模模型型基基本本属属性性类型星型宽表定制类时效类型实时离线离线+实时时序类型时序非时序构建类别明细汇总明细+汇总调度类型任务流调度周期数数据据模模型型、指指标标及及路路由由指标Cost路由OLAP数据装载加速模型加速模型事实表商品维度表类目维度表品牌维度表店铺维度表业务模型事实表商品维度表类目维度表品牌维度表店铺维度表OLAP数据装载加速模型加速模型Olap查查询询引引擎擎适适配配器器数据服务平台SPARK SQLOLAP-SPARKParquetOptimizerSparkSQLHDFSDr
9、uidOptimizerSpark-DruidDruidESOptimizerES-HadoopESPGOptimizerSpark-JDBCPGCHOptimizerSpark-CHClickHouse模模型型指指标标多多版版本本支支持持模型新版本上线模型版本回滚指标新版本上线指标版本回滚兼容性校验UVV1.2PVV.1.0流量V1.2流量V1.3会员V1.0会员V1.1UVV1.3会员V.1.3会员V.1.4会员V1.2衍生指标_1V1.4衍生指标_2V1.2衍生指标_2V1.3会员V1.2模型单一指标衍生指标衍生指标_1V1.3Druiddatasource1datasource2tab
10、le2table1table3PG上线历史开发中原原则则 状态分成上线/历史/开发中 上线单一指标来源于上线的模型 上线衍生指标中的单一指标必定是上线版本 历史版本模型有冻结期,冻结期结束此版本模型删除,关联历史指标下线UVV1.2PVV.1.0流量V1.2流量V1.3会员V1.0会员V1.1UVV1.3会员V.1.3会员V.1.4会员V1.2衍生指标_1V1.4衍生指标_2V1.2衍生指标_2V1.3会员V1.2模型单一指标衍生指标衍生指标_1V1.3Druiddatasource1datasource2table2table1table3PG上线历史开发中 第六部分未来展望PART 06未未来来展展望望数据价值分析数据资产提升模型编码自动化智能治理流批一体