基于Kylin实现大数据OLAP应用_沈文杰.pdf
《基于Kylin实现大数据OLAP应用_沈文杰.pdf》由会员分享,可在线阅读,更多相关《基于Kylin实现大数据OLAP应用_沈文杰.pdf(4页珍藏版)》请在咨信网上搜索。
1、第 31 卷 第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号:1005-1228(2023)04-0112-04收稿日期:2023-02-10作者简介:沈文杰(1984-)男,福建罗源人,讲师,硕士,主要研究方向:计算机网络技术、物联网技术。医疗数据存量大且还在持续增长中,传统数据库不堪重负,因而搭建了大数据平台,美中不足的是分布式存储和并行计算只解决了超大数据量的存储和访问问题,在 Hadoop 体系上的多维联机分析(OLAP)却始终得不到满意的结果。本文将阐述在药品监管的项目
2、中,使用基于 Kylin 实现大数据的 OLAP 的统计分析快速查询。1什么是 Kylin Kylin 是一个基于预计算和多维模型的多维数据库,支持标准 SQL 搜索接口,在 Kylin 中,用户可以通过创建模型来定义表关系,通过创建 Cube 多维数据集来定义维度和度量,这样可对数据表或者数据模型上的所有字段进行分类,构建多维数据集来预计算需要聚合的数据,并做预计算的 Cube,将预计算数据保存到 HBase 中,为海量数据的查询和分析提供亚秒级返回,是一种典型的“空间换时间”的解决方案。用户可以通过直接对预计算数据执行聚合或直接返回查询结果来提高查询效率。1.1使用 Kylin 优势 查询
3、速度快:Kylin 将大数据的 SQL 查询速度从之前的分钟乃至小时提升到亚秒级别,查询速度的显著提升,主要归功于多维立方体 Cube 预计算技术。Kylin 可以支撑的数据量没有上限,仅受限于存储系统和分布式计算系统的承载能力。Kylin 的构建与查询都提供了一个公共的 Web 页面可用来做模型的配置,降低了 Kylin 的使用门槛,使得现有的分析师能够快速理解和掌握,有效缩减后续的运维成本1。但 Kylin 在数据集规模上的局限性主要是维度的个数和基数,过多的维度会使得 Kylin 的 Cube 过大,从而拖慢 Kylin 的查询速度。1.2方案对比除了 Kylin 外,目前可实现如此大数
4、据量 OLAP分析的方案还有以下几种2:(1)传统的关系型数据仓库,使用 oracle 的存基于 Kylin 实现大数据 OLAP 应用沈文杰(福建农业职业技术学院 福建 福州350007)摘要:医疗数据经过多年的发展,存量数据越来越多,在此基础上做的统计分析越发困难。传统的关系型数据库ETL 计算过程复杂,而 MPP 数据库的查询速度并不理想,为了应对未来大规模的数据增长,提出采用基于 Kylin 实现大数据 OLAP 应用,实现医疗统计分析查询的快速响应。关键词:Kylin;OLAP;大数据;预计算中图分类号:TP319文献标识码:ARealize Big Data OLAP Applic
5、ation Based on KylinSHEN Wen-jie(Fujian Agricultural Vocational and Technical College,Fuzhou 350007,China)Abstract:With the development of medical data for many years,there are more and more stock data,and it is more difficult to make statistical analysis on this basis.The traditional relational dat
6、abase ETL calculation process is complex,while the query speed of MPP database is not ideal.In order to cope with the large-scale data growth in the future,it is proposed to implement the big data OLAP application based on Kylin to realize the rapid response of medical statistical analysis query.Key
7、 words:Kylin;OLAP;big data;precomputationDOI:10.19414/ki.1005-1228.2023.04.007第 31 卷 第 4 期113沈文杰,基于 Kylin 实现大数据 OLAP 应用储过程抽取 MID 表到 DM 表(预计算)。该做法开发周期长,并且不是分布式,使得存储过程计算速度慢。当新增需求的时候,修改成本高。(2)Mysql 分布式(如 Mysql+中间件 Mycat),不够灵活,比如要得到某个患者的就诊费用,但患者A 的个人信息存在节点 1,费用信息存在节点 2,则无法进行关联统计。(3)用 Hive 直接进行查询,查询速度慢,消
8、耗计算集群的资源。若使用 MPP 数据库如 Presto,会因为不是预计算,随着数据量的增长,查询速度越来越慢。若采用 Druid 做预计算技术,但是用其自己的集群有不依赖 Hadoop 系统,建设成本高。综上所述,当业务以离线分析为主,不涉及基础数据的访问,并且有一定的硬件资源时,Kylin 不失为一个大数据 OLAP 分析的好选择。2方案实施2.1业务需求在药品监管项目中,用户需要通过各个维度去观察药品的使用量、库存、费用等情况,维度包括如时间、医院、科室、医生等。业务需求以统计报表为主,不涉及原始数据的访问,要求报表的查询速度在秒级响应。2.2业务构建药品监管技术架构如下图 1 所示:图
9、 1 药品监管技术流贴源层数据集群汇聚了各业务库中的数据,所以可根据需求抽取 ETL 贴源层数据到 Hive,Kylin根据设置读取对应 Hive 中的表,然后使用 Spark 或MapReduce 进行 Cube 构建,构建成功后,将 Cube 结果存储到 Hbase 中。最后通过可视化工具 BI 或 WEB等方式查询结果。构建 Cube 是用离线计算取代在线计算的一种策略。可让复杂且非常大的计算量在离线中处理完成,在线任务的计算比例将大大降低。在此基础上的 OLAP 系统可以更快地返回查询结果。减少计算工作量,提高吞吐量。OLAP 操作使 IT 人员能够从不同的分析角度轻松创建报告,从而显
10、著提高数据效率和利用率,并降低开发成本。其中 Cube 即数据立方体,而 Cuboid 特指 Apache Kylin 中在某种维度组合下所计算的数据3。假设有 n个维度,那就有 2 的 n 次方种可能的组合。对于每一种维度组合,将度量拿来做聚合运算,运算的结果保存为一个物化视图,称为 Cuboid。将所有 Cuboid 作为一个整体,就是 Cube。其中 Cube 中维度是观察数据的角度,比如就诊数据,可以从时间的维度去观察,也可以进一步地从时间和机构的维度去观察;度量是指被聚合的统计值,比如就诊人次、就诊费用,床位数等。如近几年厦门卫生机构的床位数变化数据表中4,其中“时间”和“机构等级”
11、是维度,“床位”是度量。Cube 与 Cuboid 关系如下图 2 所示。卫生机构床位数 Cube 与 Cuboid 关系图 2Cube 与 Cuboid 关系具体操作步骤如下:采用 hadoop 分布式集群;准备 2 台服务器,每台分配 5G 内存。(1)定义数据集上的一个雪花形模型:即事实表(住院费用表)与维表模型,事实表在中间,多个维表从这里发散出去;(2)在定义的数据模型上构建 Cube;(3)使 用 标 准 SQL 通 过 ODBC、JDBC 或RESTFUL API 进行查询,即可获得查询结果。为了更好的用户体验,需要做到亿级数据量查询的秒级甚至亚秒级响应,并且随着以后数据量的增长
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Kylin 实现 数据 OLAP 应用 沈文杰
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。