欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于Kylin实现大数据OLAP应用_沈文杰.pdf

    • 资源ID:326239       资源大小:1.14MB        全文页数:4页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于Kylin实现大数据OLAP应用_沈文杰.pdf

    1、第 31 卷 第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号:1005-1228(2023)04-0112-04收稿日期:2023-02-10作者简介:沈文杰(1984-)男,福建罗源人,讲师,硕士,主要研究方向:计算机网络技术、物联网技术。医疗数据存量大且还在持续增长中,传统数据库不堪重负,因而搭建了大数据平台,美中不足的是分布式存储和并行计算只解决了超大数据量的存储和访问问题,在 Hadoop 体系上的多维联机分析(OLAP)却始终得不到满意的结果。本文将阐述在药品监管的项目

    2、中,使用基于 Kylin 实现大数据的 OLAP 的统计分析快速查询。1什么是 Kylin Kylin 是一个基于预计算和多维模型的多维数据库,支持标准 SQL 搜索接口,在 Kylin 中,用户可以通过创建模型来定义表关系,通过创建 Cube 多维数据集来定义维度和度量,这样可对数据表或者数据模型上的所有字段进行分类,构建多维数据集来预计算需要聚合的数据,并做预计算的 Cube,将预计算数据保存到 HBase 中,为海量数据的查询和分析提供亚秒级返回,是一种典型的“空间换时间”的解决方案。用户可以通过直接对预计算数据执行聚合或直接返回查询结果来提高查询效率。1.1使用 Kylin 优势 查询

    3、速度快:Kylin 将大数据的 SQL 查询速度从之前的分钟乃至小时提升到亚秒级别,查询速度的显著提升,主要归功于多维立方体 Cube 预计算技术。Kylin 可以支撑的数据量没有上限,仅受限于存储系统和分布式计算系统的承载能力。Kylin 的构建与查询都提供了一个公共的 Web 页面可用来做模型的配置,降低了 Kylin 的使用门槛,使得现有的分析师能够快速理解和掌握,有效缩减后续的运维成本1。但 Kylin 在数据集规模上的局限性主要是维度的个数和基数,过多的维度会使得 Kylin 的 Cube 过大,从而拖慢 Kylin 的查询速度。1.2方案对比除了 Kylin 外,目前可实现如此大数

    4、据量 OLAP分析的方案还有以下几种2:(1)传统的关系型数据仓库,使用 oracle 的存基于 Kylin 实现大数据 OLAP 应用沈文杰(福建农业职业技术学院 福建 福州350007)摘要:医疗数据经过多年的发展,存量数据越来越多,在此基础上做的统计分析越发困难。传统的关系型数据库ETL 计算过程复杂,而 MPP 数据库的查询速度并不理想,为了应对未来大规模的数据增长,提出采用基于 Kylin 实现大数据 OLAP 应用,实现医疗统计分析查询的快速响应。关键词:Kylin;OLAP;大数据;预计算中图分类号:TP319文献标识码:ARealize Big Data OLAP Applic

    5、ation Based on KylinSHEN Wen-jie(Fujian Agricultural Vocational and Technical College,Fuzhou 350007,China)Abstract:With the development of medical data for many years,there are more and more stock data,and it is more difficult to make statistical analysis on this basis.The traditional relational dat

    6、abase ETL calculation process is complex,while the query speed of MPP database is not ideal.In order to cope with the large-scale data growth in the future,it is proposed to implement the big data OLAP application based on Kylin to realize the rapid response of medical statistical analysis query.Key

    7、 words:Kylin;OLAP;big data;precomputationDOI:10.19414/ki.1005-1228.2023.04.007第 31 卷 第 4 期113沈文杰,基于 Kylin 实现大数据 OLAP 应用储过程抽取 MID 表到 DM 表(预计算)。该做法开发周期长,并且不是分布式,使得存储过程计算速度慢。当新增需求的时候,修改成本高。(2)Mysql 分布式(如 Mysql+中间件 Mycat),不够灵活,比如要得到某个患者的就诊费用,但患者A 的个人信息存在节点 1,费用信息存在节点 2,则无法进行关联统计。(3)用 Hive 直接进行查询,查询速度慢,消

    8、耗计算集群的资源。若使用 MPP 数据库如 Presto,会因为不是预计算,随着数据量的增长,查询速度越来越慢。若采用 Druid 做预计算技术,但是用其自己的集群有不依赖 Hadoop 系统,建设成本高。综上所述,当业务以离线分析为主,不涉及基础数据的访问,并且有一定的硬件资源时,Kylin 不失为一个大数据 OLAP 分析的好选择。2方案实施2.1业务需求在药品监管项目中,用户需要通过各个维度去观察药品的使用量、库存、费用等情况,维度包括如时间、医院、科室、医生等。业务需求以统计报表为主,不涉及原始数据的访问,要求报表的查询速度在秒级响应。2.2业务构建药品监管技术架构如下图 1 所示:图

    9、 1 药品监管技术流贴源层数据集群汇聚了各业务库中的数据,所以可根据需求抽取 ETL 贴源层数据到 Hive,Kylin根据设置读取对应 Hive 中的表,然后使用 Spark 或MapReduce 进行 Cube 构建,构建成功后,将 Cube 结果存储到 Hbase 中。最后通过可视化工具 BI 或 WEB等方式查询结果。构建 Cube 是用离线计算取代在线计算的一种策略。可让复杂且非常大的计算量在离线中处理完成,在线任务的计算比例将大大降低。在此基础上的 OLAP 系统可以更快地返回查询结果。减少计算工作量,提高吞吐量。OLAP 操作使 IT 人员能够从不同的分析角度轻松创建报告,从而显

    10、著提高数据效率和利用率,并降低开发成本。其中 Cube 即数据立方体,而 Cuboid 特指 Apache Kylin 中在某种维度组合下所计算的数据3。假设有 n个维度,那就有 2 的 n 次方种可能的组合。对于每一种维度组合,将度量拿来做聚合运算,运算的结果保存为一个物化视图,称为 Cuboid。将所有 Cuboid 作为一个整体,就是 Cube。其中 Cube 中维度是观察数据的角度,比如就诊数据,可以从时间的维度去观察,也可以进一步地从时间和机构的维度去观察;度量是指被聚合的统计值,比如就诊人次、就诊费用,床位数等。如近几年厦门卫生机构的床位数变化数据表中4,其中“时间”和“机构等级”

    11、是维度,“床位”是度量。Cube 与 Cuboid 关系如下图 2 所示。卫生机构床位数 Cube 与 Cuboid 关系图 2Cube 与 Cuboid 关系具体操作步骤如下:采用 hadoop 分布式集群;准备 2 台服务器,每台分配 5G 内存。(1)定义数据集上的一个雪花形模型:即事实表(住院费用表)与维表模型,事实表在中间,多个维表从这里发散出去;(2)在定义的数据模型上构建 Cube;(3)使 用 标 准 SQL 通 过 ODBC、JDBC 或RESTFUL API 进行查询,即可获得查询结果。为了更好的用户体验,需要做到亿级数据量查询的秒级甚至亚秒级响应,并且随着以后数据量的增长

    12、,响应时间不应变慢。在药品监管系统中,电脑与信息技术 2023 年 8 月114核心业务数据包括:门诊住院表(OUTPATIENT,INPATIENT),门诊住院药品使用表(OUTPATIENT_DRUG,INPATIENT_DRUG),门 诊 住 院 费 用 表(OUTPATIENT_FEE,INPATIENT_FEE),上 述 三者截至目前的数据总量(预估值)80 万个,且每天以一定的数量增长,存在大表(门诊住院药品使用表、门诊住院费用表)和大表(门诊住院表)之间的关联。每 3min 一次的数据采集频率5,能耗数据需保存至少 5 年。每一次采样数据占据 90MB 空间,一天的采样数据将占据

    13、902024MB,即43200MB(约42.18GB),一年的采样数据将占据 15395.7GB,保存 5 年合计需要使用 76 978GB(约 75.17TB)。部分关联表如下图 3 所示。图 3部分医疗关联表2.3OLAP 构建Kylin构建可供查询的OLAP模型,详细步骤如下:首先创建项目,连接 Hive 数据仓库,选择建模要用的数据表(事实表、维度表);接着数据模型创建:选择事实表作为维度、度量的字段,以及维度字段的关联字典表;创建 Cube,从数据模型中选择要作为 Cube 计算的字段(可认为是数据模型的子集);最后 Cube 构建:执行 Cube 的预计算(计算完存入Hbase)。

    14、上述的步骤也可在 Kylin 提供的 Web 界面中完成,如下图 4 所示:图 4 WEB 操作界面2.4增量构建每次构建 Cube 都会从 Hive 中批量读取数据,而对于药品监管的业务场景来说,Hive 中的数据处于每天都在不断增长的状态,为了使 Cube 中的数据能够不断更新,并且无需重复地为已经处理过的历史数据构建 Cube,需要使用到 Kylin 的增量构建功能。对于每天新增的数据,Hive 主表中需要有一个“日期”字段,以供 Kylin 识别并进行增量计算。增量计算的设置如下图 4 所示:图 5增量计算3Cube 优化如果要对 n 个维度做聚合,Cube 就会产生 2 的n 次方个

    15、 Cuboid,当 n=10 的时候,就会有 1024 个Cuboid,过大的 Cube 会影响查询速度,并且占用更多的内存。所以需要对 Cube 进行优化。Cube 优化方式主要有:剪枝(衍生维度,使用聚合组)、并发粒度优化、Rowkeys 优化、衍生维度优化等6。假设需要查看不同时间段内、各医院、各个药品的使用量,这时候 Cube 会产生 8 个 Cuboid。在前期调研中了解到“时间”这个维度是一定会被拿来做筛选的,也就是说 Cuboid 一定要包含“时间”这个维度,这样就可以通过设置来指定 Kylin 在生成 Cube 的时候,所有的 Cuboid 都必须包含“时间”,Cuboid 的

    16、数量从8 个减少到了 4 个。4结束语综上,Kylin 是一款易用以且以空间换时间的大数据 OLAP。如果空间有限,则需要在建 Cube 前做好调研工作,了解用户关注的维度。在药品监管这个项目中,Kylin 缩短了开发时间,并且根据前期调研的需求,得到的报表具有很好的响应速度。但是中后期,需求不断修改,导致不断新增 Cube,空间资源紧张,这时候需要衡量时间与空间的重要性,有时可以在时间上做一些妥协,在可以接受的查询时间里,尽量减少空间的占用。参考文献:1 李明昆.基于 Kylin 的数据实时查询分析平台的研究与优第 31 卷 第 4 期115沈文杰,基于 Kylin 实现大数据 OLAP 应

    17、用化 D.北京邮电大学,2018.2 蔡旭坤.基于 Hive 和 Apache Kylin 的生产大数据聚合与管理系统的设计与实现 D.华南理工大学,2018(05).3 眭冠男.多维分析技术在大数据环境下的发展 J.电脑知识与技术,2018(04):4-5+7.4 厦门市卫生健康委员会政府信息公开网 EB/OL.https:/ 杨毅.基于 Kylin 的医疗能耗大数据多维分析管理平台 J.电子技术,2020(07):80-81.6 谭志远.基于 Kylin 实现大数据多维分析 J.广东通信技术,2018(08):48-51+58.5 Agustsson E,Timofte R.Ntire 2

    18、017 Challenge on Single Image Super-resolution:Dataset and studyC.In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops.Hawaii,USA:IEEE,2017.126-135.6 Timofte R,Agustsson E,Van Gool L,et al.Ntire 2017 Challenge on Single Image Super-resolution:Methods and results

    19、C.In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops.Hawaii,USA:IEEE,2017.114-125.7 Bevilacqua M,Roumy A,Guillemot C,et al.Low-complexity Single-image Super-resolution Based on Nonnegative Neighbor EmbeddingC.In:British Machine Vision Conference.Springer,Cham,

    20、2012.131-1.8 Zeyde R,Elad M,Protter M.On single image scale-up using sparse-representationsC.In:International Conference on Curves and Surfaces.Springer,Berlin,Heidelberg,2010:711-730.9 Martin D,Fowlkes C,Tal D,et al.A Database of Human Segmented Natural Images and Its Application to Evaluating Segm

    21、entation Algorithms and Measuring Ecological StatisticsC.In:Proceedings of the IEEE International Conference on Computer Vision.Vancouver,British Columbia,Canada:IEEE,2001.416-423.(上接第 30 页)专家视角下的多源信息,为乡村旅游建设中的投资方向、发展重点、支持重心提供技术支撑,实现智库对决策支撑的及时性、准确性、全面性。在接下来的研究工作中,结合疫情防控需求,拟引入疫情风控模型,使智库契合后疫情时代的需要。参考文

    22、献:1 戴浩,魏君英.湖北省乡村旅游与乡村振兴战略耦合协调度实证研究 J/OL.湖北农业科学,2022,61(17):155-159+213.2 李芹燕,罗俊.农业频道在乡村振兴中的增值赋能以四川乡村频道为例 J.中国广播电视学刊,2022(06):127-130.3 鲍新龙,张舜,蔡旷.高校服务地方乡村振兴战略共赢路径探析 J.南方论刊,2020(11):38-40.4 万小妹.数字文旅赋能乡村旅游高质量发展研究 J.农村经济与科技,2022,33(09):107-110.5 贺宗平,范少芬,贺曦冉.面向知识图谱的融合集成框 架 设 计 研 究 J.现 代 信 息 科 技,2021,5(05

    23、):23-25.DOI:10.19850/ki.2096-4706.2021.05.005.(上接第 51 页)5 张旭刚,谢宗晓.网络安全等级保护及其相关标准介绍J.中国质量与标准导报,2019(9):12-15.6 陈亮.基于双因素认证的虚拟云桌面访问控制系统设计与实现 J.东南大学,2018(05):86.7 王亚飞.一种基于智能卡口令认证方案的研究 J.计算机应用与软件,2011,28(9):295-297.8 Michael Armbrust,Armando Fox,Rean Griffith,Anthony D.Joseph,Randy Katz,Andy Konwinski,Gunho Lee.A view of cloud computingJ.Communications of the ACM,2010,53(4):50-58.(上接第 86 页)


    注意事项

    本文(基于Kylin实现大数据OLAP应用_沈文杰.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 服务填表 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)    



    关注我们 :gzh.png  weibo.png  LOFTER.png