CDP企业数据云平台:从入门到实践.pdf
《CDP企业数据云平台:从入门到实践.pdf》由会员分享,可在线阅读,更多相关《CDP企业数据云平台:从入门到实践.pdf(270页珍藏版)》请在咨信网上搜索。
1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)目录 Cloudera CDP 产品介绍.4 CDP/HDP 何去何从.23 Hive3 新特性.62 CDP 平台的安全和治理.78 CDP 集群管理.115 如何访问 CDP 集群.142 如何迁移 CDH/HDP 到 CDP.148 HDFS 迁移到 CDP.160 Hive 迁移到 CDP.173 HBase 迁移到 CDP.192 CDP 之操作型数据库.206 CDP 之数据存储.226 CDP 之数据仓库.255 Cloudera CDP 产品介绍 4 Cloudera CDP 产品介绍 一、阿里云+
2、Cloudera 产品介绍 1.阿里云+Cloudera 大数据方案介绍 Cloudera 公司的几款产品在 2021 年 FORRESTER WAVES 中的位置都是 Strong Performers 或者 Leader,展现出产品被市场认可的程度。Cloudera 公司的核心产品是 Cloudera Data Platform(CDP),它整合了 CDH 和HDP 两者的优势,并根据业界的最新技术趋势形成的新平台,提供了业界首个混合数据云平台产品。CDP 在混合云和多云环境中可以提供强大的自助服务分析和弹性,给 IT 和数据管理员所需要的复杂性、细粒度的安全与治理策略。Cloudera
3、最新的许可政策 Cloudera 的许可政策类似于成熟的 Red Hat 开源模型。Cloudera CDP 产品介绍 5 该模型在市场上广为人知,并被全世界的企业所接受。所有产品源均将获得 OSI 批准的许可证(Apache Software License,ASL 或GNU Affero General Public License,AGPL)的许可。访问从 Cloudera 获得的所有产品的二进制文件和源代码都需要订阅协议,获取到产品许可证和访问账户才能进行访问。由 Apache Software Foundation 托管的我们为之贡献的所有开源项目将继续是 ASF 管辖的项目。我们的
4、源代码贡献模型保持不变,并且仍然是第三方项目的第一个上游。第三方项目存储库的公共资源仅在上游。Cloudera 终止提供社区版 CDH 和 HDP 的下载和维护 2021 年 2 月 1 日,Cloudera 终止 CDH 和 HDP 社区版的免费下载,所有的 CDH和 HDP 产品也逐渐进入了结束生命周期的支持阶段。HDP 2.6.x/CDH 5.x 覆盖了约 70的客户群,EOS 时间 2020 年 12 月终止生命周期和支持。HDP3:2021 年 12 月终止生命周期和支持。CDH 6.3:2022 年 3 月终止生命周期和支持。Cloudera CDP 产品介绍 6 售卖形态:基于阿
5、里云如何售卖 CDP?公有云形态:半托管模式的 CDP Cloudera CDP 混合数据云平台是企业版 CDH 的全新商业化升级产品,是阿里云和Cloudera 联合打造阿里云上的半托管形态的大数据平台。该平台可以灵活地运行各种企业工作负载(包括实时摄取和分析、批处理、交互式 SQL 查询和分析、企业搜索、高级分析和机器学习等),支持从边缘计算到人工智能的多功能数据分析,提供企业级的安全模型来保障客户数据安全。基于阿里云部署的 Cloudera CDP 企业数据云提供给用户开箱即用的 CDP 平台,减少了用户对平台搭建的时间成本和人工成本,并大幅度降低后续的运维成本。专有云 On-Premi
6、se:线下转售三大套件(CDP、CDF、CDSW)Cloudera CDP 产品介绍 7 阿里云的交付模式:公有云 线下输出 部署开通 阿里云 选项 1:Cloudera 原厂服务 选项 2:GTS 运维 Tier1/Tier2:阿里云 Tier 3:cloudera 产品默认带 7*24 原厂远程支持服务 现场服务可购买 PS 应用交付 合作伙伴 合作伙伴 二、公有云方案:云上 CDP 1.基于阿里云部署的 CDP 1)产品核心 部署商业版 CDP,包括完整的 Cloudera Manager 及 Cloudera Runtime。基于多种规格的 ECS,开箱即用,支持云上集群扩展能力以及数
7、据湖。与阿里云产品集成互通,提供高安全、合规和高可用的云上 CDP 平台,降低复杂性。Cloudera CDP 产品介绍 8 无需配置的正版软件及正版 license 许可证。2)产品引擎与服务 100%兼容开源 Hadoop 生态,经阿里云与 Cloudera 联合研发性能优化。提供商业化 SLA 保障与 7*24 小时的阿里云和 Cloudera 专家支持服务。提供专家服务及咨询,如平台迁移、数据迁移、版本升级、参数调优等。2.一致的安全与治理-SDX 1)专为随时随地进行多功能分析而设计 Cloudera CDP 产品介绍 9 安全性:动态细粒度的访问控制始终应用于所有云和数据中心。包括
8、全栈加密和密钥管理、动态行过滤和动态列掩码。治理:跨平台应用的企业级审计、数据血缘和治理功能,具有丰富的合作伙伴集成扩展性。元数据:利用所有元数据(结构、运营、业务和社交)建立信息资产,以提高可用性、信任度和价值。目录:用于管理和使用跨越所有分析和部署的数据资产的单一窗格。智能:洞悉平台中如何使用数据、元数据和分析,从而为优化提供建议和自动化。2)SDX 提供 通过在所有云和数据中心中一致地应用动态细粒度访问控制实现安全性。包括全栈加密和密钥管理。通过跨平台应用的企业级审计、沿袭和治理功能进行治理,并具有丰富的合作伙伴集成扩展性。Cloudera CDP 产品介绍 10 还有智能,可以洞悉平台
9、中如何使用数据,元数据和分析,从而为优化提供建议和自动化。我们从最广泛的意义上利用元数据:不仅是您称为架构的结构类型,而且还包括运营、业务和社交方面的元数据,建立信息资产以提高可用性,信任度和价值。最后,SDX 提供的数据目录是一个统一的窗格,用于管理和使用涵盖所有分析和部署的数据资产。3.统一版本(CDPCloudera Data Platform)CDP整合 CDH 和 HDP 两者的优势。CDP PVC 基础版功能地图。Cloudera CDP 产品介绍 11 CDP 针对 CDH/HDP 用户的新功能。CDH 客户的新功能 策略和授权 动态行过滤和动态列掩码 基于属性的访问控制 Spa
10、rkSQL 细粒度的访问控制 Sentry 到 Ranger 的迁移工具 数据治理 元数据、血缘和监管链,高级数据发现和业务词汇表 Navigator 到 Atlas 的迁移,提高了性能和可伸缩性 流媒体 支持与 HDFS,AWS S3 和 Kafka 流的 Kafka Connect 对 Kafka 集群的集群管理和复制支持 使用 Cruise Control 在集群之间存储和访问架构以及重新平衡集群 运营数据库 支持具有完整 ACID 事务功能的标准 SQL 二级索引 星型 Schema 支持 基于表的视图 数据仓库 Hive-on-Tez 提供更好的 ETL 性能 ACID 事务,ANS
11、I 2016 SQL 支持,主要性能改进 查询结果缓存 物化视图 改进的 CBO,矢量化覆盖率 存储 Apache Ozone 提供 HDFS 30 倍的可扩展性,支持 100 亿个对象 S3 原生支持 与 Kafka 和 Nifi 的集成 安全 使用 Knox 的基于网关的 SSO 支持 Ranger KMS-KeyTrustee 集成 支持新的 Key HSM 版本 Cloudera CDP 产品介绍 12 HDP 客户的新功能 管理 虚拟私有集群(VPC)自动传输加密设置 针对管理员的细粒度 RBAC 简化的维护工作流程 搜索 在非结构化数据上基于相关性的文本搜索(text,pdf,.j
12、pg.)数 据 仓 库(Impala)更适合 Data Mart 迁移用例(交互式,BI 样式查询)能够查询大型集群中的大量数据(“大数据”)集群环境中的分布式查询,方便扩展 与 Kudu 集成以获取快速数据并为策略提供 Ranger 用于大数据处理和分析的单一系统,因此客户可以避免仅用于分析的昂贵的建模和 ETL 查询编辑器 内置 SQL 编辑器,可自动完成智能查询 共享查询,图表结果并下载任何数据库 轻松搜索,浏览,导入数据集或作业 存储 Apache Kudu-更好的性能,可快速更改/更新数据。通过 Kudu 和 Impala 报告更新支持-Kudu+Spark 的实时和流式应用程序-时
13、间序列分析,事件分析和实时数据仓库以最智能的自动完成功能提供最佳的查询体验 Apache Ozone 提供 HDFS 30 倍的可扩展性,支持 100 亿个对象 S3 原生支持 加密 Auto-TLS 功能可自动执行启用 TLS 加密所需的所有步骤 Ranger KMS 与 Key Trustee Server 集成以提供额外的密钥提供程序存储 使用 NavEncrypt 进行静态加密 CDP 大数据组件列表。CDP Private Cloud Base7.1 Cloudera Manager 7.3 Hadoop 3.1 Spark 2.4.5/3 Hive 3.1 Impala 3.4 O
14、ozie 5.1 Hue 4.5 Ranger 2.1 Atlas 2.1 Kafka Schema Registry 0.8 HBase 2.2 Phoenix 5.1 Kudu 1.13 Sqoop 1.4.7 Parquet 1.10 Avro 1.8 ORC 1.5 Zookeeper 3.5 Solr 8.4 Cruise Control 2.0 Tez 0.9 Key HSM 7.1 Knox 1.3 Livy 0.7 Navigator Encrypt 7.1 Ranger KMS 7.1 Zeppelin 0.8.2 Hive Warehouse Connector 1.0 K
15、afka 2.5 Streams Replication Mgr 2.1 Cloudera CDP 产品介绍 13 Streams Messaging Mgr 1.0 Key Trustee Server 7 Ozone 1.0 Kafka Connect 2.4 RHEL/CENTOS/OEL 7.6,7.7,7.8,7.9 Ubuntu 18.04 SLES 12SP5 JDK 1.8/11 MySQL 5.7/8 Oracle DB 12.2/19.3 PostgreSQL 10,11.x,12 Maria DB 10.2 从 CDP PvC Base 7.0 升级 从 CDH 5.13
16、-5.16 升级 从 HDP 2.6.5 升级 从 HDP 3.1 升级 从 CDH6 升级 CDP 大数据组件列表简化管理的紧密结合的平台。公有云客户:1.2 倍成本带来三大收益。Cloudera CDP 产品介绍 14 三、专有云方案:CDP、CDF、CDSW 1.CLOUDERA-混合数据云 On-Premise(专有云)整体方案,CDP/CDF/CDSW 2.Cloudera Data Flow从边缘到云的实时流数据管理 DATAFLOW:它由 Apache NiFi 提供支持,使开发人员能够以任何结构连接到任何地方的任何数据源,对其进行处理,并使用低代码创作体验交付到任何目的地。Cl
17、oudera CDP 产品介绍 15 STREAM PROCESSING:它由 Apache Flink 和 Kafka 提供支持,提供完整的企业级流管理和状态处理解决方案。借助对 SQL 等行业标准接口的支持,开发人员、数据分析师和数据科学家可以轻松构建各种混合实时应用程序。CLOUDERA SDX:使用Apache Ranger和Apache Atlas使用相同的工具保护、监控和管理您的流式处理工作负载。3.Cloudera Data Science Workbench(CDSW)CDSW-机器学习:覆盖从边缘到 AI 的场景。专有云线下客户,弥补 CDH 三大不足。更多组件和更高版本?C
18、DP 新增组件包括 Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger和 Atlas 等等。?更多的企业管理。Cloudera CDP 产品介绍 16 企业级安全和管理?CDP 的 Apache Ranger 提供了新的安全功能(动态行过滤和列掩码)。同时借助 Apache Atlas,CDP 改进了数据资产管理功能,帮助企业实现 PCI 和GDPR 标准。?更多的企业管理平台集成。版本持续更新更长时间 EoS 时间比较:?CDH 6.3:2022 年 3 月。后续仅有维护版本。?CDP 7.1:2023 年 5 月。产品线持续更新。四、典型场景 1.为什么选择
19、 CDP?许可证 renew+硬件更新的机会。HDP 2.6.x/CDH 5.x 覆盖了约 70的客户群。CDH、HDP EoS。运行这些软件的客户将需要升级到受支持的版本。Cloudera CDP 产品介绍 17 2.阿里云 CDP 产品客户价值 1)更快、更高效、更安全 2)重大功能增强/性能改进 数据工程:Spark3 性能提升 2 倍;支持 Nvidia GPU 卡,性能再提升 3-7 倍。数据仓库:Impala 性能提升 2 到 7 倍;新执行引擎 Hive on Tez,支持 ACID、物化视图,性能提升 5 倍以上。运营数据库:支持 SQL 和 No SQL 多种模式,吞吐量性能
20、提高 15-20%。Cloudera CDP 产品介绍 18 流处理:完善的集群管理,复制,流量控制。3)安全合规和售后支持 基于 Ranger 提供统一的细粒度访问控制,动态行过滤和列掩码。基于 Atlas 提供完善的元数据、血缘和监管链,高级数据发现和业务词汇表。持续修复已报的 CVE 安全漏洞。专家支持服务,快速解决使用问题,用户专注业务。4)不升级的影响 旧平台功能/性能/安全受限,无法满足部分应用需求和国家/行业合规性需求。没有售后支持,应用无法放心的广泛应用于生产,影响业务创新。5)CDP7.1 VS CDH6.3 更高版本 CDP 的 HDFS,Hive,HBase,Spark,
21、Kafka 和 Solr 等组件版本较新。更多组件 CDP 新增组件包括 Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger 和 Atlas等等。更长时间 EoS 时间比较:?CDH 6.3:2022 年 3 月。后续仅有维护版本。?CDP 7.1:2023 年 5 月。产品线持续更新。Cloudera CDP 产品介绍 19 安全合规 CDP 的 Apache Ranger 提供了新的安全功能(动态行过滤和列掩码)。同时借助Apache Atlas,CDP 改进了数据资产管理功能,帮助企业实现 PCI 和 GDPR 标准。更高扩展 Apache Hadoop
22、Ozone 是一个分布式 KV 存储,旨在实现数十亿个规模的文件扩展,远远超过当前 Namenode 文件上限(300M)。同时,Ozone 能与 HDFS 共享数据节点实现无缝迁移。更易管理 CM7.1 支持在 cgroup 中直接启用新配置。而在 C6 中必须重新启动集群才能更新cgroup 配置。另外,CDP 的 ZK 新版本修复了与 jackson-databind、Jetty、log4j相关的 17 个安全漏洞。新 Hive3 体验 Hive on Tez 提供更好的 ETL 性能,同时支持 ACID,极大简化事务处理,兼容 ANSI SQL 2016 标准。另外,Data Anal
23、ytics Studio 能够可视化展示 HiveSQL 对应的 DAG分解图。新 Spark 体验 CDP 预装 Spark 2.4.5,同时支持并行安装 Spark3.0。可以体验 Spark SQL 自适应执行和动态分区裁剪等功能。新的队列管理 CDP 的 YARN Queue Manager 使用 Capacity Scheduler,支持 GPU、Node Labels、GlobalScheduling,同时采取更加灵活的 Placement Policy。多种部署方式:支持公有云/本地部署,混合云部署 Cloudera CDP 产品介绍 20 6)CDP 公有云应用场景 现代数据库
24、 运营数据库 Cloudera CDP 产品介绍 21 准实时分析 流式处理和分析 升级现有集群 选项 A 步骤 1:将现有集群升级到 CDP PVC Base,从而基于现有数据创建 SDX 环境。Cloudera CDP 产品介绍 22 步骤 2:安装 CDP 私有云并使用“体验”构建新应用程序。步骤 3:使用工作负载管理器将关键工作负载从 CDP 数据中心版集群智能迁移到CDP 私有云体验。选项 B 步骤 1:在新硬件上安装 CDP 数据中心,并使用 Replication Manager 从现有集群中复制数据、元数据和策略以创建 SDX 环境。步骤 2:安装 CDP 私有云并使用“体验”
25、构建新应用程序。步骤 3:使用工作负载管理器将关键工作负载从 CDH/HDP 集群智能迁移到 CDP 私有云体验。CDP/HDP 何去何从 23 CDP/HDP 何去何从 一、CDH/HDP 平台现状 1.Cloudera 公司简介Cloudera 公司于 2008 年成立,2014 年进入中国,肯睿(上海)软件有限公司,当时的主要代表产品:CDH 是全球最受欢迎的 Hadoop 发行版,100%开源。2019 年 1 月 3 日,Cloudera 和 Hortonworks 正式合并,合并后 Cloudera 公司整合已有产品和最新的技术,提供端到端的混合数据云平台产品。在 Cloudera
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CDP 企业 数据 平台 入门 实践
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。