Hadoop基础知识培训.ppt
《Hadoop基础知识培训.ppt》由会员分享,可在线阅读,更多相关《Hadoop基础知识培训.ppt(48页珍藏版)》请在咨信网上搜索。
1、企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop基础知识培训江西电信大数据支撑团队2014年中国电信大数据技术与应用培训PDF created with pdfFactory Pro trial version 2企业信息化部PDF created with pdfFactory Pro trial version 把信息化打造成为中国电信企业核心竞争力之一主要内容主要内容第一篇 Hadoop综述 第二篇 HDFS 分布式文件系统第三篇 MapReduce 分布式计算框架 第四篇 常用Hadoop组件介绍3企业信息化部把信息化打造成为中国电信企业核心竞争力之一第一篇第一篇Ha
2、doop综述综述:什么是Hadoop:Hadoop生态系统:Hadoop的厂商:Hadoop的部署PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop是什么是什么?Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。yHDFS的的高高容容错错性性、高高伸伸缩缩性性等等优优点点,允允许许用用户户将将Hadoop部部署署 在廉价的硬件上,构建分布式系统。在廉价的硬件上
3、,构建分布式系统。yMapReduce分分布布式式计计算算框框架架允允许许用用户户在在不不了了解解分分布布式式底底层层细细节节 的的情情况况下下开开发发并并行行、分分布布的的应应用用程程序序,利利用用大大规规模模计计算算资资源,解源,解 决传统高性能单机无法解决的大数据处理问题决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene高性能全文 索引工具包高性能搜索 引擎工具包版本演进对应Cloudera公司的CDH3u5对应Cloudera 公司的CDH4PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为
4、中国电信企业核心竞争力之一Hadoop的特点的特点Hadoop运用于海量数据处理,主要有如下几个优势:方便方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之
5、一HADOOP生态系统y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所 示:PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一发展目标HADOOP生态系统(1)实时应用场景(05s):Storm、S4等;(2)交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:Cloudera Impala、Apache Drill、Shark等;(3)非交互式场景(1m1h):通常运行时间较长
6、,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一HADOOP厂商Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商
7、通过技术创新各显神通。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一物理上的物理上的Hadoop集群集群PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一逻辑部署的逻辑部署的Hadoop集群集群PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一简介:江西电信Hadoop批处理平 台共由62台PC服务器构成,
8、形成物理上独立的3个RACK,按照功能角色分组,主控 节点、数据节点、Hive接入 节点、元数据节点、监控告 警节点和ETL节点。主控节点6台(2台Namenode、1台 Jobtracker、3台 Zookeeper)数据节点56台江西电信物理部署的江西电信物理部署的Hadoop集群集群PDF created with pdfFactory Pro trial version 12企业信息化部PDF created with pdfFactory Pro trial version 把信息化打造成为中国电信企业核心竞争力之一第二篇第二篇HDFS一:HDFS简介二:HDFS 架构三:漫画HDF
9、S之读写机制 四:漫画HDFS之容错性 五:漫画HDFS之复制策略企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 HDFS简简介介HDFS(HADOOP DISTRIBUTED FILE SYSTEM)HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。,是一个分布式文件系统。它它是谷歌的是谷歌的GFSGFS提出之后出现的一种提出之后出现的一种用户级文件系统。有一定的容错。有一定的容错性,性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS HDFS 提供了一个高度容错性和高吞
10、吐量的海量数据存储解决方案提供了一个高度容错性和高吞吐量的海量数据存储解决方案PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 HDFS 架构Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanode上存储多份副本,默认3份基本概念Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系Datanode:负责存储数据,数据以block的形式存在PDF crea
11、ted with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写(续)PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写PDF created with pdfFactory Pro trial version 企业信息
12、化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF create
13、d with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一5 HDFS 之漫画复制策略PDF created with pdfFactory Pro trial version 24企业信息化部PDF created with pdfFactory Pro trial version 把信息化打造成为中国电信企业核心竞争力之一第二篇第二篇 MapReduce一
14、:MapReduce基础二:MapReduce优劣 三:MapReduce工作原理企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 MapReduce基础基础MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由Map(映射)和Reduce(归约)组成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段PDF created with pdfFactory Pro tri
15、al version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 MapReduce示例示例1.输入端根据输入文本大小进行切片形成适合输入端根据输入文本大小进行切片形成适合Map处理的数据处理的数据片片2.分片后的数据申请分片后的数据申请Map资源资源,执行本地单词映射操执行本地单词映射操作作3.通过交换将通过交换将map生成的结果按照单词进行归并重生成的结果按照单词进行归并重组组4.重组后的结果,申请重组后的结果,申请Reduce资源,进行单词的合并统资源,进行单词的合并统计计5.对对Reduce的结果进行记录合并生成输出文的结果进行记录合并生成输出文件件MapReduce过程
16、示例过程示例 对对输输入入的的文文 本本进进行行单词单词 统计统计 对对输输入入的的文文 本本 进进 行行 单单词词 统计统计PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 MapReduce 执行过程从MapReduce在整个Hadoop框架 的位置可以看出作为Hadoop最成熟 的批处理框架,MapReduce起到承 上启下的作用,一方面可以操作 HDFS中的数据,另一方面可以被封 装,提供Hive、Pig这样的上层组件 的调用PDF created with pdfFactory Pro
17、 trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一MapReduce优劣优劣MapReduce的缺点的缺点 通过通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和 灾备管理等,这样将极大地简化开发者工作灾备管理等,这样将极大地简化开发者工作 MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就的伸缩性非常好,也就是说,每增加一台服务器,其就 能将差不多的计算能力接入
18、到集群中,而过去的大多数分布式处理能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框框 架,在伸缩性方面都与架,在伸缩性方面都与MapReduce相差甚远。相差甚远。MapReduce的缺点的缺点 MapReduce最大的不足则在于,其不适应实时应用的需求,目前最大的不足则在于,其不适应实时应用的需求,目前还还 无法满足用户交互式的需求。无法满足用户交互式的需求。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 MapReduce+YARNPDF created with pdfFac
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 基础知识 培训
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。