大数据项目技术选型.docx

上传人：二***

文档编号：4735154

上传时间：2024-10-11

格式：DOCX

页数：10

大小：22.03KB

下载积分：5 金币

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

5 金币

下载 开通VIP

还剩页未读，继续阅读

举报
申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：
如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制：
部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。

关键词：
数据项目技术选型

资源描述：

目录构造一、主流架构选用技术二、Hadoop版本选型方案三、选用的技术与其他工具的比照四、大数据相关的技术选型版本确定五、市场上的hadoop发行版厂商资料六、具体操作一、主流架构选用技术：采集层：flume ； sqoop 存储层：包括文件存储层和数据存储层文件：采用hdfs存储数据：采用hbase, redis等模型层：离线处理：mr/yarn;实时流式处理spark streaming（比storm的优势）分析层：hive 管理层：zookeeper〔调度；ha] 二、Hadoop版本选型方案： Hadoop 提供的经典方案：HDP [Hadoop Data Platform] 管理一体化数据接入 Flume Script SQL Nosql Stream Search Irr Memory Others Sqoop Pig Hive Hbase Storm Solr Spark YARN-Ready Apps NFS z. YARN WebHDFS Falcon HDFS 数据管理三、选用的技术与其他工具的比照：选用sqoop的好处：开源，抽取的数据可以直接传至hive,可操作性和可视性高选用Flume的好处：纯Java开发，框架清楚，易于开发，可以直接写hdfs且支持对t附和 sequence 压缩选用Spark的好处：基于存，适合需要屡次迭代计算的算法，在迭代处理计算方面比Hadoop快100倍以上，Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题平安操作认证，授权，审计，数据保护准备，管理，监控 Storage ： HDFS Ambari Resource ： YARN Zookeeper Access ： Hive Oozie Pipeline: Falcon Cluster Kno* Hue的好处：多应用平台，便捷的操作流程；自动补全；查询结果表格化图像化四、大数据相关的技术选型版本确定：操作系统:CentOSG* 各个技术版本：〔最新，最稳定，bug少〕 Hadoop 版本：此版本是一个相对最新且比较稳定的版本，基数版本可能不稳定，最好选用偶数版本 Zookeeper 版本：此版本修复了此前的9个问题，最明显的是在关闭zookeeper时会产生的一个停顿问题。 Z. Flume版本： Kafka版本： Spark版本：此版本能支持以上的版本且相对稳定版 Sqoop版本： Hive版本： Hbase版本： Mahout 版本：五、市场上的hadoop发行版厂商资料：除了社区的 Apache Hadoop 夕卜，Cloudera , Horton works , MapR , EMC 版本： IBM , Intel ,华为等都提供了自己的商业版本。版本容特点网址 • doudera / d ocumentatio n/archive/c 曲/4-*/4-7- 1/CDH4-In stallation-Gu ide/cdh4ig_t opic_ll_4 ht ml Hort on works HDP 包括 HDFS、 YARN 、 HBase、 Map Reduce s Hive、Pig、 h orton works ./ Z. 11 Catalogs Zookeeper、 Oozies Mahouts Hue、 Ambari、Tez 和 Hive 的实时版(Stinger)以及其他开源工具。 MapR 包括 HDFS、HBase、 MapReduce、 Hive、 Mahouts Oozie、Pig、 Zoo Keeper、Hue 和其他开源工具。还包括直接NFS访问、快照和用于“高可用性”的镜像有的H Base实现（与 Apache API完全兼容），以及MapR管理控制台。 1.构建一个HDFS的私有替代品，这个替代品比当前的开源版本快三倍，自带快照功能，而且支才寺无 NameNode单点故障（SPOF）,并且在API上和开源版兼容，所以可以考虑将其作为替代方案。不再需要单独的NameNode机器，元数据分散在集群中，也类似数据默认存储三份。 2也不再需要用网络附加存储（NAS）来协助 NameNode做元数据备份，提高了机器使用率。 a还有个重要的特点是可以使用 nfs直接访问hdfs ,提供了与旧有应用的兼容性。镜像功能也很适合 s:/Z mapr / z. 4每年每个节点4000美元。 5在性能方面具备优势。包括、 .emc. /zh-/in de兆 htnTfro m GlobalSele ctor 在平台管理，平安认证，作业调度 .ibm. /us-en/ 算法，与DB2及netezza的集成上做了增强。兼容性好，同时运行多种Hadoop版本的程序，IBM的效劳。 Intel Hadoop 主要是强调其能提供全面的翘院解决方案设计,针对硬件具有更好的性能优化,以及提供集群管理工具和安装工具简化了 Hadoop的安装和配置,能够提供工程规划到实施各阶段专业的咨询效劳，实际中采购Intel版本貌似动力缺乏。 z. 性能好，最先进入中国市场。 Funsionlnsight Hadoop .huawei // HiveServer的HA功能，进程故障后系统自动Failover ,无需人工干预，这个也是对 Hadoop的小修补，远不如MapR解决的彻底。当为公司/部门选取特定发行版时，需要考虑如下因素：技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。选用Cloudera的方案： Z. Cloudem ：最成型的发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。Qoudem开发并奉献了可实时处理大数据的Impala工程。优点： L基于Apache协议，100%开源。 2 版本管理清晰。比方Cloudeg CDH1, CDH2, CDH3, CDH4等，后面加上补丁版本，如CD H4.L0patch level 923 142,表示在原生态根底上添加了 1065个patch。 3比Apache Hadoop在兼容性、平安性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证，有众多部署实例，大量的运行到各种生产环境。 4版本更新快。通常情况，比方CDH每个季度会有一个update,每一年会有一个release。 5,基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch 6提供了部署、安装、配置工具，大大提高了集群部署的效率，可以在几个小时部署好集群。 7・运维简单。提供了管理、监控、诊断、配置修改的工具，管理配置方便，定位问题快速、准确，使运维工作简单，有效。缺点： L涉及到厂商锁定的问题。〔可以通过技术解决〕六、具体操作： Hadoop2.6 HA 搭建至少四台机器：hadoopl, hadoop2, hadoop3, hadoop4 NM〔任务管理〕 Hadoopl Y Hadoop2 Y Y Y Y Hadoop3 Y Y Y Hadoop4 Y Y Y z. L core-site *ml (configuration〉 < property > <name >fs defaultFS</name > < value >hdfs: / / zhjy</value > </property > < property > < na me > ha. zookeeper quoru m</name> < value >hadoop 1:2181, hadoop2:2181,hadoop3:2181</value> < /property > < property > < na me > hadoopi tmp. dir</nanie> < value >/ opt/hadoop < / value > </property > < / configuration > 2 hdfs-site*ml 〈configuration〉 < property > <name>dfs nameservices</name > < value > z hjy < / value > < /property > < property > <name>dfs ha namenodes zhjy</name> < value >nnl, nn2 </value > < /property > < property > <name>dfs namenodei rpc-address zhjy; nnl </name> < value > hadoop 1:8020 < / value > </property > < property > <name>dfs namenodei rpc-address zhjy; nn2</name> < value > hadoop2:8020 </value > </property > < property > <name> dfs namenode -address zhjy nnl </name> < value > hadoop 1:50070 < / value > </property > < property > <name>dfs namenode -address zhjy nn2</name> < value >hadoop2:50070 < / value > </property > < property > <name>dfs namenode shared edits dir\/name > < value >qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</value z. > </property> < property > <name> dfs client feilover pro^ provider zhjy</ na me > < value>org apache, hadoop. hdfs server, namenodei ha ConfigiiredFailoverPro*yProvider</value> </property > < property > < na me > dfs ha fencing methods </name> < value >sshfence < / value > </property > < property > <name> dfs ha fencing ssh. pri vate-key^files < / name > < value >/root/ ssh/id dsa</value > </property > < property > < name> dfs journalnodci edits dir</nam e > < value >/opt/hadoop/data〈/value > </property> < property > <name>dfs ha autom aticdfailover enabled </name> < value >true < / value > </property> </configuration > 3 准备 zookeeper 8) 三台 zookeeper ： hadoop 1, hadoop2, hadoop3 b) 编辑zoq cfg配置文件 i 修改 dataDir=/opt/zookeeper ii server l=hadoop 1:2888:3888 server 2=hadoop2:2888:3888 server 3=hadoop3:2888:3888 c) 在dataDir目录中创立一个myid的文件，文件容为1, 2, 3 4 配置 hadoop 中的 slaves 5 启动三个 zookeeper ：. /zkServer.sh start 6 启动三个 Journal Node ：. /hadoop-daemon. sh start j)urnalnode 7 . 在其中一个 namenode 上格式化：hdfs namenode -format S 把刚刚格式化之后的元数据拷贝到另外一个namenode上 a)启动刚刚格式化的namenode b) 在没有格式化的 namenode 上执行：hdfs namenode -bootstrapStandby c) 启动第二个namenode 9 . 在其中—namenode 上初始化 zkfc ： hdfs zkfc -formatZK 10 .停顿上面节点：stop-dfs sh 全面启动：start-dfssh z.

展开阅读全文

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

关于本文

本文标题：大数据项目技术选型.docx
链接地址：https://www.zixin.com.cn/doc/4735154.html

二***

内容提供者实名认证

平台协调中心【客服】

相似文档自信AI助手

财务管理1..doc
送给老师经典的赠言.docx
唐人街商业2007业态调整招商方案.doc
银监会就保理业务管理暂行办法答问.doc
数据中心机房管理标准规范V.doc
幸福的心情.docx
金龙阳公司财务管理细则草案.doc
高校图书馆信息化管理势在必行.doc
新东方俞敏洪寓言励志故事七则.docx

搜索标签自信AI导航

数据项目技术选型