分享
分销 收藏 举报 申诉 / 10
播放页_导航下方通栏广告

类型大数据项目技术选型.docx

  • 上传人:二***
  • 文档编号:4735154
  • 上传时间:2024-10-11
  • 格式:DOCX
  • 页数:10
  • 大小:22.03KB
  • 下载积分:5 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 项目 技术 选型
    资源描述:
    目录构造 一、主流架构选用技术 二、Hadoop版本选型方案 三、选用的技术与其他工具的比照 四、大数据相关的技术选型版本确定 五、市场上的hadoop发行版厂商资料 六、具体操作 一、主流架构选用技术: 采集层:flume ; sqoop 存储层:包括文件存储层和数据存储层 文件:采用hdfs存储 数据:采用hbase, redis等 模型层:离线处理:mr/yarn;实时流式处理spark streaming(比storm的优势) 分析层:hive 管理层:zookeeper〔调度;ha] 二、Hadoop版本选型方案: Hadoop 提供的经典方案:HDP [Hadoop Data Platform] 管理一体化数据接入 Flume Script SQL Nosql Stream Search Irr Memory Others Sqoop Pig Hive Hbase Storm Solr Spark YARN-Ready Apps NFS z. YARN WebHDFS Falcon HDFS 数据管理 三、选用的技术与其他工具的比照: 选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高 选用Flume的好处:纯Java开发,框架清楚,易于开发,可以直接写hdfs且支持对t附和 sequence 压缩 选用Spark的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方 面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据 的所有核心问题 平安操作 认证,授权,审计,数据保护准备,管理,监控 Storage : HDFS Ambari Resource : YARN Zookeeper Access : Hive Oozie Pipeline: Falcon Cluster Kno* Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化 四、大数据相关的技术选型版本确定: 操作系统:CentOSG* 各个技术版本:〔最新,最稳定,bug少〕 Hadoop 版本: 此版本是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本 Zookeeper 版本: 此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停 顿问题。 Z. Flume版本: Kafka版本: Spark版本: 此版本能支持以上的版本且相对稳定版 Sqoop版本: Hive版本: Hbase版本: Mahout 版本: 五、市场上的hadoop发行版厂商资料: 除了社区的 Apache Hadoop 夕卜,Cloudera , Horton works , MapR , EMC 版本: IBM , Intel ,华为等都提供了自己的商业版本。 版本 容 特点 网址 • doudera / d ocumentatio n/archive/c 曲/4-*/4-7- 1/CDH4-In stallation-Gu ide/cdh4ig_t opic_ll_4 ht ml Hort on works HDP 包括 HDFS、 YARN 、 HBase、 Map Reduce s Hive、Pig、 h orton works ./ Z. 11 Catalogs Zookeeper、 Oozies Mahouts Hue、 Ambari、Tez 和 Hive 的实时版(Stinger)以及 其他开源工具。 MapR 包括 HDFS、HBase、 MapReduce、 Hive、 Mahouts Oozie、Pig、 Zoo Keeper、Hue 和其 他开源工具。还包括直 接NFS访问、快照和 用于“高可用性”的镜 像有的H Base实现(与 Apache API完全兼 容),以及MapR管理 控制台。 1.构建一个HDFS的私有替代品, 这个替代品比当前的开源版本快三 倍,自带快照功能,而且支才寺无 NameNode单点故障(SPOF),并 且在API上和开源版兼容,所以可 以考虑将其作为替代方案。不再需 要单独的NameNode机器,元数据 分散在集群中,也类似数据默认存 储三份。 2也不再需要用网络附加存储 (NAS)来协助 NameNode做元数 据备份,提高了机器使用率。 a还有个重要的特点是可以使用 nfs直接访问hdfs ,提供了与旧有 应用的兼容性。镜像功能也很适合 s:/Z mapr / z. 4每年每个节点4000美元。 5在性能方面具备优势。 包括 、 .emc. /zh-/in de兆 htnTfro m GlobalSele ctor 在平台管理,平安认证,作业调度 .ibm. /us-en/ 算法,与DB2及netezza的集成 上做了增强。兼容性好,同时运行 多种Hadoop版本的程序,IBM的 效劳。 Intel Hadoop 主要是强调其能提供全面的翘院 解决方案设计,针对硬件具有更好 的性能优化,以及提供集群管理工 具和安装工具简化了 Hadoop的 安装和配置,能够提供工程规划到 实施各阶段专业的咨询效劳,实际 中采购Intel版本貌似动力缺乏。 z. 性能好,最先进入中国市场。 Funsionlnsight Hadoop .huawei // HiveServer的HA功能,进程故障 后系统自动Failover ,无需人工干 预,这个也是对 Hadoop的小修 补,远不如MapR解决的彻底。 当为公司/部门选取特定发行版时,需要考虑如下因素: 技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。 易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。 易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。 本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。 企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。 选用Cloudera的方案: Z. Cloudem :最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和 监控工具。Qoudem开发并奉献了可实时处理大数据的Impala工程。 优点: L基于Apache协议,100%开源。 2 版本管理清晰。比方Cloudeg CDH1, CDH2, CDH3, CDH4等,后面加上补丁版 本,如CD H4.L0patch level 923 142,表示在原生态根底上添加了 1065个patch。 3比Apache Hadoop在兼容性、平安性、稳定性上有增强。第三方发行版通常都经过 了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。 4版本更新快。通常情况,比方CDH每个季度会有一个update,每一年会有一个release。 5,基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch 6提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时部署 好集群。 7・运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题 快速、准确,使运维工作简单,有效。 缺点: L涉及到厂商锁定的问题。〔可以通过技术解决〕 六、具体操作: Hadoop2.6 HA 搭建 至少四台机器:hadoopl, hadoop2, hadoop3, hadoop4 NM〔任 务管理〕 Hadoopl Y Hadoop2 Y Y Y Y Hadoop3 Y Y Y Hadoop4 Y Y Y z. L core-site *ml (configuration〉 < property > <name >fs defaultFS</name > < value >hdfs: / / zhjy</value > </property > < property > < na me > ha. zookeeper quoru m</name> < value >hadoop 1:2181, hadoop2:2181,hadoop3:2181</value> < /property > < property > < na me > hadoopi tmp. dir</nanie> < value >/ opt/hadoop < / value > </property > < / configuration > 2 hdfs-site*ml 〈configuration〉 < property > <name>dfs nameservices</name > < value > z hjy < / value > < /property > < property > <name>dfs ha namenodes zhjy</name> < value >nnl, nn2 </value > < /property > < property > <name>dfs namenodei rpc-address zhjy; nnl </name> < value > hadoop 1:8020 < / value > </property > < property > <name>dfs namenodei rpc-address zhjy; nn2</name> < value > hadoop2:8020 </value > </property > < property > <name> dfs namenode -address zhjy nnl </name> < value > hadoop 1:50070 < / value > </property > < property > <name>dfs namenode -address zhjy nn2</name> < value >hadoop2:50070 < / value > </property > < property > <name>dfs namenode shared edits dir\/name > < value >qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</value z. > </property> < property > <name> dfs client feilover pro^ provider zhjy</ na me > < value>org apache, hadoop. hdfs server, namenodei ha ConfigiiredFailoverPro*yProvider</value> </property > < property > < na me > dfs ha fencing methods </name> < value >sshfence < / value > </property > < property > <name> dfs ha fencing ssh. pri vate-key^files < / name > < value >/root/ ssh/id dsa</value > </property > < property > < name> dfs journalnodci edits dir</nam e > < value >/opt/hadoop/data〈/value > </property> < property > <name>dfs ha autom aticdfailover enabled </name> < value >true < / value > </property> </configuration > 3 准备 zookeeper 8) 三台 zookeeper : hadoop 1, hadoop2, hadoop3 b) 编辑zoq cfg配置文件 i 修改 dataDir=/opt/zookeeper ii server l=hadoop 1:2888:3888 server 2=hadoop2:2888:3888 server 3=hadoop3:2888:3888 c) 在dataDir目录中创立一个myid的文件,文件容为1, 2, 3 4 配置 hadoop 中 的 slaves 5 启动三个 zookeeper :. /zkServer.sh start 6 启动三个 Journal Node :. /hadoop-daemon. sh start j)urnalnode 7 . 在其中一个 namenode 上格式化:hdfs namenode -format S 把刚刚格式化之后的元数据拷贝到另外一个namenode上 a)启动刚刚格式化的namenode b) 在没有格式化的 namenode 上执行:hdfs namenode -bootstrapStandby c) 启动第二个namenode 9 . 在其中—namenode 上初始化 zkfc : hdfs zkfc -formatZK 10 .停顿上面节点:stop-dfs sh 全面启动:start-dfssh z.
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:大数据项目技术选型.docx
    链接地址:https://www.zixin.com.cn/doc/4735154.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork