1、大数据应用人才培养系列教材第十三章RHadoop13.1 认识 RHadoopJ3.2 Rhdoop 安装13.3 综合练习习题 13.1 认识 RHadoop第十三章RHadoop(1)Hadoop家族的强大之处在于对大数据的处理,让原来的不 可能(TB,PB数据量计算),成为了可能。所以,hadoop重点是海 量数据分析。(2)R语言的强大之处在于统计分析,在没有Hadoop之前,我 们对于大数据的处理。可以看出,两种技术放在一起,刚好是取长补短。大数据应用人才培养系列教材第十三章RHadoop13.1 认识 RHadoop13.2 RHadoop 安装13.3 军合练习习题 13.2 R
2、Hadoop安装第十三章RHadoopQ)下载依赖包https:/ rmr-2.1.0rhdfs-1.0.5rhbase-1.1复制至i/root/R目录/R#pwd/root/R/R#Isrhbase_l.l.tar.gz rhdfs_1.0.5.tar.gz rmr2_2.1.0.tar.gz 13.2 RHadoop安装第十三章RHadoop(2)安装rJava库,在配置好了JDK 1.6的环境后,运行R CMD javareconf命令,R的程序从系统变量中会读取Java配置。然后打开R程 序,通过install.packages的方式安装rJava。13.2 RHadoop安装第十三
3、章RHadoop(3)安装依赖库 在命令行执行:R CMD javareconf R启动R程序install.packages(rJava)install.packages(reshape2)instalLpackages(Rcpp)install.packages(iterators)install.packages(itertools)install.packages(digest)instalLpackages(RJSONIO)install.packagesCfunctional)13.2 RHadoop安装第十三章RHadoop(4)安装rhdfs库,在环境变量中增加 HADOOP_
4、CMD和 HADOOP_STREAMING 两个变量:vi/etc/environmentHADOOP_CMD=/root/hadoop/hadoop-1.0.3/bin/HadoopHADOOP_STREAMING=/root/hadoop/hadoop-1.0.3/contrib/streaming/hadoop-streaming-1.0.3.jar安装rm r库R CMD INSTALL rmr2_2.1.0.tar.gz(6)安装rhbase库安装完成HBase后,还需要安装Thrift,因为rhbase是通过Thrift调 用HBase的。Thrift是需要本地编译的,官方没有提供
5、二进制安装包,首先下载 thrift-0.8.0o在Thrift解压目录输入./configure,会列Thrift在当前机器所支持的 语言环境,如果只是为了rhbase,默认配置就可以了。13.2 RHadoop安装第十三章RHadoop(7)安装 rhbase。下载th riftwg et http:/archive.apache.0rg/dist/thrift/O.8.O/thrift-O.8.O.tar.gztar xvf thrift-0.8.0.tar.gzcd thrift-0.8.0/下载PHP支持类库(可选)sudo a pt-get install php-cli下载C+支
6、持类库(可选)sudo apt-get install libboost-dev libboost-test-dev libboost-program-options-dev libevent-dev automake libtool flex bison pkg-config g+libssl-dev 13.2 RHadoop安装第十三章RHadoop生成编译的配置参数./configure编译和安装makemake install 查看th rift版本 thrift-versionThrift version 0.8.0启动HBase的Thrift Server/hbase-0.94.2
7、/bin/hbase-daemon.sh start thrift jps安装rhbaseR CMD INSTALL rhbase_l.l.l.tar.gz 13.2 RHadoop安装第十三章RHadoop(8)查看安装的类库一般R的类库目录是/usr/lib/R/site-library或者/usr/local/lib/R/site-library,用户也可以使用whereis R的命令查询,自己计算机上R类库的安装位 置。Is/diskl/system/usr/local/lib/R/site-library/digest functional iterators itertools p
8、lyr Repp reshape2 rhdfs rJava RJSONIO rmr2 stringr大数据应用人才培养系列教材第十三章RHadoop13JJAiRRHadoop13.2 RHadoop 安装13.3 综合练习习题13.3综合练习第十三章RHadoopQ)查看hadoop目录 hadoop fs-Is/user(2)查看hadoop数据文件hadoop fs-cat/user/hdfs/o_same_school/part-m-00000(3)启动R程序(4)启动 MapReduce Iibrary(rmr2)small.ints=to.dfs(l:10)mapreduce(in
9、put=small.ints,map=function(kz v)cbind(v,vA2)from.dfs(7tmp/RtmpWnzxl4/file5deb791fcbd5)13.3综合练习第十三章RHadoopwordcount执行rmr2任务 input wordcount=function(input,output=NULL,pattern=)wc.map=function(.z lines)keyval(unlist(strsplit(x=lines,split=pattern)zl)wc.reduce=function(wordz counts)keyval(wordz sum(co
10、unts)mapreduce(input=input zoutput=output,input.format=text,map=wc.map,reduce=wc.reduce,combine=T)wordcount(input)from.dfs(7tmp/RtmpfZUFEa/file6cac626aa4a7)大数据应用人才培养系列教材第十三章RHadoop13JJAiRRHadoop13.2 RHadoop 安装13.3 综合练习习题习题:1.下面_程序负责HDFS数据存储。A.NameNode BJobtracker C.Datanode D.secondaryNameNode2.Hado
11、op作者是_oA.Martion Fowler B.Kent Beck C.Doug cutting3.Rhadoop是将R的强大_能力和hadoop的_相结合。4.通过R的三个包_ _,实现R对hadoop各个组件的调用。5.Hadoop主要用来_,R语言完成_算法。6.R语言的强大之处?7.Mahout是基于Hadoop的_和_的算法框架。8.Hadoop作者是_。A.Martion Fowler B.Kent Beck C.Doug cutting9.Hadoop家族的强大之处,在于对_的处理,让原来的不可能(TB,PB数据量计算),成为了可能。10.Mahout和R语言的区另?习题:11.Rhadoop的四个组成功能。12.Hadoop特点及优势?13.R与Hadoop结合一般步骤?14.R的三个包rmr、rhdfs、rhbase分别是对应Hadoop系统架构中的哪个 部分?15.对应MapReduce的R包的名称。16.对应HDFS的R包的名称感谢聆听