[关闭]
@awsekfozc 2016-01-27T11:13:29.000000Z 字数 3925 阅读 3230

hadoop2.x部署(SingleCluster)[1]

Hadoop

  • JDK安装
  • hadoop2.x安装,配置环境
  • HDFS配置
  • YARN配置
  • 运行第一个mapreduce

1.JDK

检查是否安装JDK

  1. $rpm -qa|grep java

卸载已安装的JDK

  1. $rpm -e --nodeps XXXX

解压安装包[2]

  1. $ sudo chmod 755 jdk-7u67-linux-x64.tar.gz --修改权限
  2. $ sudo chown zhangcheng:zhangcheng jdk-7u67-linux-x64.tar.gz --修改档案拥有者,用户组
  3. $ tar -zxf jdk-7u67-linux-x64.tar.gz -C /opt/modules/ --解压JDK到/opt/modules/

配置环境变量

  1. $ sudo vi /etc/profile --编辑环境变量配置文件
  2. --加入以下文本 JAVA_HOME=JDK的绝对路径
  3. ## JAVA_HOME
  4. export JAVA_HOME=/opt/modules/jdk1.7.0_67
  5. export PATH=$PATH:$JAVA_HOME/bin
  6. --保存文件
  7. $ source /etc/profile --使环境变量生效
  8. $ java -version --验证安装结果

2.hadoop[3]

解压,删除无用文件 (可选)

  1. $ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/
  2. --可选项,删除doc文档
  3. $ cd /opt/modules/hadoop-2.5.0/share
  4. $ rm -rf doc/
  5. --可选项,删除cmd文件
  6. $ cd /opt/modules/hadoop-2.5.0/sbin
  7. $ rm -rf ./*.cmd
  8. $ cd /opt/modules/hadoop-2.5.0/libexec
  9. $ rm -rf ./*.cmd
  10. $ cd /opt/modules/hadoop-2.5.0/etc/hadoop
  11. $ rm -rf ./*.cmd

配置环境

  1. hadoop环境配置文件都置于/opt/modules/hadoop-2.5.0/etc/hadoop目录之下。
  2. 使用Notepad++来配置。

此处输入图片的描述
标签: hadoop配置
文件:/opt/modules/hadoop-2.5.0/etc/hadoop/hadoop-env.sh
配置内容:

  1. <!-- hadoop-env.sh,配置hadoop的JAVA_HOME -->
  2. export JAVA_HOME=/opt/modules/jdk1.7.0_67
  3. <!-- yarn-env.sh,配置yarn的JAVA_HOME -->
  4. export JAVA_HOME=/opt/modules/jdk1.7.0_67
  5. <!-- mapred-env.sh,配置mapreduce的JAVA_HOME -->
  6. export JAVA_HOME=/opt/modules/jdk1.7.0_67

3.HDFS

core-site.xml(namenode配置)

  1. <!-- 配置namenode地址 -->
  2. <!-- value说明:hdfs地址 -->
  3. <configuration>
  4. <property>
  5. <name>fs.defaultFS</name>
  6. <value>hdfs://hadoop.zc.com:8020</value>
  7. </property>
  8. </configuration>

slaves(datanode配置)

  1. <!-- 添加使用机的主机名 -->
  2. hadoop.zc.com

hdfs-site.xm(配置副本数)

  1. <!-- 配置副本数 -->
  2. <!-- value说明:副本的数量 -->
  3. <configuration>
  4. <property>
  5. <name>dfs.replication</name>
  6. <value>1</value>
  7. </property>
  8. </configuration>

格式化HDFS

  1. $ bin/hdfs --查看命令
  2. $ bin/hdfs namenode -format --格式化HDFS
  3. <!--查看日志:INFO common.Storage: Storage directory /tmp/hadoop-zhangcheng/dfs/name has been successfully formatted.
  4. -->

启动HDFS

  1. <!--启动namenode-->
  2. $ sbin/hadoop-daemon.sh start namenode
  3. <!--启动datanode-->
  4. $ sbin/hadoop-daemon.sh start datanode
  5. <!--查看启动-->
  6. $ jps
  7. <!--启动出错请查看日志:/opt/modules/hadoop-2.5.0/logs-->

运行HDFS管理web

http://hadoop.zc.com:50070/

上传,读取,下载

  1. <!--新建目录-->
  2. $ bin/hdfs dfs -mkdir -p /user/zhangcheng/tmp
  3. <!--上传文件-->
  4. $ bin/hdfs dfs -put etc/hadoop/core-site.xml /user/zhangcheng/tmp
  5. <!--读取文件-->
  6. $ bin/hdfs dfs -cat /user/zhangcheng/tmp/core-site.xml
  7. <!--下载文件-->
  8. $ bin/hdfs dfs -get /user/zhangcheng/tmp/core-site.xml /home/zhangcheng/g-core-site.xml

WEB地址:http://hadoop.zc.com:50070/
HDFS管理web.png-46.6kB


4.YARN

yarn-site.xml

  1. <configuration>
  2. <!--配置服务框架(以下为mapreduce框架的配置,NodeManager)-->
  3. <property>
  4. <name>yarn.nodemanager.aux-services</name>
  5. <value>mapreduce_shuffle</value>
  6. </property>
  7. <!--配置ResourceManager-->
  8. <property>
  9. <name>yarn.resourcemanager.hostname</name>
  10. <value>hadoop.zc.com</value>
  11. </property>
  12. </configuration>

启动YARN管理WEB

  1. <!--启动ResourceManager-->
  2. $ sbin/yarn-daemon.sh start resourcemanager
  3. <!--启动NodeManager-->
  4. $ sbin/yarn-daemon.sh start nodemanager
  5. <!--启动出错请查看日志:/opt/modules/hadoop-2.5.0/logs-->

WEB地址:http://hadoop.zc.com:8088/
YARN管理WEB.png-58.3kB


5. 第一个mapreduce(wordcount)

运行在yarn配置

  1. <!--mapred-site.xml(mapred-site.xml.template改名)-->
  2. <!--配置mapreduce运行在yarn上-->
  3. <configuration>
  4. <property>
  5. <name>mapreduce.framework.name</name>
  6. <value>yarn</value>
  7. </property>
  8. </configuration>

准备input目标

  1. <!--新建或者是已有文件-->
  2. $ vi wc.inp
  3. <!--上传要wordcount的文件-->
  4. $ bin/hdfs dfs -put /opt/datas/wc.inp /user/zhangcheng/mapreduce/wordcount/input

运行wordcount

  1. <!--input,output-->
  2. $ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/zhangcheng/mapreduce/wrodcount/input/ /user/zhangcheng/mapreduce/wordcount/output/
  3. <!--查看运行结果-->
  4. $ bin/hdfs dfs -text /user/zhangcheng/mapreduce/wordcount/output/part-r-0000

mapreduce运行结果.png-4.4kB


[1] http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html
[2] 普通账户加入sudo权限。方法:切换到root用户
# vi /etc/sudoers
在第一行添加如下内容:
zhangcheng ALL=(root)NOPASSWD:ALL
[3] 地址:https://archive.apache.org/dist/hadoop/common/
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注