[关闭]
@zhangyy 2019-12-11T11:33:36.000000Z 字数 3923 阅读 202

hadoop的简介与伪分布的搭建

hadoop的部分



一: 大数据hadoop简介

  1. hadoop 简介:
  2. 开源软件,可靠的,可分布式,可伸缩的。
  3. IOE
  4. ---------
  5. IBM // ibm 小型机
  6. Oracle // oracle 数据库服务器
  7. EMC // 共享存储柜
  8. cluster:
  9. -----------
  10. 集群
  11. 1T = 1024G
  12. 1P = 1024T
  13. 1E = 1024P
  14. 1Z = 1024E
  15. 1Y = 1024Z
  16. 1N = 1024Y
  17. 海量的数据:
  18. ------
  19. PB
  20. 大数据解决了两个问题:
  21. ---------------------
  22. 1. 存储
  23. 分布式存储
  24. 2. 计算
  25. 分布式计算
  26. 云计算:
  27. ------
  28. 1. 服务
  29. 2. 虚拟化
  30. 分布式:
  31. --------------
  32. 由分布在不同主机上的进程协同在一起,才能构成整个应用
  33. b/s 结构
  34. ---------------------
  35. Browser /http server 瘦客端模式
  36. failure over // 容灾
  37. fault over // 荣错
  38. 大数据4V特点:
  39. -------------------
  40. Volume : 容量大
  41. variety: 多样化
  42. velocity : 速度快
  43. valueless : 价值密度低
  44. Hadoop 的四个模块
  45. ------------------
  46. 1. common
  47. 2. hdfs
  48. 3. hadoop yarn
  49. 4. mapreduce (mr)
  50. hadoop 的安装模式:
  51. 1. 独立模式 standalone,local
  52. nothing !
  53. 2. 伪分布模式 (pseudodistributed mode)
  54. 3. 集群模式 (cluster mode)

二:hadoop的伪分布安装

2.1 软件所需

  1. 1. jdk-8u151-linux-x64.tar.gz
  2. 2. hadoop-2.7.4.tar.gz

2.2 安装jdk

  1. (1) 卸载原有jdk:
  2. rpm -e java-1.8.0-openjdk-devel-1.8.0.131-11.b12.el7.x86_64 java-1.7.0-openjdk-headless-1.7.0.141-2.6.10.5.el7.x86_64 java-1.8.0-openjdk-headless-1.8.0.131-11.b12.el7.x86_64 copy-jdk-configs-2.2-3.el7.noarch java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64 java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el7_3.x86_64 java-1.7.0-openjdk-1.7.0.141-2.6.10.5.el7.x86_64 java-1.6.0-openjdk-devel-1.6.0.41-1.13.13.1.el7_3.x86_64 java-1.7.0-openjdk-devel-1.7.0.141-2.6.10.5.el7.x86_64 --nodeps
  3. (2) 创建安装目录:
  4. mkdir /soft
  5. tar -zxvf jdk-8u151-linux-x64.tar.gz -C /soft
  6. cd /soft
  7. ln -s jdk1.8.0_151 jdk
  8. -----
  9. 配置环境变量
  10. vim /etc/profile
  11. ----
  12. 最后加上:
  13. # jdk
  14. export JAVA_HOME=/soft/jdk
  15. export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
  16. PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
  17. ---
  18. source /etc/profile
  19. java -version

image_1bt959ruciscvu4hociunb79.png-147kB

2.3 安装hadoop

  1. cd software
  2. tar -zxvf hadoop-2.7.4.tar.gz -C /soft
  3. cd /soft
  4. ln -s hadoop-2.7.4 hadoop
  5. 配置环境变量
  6. vim /etc/profile
  7. ----
  8. 到最后加上
  9. # hadoop
  10. export HADOOP_HOME=/soft/hadoop
  11. PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  12. ---
  13. source /etc/profile
  14. cd /soft/hadoop/
  15. bin/hadoop version

image_1bt95l14g1k1g1mdq1qcvnl5jspm.png-211.2kB

  1. cd /soft/hadoop/etc/hadoop
  2. 编辑core-site.xml 文件:
  3. vim core-site.xml
  4. <configuration>
  5. <property>
  6. <name>hadoop.tmp.dir</name>
  7. <value>/soft/hadoop/data</value>
  8. <description>hadoop_temp</description>
  9. </property>
  10. <property>
  11. <name>fs.default.name</name>
  12. <value>hdfs://node01.yangyang.com:8020</value>
  13. <description>hdfs_derect</description>
  14. </property>
  15. </configuration>
  1. 编辑hdfs-site.xml
  2. vim hdfs-site.xml
  3. ------------------
  4. <configuration>
  5. <property>
  6. <name>dfs.replication</name>
  7. <value>1</value>
  8. <description>num</description>
  9. <name>dfs.namenode.http-address</name>
  10. <value>node01.yangyang.com:50070</value>
  11. </property>
  12. </configuration>
  1. 编辑 mapred-site.xml
  2. cp -p mapred-site.xml.template mapred-site.xml
  3. vim mapred-site.xml
  4. ------
  5. <configuration>
  6. <property>
  7. <name>mapreduce.framework.name</name>
  8. <value>yarn</value>
  9. </property>
  10. <property>
  11. <name>mapreduce.jobhistory.webapp.address</name>
  12. <value>node01.yangyang.com:19888</value>
  13. </property>
  14. </configuration>
  1. 配置yarn-site.xml
  2. vim yarn-site.xml
  3. -----------------
  4. <configuration>
  5. <property>
  6. <name>yarn.nodemanager.aux-services</name>
  7. <value>mapreduce_shuffle</value>
  8. </property>
  9. </configuration>
  1. #echo "export JAVA_HOME=/soft/jdk" >> hadoop-env.sh
  2. #echo "export JAVA_HOME=/soft/jdk" >> mapred-env.sh
  3. #echo "export JAVA_HOME=/soft/jdk" >> yarn-env.sh
  1. 格式化文件系统:
  2. bin/hdfs namenode -format

image_1bt96ue3j103hul0150l1hpf1nqs9.png-322.5kB
image_1bt96v0c012uv11lc33312cmr2am.png-440.7kB

  1. 启动namenode datanode
  2. hadoop-daemon.sh start namenode
  3. hadoop-daemon.sh start datanode
  4. 打开浏览器:

image_1bt976kkm3be1s4f1gcg53s1qk813.png-166kB

  1. 启动yarn
  2. yarn-daemon.sh start resourcemanager
  3. yarn-daemon.sh start nodemanager
  4. 打开浏览器

image_1bt97dtlro03k4kcg27o7j6420.png-314.4kB

image_1bt98amtj1p3t1ac31pp51p7l1paa5l.png-129.9kB

三:运行wordcount测试

  1. hdfs dfs -mkdir /input
  2. vim file1

image_1bt97ij7r11b41oo9rnuosp1ll2d.png-69.6kB

  1. hdfs dfs -put file1 /input
  2. cd /soft/hadoop/share/hadoop/mapreduce
  3. yarn jar hadoop-mapreduce-examples-2.7.4.jar wordcount /input /output

image_1bt97nk6pq6hfsmsq91lq91nc237.png-512.7kB
image_1bt97ol4hfvp1l2qcli1tal1v753k.png-160.1kB
image_1bt97qha5h1v1vinr4m1sjc5ll41.png-394.5kB

  1. hdfs dfs -ls /output
  2. hdfs dfs -get /output

image_1bt98cqdl11q6179ltjajpq1s062.png-309.2kB
image_1bt97t5rp8r51t4k1nu1t54ujl4e.png-132.2kB

  1. 启动jobhistoryserver
  2. mr-jobhistory-daemon.sh start historyserver

image_1bt97vb0116hlchn1i0e7i2gr54r.png-124.2kB

image_1bt985pjs1jvs193g10an1k8c119a58.png-532.3kB

四: hadoop 常用端口号:

  1. 50070 //namenode http port
  2. 50075 //datanode http port
  3. 50090 //SecondaryNameNode http port
  4. 8020 // namenode rpc port
  5. 50010 // datanode rpc port
  6. 8088 //yarn http port
  7. 8042 //nodemanager http port
  8. 19888 // jobhistoryserver http port

五: hadoop的四大模块包含

  1. common
  2. hdfs // namenode + datanode+ secondarynamenode
  3. mapred
  4. yarn //rescourcemanager + nodemanager

六: 启动脚本:

  1. 1. start-all.sh // 启动所有进程
  2. 2. stop-all.sh // 停止所有进程
  3. 3. start-dfs.sh //
  4. NN ,DN , SNN
  5. 4. start-yarn.sh //
  6. RM,NM
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注