@awsekfozc
2016-01-08T19:05:45.000000Z
字数 657
阅读 1324
Hadoop
hadoop分布式文件系统。
1. HDFS具有高容错性,以副本机制来保证。相同的书数据在不同的dataNode上都有。一份损坏或者丢失,并不影响数据的完整性。
通过配置副本数,HDFS会始终保持副本数量。
2. 因为HDFS是分布式的,能提供高吞吐量的数据访问,对大数据的存储很有用。
hadoop的资源管理者。对集群的cpu,内存进行管理。
1. ResourceManager:客户端向ResourceManager请求执行程序,ResourceManager查看各个NodeManager的情况,根据(计算、内存、带宽等)只能的给NodeManager,形成Container。
2. ResourceManager 准备好资源后,启动一个 ApplicationMaster 来表示已提交的应用程序。通过使用一个资源请求协议,ApplicationMaster 协商每个节点上供应用程序使用的资源容器。执行应用程序时,ApplicationMaster 监视容器直到完成。当应用程序完成时,ApplicationMaster 从 ResourceManager 注销其容器,执行周期就完成了
input --> map --> shuffle --> reduce --> out
- input输入要分析的数据
- map对处理数据
- shuffle 打乱数据(具体处理方式不是很清楚。。。。)
- reduce对数据合并
- out输出处理好的数据
在此输入正文