@zqbinggong
2018-06-02T15:28:41.000000Z
字数 1023
阅读 1097
hadoop
《权威指南》
! All pictures are screenshots from the book 'Hadoop: The Definitive Guide, Fourth Edititon, by Tom White(O'Reilly).Copyright©2015TomWhite, 978-1-491-90163-2'
YARN是Hadoop的集群资源管理系统,具有足够的通用性,可以支持其他的分布式计算模式
YARN有一个灵活的资源请求模型:当请求多个容器时,可以指定每个容器需要的资源数量,还可以指定对容器的本地限制要求;YARN应用可以在运行中的任意时刻提出字眼请求
1. 本地化对确保分布式数据处理算法高效使用网络带宽非常重要、
2. 通常情况下(本地限制不一定总能被满足),应用会向存储数据三个复本的结点或者是存储复本的某个机架中的结点,如果不行,就申请集群中的任意节点
YARN应用的生命差异性较大,因而按照应用到用户运行的作业之间的映射关系对应用进行分类:
1. 模型1: 一个用户作业对应一个应用(MR采取的方式)
2. 模型2: 作业的每个工作流或每个用户对话对应一个应用(Spark采用),效率比前者高,因为容器可以在作业之间重用,并且可能缓存作业之间的中间数据
3. 模型3: 多个用户共享一个长期运行的应用
YARN调度器的工作就是根据既定策略为应用分配资源(本质是因为资源不够,不可能立即满足YARN应用提出的资源请求)
三种调度器: