[关闭]
@zqbinggong 2018-06-02T15:28:41.000000Z 字数 1023 阅读 1084

YARN

hadoop 《权威指南》

! All pictures are screenshots from the book 'Hadoop: The Definitive Guide, Fourth Edititon, by Tom White(O'Reilly).Copyright©2015TomWhite, 978-1-491-90163-2'


简介

YARN是Hadoop的集群资源管理系统,具有足够的通用性,可以支持其他的分布式计算模式

此处输入图片的描述

YARN应用运行机制

  1. YARN通过两类长期运行的守护进程提供自己的核心服务:
    • 管理集群上资源的资源管理器
    • 运行在集群中所有节点上且能够启动和监控容器的结点管理器
  2. 容器: a container executes an application-specific process with a constrained set of resources(memory, CPU and so on)
  3. YARN本身不会为应用的各部分(客户端,master和进程)彼此之间通信提供任何手段。
    此处输入图片的描述

资源请求

YARN有一个灵活的资源请求模型:当请求多个容器时,可以指定每个容器需要的资源数量,还可以指定对容器的本地限制要求;YARN应用可以在运行中的任意时刻提出字眼请求
1. 本地化对确保分布式数据处理算法高效使用网络带宽非常重要、
2. 通常情况下(本地限制不一定总能被满足),应用会向存储数据三个复本的结点或者是存储复本的某个机架中的结点,如果不行,就申请集群中的任意节点

生命周期

YARN应用的生命差异性较大,因而按照应用到用户运行的作业之间的映射关系对应用进行分类:
1. 模型1: 一个用户作业对应一个应用(MR采取的方式)
2. 模型2: 作业的每个工作流或每个用户对话对应一个应用(Spark采用),效率比前者高,因为容器可以在作业之间重用,并且可能缓存作业之间的中间数据
3. 模型3: 多个用户共享一个长期运行的应用

构建YARN应用


YARN与MR1的比较


YARN中的调度

YARN调度器的工作就是根据既定策略为应用分配资源(本质是因为资源不够,不可能立即满足YARN应用提出的资源请求)

调度选项

三种调度器:

capacity scheduler配置

Fair Scheduler 配置

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注