@xtccc 2016-03-18T06:56:49.000000Z 字数 1176 阅读 4987

Errors and Exception

给我写信
 GitHub

此处输入图片的描述

Spark

调度相关

Lost executor

运行一个运行时间较长的任务，如下：

val sc = new SparkContext(new SparkConf())
sc.parallelize(Range(0, 1000), 20)
  .flatMap(i => for (j <- Range(0, 10000000)) yield (j, i))
  .map(x => (x._1+100, x._2-100))
  .saveAsTextFile(path)

会发现，控制台输出如下的日志：
QQ20151228-2@2x.png-638kB

有很多executor lost的日志输出。同时，在YARN的页面上查看该Spark app的运行状态，会看到很多executor的“Address”一栏的内容是“CAN NOT FIND ADDRESS”，如下：

QQ20151228-0@2x.png-165.7kB

分析原因

声明：Spark运行在YARN cluster中，并且开启了 dynamic resource allocation机制。

首先看日志的第2行内容

ExecutorAllocationManager: Removing executor 11 because it has been idle for 60 seconds (new desired total will be 14)

打印日志的class是“org.apache.spark.ExecutorAllocationManager”，可查看源码的注释。

开启了dynamic resource allocation机制后，如果一个executor处于“idle”状态（即executor中没有任何task）的时间超过了设置的阈值（“spark.dynamicAllocation.executorIdleTimeout”），则YARN scheduler会要求释放这个executor。因此，这并不是错误，而是因为这些executors由于已经运行完了，处于idle的时间达到了阈值被YARN killed了而输出的日志。

可以看看ExecutorAllocationManager中的相关代码：
QQ20151228-6@2x.png-240.6kB

不仅是运行Spark app时会出现“Lost executor”日志，在运行“spark-shell”时也会出现这样的日志。

引申出的问题：
当Spark运行在YARN中时，container与executor的关系是什么样的？
可以认为YARN container与Spark executor是一对一的对应关系。

ExecutorLostFailure

这个异常与Lost Executor不同，它常常出现在数据量很大，特别是shuffle的数据量很大，或者executor内存比较小时出现，如下

QQ20151231-0@2x.png-290.9kB

原因一般是：某个task出现了OOM错误，造成JVM的损坏。

需要调整关于内存的参数，例如 spark.yarn.executor.memoryOverhead

参考这里

内容目录

- - AWS 4
  - Access/Secrete Key
  - Spot Fleet Instance
  - Elastic Load Balancer
  - S3
- - Akka 10
  - 常见问题
  - Configs
  - Logging
  - 异常
  - Long Running Job / Blocking
  - Dispatcher
  - Akka Cluster
  - 消息
  - Actor 生命周期
  - Akka 第一课
- - Boot 1
  - Spring Boot Tutorial
- - Cassandra 6
  - Spark and Cassandra
  - Q & A
  - Deployment
  - Operations
  - Architecture
  - CQL
- - Cloudera 3
  - 升级CDH（Using Local Repo）
  - 迁移Cloudera Manager Server 至另一个节点
  - Cloudera运维常见问题
- - Database 5
  - Prepared Statements
  - MySQL skills
  - MySQL tuning
  - Slick
  - MySQL使用
- - ElasticSearch 5
  - Indexing, updating, and deleting data
  - Query
  - Documents
  - Mapping, Index and Analyzers
  - 概念、部署、运行
- - English 12
  - 2018年07/08/09月
  - 2018年04/05/06月
  - 2018年03月
  - 2018年02月
  - 2018年01月
  - 2017年11月
  - 2017年09月
  - 2017年08月
  - 2017年07月
  - 2017年06月
  - 2017年05月
  - 2017年04月
- - Gradle 11
  - Q&A
  - 发布artifact到repo
  - 自定义插件
  - Distribution
  - shadow/shade
  - 生命周期
  - 多项目构建
  - 混合编译Java/Scala代码
  - Wrapper (gradlew)
  - Dependencies
  - Gradle Tasks
- - HBase 3
  - HBase Architecture
  - HBase运维问题
  - HBase应用的常见异常
- - HDFS 3
  - Custom File Input Format
  - HA
  - 文件权限（含ACL）
- - Java 8
  - 一些奇怪的异常
  - Reflections
  - Java on MAC
  - GC经验之谈
  - Thread
  - 使用Eclipse Memory Analyzer
  - JVM内存模型
  - SLF4J的使用
- - Kafka 4
  - Consumer API
  - Producer API
  - Q&A
  - Kafka基础
- - Kerberos 6
  - Disabling Kerberos for CDH
  - HBase Authentication
  - 为CDH 5集群添加Kerberos支持
  - Kerberos 配置
  - Understanding Kerberos
  - Installing Kerberos
- - Kryo 1
  - __Kryo Serializer__
- - Linux 7
  - systemd实现自启动
  - 安装FileBeat客户端
  - 发送邮件
  - 远程登录的工作
  - Custom YUM Repo
  - Linux常见问题
  - 在Linux中创建自己的Service
- - Maven 2
  - 用Assembly构建发布包
  - Maven常见问题
- - NLP 1
  - 中文分词
- - Oozie 5
  - REST API For Oozie
  - 通过HUE运行Workflow
  - 构建和安装
  - Workflow Examples
  - Oozie入门
- - Phoenix 8
  - Phoenix客户端
  - Q&A
  - Build Phoenix Against HBase 1.0 (CDH 5.4.7)
  - JDBC SQL
  - Bulk CSV Data Loading
  - Index
  - Table and View
  - Introduction to Apache Phoenix
- - RabbitMQ 4
  - Clustering and HA
  - 最佳实践
  - 消息处理
  - 基础入门知识
- - Redis 2
  - Commands
  - Redis运维
- - Scala 12
  - Serialization / Deserialization
  - Boot / Loading / Runtime
  - Concurrency & Synchronization
  - 执行Shell Command / Scripts
  - Self Type Annotation
  - Actor
  - 容器
  - implicit 关键字
  - Iterable & Iterator
  - 自定义三目运算符
  - Generic (范型)
  - Scala与Java容器类型的转换
- - Shell 5
  - 返回值
  - 处理String
  - start.sh, stop.sh, status.sh
  - 处理Script的参数
  - 多行注释
- - Spark 4
  - Shuffle
  - Errors and Exception
  - Runnning Spark On YARN
  - Serialization
- - SparkStreaming 1
  - Spark Streaming
- - Spring 1
  - Spring Boot Tutorial
- - YARN 2
  - YARN Architecture
  - YARN 使用
- - ZooKeeper 3
  - ZK入门
  - ZooKeeper运维实践
  - ACL
- - 开发工具 3
  - CURL
  - Git
  - IntelliJ
- - 开发技巧 9
  - 使用SIGAR监控系统资源
  - Pooling
  - Logging
  - 正则表达式
  - Linux使用问题
  - 其他
  - YAML解析
  - JSON
  - base64编码与解码
- - 推荐系统 3
  - 基本的指标概念
  - 利用用户的行为数据
  - 基于领域的协同过滤算法： UserCF and ItemCF
- - 数据挖掘&机器学习 1
  - Decision Tree
- - 算法 1
  - 寻找近似Quantiles
- - 未分类 1
  - 解析configuration文件
- 以下【标签】将用于标记这篇文稿：

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注