@sasaki 2015-12-14T09:51:28.000000Z 字数 968 阅读 2192

Spark On YARN部署过程

BigData Spark

版本控制

    @Title          Spark On YARN部署过程
    @Version        v1.0
    @Timestamp      2015-12-14 14:25
    @Author         Nicholas
    @Mail           redskirt@outlook.com

在之前顺利完成了Spark Standalone的部署，过程参考“Spark Standalone集群部署过程”，比较简单。

1. 硬件准备

一个4节点的集群，Host对应关系如下：

192.168.53.230  master
192.168.53.231  slave01
192.168.53.232  slave02
192.168.53.233  slave03

2. 软件准备

Hadoop 2.X（本次部署基于Hadoop 2.5.0-CDH）
Apache Maven 3.X
Scala 2.X
Jdk 1.7

3. 编译Spark源码

考虑到编译过程需要用到Maven通过外网下载大量jar包，要求环境必须联网，且节点内存>4G。

下载Spark 1.3.1源码：

# wget http://www.apache.org/dyn/closer.lua/spark/spark-1.3.1/spark-1.3.1.tgz

解压：

# tar -zxvf spark-1.3.1.tgz

执行Maven编译，过程比较漫长，取决于网速：

# export MAVEN_OPTS=”-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m”
# mvn -Dyarn.version=2.5.0 -Dhadoop.version=2.5.0  -Pnew-yarn -DskipTests package

对于Spark来说，需要做的准备工作包括通过sbt assembly命令将所有的依赖关系打包成一个大的Jar包供YARN调试框架使用，以Hadoop2.5.0为例，打包命令如下：

# SPARK_HADOOP_VERSION=2.5.0 SPARK_YARN=true ./sbt/sbt assembly

打包过程遇到一个错误，
通过以下命令重新下载一个xxx.jar得以继续运行打包过程。

所获得的Jar包，可以上传到HDFS中，也可以放到本地。同样的，你的应用程序本身也需要打包成Jar包供YARN调试框架使用。