[关闭]
@sasaki 2015-12-14T17:51:28.000000Z 字数 968 阅读 2038

Spark On YARN部署过程

BigData Spark


版本控制

  1. @Title Spark On YARN部署过程
  2. @Version v1.0
  3. @Timestamp 2015-12-14 14:25
  4. @Author Nicholas
  5. @Mail redskirt@outlook.com

在之前顺利完成了Spark Standalone的部署,过程参考“Spark Standalone集群部署过程”,比较简单。

1. 硬件准备

一个4节点的集群,Host对应关系如下:
  1. 192.168.53.230 master
  2. 192.168.53.231 slave01
  3. 192.168.53.232 slave02
  4. 192.168.53.233 slave03

2. 软件准备

3. 编译Spark源码

考虑到编译过程需要用到Maven通过外网下载大量jar包,要求环境必须联网,且节点内存>4G。

下载Spark 1.3.1源码:

  1. # wget http://www.apache.org/dyn/closer.lua/spark/spark-1.3.1/spark-1.3.1.tgz

解压:

  1. # tar -zxvf spark-1.3.1.tgz

执行Maven编译,过程比较漫长,取决于网速:

  1. # export MAVEN_OPTS=”-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m”
  2. # mvn -Dyarn.version=2.5.0 -Dhadoop.version=2.5.0 -Pnew-yarn -DskipTests package

对于Spark来说,需要做的准备工作包括通过sbt assembly命令将所有的依赖关系打包成一个大的Jar包供YARN调试框架使用,以Hadoop2.5.0为例,打包命令如下:

  1. # SPARK_HADOOP_VERSION=2.5.0 SPARK_YARN=true ./sbt/sbt assembly

打包过程遇到一个错误,
通过以下命令重新下载一个xxx.jar得以继续运行打包过程。

  1. #

所获得的Jar包,可以上传到HDFS中,也可以放到本地。同样的,你的应用程序本身也需要打包成Jar包供YARN调试框架使用。

4. CDH

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注