@sasaki
2015-12-14T17:51:28.000000Z
字数 968
阅读 2052
BigData
Spark
@Title Spark On YARN部署过程
@Version v1.0
@Timestamp 2015-12-14 14:25
@Author Nicholas
@Mail redskirt@outlook.com
192.168.53.230 master
192.168.53.231 slave01
192.168.53.232 slave02
192.168.53.233 slave03
考虑到编译过程需要用到Maven通过外网下载大量jar包,要求环境必须联网,且节点内存>4G。
下载Spark 1.3.1源码:
# wget http://www.apache.org/dyn/closer.lua/spark/spark-1.3.1/spark-1.3.1.tgz
解压:
# tar -zxvf spark-1.3.1.tgz
执行Maven编译,过程比较漫长,取决于网速:
# export MAVEN_OPTS=”-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m”
# mvn -Dyarn.version=2.5.0 -Dhadoop.version=2.5.0 -Pnew-yarn -DskipTests package
对于Spark来说,需要做的准备工作包括通过sbt assembly命令将所有的依赖关系打包成一个大的Jar包供YARN调试框架使用,以Hadoop2.5.0为例,打包命令如下:
# SPARK_HADOOP_VERSION=2.5.0 SPARK_YARN=true ./sbt/sbt assembly
打包过程遇到一个错误,
通过以下命令重新下载一个xxx.jar得以继续运行打包过程。
#
所获得的Jar包,可以上传到HDFS中,也可以放到本地。同样的,你的应用程序本身也需要打包成Jar包供YARN调试框架使用。