[关闭]
@xiaoxiaowang 2017-04-14T09:26:26.000000Z 字数 7040 阅读 1092

Spark初体验

一乡二里共三夫子不识四书五经六义竟敢教七八九子十分大胆!
十室九贫 凑得八两七钱六分五毫四厘 尚且三心二意 一等下流

spark

前言

  这里,不谈spark原理,作用,使用场景等,只是一个spark与java打通的一个过程。看似简单,整整花了哥两天的时间,版本号的坑,服务器的坑等等,头胀的能飘起来~!按照我下面说的环境和步骤去做,保证你99%能一次跑过,因为我是一边写此篇一边在新的虚拟机配置。一切都ok~

环境

名称 版本号
Linux CentOS Linux release 7.0.1406 (Core)
jdk 1.8.0_121 OpenJDK 64-Bit Server VM (build 25.121-b13, mixed mode)
scala Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
spark spark-1.6.2-bin-hadoop2.6

环境部署(超详细)

最好把当前Linux的镜像库文件更换掉,这里我用的是163的 传送门 讲解得很详细

卸掉默认的jdk版本

  1. [root@localhost ~]# rpm -qa|grep jdk
  2. java-1.7.0-openjdk-headless-1.7.0.51-2.4.5.5.el7.x86_64
  3. java-1.7.0-openjdk-1.7.0.51-2.4.5.5.el7.x86_64

得到目前jdk的版本,然后删除

  1. yum -y remove java java-1.7.0-openjdk-headless-1.7.0.51-2.4.5.5.el7.x86_64

然后安装下载好的jdk,用到的软件都放在了文末,或者自己去下载或者去各自的官网下载

  1. tar -xvzf jdk-8u121-linux-x64.tar.gz

解压好之后,创建个软连接,方便以后更改版本

  1. ls -sf /usr/local/software/jdk1.8.0_121/ /usr/local/jdk

按照此方法分别对scala和spark操作,配置后结果如下

  1. .
  2. ├── bin
  3. ├── etc
  4. ├── games
  5. ├── include
  6. ├── jdk -> /usr/local/software/jdk1.8.0_121
  7. ├── lib
  8. ├── lib64
  9. ├── libexec
  10. ├── sbin
  11. ├── scala -> /usr/local/software/scala-2.10.4
  12. ├── share
  13. ├── software
  14. ├── spark -> /usr/local/software/spark-1.6.2-bin-hadoop2.6
  15. └── src

然后将其分别添加到系统的全局变量

  1. vi /etc/profile

在文件的最末端添加下面代码,注意格式

  1. export JAVA_HOME=/usr/local/jdk
  2. export SCALA_HOME=/usr/local/scala
  3. export SPARK_HOME=/usr/local/spark
  4. export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

最后一定要执行下面命令,作用就是即时生效

  1. source /etc/profile

然后就可以查看版本号了

  1. java -version
  2. scala -version

到此,spark的环境就部署好了,我这边代码依赖管理用的是maven,还需要配置下maven环境,
这里我直接用的yum安装了

  1. yum install maven

等待安装完毕,在改一下maven的中央仓库镜像地址,否咋,spark需要的几个jar包会下载到你怕为止.
这里maven的地址可以通过mvn -version去查看

  1. Maven home: /usr/share/maven
  2. Java version: 1.8.0_121, vendor: Oracle Corporation
  3. Java home: /usr/local/software/jdk1.8.0_121/jre
  4. Default locale: en_US, platform encoding: UTF-8
  5. OS name: "linux", version: "3.10.0-123.el7.x86_64", arch: "amd64", family: "unix"

都给你列出来了233333
然后修改mirrors

  1. vi /usr/share/maven/conf/settings.xml

找到节点
添加阿里云的镜像地址

  1. <mirror>
  2. <id>alimaven</id>
  3. <name>aliyun maven</name>
  4. <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  5. <mirrorOf>central</mirrorOf>
  6. </mirror>

保存一下,ok

启动spark服务

在启动之前,还需要做些处理
在spark的conf中,修改下配置文件

  1. cp spark-env.sh.template spark-env.sh
  2. vi spark-env.sh.template

再开头添加环境

  1. export JAVA_HOME=/usr/local/jdk
  2. export SCALA_HOME=/usr/local/scala

我也不知道这里为什么也要配置。。。
回到spark根目录

  1. sbin/start-master.sh

在主机网页输入地址http://yourip:8080/ 访问,如果访问不到,说明虚拟机的防火墙打开了,这里要关掉
···bash
service firewalld stop

  1. 再次刷新页面,ok,如下
  2. ![spark服务](http://upload-images.jianshu.io/upload_images/3167229-6c81d4a4cbfb0ee4.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
  3. 这里还要继续启动worker
  4. ```bash
  5. bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077
  6. <div class="md-section-divider"></div>

再刷新下页面,ok,如下

worker

编写Java代码

  这里说一下,spark支持java、scala和python,无论用什么都只是对业务的封装,当然了原配是scala,我这里使用的java去实现一个计数程序,(目前网上有关spark的教程的第一个demo都是计数程序,我简称spark为“hello wordcount”),我用maven来管理依赖关系,这个版本号一定要 注意!注意!注意!
本地的要和虚拟机里配置的要一毛一样!!!
代码很简单,怎么计数自己去实现

  1. public class WorldCount {
  2. private static final Pattern SPACE = Pattern.compile(" ");
  3. public static void main(String[] args) {
  4. SparkConf conf = new SparkConf().setAppName("vector's first spark app");
  5. JavaSparkContext sc = new JavaSparkContext(conf);
  6. //C:\Users\bd2\Downloads
  7. JavaRDD<String> lines = sc.textFile("/opt/blsmy.txt").cache();;
  8. JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
  9. public Iterable<String> call(String s) throws Exception {
  10. return Arrays.asList(SPACE.split(s));
  11. }
  12. private static final long serialVersionUID = 1L;
  13. });
  14. JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
  15. private static final long serialVersionUID = 1L;
  16. public Tuple2<String, Integer> call(String s) {
  17. return new Tuple2<String, Integer>(s, 1);
  18. }
  19. });
  20. JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
  21. private static final long serialVersionUID = 1L;
  22. public Integer call(Integer i1, Integer i2) {
  23. return i1 + i2;
  24. }
  25. });
  26. List<Tuple2<String, Integer>> output = counts.collect();
  27. for (Tuple2<?, ?> tuple : output) {
  28. System.out.println(tuple._1() + ": " + tuple._2());
  29. }
  30. sc.close();
  31. }
  32. }
  33. <div class="md-section-divider"></div>

注意这里没有.setMaster(),这个参数在虚拟机执行的时候通过手动配置
再来就是依赖配置文件pom,我已经亲测,可以直接拿过去用

  1. <properties>
  2. <scala.version>2.10.4</scala.version>
  3. <spark.version>1.6.2</spark.version>
  4. </properties>
  5. <dependencies>
  6. <dependency>
  7. <groupId>org.scala-lang</groupId>
  8. <artifactId>scala-library</artifactId>
  9. <version>${scala.version}</version>
  10. </dependency>
  11. <dependency>
  12. <groupId>com.googlecode.json-simple</groupId>
  13. <artifactId>json-simple</artifactId>
  14. <version>1.1.1</version>
  15. </dependency>
  16. <dependency>
  17. <groupId>org.apache.spark</groupId>
  18. <artifactId>spark-core_2.10</artifactId>
  19. <version>${spark.version}</version>
  20. </dependency>
  21. <dependency>
  22. <groupId>org.apache.spark</groupId>
  23. <artifactId>spark-launcher_2.10</artifactId>
  24. <version>${spark.version}</version>
  25. </dependency>
  26. <dependency>
  27. <groupId>org.apache.spark</groupId>
  28. <artifactId>spark-mllib_2.10</artifactId>
  29. <version>${spark.version}</version>
  30. </dependency>
  31. <dependency>
  32. <groupId>org.apache.spark</groupId>
  33. <artifactId>spark-streaming_2.10</artifactId>
  34. <version>${spark.version}</version>
  35. </dependency>
  36. <dependency>
  37. <groupId>junit</groupId>
  38. <artifactId>junit</artifactId>
  39. <version>4.4</version>
  40. <scope>test</scope>
  41. </dependency>
  42. <dependency>
  43. <groupId>org.specs</groupId>
  44. <artifactId>specs</artifactId>
  45. <version>1.2.5</version>
  46. <scope>test</scope>
  47. </dependency>
  48. <dependency>
  49. <groupId>org.ansj</groupId>
  50. <artifactId>ansj_seg</artifactId>
  51. <version>5.1.1</version>
  52. </dependency>
  53. </dependencies>
  54. <build>
  55. <plugins>
  56. <plugin>
  57. <groupId>org.apache.maven.plugins</groupId>
  58. <artifactId>maven-assembly-plugin</artifactId>
  59. <version>2.3</version>
  60. <configuration>
  61. <appendAssemblyId>false</appendAssemblyId>
  62. <descriptorRefs>
  63. <descriptorRef>jar-with-dependencies</descriptorRef>
  64. </descriptorRefs>
  65. <archive>
  66. <manifest>
  67. <mainClass>WorldCount</mainClass><!--man方法入口-->
  68. </manifest>
  69. </archive>
  70. </configuration>
  71. <executions>
  72. <execution>
  73. <id>make-assembly</id>
  74. <phase>package</phase>
  75. <goals>
  76. <goal>assembly</goal>
  77. </goals>
  78. </execution>
  79. </executions>
  80. </plugin>
  81. </plugins>
  82. </build>
  83. <div class="md-section-divider"></div>

 打jar包的时候,我建议将src和pom上传到虚拟机,在虚拟机里打包,因为打成jar包后大概有上百兆大小,我是在虚拟机打包的,如下

  1. [root@localhost co]# ll
  2. total 8
  3. -rw-r--r--. 1 root root 3401 Apr 14 13:47 pom.xml
  4. -rw-r--r--. 1 root root 2610 Apr 14 16:35 sparkjar.zip
  5. drwxr-xr-x. 4 root root 28 Apr 14 09:00 src
  6. [root@localhost co]# mvn package
  7. <div class="md-section-divider"></div>

第一次打包的时候可能会用到十几分钟的时间,因为需要用到的包太多了。打包成功之后,记住对应jar包地址

提交任务给spark

我这里下载了英文版的《巴黎圣母院》作为解析文本,并放在了/opt/目录下

  1. bin/spark-submit --master spark://localhost.localdomain:7077 --class WorldCount /usr/local/co/target/spark.jar-1.0-SNAPSHOT.jar
  2. <div class="md-section-divider"></div>

没有特殊情况的话,结果会输出在屏幕上,部分如下

  1. Djali!: 2
  2. faintly: 7
  3. bellow: 1
  4. prejudice: 1
  5. singing: 15
  6. Pierre.��: 1
  7. incalculable: 1
  8. defensive,: 1
  9. slices: 1
  10. niggardly: 1
  11. Watch: 2
  12. silence,: 14
  13. water.��: 1
  14. inhumanly: 1
  15. 17/04/14 16:59:35 INFO SparkUI: Stopped Spark web UI at http://192.168.22.129:4040

到此一个spark与java程序彻底打通了。。。

后续,我会使用spark对公司项目进行改造,将数据处理交给spark去做。我会一一记录分享出来

总结

名称 地址
用到的软件 http://pan.baidu.com/s/1skN5NS5 密码:ufhk
《巴黎圣母院》 链接:http://pan.baidu.com/s/1qXZJedI 密码:vljg

码字不易,看客给个茶钱~

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注