[关闭]
@rg070836rg 2015-08-16T15:12:42.000000Z 字数 418 阅读 1774

在spark平台上面运行wordcount

课程设计

一.上传源文件提交到hdfs上

①在hadoop目录中,运行sbin/start-dfs.sh,打开hdfs服务.

②上传需要统计字频的文件到hdfs中.如上传到(hdfs://localhost:9000/in/in01)

二.通过控制机连接登陆到集群.

在确保机器能够访问集群的前提下,输入

  1. MASTER=spark://Chen:7077 spark-shell
  2. //指定master节点运行shell Chen为集群master的hostname

三.运行程序

①从hdfs上读取文件

  1. val file = sc.textFile("hdfs://localhost:9000/in/in01")

②进行分词操作

  1. val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

③整合

  1. count.collect()
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注