@rg070836rg 2015-08-16T07:12:42.000000Z 字数 418 阅读 1979

在spark平台上面运行wordcount

`课程设计`

一.上传源文件提交到hdfs上

①在hadoop目录中,运行sbin/start-dfs.sh,打开hdfs服务.

②上传需要统计字频的文件到hdfs中.如上传到(hdfs://localhost:9000/in/in01)

二.通过控制机连接登陆到集群.

在确保机器能够访问集群的前提下,输入

MASTER=spark://Chen:7077 spark-shell
//指定master节点运行shell  Chen为集群master的hostname

三.运行程序

①从hdfs上读取文件

val file = sc.textFile("hdfs://localhost:9000/in/in01")

②进行分词操作

val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

③整合

count.collect()

- - 2016寒假 10
  - 2016 计算机学院寒假社会实践初期资料统计
  - 08 制作一份学业发展规划
  - 07 为家人送一份礼物
  - 06 和学院来一次“零距离”接触
  - 2016 计算机学院寒假社会实践收集情况合集
  - 05 关爱社会服务
  - 04 为家乡代言
  - 03 共述师生情
  - 02 有意义的寒假
  - 01 回家路途正能量
- - GPU并行计算课程实验与报告 2
  - cuda实验报告
  - 安装cuda8+cudnn5.1+tensorflowgpu+keras
- - TCP_IP 4
  - TCP_IP第一次作业
  - TCP_IP第四次作业
  - TCP_IP第三次作业
  - TCP_IP第二次作业
- - USTC网络安全 5
  - 网络安全第五次实验陈实 SA17011008
  - 网络安全第四次实验陈实 SA17011008
  - 网络安全第三次实验陈实 SA17011008
  - 网络安全第二次实验（第三次作业）陈实 SA17011008
  - 网络安全第一次实验陈实 SA17011008
- - data_structure 25
  - 位图索引
  - 二叉排序树
  - 顺序查找以及折半查找
  - 图
  - 哈夫曼树与哈夫曼编码
  - 线索二叉树
  - 树
  - 三元组
  - 串的练习及一些思考
  - kmp算法
  - 【C语言字符串操作】
  - 【string字符串操作】
  - 字符串
  - 书上串的基本操作以及BF算法
  - 双栈模拟队列
  - 队列的三种实现方式
  - 表达式求值
  - 递归的运用
  - 递归调用的详细过程
  - c++ 中new与delete的探究以及小问题
  - STL栈实现及书本对比
  - 顺序栈以及双栈的设计与测试
  - 数据结构——链表报告
  - 编写链表结构遇到的问题
  - 线性表的实现及其功能的拓展
- - datastructure 4
  - 数据库实验集合无答案
  - 数据库实验集合
  - 数据库作业合集无答案
  - 数据库作业合集
- - dlbook笔记 1
  - 绪论
- - leetcode 4
  - Best Time to Buy and Sell Stock 2
  - Best Time to Buy and Sell Stock
  - Jump Game II
  - Jump Game
- - matlab 1
  - matlab 拟合曲线
- - mc 1
  - 0001 学生
- - python 1
  - python
- - react 1
  - React
- - scratch 1
  - 将Scratch的代码转成EXE文件
- - tmooc 1
  - 第15课（认识函数）
- - 人流量 4
  - 活动、移动联合建模
  - 地理位置分析
  - 兴趣点推荐总结
  - POI 相关论文
- - 南师大人工智能论文 2
  - 利用状态空间法解决八数码游戏问题
  - 利用状态空间法解决八数码游戏问题
- - 南师大大创中期读书笔记 1
  - hadoop及spark平台搭建笔记
- - 同步 1
  - 同步文档
- - 夏令营 2
  - 苏州大学计算机学院夏令营
  - 华师大夏令营机试题
- - 大创 6
  - Hbase搭建(伪分布式)
  - Ubuntu安装Eclipse
  - 搭建Eclipse的Spark的集成开发环境
  - 在spark平台上面运行wordcount
  - scala配置+spark安装
  - hadoop环境搭建（2.6版本）+JDK配置（1.8版本）+Eclipse安装+Eclipse_hadoop插件配置
- - 安卓 1
  - 安卓布局
- - 少儿编程 1
  - 阿拉丁神灯
- - 操作系统 1
  - 操作系统复习
- - 收藏夹 1
  - 收藏夹
- - 数据库作业 10
  - 数据库作业11.19
  - 数据库作业09.17
  - 数据库作业10.15
  - 数据库作业12.17
  - 数据库作业12.24
  - 数据库作业11.26
  - 数据库作业09.24
  - 数据库作业10.29
  - 数据库作业10.22
  - 数据库作业10.08
- - 数据库实验 7
  - 数据库创建
  - 数据库12.24实验
  - 数据库12.17实验
  - 数据库12.03实验
  - 数据库11.26实验
  - 数据库10.22实验
  - 数据库10.8实验
- - 毕业设计 4
  - 安装cuda8+cudnn5.1+tensorflowgpu+keras
  - 搭建环境
  - Pandas
  - Numpy 常用功能汇总
- - 物理实验组 1
  - 莲花小学12.30讲稿
- - 算法 1
  - 搜索专题
- - 算法2015 1
  - 算法2015 提纲整理
- - 算法概论作业 9
  - 算法作业合集
  - 算法概论作业5.21 5.22 5.32
  - 算法概论作业6.17 6.18 6.23 6.26
  - 算法概论作业6.16 6.19 6.21 6.14
  - 算法概论作业5.26 5.28 5.33
  - 算法概论作业2.4
  - 算法概论作业2.3
  - 算法概论作业2.2
  - 算法概论作业9.21
- - 算法概论实验 13
  - 算法概论实验十三
  - 算法概论实验十二
  - 算法概论实验十
  - 算法概论实验十一
  - 算法概论实验三
  - 算法概论实验七
  - 算法概论实验九贪心法
  - 算法概论实验四
  - 算法概论实验八贪心法
  - 算法概论实验六
  - 算法概论实验五
  - 算法概论实验二
  - 算法概论实验一
- - 网络交接 1
  - 院网维护交接
- - 网络安全 5
  - MIRACL
  - DVWA-xxs
  - 栈溢出原理和实践
  - 半个美国网络瘫痪
  - DVWA测试报告
- - 计算机学院院刊 5
  - 计算机学院院刊刊名前三
  - 计算机学院院刊logo 前三
  - 刊名/logo
  - 计算机学院院刊刊名
  - 计算机学院院刊logo
- - 设计模式 1
  - 设计模式
- - 读书笔记 1
  - 读书笔记
- - 课程设计 1
  - 数据结构课程设计报告
- - 贪心 4
  - Best Time to Buy and Sell Stock 2
  - Best Time to Buy and Sell Stock
  - Jump Game II
  - Jump Game
- - 软件分析与测试 6
  - 基于组合与优化的测试方法——正交表测试示例
  - 基于输入域的测试实验报告——三角形程序
  - 10.15软件测试作业--计算星期
  - 10.15软件测试作业--三角形
  - 9.17 软件测试作业
  - 第一次作业
- - 软件安全 1
  - 软件安全复习
- - 配置 11
  - dgx性能测试
  - centos 安装jdk1.8
  - jsp环境搭建（tomcat+mysql+jdk）‘’
  - 安装cuda8+cudnn5.1+tensorflowgpu+keras
  - HWCraft代码提交流程
  - 码云git
  - ubuntu 修改启动项顺序
  - 有关双系统的一些参考网站
  - 新鲜ubuntu环境记录(local)
  - teamviewer
  - ubuntu 建站
- - 面试 1
  - 腾讯
- - 未分类 18
  - 爬虫
  - 智能告警问题汇总
  - 论文
  - 一面
  - poi论文
  - 在此处输入标题
  - 采访稿
  - 在此处输入标题
  - 信息
  - uoj题目说明
  - 0617编程
  - 流播放
  - 点名
  - jquery学习
  - 采访稿
  - 在此处输入标题
  - exer1029
  - 操作系统作业1
- 以下【标签】将用于标记这篇文稿：

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注

在spark平台上面运行wordcount

课程设计

一.上传源文件提交到hdfs上

①在hadoop目录中,运行sbin/start-dfs.sh,打开hdfs服务.

②上传需要统计字频的文件到hdfs中.如上传到(hdfs://localhost:9000/in/in01)

二.通过控制机连接登陆到集群.

三.运行程序

内容目录

`课程设计`