@tsing1226 2016-05-04T11:07:15.000000Z 字数 616 阅读 846

spark

spark1.3.0硬件配置

标签：存储系统本地磁盘内存网络 CPU核数

存储系统

由于大多数的spark job都是从HDFS或HBase中读取数据，所以我们考虑的存储系统接近该系统。主要有如下两点：

运行spark job时选择与HDFS相同节点上运行，最简单的方法就是将spark集群设置成standalone模式。
如果spark job不能运行在与HDFS相同节点上的运行，请将spark job运行在同一网段中的不同机器上；
低延迟数据存储像HBase，它可能是优选运行计算与存储系统不同节点上的作业，以避免干扰。

本地磁盘

尽管Spark在内存中执行大量的操作，它仍然将不适合存储在RAM的数据存储在本地磁盘，以及保持不同阶段之间的数据联系。我们建议将每个磁盘有4-8个本地磁盘，不要配置RAID这种格式。

内存

一般而言，Spark在8G以上甚至成百上千G内存中表现性能良好。在所有的情况下除去操作系统和高速缓存后，至少应该留给spark75%的内存。需要多少内存取决于你的应用。

网络

在实际应用当中，很多spark应用都依赖于网络。使用10千兆位或更高的网络是使这些应用程序更快的最佳方式。

CPU核数

Spark能够很好地进行扩展到几十个CPU核数的每台机器，因为它执行最低限度的线程之间共享。每台机器最少配置8-16个核数。根据实际的工作负载可能需要更多的CPU，一旦数据进入内存当中，此时很多应用要么受CPU的束缚要不就受网络的束缚。

内容目录

- - CLI 1
  - windows命令行
- - Gradle 1
  - gradle知识一览
- - Scala 1
  - Scala语言初识
- - cmd 1
  - windows命令行
- - cmdMarkDown练习 1
  - cmdMarkDown练习
- - eclipse 1
  - hadoop2.7.2开发环境搭建
- - flume 2
  - Flume实时收集日志文件至HDFS文件系统案例
  - 文件收集工具Flume
- - hadoop 9
  - hadoop2.7.2开发环境搭建
  - Hadoop2.7.2 HA搭建
  - hadoop短路本地读
  - Hadoop2.7.2 DistCp Version2
  - HDFS相关概念
  - Hadoop High Availability简介及部署
  - Hadoop2.5.0编译及伪分布搭建
  - Hadoop High Availability简介及部署
  - Hadoop2.5.0编译教程
- - hbase 5
  - hbase NAMESPACE简单操作
  - hbase 安全配置
  - hbase，mapreduce and classpath
  - 启动hbase shell时出现的问题
  - HBase基础认识
- - hive 11
  - Hive日志分析案例--日志流量分析案例1
  - Hive日志分析案例--日志流量分析案例2
  - Hive安装部署
  - 浅谈Hive数据倾斜
  - 问题反馈：hive set reduce失败
  - Hive案例分析与实践
  - Hive UDF编程案例
  - Hive Strict Mode
  - Hive高级进阶--企业优化
  - Hive中的不同的文件格式测试--ORC AND PARQUET
  - Hive高级进阶--压缩技术
- - hue 2
  - Hue与Oozie集成配置和使用
  - Hadoop可视化工具hue
- - java 23
  - 异常The specified JRE installation does not exist
  - java读取properties文件
  - java collection
  - 迭代器的一般使用
  - 字节数组与字符串之间相互转化
  - 读取xml文件文件内容
  - continue语句
  - break语句
  - String,StringBuffer,StringBuilder的区别
  - java代码调用shell脚本
  - java远程调用shell脚本
  - java类中调用方法时必须用static关键字吗
  - 如何高效的书写java代码
  - Java 语言中 Enum 类型的使用介绍
  - java中数组遍历所有元素
  - Try -Catch-Finally Blocks介绍
  - map对象遍历
  - ArrayList遍历访问的几种方式
  - java项目打包maven pom.xml配置
  - logback设置
  - JDK/MAVEN在windows下的环境配置
  - Maven安装
  - JDK环境变量配置
- - linux 9
  - linux下时间同步
  - 参考文献
  - 普通用户拥有root权限
  - 时间戳
  - linux nano命令
  - Linux安装多版本的JDK
  - centos安装scala
  - 时间服务器搭建
  - 时间服务器搭建
- - logback 1
  - logback设置
- - mapreduce 2
  - hadoop2.7.2开发环境搭建
  - MapReduce Shuffle过程
- - maven 6
  - 创建maven项目jdk默认是1.5修改
  - maven编译-DskipTests与-Dmaven.test.skip=true的区别
  - 运用maven对java项目进行打包
  - 如何在maven项目中的pom文件中添加oracle ojdbc驱动
  - java项目打包maven pom.xml配置
  - JDK/MAVEN在windows下的环境配置
- - mysql 2
  - 窗口函数一瞥
  - Centos MySQL
- - oozie 9
  - 开源的资源调度框架
  - Oozie工作流调度框架
  - Oozie workflow中四个Action解析
  - Hue与Oozie集成配置和使用
  - Oozie workflow中四个Action解析--Shell Action
  - Oozie workflow中四个Action解析--Sqoop Action
  - oozie coordinator
  - Oozie workflow中四个Action解析--Hive Action
  - Oozie workflow中四个Action解析--MapReduce Action
- - oracle 1
  - 如何在maven项目中的pom文件中添加oracle ojdbc驱动
- - server 1
  - tomcat 界面角色管理器GUI
- - shell 1
  - Shell脚本书写
- - spark 7
  - Spark宽依赖与窄依赖
  - spark1.3.0硬件配置
  - Spark 集群脚本的书写
  - Spark RDD及操作
  - IDEA安装部署
  - Spark1.3.0部署及应用示例
  - Spark编译
- - spring 2
  - spring集合（Lists、set、map和properties）
  - spring加载配置文件xml文件的几种方式
- - sqoopHADOO 1
  - SQOOP协作框架
- - windows 2
  - windows命令行
  - JDK/MAVEN在windows下的环境配置
- - yarn 1
  - apache hadoop yarn
- - zookeeper 1
  - Zookeeper搭建
- - 数组 1
  - java中数组遍历所有元素
- - 未整理 1
  - 杂技
- - 杂技 1
  - 杂技人生
- - 编程 2
  - Log4j详细介绍
  - JDK/MAVEN在windows下的环境配置
- - 需要解决的问题 1
  - lkl
- - 未分类 4
  - java读取properties文件的当前路径
  - 待整理的知识点
  - Lakala笔记
  - 大数据框架介绍
- 以下【标签】将用于标记这篇文稿：

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注