[关闭]
@zhangyy 2019-12-10T16:02:13.000000Z 字数 2964 阅读 166

大数据的概述

hadoop的部分


  • 一. 大数据的应用场景
  • 二. hadoop 2.x 概述
  • 三. hadoop 2.x 的生态系统

一:大数据的应用场景

  1. 大数据的特征(4V+1O):
  2. 数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P1000T)、E100万个T)或Z10亿个T)。
  3. 类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
  4. 价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
  5. 速度快时效高(Velocity)。第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
  6. 数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。

image_1c90hmvt01d89r1lbkk16aso669.png-606.8kB


二: hadoop 2.x 的概述

  1. HDFS 服务功能
  2. NameNode
  3. 主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在DataNode等。
  4. DataNode
  5. 在本地文件系统存储文件块数据,以及块数据的校验和。
  6. Secondary NameNode
  7. 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照

image_1b2tjc5511tr410v10r1g9u869m.png-457.6kB

  1. YARN 服务功能
  2. ResourceManager
  3. 处理客户端请求
  4. 启动/监控ApplicationMaster
  5. 监控NodeManager
  6. 资源分配与调度
  7. NodeManager
  8. 单个节点上的资源管理
  9. 处理来自ResourceManager的命令
  10. 处理来自ApplicationMaster的命令
  11. ApplicationMaster
  12. 数据切分
  13. 为应用程序申请资源,并分配给内部任务
  14. 任务监控与容错
  15. Container
  16. 对任务运行环境的抽象,封装了CPU内存等多维资源以及环境变量、启动命令等任务运 行相关的信息.
  1. 离线计算框架 MapReduce
  2. 一: 将计算过程分为两个阶段,mapreduce
  3. map 阶段并行处理输入数据
  4. reduce 阶段对map 结果进行汇总。
  5. 二:shuffle 连接map Reduce 两个阶段
  6. map task 将数据写到本地磁盘
  7. reduce task 从每个map TASK 上读取一份数据
  8. 三: 仅适合 离线批处理
  9. 具有很好的容错性和扩展性
  10. 适合简单的批处理任务
  11. 四: 缺点明显
  12. 启动开销大,过多使用磁盘导致效率底下等。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注