[关闭]
@zhangyy 2020-09-30T18:01:12.000000Z 字数 1646 阅读 187

大数据hadoop海量运维

大数据运维系列



一:大数据集群运维

  1. hadoop集群节点6000+
  2. 数据容量100P+
  3. 日处理数据量200T+
  4. ----
  5. 文件数2亿+
  6. 日处理条数1.5万亿+
  7. 日作业数30万+

image_1ejes25ks16va9tp1kj210rmg83m.png-298.7kB

image_1ejes138cm2cduo9orfnn18n39.png-55.8kB


二: 大数据运维与传统运维的区别

  1. 数据量:
  2. 传统数据的数据量在GBTB
  3. 大数据的数据量在PB
  4. 集群规模:
  5. 传统运维的机器规模小
  6. 大数据运维的机器数据庞大,成千上万
  7. 可靠性:
  8. 传统运维系统可靠性取决于关键节点,数据备份恢复困难
  9. 大数据运维提供海量数据3副本冗余备份,关键组件提供HA功能
  10. 传统运维:
  11. 传统运维转大数据运维有优势,因为有运维思维
  12. 有毅力、好学、积极上进
  13. 想提升自己收入的人

三:大数据运维工程师职责

  1. 规划部署:
  2. 根据业务规划和未来业务演进评估集群规模、存储规模、算力需求、技术选型等
  3. 大数据生态组件高可用部署,安全合规保障
  4. 开发人员使用集群方式规划、权限配置
  5. 管理变更:
  6. 根据监控的存储指标、资源指标、性能指标或业务调整进行集群的扩容上线、退役 下线、数据均衡、数据清理
  7. 根据需求变化进行权限修改、参数修改、集群访问方式修改
  8. 变更方案编写、评审,变更流程梳理建设、变更记录流痕
  9. 监控告警:
  10. 无运维不监控,建设监控体系、打通多样化告警方式
  11. 了解大数据组件关键核心指标含义,监控服务可用性、存储状态、资源状态、性 能瓶颈、操作安全
  12. 深度监控,作业状态、小文件、冷数据、影响评估
  13. 故障排查:
  14. 对产线环境产生的服务停止卡死、集群节点失败失联、主从切换、RPC性能问题进 行排查并进行复盘
  15. 对作业失败、作业卡死、数据误删除、数据丢失等问题进行排障并进行复盘
  16. 调优:
  17. 主机测参数调优、JVM参数调优、RPC性能调优
  18. 资源队列资源调整、线程分配调整
  19. 针对不同组件的运维场景与实践进行优化调整
  20. 体系建设:
  21. 运维流程制度建设、运维文化建设
  22. 运维人员成长晋升、成就感打造
  23. 工具体系的建设,打造一站式运维平台

四: 大数据初级运维工程师必备技能

  1. 基础知识:
  2. 熟练Linux常用操作命令、排障命令;比如查看系统负载、CPU负载、IO负载、磁盘负载等
  3. 熟悉Linux基本变更,比如用户操作、磁盘挂载、权限设置、用户资源设置等
  4. 熟悉网络命令,查看网络流量、查看网络连接
  5. ----
  6. 脚本编写:
  7. 熟悉shell脚本编程
  8. 熟悉python脚本编程
  9. 数据SQL编写
  10. 大数据组件:
  11. 熟悉常用大数据组件的体系结构、运行原理以及应用场景
  12. 熟悉组件的运维场景,比如启动、停止、扩缩容、监控核心指标
  13. 熟练使用大数据组件的常用运维命令

五:大数据高级运维工程师必备技能

  1. 经验:
  2. 工作起码要在3年以上,经历过2~3个中等以上规模大数据平台项目的运维
  3. 运维过几个常用大数据组件,并采坑无数,经历过日夜奋战
  4. 引起过产线故障,趟着公司的血,从战火里走出来
  5. 原理深入:
  6. 对组件体系结构、运行机制有更深入的了解
  7. 具有丰富的排查、调优经验,能够解决技术和业务中的复杂问题
  8. 熟悉JVM,比如参数调整、垃圾回收、内存结构等
  9. 有一定的源码阅读能力(不是必备)
  10. 体系建设(非必备):
  11. 能够带人负责某一业务的运维工作
  12. 运维体系化建设

六:大数据运维的重要性-大数据平台能力底座

image_1ejeuauef1cq81u5s1g48bmu32s13.png-241.3kB

七:大数据常用组件在大数据项目中的位置

image_1ejeucqqta3lvnt1iem19qggil20.png-335.7kB

八:运维体系架构

image_1ejeulsf15hn1hh513jg2l2ipq2d.png-404.9kB

九:大数据集群深度治理

image_1ejeuo47ekdl1cq6127r1tcp1ieq2q.png-394.9kB


十:HDFS分布式存储系统-特性&场景&业界使用

  1. 高容错
  2. 数据自动保存多个副本
  3. 副本丢失后,自动恢复
  4. 适合批处理
  5. 移动计算而非数据
  6. 数据位置暴露给计算框架
  7. 适合大数据处理
  8. GBTB、甚至PB级数据
  9. 百万规模以上的文件数量
  10. 10K+节点规模
  11. 流式文件访问
  12. 一次性写入,多次读取
  13. 保证数据一致性
  14. 可构建在廉价机器上
  15. 通过多副本提高可靠性
  16. 提供了容错和恢复机制
  17. 数据访问延迟高
  18. 不支持毫秒级的响应
  19. 不擅长小文件存储
  20. 占用NameNode大量内存
  21. 寻道时间超过读取时间

11.png-26kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注