@zhangyy
2020-09-30T18:01:12.000000Z
字数 1646
阅读 186
大数据运维系列
hadoop集群节点6000+
数据容量100P+
日处理数据量200T+
----
文件数2亿+
日处理条数1.5万亿+
日作业数30万+
数据量:
传统数据的数据量在GB或TB级
大数据的数据量在PB级
集群规模:
传统运维的机器规模小
大数据运维的机器数据庞大,成千上万
可靠性:
传统运维系统可靠性取决于关键节点,数据备份恢复困难
大数据运维提供海量数据3副本冗余备份,关键组件提供HA功能
传统运维:
传统运维转大数据运维有优势,因为有运维思维
有毅力、好学、积极上进
想提升自己收入的人
规划部署:
根据业务规划和未来业务演进评估集群规模、存储规模、算力需求、技术选型等
大数据生态组件高可用部署,安全合规保障
开发人员使用集群方式规划、权限配置
管理变更:
根据监控的存储指标、资源指标、性能指标或业务调整进行集群的扩容上线、退役 下线、数据均衡、数据清理
根据需求变化进行权限修改、参数修改、集群访问方式修改
变更方案编写、评审,变更流程梳理建设、变更记录流痕
监控告警:
无运维不监控,建设监控体系、打通多样化告警方式
了解大数据组件关键核心指标含义,监控服务可用性、存储状态、资源状态、性 能瓶颈、操作安全
深度监控,作业状态、小文件、冷数据、影响评估
故障排查:
对产线环境产生的服务停止卡死、集群节点失败失联、主从切换、RPC性能问题进 行排查并进行复盘
对作业失败、作业卡死、数据误删除、数据丢失等问题进行排障并进行复盘
调优:
主机测参数调优、JVM参数调优、RPC性能调优
资源队列资源调整、线程分配调整
针对不同组件的运维场景与实践进行优化调整
体系建设:
运维流程制度建设、运维文化建设
运维人员成长晋升、成就感打造
工具体系的建设,打造一站式运维平台
基础知识:
熟练Linux常用操作命令、排障命令;比如查看系统负载、CPU负载、IO负载、磁盘负载等
熟悉Linux基本变更,比如用户操作、磁盘挂载、权限设置、用户资源设置等
熟悉网络命令,查看网络流量、查看网络连接
----
脚本编写:
熟悉shell脚本编程
熟悉python脚本编程
数据SQL编写
大数据组件:
熟悉常用大数据组件的体系结构、运行原理以及应用场景
熟悉组件的运维场景,比如启动、停止、扩缩容、监控核心指标
熟练使用大数据组件的常用运维命令
经验:
工作起码要在3年以上,经历过2~3个中等以上规模大数据平台项目的运维
运维过几个常用大数据组件,并采坑无数,经历过日夜奋战
引起过产线故障,趟着公司的血,从战火里走出来
原理深入:
对组件体系结构、运行机制有更深入的了解
具有丰富的排查、调优经验,能够解决技术和业务中的复杂问题
熟悉JVM,比如参数调整、垃圾回收、内存结构等
有一定的源码阅读能力(不是必备)
体系建设(非必备):
能够带人负责某一业务的运维工作
运维体系化建设
高容错
数据自动保存多个副本
副本丢失后,自动恢复
适合批处理
移动计算而非数据
数据位置暴露给计算框架
适合大数据处理
GB、TB、甚至PB级数据
百万规模以上的文件数量
10K+节点规模
流式文件访问
一次性写入,多次读取
保证数据一致性
可构建在廉价机器上
通过多副本提高可靠性
提供了容错和恢复机制
数据访问延迟高
不支持毫秒级的响应
不擅长小文件存储
占用NameNode大量内存
寻道时间超过读取时间