@duguyiren3476 2015-03-18T11:39:04.000000Z 字数 457 阅读 335

近三个月工作总结

未分类

hadoop生态环境搭建
目前生态节点:
namenode节点*1个;
datanode节点*6个;
hive*1个;
hbase master*1;
hbase regionserver*2;
zookeeper*2;
spark master*1;
spark work *2;
hdfs容量: 24T
平台承载任务:
a.flume 上传数据
b.合并文件 crush file任务
c.hdfs to infobright
需要完善:
a.hadoop HA
b.hadoop 扩容
c.hbase 节点扩容
d.根据业务需求设计rowkey
to hdfs 上行数据量
数据源
flume sink
mysql->sqoop->hive
数据量
33G/天
hdfs to infobright
采用技术: mapreduce 并行批量load数据到inforbright
达到效果: 延迟导入,目前数据导入平稳
需要扩展: 根据业务,对数据进行初步的group sort等聚合计算
hbase+phoenix 测试环境搭建
目标: 导2千万数据到hbase 与cassandra 性能对比
高房价