@zhangyy
2020-09-23T16:39:45.000000Z
字数 492
阅读 109
大数据平台构建
一: 编写目的
二: 平台所用版本介绍
三: 配置步骤
四: 测试应用
通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。该文将介绍使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。
cdh 版本:
CDH5.14.4
StreamSets 版本:
StreamSets 3.5.2
在 大数据平台 CDH5.14.4 上面如何集成安装不在介绍 参考flyfish的博客
<<在CDH5.14.4 中安装StreamSets与案例运行>>
在CDH的 主节点上面 创建 目录
mkdir -p /tmp/mysql_to_hive