@zhangyy
2020-09-23T08:39:45.000000Z
字数 492
阅读 315
大数据平台构建
一: 编写目的
二: 平台所用版本介绍
三: 配置步骤
四: 测试应用
通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。该文将介绍使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。
cdh 版本:CDH5.14.4StreamSets 版本:StreamSets 3.5.2在 大数据平台 CDH5.14.4 上面如何集成安装不在介绍 参考flyfish的博客<<在CDH5.14.4 中安装StreamSets与案例运行>>




在CDH的 主节点上面 创建 目录mkdir -p /tmp/mysql_to_hive























