[关闭]
@zhangyy 2020-09-23T16:39:45.000000Z 字数 492 阅读 106

如何使用StreamSets从MySQL增量更新数据到Hive

大数据平台构建


一: 编写目的
二: 平台所用版本介绍
三: 配置步骤
四: 测试应用


一: 编写目的

  1. 通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQLOracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的HiveHDFSHBaseSolrElasticserach等。该文将介绍使用StreamSets通过JDBC的方式实时抽取增量数据到Hive

二: 平台所使用版本

  1. cdh 版本:
  2. CDH5.14.4
  3. StreamSets 版本:
  4. StreamSets 3.5.2
  5. 大数据平台 CDH5.14.4 上面如何集成安装不在介绍 参考flyfish的博客
  6. <<在CDH5.14.4 中安装StreamSets与案例运行>>

三:配置步骤

3.1 创建 Pipelines

image_1cv1uuqrr1bquug41v35cnm1dchp.png-294.6kB

image_1cv1v0453qra133q737117714rv16.png-294.6kB

image_1cv1v2fsl12gpujjdb8112vbvh1j.png-352.7kB

image_1cv1v45kf1dveo85g60r9homt9.png-359kB

  1. CDH 主节点上面 创建 目录
  2. mkdir -p /tmp/mysql_to_hive

image_1cv1v6fqf1jdn1eki15e2165f1p6jm.png-169.1kB

3.2 添加 jdbc 的查询者

image_1cv1vj8o04umhupeljfle14na13.png-48.5kB

image_1cv1vqvf71ga9loncbt12dcfc420.png-665.6kB

image_1cv1vs29k5q51et1uas15chtam2d.png-331.1kB

image_1cv1vu4coj0q1t6t2j6881sc62q.png-347.2kB

3.3 查看检查

image_1cv200meg1ti9hriq9bj4gome3n.png-679.9kB

image_1cv201gsogh8no0al1sag1ok747.png-177.5kB

image_1cv206a5b1fgb1voo19o51bm2kaf4k.png-300.9kB

3.4 添加Hive Metadata

image_1cv20btm51ua71qov32k11671gaj51.png-580.4kB

image_1cv20cui6ttn1nqorpck6811469.png-354.6kB

image_1cv20do4d79m1k1g1oom5p78dap.png-326.4kB

3.5 将Hive Metadata 输出到 HiveMetastore

image_1cv20ii0suq1fed13d1hem1jcp9.png-554.2kB

image_1cv20ofei6tna1qb4ctpp1n5u16.png-626.9kB

image_1cv20r2iotoa1shusehk3j8lq1j.png-437.3kB

image_1cv20s159p9g1tkd1o6pvc0ams20.png-485.1kB

image_1cv20st9o1cgrhmum34pjn1abj2d.png-508.6kB

image_1cv21032k1t0n14ccmtsga11q9a2q.png-613.8kB


3.6 整个流程类预览

image_1cv215hgrmq611ir1dhmd1a61d9.png-691.9kB

image_1cv219hll13in1vmd1ttb1eg0tkgm.png-569.5kB

四:测试应用

image_1cv21e4e4143ho3kkcl1pkegf29.png-1045kB

image_1cv21f5o0ck71qeo1np31uec18bo9.png-533.3kB

image_1cv21hc6e13jd3i81ugu1tpu1ev0m.png-225.1kB

image_1cv21idkivq7ni1q7hnf9sra1j.png-403kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注