StreamSets3.14.0安装部署，以及mysql增量采集到hive实战测试

StreamSets简介

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：

可视化界面操作，不写代码完成数据的采集和流转
内置监控，可是实时查看数据流传输的基本信息和数据的质量
强大的整合力，对现有常用组件全力支持，包括50种数据源、44种数据操作、46种目的地。

对于Streamsets来说，最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)、触发执行器（Executor）。创建一个Pipelines管道配置也基本是前三个组件，Executor很少使用。

常见的Origins有Kafka、HTTP、UDP、JDBC、HDFS等；Processors可以实现对每个字段的过滤、更改、编码、聚合等操作；Destinations跟Origins差不多，可以写入Kafka、Flume、JDBC、HDFS、Redis等。

组件详细信息可以查看官方文档：

https://docs.streamsets.com/portal/datacollector/3.14.x/help/index.html

安装部署

Streamsets最新的版本已经更新到5.x，但是由于已经不在开源，目前最新的免费版本官方只能下载3.22.3版本并且移除了历史版本下载的功能。由于3.15.x及其之后的版本，安装之后均需要进行Streamsets的注册认证激活（只需激活一次，激活完成永久免费使用），但是跳转激活的网址在好像在2022年初已经被墙了，无法进行激活数据传输，所以目前使用的是3.14.0版本（注：该版本是all版本，压缩后大小5.4G左右，不要使用core版本，因为已经闭源所以现在添加组件异常困难）。

知道兄弟们资源不好找，在此分享完整版安装包

链接：https://pan.baidu.com/s/1SLyHVPTbV5PLuqBx_k2mmQ 
提取码：g4d7

安装部署比较简单，按照如下步骤

1，上传压缩包到服务器并解压

文件目录介绍：

bin目录：是Streamset DC运行脚本目录

etc目录：是Streamset DC默认的配置文件目录，包括系统配置、权限配置、邮件配置、日志配置等；

data目录：是Streamset DC默认的数据目录，用于存储你设计的数据流等；

log目录：是Streamset DC默认的日志目录，包括GC日志和系统日志；

libexec目录：是Streamset DC默认的运行时环境配置目录

treamsets-libs目录：是Streamset DC默认的系统自带组件的目录

user-libs目录：是Streamset DC放置用户自定义开发组件的目录

edge-binaries目录：是Streamset DC存放Streamsets DC Edge的各种类型的安装包

2，配置文件修改

必须修改：修改libexec文件夹下面的sdc-env.sh文件，注释掉以下几行，不然会使用文件中写死的环境导致启动报错

如果想要修改web端口号修改etc文件夹下面的sdc.properties文件

如果不想使用默认的data目录和log目录，修改sdc-env.sh文件

启动服务

streamsets-datacollector/bin路径下面

后台启动：nohup ./streamsets dc &

StreamSet工作平台介绍

1，首页（首次进入）

默认账号密码是admin/admin

2，数据流创建界面

点击 CREATE NEW PIPELINE可以新建一个数据流

3，数据流设计界面

数据流设计界面，根据不同的功能可以分为5大区域：

数据流设计区域：该区域是数据流设计区域，通过拖拽组件选择区域的组件与连接操作设计数据流。

配置区域：该区域在设计阶段：主要配置整个数据流、配置每个组件、设置一个运行时数据规则；在预览阶段：查看对比各个组件的输入输出；在运行阶段，监控整个数据流、各个组件的运行状态、处理效率、出错率等；在快照阶段，可以查看数据流在某一时刻的快照信息。

组件选择区域：该区域放置了很多已经开发好的组件，包括origin类、processor类、destination类等组件，供数据流设计使用。

数据流控制区域：该区域主要用来控制设计好的数据流，比如：启动、校验、预览、分享、复制、删除、停止、导入、导出、数据快照、查看日志等等。

StreamSets DC操作区域：该区域主要是操作Streamsets DC，比如：安装组件、系统启停、消息通知、系统监控、系统日志、权限控制、系统的一些配置（部分）、系统提供的RESTful接口使用等等。

4，数据流管理界面（主界面）

mysql增量到hive实战

1，创建数据流

创建数据流

配置错误日志输出路径，我设置的是/home/etl/sdctest

2，添加JDBC query(Origins)

添加驱动

Mysql连接用户

3，执行预览检查

可以看到，mysql表里面的数据

4，添加hive metadata

添加hive的jdbc链接

注：如果hive开启了用户认证，一定要在后面加上用户信息。如：jdbc:hive2://xxx.xxx.xxx.xx:10000/default;user=xxx;password=xxx

配置hive库和表名，注：hive表提前创建，不然会报错

在这重点说一下分区设置：首先，分区字段和mysql中的字段不能存在名称一样的，不然会报错；

如果查询mysql是三个字段a,b,c;我想使用c映射为分区字段，那么需要在Partition Value Expression选项中设置为${record:value('/c')}，而且c字段也会存储在hive的普通字段中，那怕hive创建的表不包含字段c，也会自动创建c字段；上图所示我是使用的日期作为分区，这一块需要注意设置时区问题，避免日期不一致；

设置数据格式为avro,注：创建的hive数据存储格式也必须得是avro不然报错