0


【ETL】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

1. 摘要

对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、Kettle、Canal、StreamSetst进行简单梳理比较。

通过分析,笔者个人建议优先DataX更优。

2. 内容

2.1 Sqoop

2.1.1 介绍

Sqoop,SQL-to-Hadoop 即 “SQL到Hadoop和Hadoop到SQL”。 是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。主要用于在Hadoop与关系型数据库之间进行数据转移,可以将一个关系型数据库(MySQL ,Oracle等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中。 sqoop命令的本质是转化为MapReduce程序。sqoop分为导入(import)和导出(export),策略分为table和query,模式分为增量和全量。

标签: etl big data sqoop

本文转载自: https://blog.csdn.net/u013522009/article/details/125246660
版权归原作者 菜鸟蜀黍 所有, 如有侵权,请联系我们删除。

“【ETL】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼”的评论:

还没有评论