0


大数据DataX(三):DataX安装及使用

DataX安装及使用

一、安装及使用

DataX3.0只能安装到Linux中,需要有JDK8、Python环境(推荐Python2.6,Centos7自带python为2版本),如果自己下载DataX源码进行编译,那么需要的Maven3.x版本,这里我们直接下载DataX编译好的安装包。

tar -zxvf ./datax.tar.gz

下载地址:https://github.com/alibaba/DataX。下载之后直接解压到某一路径下完成安装,进入bin目录,即可运行同步作业:

cd  {YOUR_DATAX_HOME}/bin
python datax.py {YOUR_JOB.json}

二、​​​​​​​​​​​​​​入门案例

DataX自带了一个“streamreader”读入数据、“streamwriter”写出数据的自检脚本,可以运行此脚本检查DataX是否正常运行。

文件路径为“ {YOUR_DATAX_HOME}/job/job.json”,执行自检脚本命令为:

python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json
python /export/server/datax/bin/datax.py /export/server/datax/job/job.json

关于以上“job.json”文件的解释如下:

注意:以上“ErrorLimit”设置指的是在Datax中Job支持用户对于脏数据的自定义监控和告警,包括对脏数据最大记录数阈值(record值)或者脏数据占比阈值(percentage值),当Job传输过程出现的脏数据大于用户指定的数量/百分比,DataX Job报错退出。


  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨

本文转载自: https://blog.csdn.net/xiaoweite1/article/details/129075912
版权归原作者 Lansonli 所有, 如有侵权,请联系我们删除。

“大数据DataX(三):DataX安装及使用”的评论:

还没有评论