etl - overfit.cn

kettle从入门到精通第五十三课 ETL之kettle MQTT/RabbitMQ consumer实战

其实这里的topic是RabbitMQ中的routing key（另外这里的routing key 一定不要绑定队列，否则MQTT consumer步骤无法接收数据）。指定此步骤将连接的 MQTT 服务器的地址，如127.0.0.1:1883（注意这里的端口是1883，不是5672）在每收集到‘X’

overfit同步小助手 2024-06-15 18:03:33 0 收藏

大数据之数据仓库技术：ETL工具和Kettle简介

`ETL` 是实现商务智能(Business Intelligence，BI)的核心。一般情况下，ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。如果说 `数据仓库` 的模型设计是一座大厦的设计蓝图，数据是砖瓦的话，那么 `ETL` 就是建设大厦的过程。

overfit同步小助手 2024-06-13 07:03:49 0 收藏

kettle构建基于sakila数据库的DVD租赁商店数据仓库

构建sakila的星型租赁模型数据仓库

overfit同步小助手 2024-06-12 08:03:52 0 收藏

【数据仓库】血缘关系分析工具适用场景、常见产品、功能介绍

跟踪数据在系统中的流动和转换过程，记录数据的来源、去向以及数据之间的关系。提供直观的图形界面，展示数据的血缘关系，帮助用户理解数据的流动和关系。支持灵活的查询功能，帮助用户快速定位数据的血缘关系，解决数据相关的问题。分析数据的血缘关系，识别数据流动中的瓶颈和风险，帮助优化数据流程和数据管理策略。举例

overfit同步小助手 2024-06-11 03:03:51 0 收藏

kettle从入门到精通第五十三课 ETL之kettle MQTT/RabbitMQ producer 实战

MQTT 是基于发布/订阅模式（Publish/Subscribe）的协议，其中设备可以发布消息到一个主题（Topic），其他设备可以订阅这个主题以接收相关消息。MQTT (Message Queuing Telemetry Transport) 是一种轻量级的消息传输协议，设计用于连接低带宽、高延

overfit同步小助手 2024-06-07 19:03:50 0 收藏

使用Docker部署DataX3.0+DataX-Web

注意：datax_web:3.0.1镜像已经整合了datax3.0和datax-web，整合后的镜像大小约990M。1、准备基础镜像，开通所需端口。

overfit同步小助手 2024-03-31 02:02:36 0 收藏

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题：数据源多样：常用的数

overfit同步小助手 2024-03-30 02:03:48 0 收藏

ETL数据仓库的使用方式

ETL数据仓库使用方式。

overfit同步小助手 2024-03-09 03:03:37 0 收藏

Kettle——大数据ETL工具

kettle概念组件介绍，kettle下载安装以及简单使用。

overfit同步小助手 2024-02-28 08:03:29 0 收藏

数据仓库ETL工具对比

1.背景介绍数据仓库ETL(Extract, Transform, Load)工具是用于将数据从不同的数据源提取、转换并加载到数据仓库中的一种技术。ETL工具是数据仓库建设的核心组件，它可以帮助数据仓库专家更快地构建、维护和管理数据仓库。在过去的几年里，ETL工具的市场已经出现了许多竞争对手。这些工

overfit同步小助手 2024-02-27 13:03:50 0 收藏

大数据技术3：数据仓库的ETL和分层模型

数据仓库是一个面向主题的集成的相对稳定的反映历史变化（Time Variant）的数据集合，用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的

overfit同步小助手 2024-02-24 23:03:22 0 收藏

DataX3.0+DataX-Web部署分布式可视化ETL系统

DataX 是阿里云 DataWorks 数据集成的开源版本，主要就是用于实现数据间的离线同步。DataX 致力于实现包括关系型数据库（MySQL、Oracle 等）、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源（即不同的数据库）间稳定高效的数据同步功能。

overfit同步小助手 2024-02-24 14:03:10 0 收藏

ETL详解--数据仓库技术

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程，是数据仓库的生命线。它是一种数据处理过程，用于从不同的数据源中提取数据、对数据进行转换和清洗，并将处理后的数据加载到目标系统

overfit同步小助手 2024-02-18 20:03:50 0 收藏

数据仓库与ETL：数据仓库设计和ETL流程

1.背景介绍数据仓库与ETL：数据仓库设计和ETL流程1. 背景介绍数据仓库是一种用于存储、管理和分析大量历史数据的系统。它通常用于企业、组织和政府等机构，以支持决策过程。数据仓库的核心是ETL(Extract、Transform、Load)流程，它包括数据提取、数据转换和数据加载三个阶段。本文将深

overfit同步小助手 2024-02-12 17:03:14 0 收藏

AnalyticDB for PostgreSQL 实时数据仓库上手指南

AnalyticDB for PostgreSQL 提供企业级数据仓库云服务，基于开源Greenplum构建，采用MPP架构，支持1000+节点PB级数据的实时分析。通过数据传输服务 DTS 、数据集成工具DataX、开源同步工具 rds_dbsync 、 Kettle 等，同步交易库数据到 AD

overfit同步小助手 2024-01-21 03:03:42 0 收藏

基于 Flink 的典型 ETL 场景实现方案

数仓架构演变，三种架构：lambda架构、kappa架构、实时olap架构。维表join，双流Join。

overfit同步小助手 2023-12-31 04:03:20 0 收藏

基于 Flink CDC 构建 MySQL 的 Streaming ETL to MySQL

CDC 的全称是 Change Data Capture ，在广义的概念上，只要是能捕获数据变更的技术，我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛：• 数据同步：用于备份，容灾；• 数据分发：一个数

overfit同步小助手 2023-12-30 09:03:45 0 收藏

kettle开发篇-更新-Day38

超详细跨库多表数据更新教程。

overfit同步小助手 2023-11-08 01:03:46 0 收藏

【ETL工具】本地环境IDEA远程DEBUG调试Flume代码

Flume 自定义 HDFS-Sink，远程服务器进行部署flume打包好后的代码，本地监控远程flume程序端口，进行本地debug和学习Flume 整个运行流程和Event 数据结构学习。

overfit同步小助手 2023-10-28 13:05:14 0 收藏

大数据ETL说明（外）

元数据（Metadata）是关于数据的数据，指对数据进行描述和说明的数据，包括数据的标识、类型、格式、来源、创建时间、修改时间等。数据源是数据仓库和数据挖掘系统中数据的来源，对数据的质量和可靠性有直接的影响。它是一个集成的、一致的、历史的、经过清洗的数据存储，可以帮助企业更好地理解其业务和客户，并做

overfit同步小助手 2023-10-11 05:03:47 0 收藏