大数据数据仓库

数据仓库基础理论—数仓分层

在国内主流的数据仓库设计中，通常会采用多层架构来管理和组织数据，常见的层次：ODS（操作数据存储）、DWD（数据仓库明细层）、DWS（数据仓库汇总层）、DIM（维度模型层）和ADS（应用数据服务层）。

overfit同步小助手 2024-08-28 16:04:14 0 收藏

ETL工具Kettle使用总结

好久没有发布文章了，就用最近工作常用的kettle工具做为素材写一下随笔，方便以后碰到相同的问题快速解决。kettle的简介我就不介绍了，大家随便百度一下就可以查到，主要作用就是用于从一个或多个数据源中提取数据，对数据进行转换和清洗（这个过程就是ETL），然后加载到目标数据存储中，以支持数据分析、报

overfit同步小助手 2024-08-28 14:03:46 0 收藏

数据仓库-离线数据仓库架构-002

切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。对于sqoop和datax，如果只是单纯的数据同步，其实两者都是ok的，但是如果需要集成在大数据平台，还是比较推荐使用datax，原因就是支持流

overfit同步小助手 2024-08-28 13:03:49 0 收藏

企业数字化转型建设思路、本质、数字化架构、数字化规划蓝图

原文《企业数字化规划蓝图、数字化企业架构、数字化转型战略规划方案》PPT格式，共76页。企业数字化转型是一场深刻而复杂的变革，需要企业高层领导的坚定决心、全体员工的积极参与以及科学合理的规划与实施。通过明确建设思路、把握转型本质、构建数字化架构、制定规划蓝图，企业可以稳步推进数字化转型进程，最终实现

overfit同步小助手 2024-08-28 10:03:51 0 收藏

开源数据仓库对比

随着大数据时代的到来，企业对高效、可扩展的数据存储和分析需求日益增长。开源数据仓库技术因其灵活性、成本效益和强大的社区支持而受到广泛欢迎。本文将对比分析几款主流的开源数据仓库解决方案，包括Apache Hadoop Hive、Apache Spark SQL、ClickHouse、Greenplum

overfit同步小助手 2024-08-28 09:03:25 0 收藏

闲置物品交易系统的分析与设计（项目文档）

目前国内闲置物品市场正处于成长阶段，但闲置物品交易系统并不成熟。尤其是现有闲置物品交易平台功能设计单一、缺乏创新，视觉界面平淡;缺乏社交体验，交互性差，导致用户粘性差;欠缺后续服务与措施。平台远不能满足的实际需求，有必要作进一步深入的设计研究。从的角度出发，重点对闲置物品交易设计进行研究，以用户体验

overfit同步小助手 2024-08-27 19:03:17 0 收藏

seatunnel2.3.3在centos7上安装

安装前需要准备点环境，因为seatunnel是基于java开发的，因此需要先安装java，我这里使用的java1.8，可以网上搜索下java安装教程，记得配置JAVA_HOME环境变量。在安装的过程中需要用到mysql命令，因此也需要安装下MySQL环境，这里也不具体讲解了，在网上搜索安装就行。接下

overfit同步小助手 2024-08-27 14:03:17 0 收藏

Hive 中的 SPLIT、COALESCE 及 COLLECT_LIST 函数的用法

SPLITstr：要拆分的字符串。delimiter：用于拆分的分隔符。COALESCE：一组值，COALESCE将返回第一个非空值。expr：要收集的表达式。Hive 提供的SPLITCOALESCE和函数是数据处理和分析中非常有用的工具。它们可以帮助用户高效地处理字符串、管理空值，以及聚合数据。

overfit同步小助手 2024-08-27 11:04:00 0 收藏

Hive(十)函数列转行

select * from (select name, x, a from people lateral view explode(xinge) x_tmp as x lateral view explode(aihao) a_tmp as a) tmp where x='活泼' and a='打篮

overfit同步小助手 2024-08-26 21:03:45 0 收藏

Hive建表全攻略-从入门到精通

探索Apache Hive的强大功能！本文深入讲解Hive建表技巧、性能优化、安全管理和生态系统集成。从基础语法到高级特性，包括分区表、ORC存储、动态分区、查询优化等核心概念。学习如何处理数据倾斜、实现细粒度访问控制，以及与Spark、Kafka、HBase无缝集成。通过实战案例掌握构建高效数据仓

overfit同步小助手 2024-08-26 15:03:43 0 收藏

构建实时数据仓库：流式处理与实时计算技术解析

现在大数据应用比较火爆的领域，比如推荐系统在实践之初受技术所限，可能要一分钟、一小时、甚至更久才能对用户进行推荐，这远远不能满足需要，我们需要更快的完成对数据的处理，而不是进行离线的批处理。Lambda架构经历多年的发展，其优点是稳定，对于实时计算部分的计算成本可控，批量处理可以用晚上的时间来整体批

overfit同步小助手 2024-08-26 13:03:36 0 收藏

数据仓库系列 3：数据仓库的主要组成部分有哪些?

你是否曾经好奇过,当你在网上购物或使用手机应用时,背后的数据是如何被存储和分析的?答案就在数据仓库中。本文将为你揭开数据仓库的神秘面纱,深入探讨其核心组成部分,以及这些组件如何协同工作,将海量数据转化为有价值的商业洞察。

overfit同步小助手 2024-08-26 10:03:20 0 收藏

Docker搭建kafka和StarRocks的问题

本地搭建kafka遇到的问题，学习分享，贴出的错误提示用于搜索引擎，让大家方便搜索

overfit同步小助手 2024-08-26 02:03:52 0 收藏

hive拉链表详解

拉链表（Slowly Changing Dimension, SCD Type 2）是一种用于管理和存储数据仓库中历史数据变化的方法。在数据仓库设计中，数据可能会随时间变化，而我们需要保留这些变化的历史记录，以便能够追溯到任意时刻的数据状态。拉链表通过在数据表中添加时间戳或有效期列来实现这一目的。

overfit同步小助手 2024-08-25 15:03:56 0 收藏

怎么衡量数据仓库模型的优与劣

最近和朋友一起聊天，聊到数仓最多的话题就是数仓重构，有些企业数仓重构可能好几轮了，一直在重构中，新的模型上线，老的模型继续运营，总是解释不清楚新模型比老模型好在哪里？于是出现了集市的人说数仓模型不好用，数仓的人说集市不使用他们的模型，业务说这些我完全看不懂。那么问题出现在哪里？今天来说道说道。归根到

overfit同步小助手 2024-08-25 14:03:37 0 收藏

DataGrip无法连接Hive 【已解决】

【代码】DataGrip无法连接Hive 【已解决】

overfit同步小助手 2024-08-23 20:03:51 0 收藏

ETL数据集成丨将DB2数据同步至Postgres数仓实践

本文介绍了如何使用ETLCloud将DB2数据同步至Postgres数仓数据库，包括DB2与Postgres简介、ETLCloud数据同步方案及配置流程。

overfit同步小助手 2024-08-23 14:03:34 0 收藏

数仓实践：一文读懂数仓 ODS 层模型设计

具体使用的方式可用全外连接（full outer join） + 数据全量覆盖重新加载（insert overwrite）的方式，即如日调度，则将当天增量数据和前一天全量数据做全外连接，重新加载为最新的全量数据。具体使用的方式可用主键去重（row_number）+ 数据全量覆盖重新加载（insert

overfit同步小助手 2024-08-23 04:03:52 0 收藏

Doris: Multi Catalog 多源数据目录

overfit同步小助手 2024-08-23 02:04:05 0 收藏

hive的优化策略

以 on,where 多条件字段顺序，建【多重】分区表，默认开启支持,以分区字段为条件筛选数据，tez引擎：动态分区剪裁支持。控制Mapper和Reducer数量，mapper的启动和初始化开销较大,【数量过多】导致开销大于逻辑处理,浪费资源。从表：不存在以NULL填充，where不能下推，on可以

overfit同步小助手 2024-08-23 00:03:42 0 收藏