数据仓库基础理论—数仓分层
在国内主流的数据仓库设计中,通常会采用多层架构来管理和组织数据,常见的层次:ODS(操作数据存储)、DWD(数据仓库明细层)、DWS(数据仓库汇总层)、DIM(维度模型层)和ADS(应用数据服务层)。
ETL工具Kettle使用总结
好久没有发布文章了,就用最近工作常用的kettle工具做为素材写一下随笔,方便以后碰到相同的问题快速解决。kettle的简介我就不介绍了,大家随便百度一下就可以查到,主要作用就是用于从一个或多个数据源中提取数据,对数据进行转换和清洗(这个过程就是ETL),然后加载到目标数据存储中,以支持数据分析、报
数据仓库-离线数据仓库架构-002
切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。对于sqoop和datax,如果只是单纯的数据同步,其实两者都是ok的,但是如果需要集成在大数据平台,还是比较推荐使用datax,原因就是支持流
企业数字化转型建设思路、本质、数字化架构、数字化规划蓝图
原文《企业数字化规划蓝图、数字化企业架构、数字化转型战略规划方案》PPT格式,共76页。企业数字化转型是一场深刻而复杂的变革,需要企业高层领导的坚定决心、全体员工的积极参与以及科学合理的规划与实施。通过明确建设思路、把握转型本质、构建数字化架构、制定规划蓝图,企业可以稳步推进数字化转型进程,最终实现
开源数据仓库对比
随着大数据时代的到来,企业对高效、可扩展的数据存储和分析需求日益增长。开源数据仓库技术因其灵活性、成本效益和强大的社区支持而受到广泛欢迎。本文将对比分析几款主流的开源数据仓库解决方案,包括Apache Hadoop Hive、Apache Spark SQL、ClickHouse、Greenplum
闲置物品交易系统的分析与设计(项目文档)
目前国内闲置物品市场正处于成长阶段,但闲置物品交易系统并不成熟。尤其是现有闲置物品交易平台功能设计单一、缺乏创新,视觉界面平淡;缺乏社交体验,交互性差,导致用户粘性差;欠缺后续服务与措施。平台远不能满足的实际需求,有必要作进一步深入的设计研究。从的角度出发,重点对闲置物品交易设计进行研究,以用户体验
seatunnel2.3.3在centos7上安装
安装前需要准备点环境,因为seatunnel是基于java开发的,因此需要先安装java,我这里使用的java1.8,可以网上搜索下java安装教程,记得配置JAVA_HOME环境变量。在安装的过程中需要用到mysql命令,因此也需要安装下MySQL环境,这里也不具体讲解了,在网上搜索安装就行。接下
Hive 中的 SPLIT、COALESCE 及 COLLECT_LIST 函数的用法
SPLITstr:要拆分的字符串。delimiter:用于拆分的分隔符。COALESCE:一组值,COALESCE将返回第一个非空值。expr:要收集的表达式。Hive 提供的SPLITCOALESCE和函数是数据处理和分析中非常有用的工具。它们可以帮助用户高效地处理字符串、管理空值,以及聚合数据。
Hive(十)函数 列转行
select * from (select name, x, a from people lateral view explode(xinge) x_tmp as x lateral view explode(aihao) a_tmp as a) tmp where x='活泼' and a='打篮
Hive建表全攻略-从入门到精通
探索Apache Hive的强大功能!本文深入讲解Hive建表技巧、性能优化、安全管理和生态系统集成。从基础语法到高级特性,包括分区表、ORC存储、动态分区、查询优化等核心概念。学习如何处理数据倾斜、实现细粒度访问控制,以及与Spark、Kafka、HBase无缝集成。通过实战案例掌握构建高效数据仓
构建实时数据仓库:流式处理与实时计算技术解析
现在大数据应用比较火爆的领域,比如推荐系统在实践之初受技术所限,可能要一分钟、一小时、甚至更久才能对用户进行推荐,这远远不能满足需要,我们需要更快的完成对数据的处理,而不是进行离线的批处理。Lambda架构经历多年的发展,其优点是稳定,对于实时计算部分的计算成本可控,批量处理可以用晚上的时间来整体批
数据仓库系列 3:数据仓库的主要组成部分有哪些?
你是否曾经好奇过,当你在网上购物或使用手机应用时,背后的数据是如何被存储和分析的?答案就在数据仓库中。本文将为你揭开数据仓库的神秘面纱,深入探讨其核心组成部分,以及这些组件如何协同工作,将海量数据转化为有价值的商业洞察。
Docker搭建kafka和StarRocks的问题
本地搭建kafka遇到的问题,学习分享,贴出的错误提示用于搜索引擎,让大家方便搜索
hive拉链表详解
拉链表(Slowly Changing Dimension, SCD Type 2)是一种用于管理和存储数据仓库中历史数据变化的方法。在数据仓库设计中,数据可能会随时间变化,而我们需要保留这些变化的历史记录,以便能够追溯到任意时刻的数据状态。拉链表通过在数据表中添加时间戳或有效期列来实现这一目的。
怎么衡量数据仓库模型的优与劣
最近和朋友一起聊天,聊到数仓最多的话题就是数仓重构,有些企业数仓重构可能好几轮了,一直在重构中,新的模型上线,老的模型继续运营,总是解释不清楚新模型比老模型好在哪里?于是出现了集市的人说数仓模型不好用,数仓的人说集市不使用他们的模型,业务说这些我完全看不懂。那么问题出现在哪里?今天来说道说道。归根到
DataGrip无法连接Hive 【已解决】
【代码】DataGrip无法连接Hive 【已解决】
ETL数据集成丨将DB2数据同步至Postgres数仓实践
本文介绍了如何使用ETLCloud将DB2数据同步至Postgres数仓数据库,包括DB2与Postgres简介、ETLCloud数据同步方案及配置流程。
数仓实践:一文读懂数仓 ODS 层模型设计
具体使用的方式可用全外连接(full outer join) + 数据全量覆盖重新加载(insert overwrite)的方式,即如日调度,则将当天增量数据和前一天全量数据做全外连接,重新加载为最新的全量数据。具体使用的方式可用主键去重(row_number)+ 数据全量覆盖重新加载(insert
Doris: Multi Catalog 多源数据目录
Doris: Multi Catalog 多源数据目录
hive的优化策略
以 on,where 多条件字段顺序,建【多重】分区表,默认开启支持,以分区字段为条件筛选数据,tez引擎:动态分区剪裁支持。控制Mapper和Reducer数量,mapper的启动和初始化开销较大,【数量过多】导致开销大于逻辑处理,浪费资源。从表:不存在以NULL填充,where不能下推,on可以