大数据数据仓库

大数据-233 离线数仓 - 留存会员需求、创建与加载DWS 层、ADS 层与小结

DWS 层通常被称为数据仓库服务层或明细层，它是数据仓库架构中的中间层，负责将原始数据经过清洗、转换后进行存储，并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层，主要聚焦于业务的直接需求和决策支持，提供高性能和高响应的数据查询能力，通常是直接为应用或决策系统提供服务。DWS 层

overfit同步小助手 2024-12-02 09:03:38 0 收藏

数据管理的四大支柱：揭秘数据中台、数据仓库、数据治理和主数据

数据管理的四大支柱

overfit同步小助手 2024-12-01 10:03:57 0 收藏

大数据-235 离线数仓 - 会员活跃度数据测试完整加载 ODS DWD 层

ODS 是操作型数据存储层，主要用于存放从业务系统中抽取的原始数据。数据通常以业务系统的原始格式或经过少量标准化处理的形式存储。是数仓的“数据输入口”，负责承接来自业务系统的数据。DWD 是明细数据层，存储的是经过清洗和轻度处理的宽表数据。DWD 数据是细粒度的、面向分析的明细数据，数据通常已经

overfit同步小助手 2024-12-01 10:03:25 0 收藏

2024数据仓库建设规范指南

数据仓库建设规范指南

overfit同步小助手 2024-11-29 11:03:27 0 收藏

数据仓库系列7：什么是概念模型、逻辑模型和物理模型,它们有什么区别?

概念模型是数据建模过程中最高层次的抽象。它就像是你数据世界的"鸟瞰图"。这个模型主要关注的是业务概念以及它们之间的关系,而不涉及任何技术细节。逻辑模型是概念模型的下一步细化。它保持了技术中立性,但比概念模型更加详细。逻辑模型定义了数据结构,包括实体、属性、关系和主键。物理模型是数据模型的最后一个阶段

overfit同步小助手 2024-11-29 02:03:30 0 收藏

【面试系列】月之暗面＜资深数据仓库工程师＞面试题

题目涵盖了编程技能、大数据技术、数据建模、数据治理以及平台设计等方面。

overfit同步小助手 2024-11-28 21:04:01 0 收藏

大数据新视界 -- Hive 数据仓库：构建高效数据存储的基石（下）（2/ 30）

本文深入探究 Hive 数据仓库，剖析数据分区原理策略与管理优化，阐释数据桶概念作用及创建应用，简述数据安全机制与实战配置，佐以案例代码，为高效数据存储提供指引并设互动，预告数据导入篇章。

overfit同步小助手 2024-11-28 07:03:20 0 收藏

笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——02. 关联规则挖掘

西安交通大学COMP551705数据仓库与数据挖掘

overfit同步小助手 2024-11-26 13:03:29 0 收藏

DAMA数据管理知识体系(第11章数据仓库和商务智能)

文章将围绕数据仓库的构建与管理展开，探讨如何通过数据仓库实现历史数据的集中存储与分析

overfit同步小助手 2024-11-26 08:03:55 0 收藏

数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

overfit同步小助手 2024-11-25 15:03:41 0 收藏

Kettle：一款数据仓库ETL神器

Pentaho Data Integration（Kettle）是一款功能强大、灵活易用的数据集成工具。它能够高效地处理各种数据类型和数据源，实现数据的抽取、转换和加载。

overfit同步小助手 2024-11-25 06:03:40 0 收藏

hive分区详细教程

为了提高sql的查询效率比如：假如数据量比较大，这个sql就是全表扫描，速度肯定慢。可以将数据按照天进行分区，一个分区就是一个文件夹，当你查询20230826的时候只需要去20230826这个文件夹中取数据即可，不需要全表扫描，提高了查询效率。总结1）分区表实际上就是对应一个HDFS文件系统上的独立

overfit同步小助手 2024-11-22 16:03:34 0 收藏

初探Flink的序列化

Flink未直接使用Java序列化，而是自研了一套高效的序列化机制。

overfit同步小助手 2024-11-22 13:03:50 0 收藏

数仓建设实践——用户留存分析专题模型设计

overfit同步小助手 2024-11-21 22:03:43 0 收藏

如何预防数据打架？数据仓库如何保持指标数据一致性开发指南（持续更新）

大数据开发人员最经常遇到尴尬和麻烦的事是，指标开发好了，以为万事大吉了。被业务和运营发现这个指标在不同地方数据打架，显示不同的数值。为了保证指标数据一致性，要从整个开发流程做好。

overfit同步小助手 2024-11-21 19:03:45 0 收藏

大数据之数据仓库的分层：ODS/DWD/DWS/ADS

ETL层（Extract-Transform-Load）：数据清洗层，存原始数据；ODS层（Operational Data Store）：操作数据源层；CDM层（Common Dimensional Model）：公共维度模型层，主要包括DWD层（Data Warehouse Detail 数据明

overfit同步小助手 2024-11-20 09:03:25 0 收藏

大数据-220 离线数仓 - 数仓基本概念数仓特征与数据库进行对比

面向主题的数据组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。数据仓库中的数据是分析服务的，而分析需要多种广泛的不同数据源以便进行比较、鉴别，数据仓库中的数据会从多个数据源中获取，这些数据源包括多种类型数据库

overfit同步小助手 2024-11-20 06:03:31 0 收藏

hive之greatest和least函数

greatest(col_a, col_b, ..., col_n)比较n个column的大小，过滤掉null或对null值进行处理，当某个column中是string，而其他是int/double/float等时，返回null；

overfit同步小助手 2024-11-19 22:03:50 0 收藏

DBeaver工具连接Hive

DBeaver工具连接Hive首先解压安装包dbeaver-ce-latest-x86_64-setup.zip，并安装dbeaver-ce-latest-x86_64-setup.exe；安装Kerberos客户端4.1-amd64.msi；查看集群节点/etc/hosts文件内容，并追加到C:\

overfit同步小助手 2024-11-18 09:03:42 0 收藏

第六章：数据工程（6.3数据治理和建模--6.4数据仓库和数据资源）

把数据转化成可流通的数据要素，重点包含。主题库建设可采用多层级体系结构，即。点击专栏订阅(持续更新~~~)衡量数据质量的指标体系包括。数据质量描述:数据质量可以。数据标准化阶段的具体。确定模型的数据结构，

overfit同步小助手 2024-11-17 22:03:52 0 收藏