大数据数据仓库

大数据架构：数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台

数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台

overfit同步小助手 2024-08-13 02:03:49 0 收藏

数据仓库中的数据治理流程

数据仓库中的数据治理流程，包括策划、制定规则、執行、监控和改进等关键步骤，帮助读者了解并应用数据治理流程

overfit同步小助手 2024-08-11 06:03:46 0 收藏

数据仓库面试题（二）

1. 简述星型模型和雪花模型的区别？应用场景？2. 简述数仓建模有哪些方式？3. 简述数仓建模的流程？4. 简述维度建模的步骤，如何确定这些维度的？5. 简述维度建模和范式建模区别？6. 简述维度表和事实表的区别？

overfit同步小助手 2024-08-11 04:03:27 0 收藏

【理论篇】数据挖掘第四章数据仓库与联机分析处理

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理者的决策过程”。面向主题的(subject-oriented):数据仓库围绕一些重要主题，如顾客、供应商、产品和销售组织；集成的(integrated):通常，构造数据仓库是将多个异构数据源，如关系数据库、一般文件和联机事务处理记录

overfit同步小助手 2024-08-09 22:03:44 0 收藏

数仓: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ; 它可以帮助企业整合来自不同数据源

overfit同步小助手 2024-08-09 14:03:50 0 收藏

EXCEL数据导入HIVE

四、将test.txt文件上传至虚拟机的Linux环境中，同时在hive里新建Test数据表（已经建库），输入建表语句的时候务必注意对应字段的类型必须相同。本文将论述如何将Windows本地的excel表数据，导入到虚拟机Linux系统中的Hadoop生态中的Hive数据仓库中。至此，完成excel

overfit同步小助手 2024-08-09 10:03:59 0 收藏

数仓实践：数据仓库建设公共规范指南

数据模型的事实表设计在维度模型事实表的基础上，结合数据使用场景的具体实践，进行一定扩展，采用宽表设计方法。比如会员表，建议拆分为核心表和扩展表。建立核心模型与扩展模型体系，核心模型包括的字段支持常用核心的业务，扩展模型包括的字段支持个性化或是少量应用的需要，必要时让核心模型与扩展模型做关联，不能让扩

overfit同步小助手 2024-08-08 20:03:45 0 收藏

数据仓库之主题域

数据仓库的主题域（Subject Area）是按照特定业务领域或主题对数据进行分类和组织的方式。每个主题域集中反映一个特定的业务方面，使得数据分析和查询更加清晰和高效。主题域通常与企业的关键业务过程相关，能够帮助用户在数据仓库中快速找到所需的数据，进行分析和决策。

overfit同步小助手 2024-08-08 14:03:36 0 收藏

数据仓库哈哈

该层不需要一开始就设计，可以等DWD层设计的差不多了，或是写着写着发现DWD中有好多表都用到了共通的字段，有大量冗余数据，那么就可以将这部分共通的数据提取成一个表。shuffle操作会将完整的计算流程一分为二，会分为2个阶段（Stage）,前面一个阶段称之为Map阶段，后面的阶段称之为Reduce阶

overfit同步小助手 2024-08-08 11:03:45 0 收藏

深入解析数据仓库ADS层-从理论到实践的全面指南

探索ADS层的核心概念、设计原则和实现方法。学习如何构建高性能、安全可靠的数据应用层，包括星型模型设计、查询优化、增量更新等关键技术。掌握性能调优、数据生命周期管理和持续优化的最佳实践。洞察ADS层未来趋势：实时数据集市、机器学习集成、图数据模型和自然语言查询接口。无论您是数据工程师、分析师还是架构

overfit同步小助手 2024-08-08 08:03:47 0 收藏

hive 之 UDTF 之 explode 函数和 lateral view 侧视图（原理）

overfit同步小助手 2024-08-08 05:03:22 0 收藏

Hive 分区

加载数据：Linux 中写：hadoop fs -put ‘linux文件路径’ ’文件要上传的路径，一般为要映射的表所在的路径’DataGrip中写：Load data local inpath ‘Linux的文件路径’ into table 表名;Load data inpath ‘HDFS中

overfit同步小助手 2024-08-07 16:03:26 0 收藏

hive中的join操作及其数据倾斜

简要介绍了在hive中进行join操作可能遇到的若干问题

overfit同步小助手 2024-08-07 02:03:52 0 收藏

Hive常用内置函数合集

Hive常用函数合集

overfit同步小助手 2024-08-06 22:03:41 0 收藏

数据仓库之实时数仓

实时数据仓库（Real-time Data Warehouse, RTDW）是一种能够实时处理和分析数据的系统，旨在满足对低延迟数据处理和分析的需求。与传统的批处理数据仓库不同，实时数据仓库能够持续地接收、处理和存储数据，使用户能够快速获得最新的信息和洞察力。

overfit同步小助手 2024-08-06 12:03:40 0 收藏

在 PostgreSQL 中如何实现数据仓库级别的聚合计算？

PostgreSQL 内置了多种聚合函数，如SUM()（求和）、AVG()（平均值）、COUNT()（计数）、MIN()（最小值）和MAX()（最大值）等。这些函数可以应用于一个列或表达式，以计算该列或表达式在一组行中的聚合结果。下面是一个简单的示例，展示如何使用COUNT()在上述示例中，COUN

overfit同步小助手 2024-08-06 05:03:42 0 收藏

一文详解数据仓库、数据湖、湖仓一体和数据网格

本文对数据仓库、数据湖、湖仓一体、数据网格四个技术概念进行了辨析，并对它们的优势和局限给出了对比介绍。

overfit同步小助手 2024-08-06 00:04:12 0 收藏

Hive Beeline 配置

Beeline作为Hive的客户端工具，它支持两种模式：嵌入式模式（embedded mode）和远程模式（remote mode）。在嵌入式模式下，Beeline可以直接在HiveServer2的JVM中运行HiveQL脚本，而在远程模式下，Beeline可以在其他机器上运行并通过网络连接到Hiv

overfit同步小助手 2024-08-05 23:03:40 0 收藏

一文读懂数据仓库ODS层

数据仓库一般分为三层，分别为数据贴源层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。其中CDM层又分为DWD明细层、DWS轻度汇总层和DIM维度层。本文从设计思路

overfit同步小助手 2024-08-04 01:03:46 0 收藏

Hive 使用 LIMIT 指定偏移量返回数据

LIMIT 子句可用于限制SELECT语句返回的行数。LIMIT 接受一个或两个数字参数，这两个参数必须都是非负整数常量。第一个参数指定要返回的第一行的偏移量（从Hive 2.0.0开始），第二个参数指定要返回的最大行数。当只提供一个参数时，它表示最大行数，偏移量默认为0。

overfit同步小助手 2024-08-03 15:03:21 0 收藏