数据仓库面试题(二)

1. 简述星型模型和雪花模型的区别?应用场景 ?2. 简述数仓建模有哪些方式 ?3. 简述数仓建模的流程 ?4. 简述维度建模的步骤,如何确定这些维度的 ?5. 简述维度建模和范式建模区别 ?6. 简述维度表和事实表的区别 ?

【理论篇】数据挖掘 第四章 数据仓库与联机分析处理

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程”。面向主题的(subject-oriented):数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织;集成的(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录

数仓: 1- 数据仓库基础

数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ;​ 它可以帮助企业整合来自不同数据源

EXCEL数据导入HIVE

四、将test.txt文件上传至虚拟机的Linux环境中,同时在hive里新建Test数据表(已经建库),输入建表语句的时候务必注意对应字段的类型必须相同。本文将论述如何将Windows本地的excel表数据,导入到虚拟机Linux系统中的Hadoop生态中的Hive数据仓库中。至此,完成excel

数仓实践:数据仓库建设公共规范指南

数据模型的事实表设计在维度模型事实表的基础上,结合数据使用场景的具体实践,进行一定扩展,采用宽表设计方法。比如会员表,建议拆分为核心表和扩展表。建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要,必要时让核心模型与扩展模型做关联,不能让扩

数据仓库之主题域

数据仓库的主题域(Subject Area)是按照特定业务领域或主题对数据进行分类和组织的方式。每个主题域集中反映一个特定的业务方面,使得数据分析和查询更加清晰和高效。主题域通常与企业的关键业务过程相关,能够帮助用户在数据仓库中快速找到所需的数据,进行分析和决策。

数据仓库哈哈

该层不需要一开始就设计,可以等DWD层设计的差不多了,或是写着写着发现DWD中有好多表都用到了共通的字段,有大量冗余数据,那么就可以将这部分共通的数据提取成一个表。shuffle操作会将完整的计算流程一分为二,会分为2个阶段(Stage),前面一个阶段称之为Map阶段,后面的阶段称之为Reduce阶

深入解析数据仓库ADS层-从理论到实践的全面指南

探索ADS层的核心概念、设计原则和实现方法。学习如何构建高性能、安全可靠的数据应用层,包括星型模型设计、查询优化、增量更新等关键技术。掌握性能调优、数据生命周期管理和持续优化的最佳实践。洞察ADS层未来趋势:实时数据集市、机器学习集成、图数据模型和自然语言查询接口。无论您是数据工程师、分析师还是架构

hive 之 UDTF 之 explode 函数 和 lateral view 侧视图(原理)

hive 之 UDTF 之 explode 函数 和 lateral view 侧视图(原理)

Hive 分区

加载数据:Linux 中写:hadoop fs -put ‘linux文件路径’ ’文件要上传的路径,一般为要映射的表所在的路径’DataGrip中写:Load data local inpath ‘Linux的文件路径’ into table 表名;Load data inpath ‘HDFS中

hive中的join操作及其数据倾斜

简要介绍了在hive中进行join操作可能遇到的若干问题

Hive常用内置函数合集

Hive常用函数合集

数据仓库之实时数仓

实时数据仓库(Real-time Data Warehouse, RTDW)是一种能够实时处理和分析数据的系统,旨在满足对低延迟数据处理和分析的需求。与传统的批处理数据仓库不同,实时数据仓库能够持续地接收、处理和存储数据,使用户能够快速获得最新的信息和洞察力。

在 PostgreSQL 中如何实现数据仓库级别的聚合计算?

PostgreSQL 内置了多种聚合函数,如SUM()(求和)、AVG()(平均值)、COUNT()(计数)、MIN()(最小值)和MAX()(最大值)等。这些函数可以应用于一个列或表达式,以计算该列或表达式在一组行中的聚合结果。下面是一个简单的示例,展示如何使用COUNT()在上述示例中,COUN

一文详解数据仓库、数据湖、湖仓一体和数据网格

本文对数据仓库、数据湖、湖仓一体、数据网格四个技术概念进行了辨析,并对它们的优势和局限给出了对比介绍。

Hive Beeline 配置

Beeline作为Hive的客户端工具,它支持两种模式:嵌入式模式(embedded mode)和远程模式(remote mode)。在嵌入式模式下,Beeline可以直接在HiveServer2的JVM中运行HiveQL脚本,而在远程模式下,Beeline可以在其他机器上运行并通过网络连接到Hiv

一文读懂数据仓库ODS层

数据仓库一般分为三层,分别为数据贴源层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。其中CDM层又分为DWD明细层、DWS轻度汇总层和DIM维度层。本文从设计思路

Hive 使用 LIMIT 指定偏移量返回数据

LIMIT 子句可用于限制SELECT语句返回的行数。LIMIT 接受一个或两个数字参数,这两个参数必须都是非负整数常量。第一个参数指定要返回的第一行的偏移量(从Hive 2.0.0开始),第二个参数指定要返回的最大行数。当只提供一个参数时,它表示最大行数,偏移量默认为0。

HiveSQL题——array_contains函数

HiveSQL题——array_contains函数

抖音集团基于 Apache Doris 的实时数据仓库实践

在直播、电商等业务场景中存在着大量实时数据,这些数据对业务发展至关重要。而在处理实时数据时,我们也遇到了诸多挑战,比如实时数据开发门槛高、运维成本高以及资源浪费等。此外,实时数据处理比离线数据更复杂,需要应对多流 JOIN、维度表变化等技术难题,并确保系统的稳定性和数据的准确性。本文将分享基于的实时

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈