数据仓库-离线集市概述
数据集市(Datamart)是数据仓库的一个逻辑子集,专注于满足特定业务部门或领域的数据需求。与全面覆盖整个企业数据需求的数据仓库相比,数据集市更加聚焦和简洁,通常用于解决特定部门的业务问题或支持特定的分析需求。它可以看作是一个小型的数据仓库,具有独立的数据模型和存储方案,以便于更快速和高效地处理特
MySQL与数据仓库:OLAP和OLTP
📚 MySQL是一个广泛使用的开源关系型数据库管理系统,以其高性能、可靠性和易用性著称。它既可以用于OLTP场景,也可以通过某些优化用于OLAP场景。
[AIGC] Doris:一款高效的MPP数据仓库引擎
在大数据处理的领域中,Apache Doris(原百度 Palo)是一个高效的MPP(大规模并行处理)数据仓库,最初由百度开发,现在已经成为Apache的孵化项目。(图片取自百度)
数据湖和数据仓库核心概念与对比
大数据领域从本世纪初发展到现在,观察其中的发展规律,可以高度概括成如下五个方面:1. 数据保持高速增长 - 从5V核心要素看,大数据领域保持高速增长,对于新兴企业,大数据领域增长超过年200%。2. 大数据作为新的生产要素,得到广泛认可 - 大数据领域价值定位的迁移,从“探索”到“普惠”,成为各个企
hive3.1.2的详细安装配置
因为hive3.1.2中的有些jar包和比hadoop版本中的jar包版本低,所以我们需要进行一个jar包的替换,把hive中的/hive/lib中的guava-19.0.jar包改名为guava-19.0.jar.bak并从/hadoop-3.1.3/share/hadoop/common/lib
Hive Transaction事务表(含实现原理)
hive事务表
数据仓库: 2- 数据建模
星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根
大数据架构:数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台
数据库、数据湖、数据仓库、数据集市、湖仓一体、数据中台
数据仓库中的数据治理流程
数据仓库中的数据治理流程,包括策划、制定规则、執行、监控和改进等关键步骤,帮助读者了解并应用数据治理流程
数据仓库面试题(二)
1. 简述星型模型和雪花模型的区别?应用场景 ?2. 简述数仓建模有哪些方式 ?3. 简述数仓建模的流程 ?4. 简述维度建模的步骤,如何确定这些维度的 ?5. 简述维度建模和范式建模区别 ?6. 简述维度表和事实表的区别 ?
【理论篇】数据挖掘 第四章 数据仓库与联机分析处理
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程”。面向主题的(subject-oriented):数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织;集成的(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录
数仓: 1- 数据仓库基础
数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ; 它可以帮助企业整合来自不同数据源
EXCEL数据导入HIVE
四、将test.txt文件上传至虚拟机的Linux环境中,同时在hive里新建Test数据表(已经建库),输入建表语句的时候务必注意对应字段的类型必须相同。本文将论述如何将Windows本地的excel表数据,导入到虚拟机Linux系统中的Hadoop生态中的Hive数据仓库中。至此,完成excel
数仓实践:数据仓库建设公共规范指南
数据模型的事实表设计在维度模型事实表的基础上,结合数据使用场景的具体实践,进行一定扩展,采用宽表设计方法。比如会员表,建议拆分为核心表和扩展表。建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要,必要时让核心模型与扩展模型做关联,不能让扩
数据仓库之主题域
数据仓库的主题域(Subject Area)是按照特定业务领域或主题对数据进行分类和组织的方式。每个主题域集中反映一个特定的业务方面,使得数据分析和查询更加清晰和高效。主题域通常与企业的关键业务过程相关,能够帮助用户在数据仓库中快速找到所需的数据,进行分析和决策。
数据仓库哈哈
该层不需要一开始就设计,可以等DWD层设计的差不多了,或是写着写着发现DWD中有好多表都用到了共通的字段,有大量冗余数据,那么就可以将这部分共通的数据提取成一个表。shuffle操作会将完整的计算流程一分为二,会分为2个阶段(Stage),前面一个阶段称之为Map阶段,后面的阶段称之为Reduce阶
深入解析数据仓库ADS层-从理论到实践的全面指南
探索ADS层的核心概念、设计原则和实现方法。学习如何构建高性能、安全可靠的数据应用层,包括星型模型设计、查询优化、增量更新等关键技术。掌握性能调优、数据生命周期管理和持续优化的最佳实践。洞察ADS层未来趋势:实时数据集市、机器学习集成、图数据模型和自然语言查询接口。无论您是数据工程师、分析师还是架构
hive 之 UDTF 之 explode 函数 和 lateral view 侧视图(原理)
hive 之 UDTF 之 explode 函数 和 lateral view 侧视图(原理)
Hive 分区
加载数据:Linux 中写:hadoop fs -put ‘linux文件路径’ ’文件要上传的路径,一般为要映射的表所在的路径’DataGrip中写:Load data local inpath ‘Linux的文件路径’ into table 表名;Load data inpath ‘HDFS中
hive中的join操作及其数据倾斜
简要介绍了在hive中进行join操作可能遇到的若干问题