大数据数据仓库

数据技术革命来袭！从仓库到飞轮，企业数字化的终极进化！

自20世纪80年代末数据仓库问世以来，它迅速成为企业数据管理的核心。作为一名大数据工程师，我深刻体会到数据仓库的四大特点——主题导向、集成化、稳定性和历史记录——如何使我们能够高效地处理和分析大量历史数据，进而支持更深入的业务决策。在实际工作中，我看到这些技术进步不仅推动了企业的数字化转型，还为基于

overfit同步小助手 2024-10-05 01:04:18 0 收藏

数据质量8个衡量标准

数据的准确性，数据的精确性，数据的真实性，数据的及时性，数据的即时性，数据的完整性，数据的全面性，数据的关联性

overfit同步小助手 2024-10-04 23:04:29 0 收藏

数据仓库系列19：数据血缘分析在数据仓库中有什么应用?

数据血缘分析（Data Lineage Analysis）是一种追踪、记录和可视化数据在整个生命周期中流动和转换过程的技术。它就像是为数据建立了一个详细的"族谱"，记录了数据从产生、存储、处理到最终使用的每一个环节。

overfit同步小助手 2024-10-04 21:06:43 0 收藏

数据集成-缝合一套数据仓库Infra的臆想

也就是说，数据库的组织结构决定它的分析能力并不好，相对地，数据仓库的组织结构，能够让它快速简单地处理分析的请求，帮助决策者优化流程、节省成本和保障质量。这种分析需求无法在保存瞬态数据的事务型数据库中完成，也不能在保存大量历史数据的数据仓库中完成，形成 DB-ODS-DW 的三层体系结构。这样基于成熟

overfit同步小助手 2024-10-03 23:03:52 0 收藏

数据技术进化史：从数据仓库到数据中台再到数据飞轮的旅程

随着大数据时代的到来，数据已经成为企业的核心资产之一。在过去几十年间，数据技术也随之不断演进，从早期的数据仓库到近年来热门的数据中台，再到正在快速发展的数据飞轮概念，每一步都是技术革新的体现。

overfit同步小助手 2024-10-03 11:04:14 0 收藏

Spark与Hive计算转义数据结果不同造成数据差异

同一数据源和相同处理逻辑的脚本，其采用的执行引擎不同，跑出的结果数据存在差异。Hive 执行跑出所有的指标，Spark 仅跑出部分指标。定位在 LATERAL VIEW 侧视图计算指标后返回后的字段都是 string（字符串）类型，对数值为0的指标进行过滤两个引擎的处理之后结果不一致。Hive中能够

overfit同步小助手 2024-10-02 17:03:41 0 收藏

数仓工具—Hive基础之临时表及示例

临时表是应用程序自动管理在大型或复杂查询执行期间生成的中间数据的一种便捷方式。Hive 0.14 及更高版本支持临时表。可以在用户会话中像使用普通表一样多次使用它们。在本文中，我们将介绍，以及如何创建和使用限制的示例。是限于用户会话的。您可以在用户会话中多次重复使用临时表。Hive 在创建它们的 H

overfit同步小助手 2024-10-02 10:03:31 0 收藏

Hive中的分区表与分桶表详解

不过，并非所有的数据集都可形成合理的分区。分桶表的基本原理是，首先为每行数据计算一个指定字段的数据的 hash 值，然后模以一个指定的分桶数，最后将取模运算结果相同的行，写入同一个文件中，这个文件就称为一个分桶（bucket）。动态分区的模式，默认 strict（严格模式），要求必须指定至少一个分区

overfit同步小助手 2024-10-02 08:03:19 0 收藏

数据仓库系列 5：什么是事实表和维度表,它们有什么作用?

维度建模是一种专为数据仓库和商业智能(BI)系统设计的数据建模技术。它的核心思想是将复杂的业务数据组织成直观、易于理解和高效查询的结构。将数据分为事实(度量)和维度(上下文)两类。采用星型模式或雪花模式来组织这些事实和维度。优化了面向商业用户的查询性能和易用性。

overfit同步小助手 2024-10-02 03:03:38 0 收藏

hive中的分区

Hive分区的概念与传统关系型数据库分区不一样。传统数据库的分区方式：就oracle而言，分区独立存在于段里，里面存储真实的数据，在数据进行插入的时候自动分配分区。Hive的分区方式：因为Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应一个目录名，子分区名就是子目录名，并非一个实际字段

overfit同步小助手 2024-09-30 20:06:22 0 收藏

Hive企业级调优[1]——计算资源配置

MapReduce 资源配置主要包括 Map Task 的内存和 CPU 核数，以及 Reduce Task 的内存和 CPU 核数。本教程的计算环境为 Hive on MR。计算资源的调整主要包括 YARN 和 MapReduce。

overfit同步小助手 2024-09-30 17:03:30 0 收藏

Python知识点：如何使用Hive与PyHive进行数据仓库操作

使用Hive与PyHive进行数据仓库操作涉及多个步骤，包括Hive的安装与配置、PyHive的安装以及通过PyHive执行Hive SQL语句等。

overfit同步小助手 2024-09-30 05:05:17 0 收藏

数据仓库与数据库的不同

分享了数据仓库和数据库的不同

overfit同步小助手 2024-09-29 07:03:27 0 收藏

从数据仓库到数据飞轮：数据技术演进的探索与思考

在当今的数字化浪潮中，数据被视为一种极具价值的资源，类似于传统工业时代的石油，它为企业挖掘出深邃的洞察力，并成为决策过程中不可或缺的基石。随着技术的不断演进，数据管理的策略与架构也经历了显著的变革，从早期的数据仓库模式，逐步迈向集成化的数据中台架构，并朝着更加动态灵活的数据飞轮体系迈进。

overfit同步小助手 2024-09-27 07:03:43 0 收藏

数据仓库技术选型方案文档

Flink CDC 是 Flink 的子项目，是 Flink 的一组原连接器，用于 CDC 从不同数据库接收/更改数据，Flink CDC 将 Debezium 集成为引擎，异步或数据更改，因此 Flink CDC 可以充分使用和发挥 Debezium 的能力，并且可以无缝对接 Flink 使用其

overfit同步小助手 2024-09-26 22:03:56 0 收藏

Hive原理剖析

Apache Hive是一个基于Hadoop的开源数据仓库软件，为分析和管理大量数据集提供了SQL-like的接口。最初由Facebook开发并贡献给Apache，Hive现已成为大数据处理领域的重要工具之一。它将传统的SQL功能与Hadoop的强大分布式处理能力结合，使用户可以通过熟悉的SQL语法

overfit同步小助手 2024-09-26 18:03:39 0 收藏

Hive的集群的搭建-内嵌模式-本地模式-远程链接

Hive 是一个框架，可以通过编写sql的方式，自动的编译为MR任务的一个工具Hive是一个数据仓库工，可以将数据加载到表中，编写sql进行分析，底层依赖Hadoop，所以每一次都需要启动hadoop(hdfs以及yarn)，Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ，Hive

overfit同步小助手 2024-09-25 16:03:35 0 收藏

数仓基础知识_拉链表的详细讲解

拉链表核心思想，像个拉链，支持开链，支持闭链，支持退链，我们通常将最新的数据称为开链数据，历史数据称为闭链数据，拉链表支持历史数据查询，且空间占用较小，但是数据加工处理较为繁琐，属于时间换空间的设计方式，拉链表一个时间维度中同一个用户只保存一条用户状态。第一次加载因为拉链表历史数据为空，所以所有数据

overfit同步小助手 2024-09-24 21:03:38 0 收藏

从数据仓库到数据中台再到数据飞轮，我了解的数据技术进化史

数据技术的演化从数据仓库到数据中台，再到数据飞轮，反映了企业在数据管理和使用上的需求从基础的存储、查询向更高效、更智能的方向发展。现在来谈谈每个阶段的技术架构理念以及其特定的目标和侧重点。数据仓库通过存储大量结构化数据，支撑企业的战略决策。但随着企业业务的多样化和数据来源的复杂化，数据仓库难以应对非

overfit同步小助手 2024-09-24 14:03:27 0 收藏

远程连接Hiveserver2服务

完成Hive本地模式安装后，可以启动hiveserver2服务进行远程连接和操作Hive。

overfit同步小助手 2024-09-23 23:03:43 0 收藏