数据仓库 - overfit.cn

hive中的分区

Hive分区的概念与传统关系型数据库分区不一样。传统数据库的分区方式：就oracle而言，分区独立存在于段里，里面存储真实的数据，在数据进行插入的时候自动分配分区。Hive的分区方式：因为Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应一个目录名，子分区名就是子目录名，并非一个实际字段

overfit同步小助手 2024-09-30 20:06:22 0 收藏

Hive企业级调优[1]——计算资源配置

MapReduce 资源配置主要包括 Map Task 的内存和 CPU 核数，以及 Reduce Task 的内存和 CPU 核数。本教程的计算环境为 Hive on MR。计算资源的调整主要包括 YARN 和 MapReduce。

overfit同步小助手 2024-09-30 17:03:30 0 收藏

Hive数仓操作（二）

Hive 是一个用于处理大规模数据集的工具，支持多种数据类型以满足不同的需求。本文将详细介绍 Hive 的基本数据类型和集合数据类型。

overfit同步小助手 2024-09-30 14:08:02 0 收藏

数据仓库-数据质量规范

改层数据是由上游ODS层的数据进行清洗，转化，过滤，归一化，汇总而生产的，具有高度的一致性，同时也是DWS和DM层的基石。数据质量管理是测度、提高和验证质量，以及整合组织数据的方法等一套处理准则，而体量大、速度快和多样性的特点，决定了大数据质量所需的处理，有别于传统信息治理计划的质量管理方式。来源：

overfit同步小助手 2024-09-30 14:07:47 0 收藏

Python知识点：如何使用Hive与PyHive进行数据仓库操作

使用Hive与PyHive进行数据仓库操作涉及多个步骤，包括Hive的安装与配置、PyHive的安装以及通过PyHive执行Hive SQL语句等。

overfit同步小助手 2024-09-30 05:05:17 0 收藏

数据仓库与数据库的不同

分享了数据仓库和数据库的不同

overfit同步小助手 2024-09-29 07:03:27 0 收藏

从数据仓库到数据飞轮：数据技术演进的探索与思考

在当今的数字化浪潮中，数据被视为一种极具价值的资源，类似于传统工业时代的石油，它为企业挖掘出深邃的洞察力，并成为决策过程中不可或缺的基石。随着技术的不断演进，数据管理的策略与架构也经历了显著的变革，从早期的数据仓库模式，逐步迈向集成化的数据中台架构，并朝着更加动态灵活的数据飞轮体系迈进。

overfit同步小助手 2024-09-27 07:03:43 0 收藏

数据仓库技术选型方案文档

Flink CDC 是 Flink 的子项目，是 Flink 的一组原连接器，用于 CDC 从不同数据库接收/更改数据，Flink CDC 将 Debezium 集成为引擎，异步或数据更改，因此 Flink CDC 可以充分使用和发挥 Debezium 的能力，并且可以无缝对接 Flink 使用其

overfit同步小助手 2024-09-26 22:03:56 0 收藏

Hive原理剖析

Apache Hive是一个基于Hadoop的开源数据仓库软件，为分析和管理大量数据集提供了SQL-like的接口。最初由Facebook开发并贡献给Apache，Hive现已成为大数据处理领域的重要工具之一。它将传统的SQL功能与Hadoop的强大分布式处理能力结合，使用户可以通过熟悉的SQL语法

overfit同步小助手 2024-09-26 18:03:39 0 收藏

Hive的集群的搭建-内嵌模式-本地模式-远程链接

Hive 是一个框架，可以通过编写sql的方式，自动的编译为MR任务的一个工具Hive是一个数据仓库工，可以将数据加载到表中，编写sql进行分析，底层依赖Hadoop，所以每一次都需要启动hadoop(hdfs以及yarn)，Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ，Hive

overfit同步小助手 2024-09-25 16:03:35 0 收藏

数仓基础知识_拉链表的详细讲解

拉链表核心思想，像个拉链，支持开链，支持闭链，支持退链，我们通常将最新的数据称为开链数据，历史数据称为闭链数据，拉链表支持历史数据查询，且空间占用较小，但是数据加工处理较为繁琐，属于时间换空间的设计方式，拉链表一个时间维度中同一个用户只保存一条用户状态。第一次加载因为拉链表历史数据为空，所以所有数据

overfit同步小助手 2024-09-24 21:03:38 0 收藏

从数据仓库到数据中台再到数据飞轮，我了解的数据技术进化史

数据技术的演化从数据仓库到数据中台，再到数据飞轮，反映了企业在数据管理和使用上的需求从基础的存储、查询向更高效、更智能的方向发展。现在来谈谈每个阶段的技术架构理念以及其特定的目标和侧重点。数据仓库通过存储大量结构化数据，支撑企业的战略决策。但随着企业业务的多样化和数据来源的复杂化，数据仓库难以应对非

overfit同步小助手 2024-09-24 14:03:27 0 收藏

远程连接Hiveserver2服务

完成Hive本地模式安装后，可以启动hiveserver2服务进行远程连接和操作Hive。

overfit同步小助手 2024-09-23 23:03:43 0 收藏

从 Greenplum 到 Databend，数据仓库的开源新选择

万全网络的迁移过程包括了数据库架构优化、迁移过程的集成与优化、查询优化和性能提升、测试与回退策略以及迁移中的挑战与解决方案。迁移完成后，万全网络在查询性能、数据导入/导出速度、存储效率、用户体验和成本效益等方面取得了显著成果。万全网络团队在 4 个月中，成功完成了整个业务系统的迁移工作，涵盖了 4

overfit同步小助手 2024-09-23 15:04:35 0 收藏

Hive Tutorial For Beginners

适合初学者的 Hive 导论~

overfit同步小助手 2024-09-23 08:03:31 0 收藏

二百六十六、Hive——Hive的DWD层数据清洗、清洗记录、数据修复、数据补全

Hive——Hive的DWD层数据清洗、清洗记录、数据修复、数据补全

overfit同步小助手 2024-09-22 20:03:45 0 收藏

数据仓库: 6- 数据仓库分层

清晰的数据结构: 分层结构使得数据仓库的数据组织更加清晰, 易于理解和维护;提高数据质量: 不同层次的数据经过不同的处理和校验, 可以有效提高数据质量;简化数据处理: 分层结构可以将复杂的业务逻辑分解到不同的层次, 简化数据处理流程;提高开发效率: 分层结构可以提高代码复用率, 降低开发成本, 提高

overfit同步小助手 2024-09-22 17:03:14 0 收藏

Hive建表语句详解及创建表时的分隔符使用

Hive 建表语句和分隔符的使用是 Hive 数据管理的重要组成部分。在创建表时，选择合适的分隔符对于正确解析和处理数据至关重要。通过详细了解 Hive 建表语句的各个组成部分和分隔符的使用方法，可以更好地管理和处理大数据集。本文通过多个实际案例和应用场景，介绍了如何创建内部表和外部表，如何选择和使

overfit同步小助手 2024-09-22 02:03:23 0 收藏

企业如何通过数据仓库加强数据资产管理，应对数据资产入表挑战？

2024年被业界称为“数据资产入表”的元年。Choice的数据显示，半年报中已有40家上市公司将数据资产纳入财务报表，这一数字较一季度的18家公司翻了一番。然而，数据资产入表的道路上并非一帆风顺，尽管数据资产入表是大势所趋，但许多公司对于如何正确进行数据资产入表仍缺乏清晰的认识。在这样的背景下，企

overfit同步小助手 2024-09-21 20:03:59 0 收藏

SpringBoot中基于JWT的单token授权和续期方案

在前后端分离架构中，用户登录成功后，后端颁发JWT （Json Web Token）token至前端，该token被安全存储于LocalStorage。随后，每次请求均自动携带此token于请求头中，以验证用户身份。后端设有过滤器，拦截并校验token有效性，一旦发现过期则引导用户重新登录。

overfit同步小助手 2024-09-21 20:02:05 0 收藏