数据仓库 - overfit.cn

数据仓库还是数据集市？这俩怎么选？

数据仓库和数据集市作为支持决策分析的两种不同方式，根据各自的特点和优势，有不同的应用场景，今天就来探讨下数据集市和数据仓库该怎么选？

overfit同步小助手 2024-12-04 03:03:28 0 收藏

Neo4j 图数据库安装与操作指南(以mac为例)

本文介绍了Neo4j图数据库的安装、配置、启动以及基本操作方法。首先，需要满足Java环境的安装要求，并可选择使用Homebrew进行安装。然后，从官方网站下载Neo4j并解压，或通过Homebrew进行安装。配置Neo4j时，可设置环境变量以简化命令操作。启动Neo4j后，可通过Cypher查询语

overfit同步小助手 2024-12-03 22:04:51 0 收藏

一文解读数据仓库的分层逻辑和原理

ODS 层的主要功能是对业务数据进行抽取（Extract），实现数据的初步集成，即将不同来源、不同格式的数据进行汇聚，为后续的数据处理提供一个统一的数据基础。它遵循企业的数据标准和规范，对数据进行更深入的清洗和转换，确保数据的准确性和完整性。：存储的是轻度汇总的数据。：包括结构化数据（如订单表、用户

overfit同步小助手 2024-12-02 20:03:47 0 收藏

大数据-237 离线数仓 - 广告业务需求分析 ODS DWD UDF JSON 串解析

UDF 是用户根据具体需求编写的自定义函数，用于处理 SQL 语言无法直接完成的复杂逻辑。数据仓库系统（如 Hive、Spark SQL、ClickHouse 等）内置了一些通用的函数，但当内置函数无法满足需求时，可以通过 UDF 实现自定义扩展。UDF 的作用，实现复杂逻辑，通过 UDF，可以将复

overfit同步小助手 2024-12-02 14:03:29 0 收藏

大数据-233 离线数仓 - 留存会员需求、创建与加载DWS 层、ADS 层与小结

DWS 层通常被称为数据仓库服务层或明细层，它是数据仓库架构中的中间层，负责将原始数据经过清洗、转换后进行存储，并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层，主要聚焦于业务的直接需求和决策支持，提供高性能和高响应的数据查询能力，通常是直接为应用或决策系统提供服务。DWS 层

overfit同步小助手 2024-12-02 09:03:38 0 收藏

数据管理的四大支柱：揭秘数据中台、数据仓库、数据治理和主数据

数据管理的四大支柱

overfit同步小助手 2024-12-01 10:03:57 0 收藏

大数据-235 离线数仓 - 会员活跃度数据测试完整加载 ODS DWD 层

ODS 是操作型数据存储层，主要用于存放从业务系统中抽取的原始数据。数据通常以业务系统的原始格式或经过少量标准化处理的形式存储。是数仓的“数据输入口”，负责承接来自业务系统的数据。DWD 是明细数据层，存储的是经过清洗和轻度处理的宽表数据。DWD 数据是细粒度的、面向分析的明细数据，数据通常已经

overfit同步小助手 2024-12-01 10:03:25 0 收藏

2024数据仓库建设规范指南

数据仓库建设规范指南

overfit同步小助手 2024-11-29 11:03:27 0 收藏

数据仓库系列7：什么是概念模型、逻辑模型和物理模型,它们有什么区别?

概念模型是数据建模过程中最高层次的抽象。它就像是你数据世界的"鸟瞰图"。这个模型主要关注的是业务概念以及它们之间的关系,而不涉及任何技术细节。逻辑模型是概念模型的下一步细化。它保持了技术中立性,但比概念模型更加详细。逻辑模型定义了数据结构,包括实体、属性、关系和主键。物理模型是数据模型的最后一个阶段

overfit同步小助手 2024-11-29 02:03:30 0 收藏

【面试系列】月之暗面＜资深数据仓库工程师＞面试题

题目涵盖了编程技能、大数据技术、数据建模、数据治理以及平台设计等方面。

overfit同步小助手 2024-11-28 21:04:01 0 收藏

大数据新视界 -- Hive 数据仓库：构建高效数据存储的基石（下）（2/ 30）

本文深入探究 Hive 数据仓库，剖析数据分区原理策略与管理优化，阐释数据桶概念作用及创建应用，简述数据安全机制与实战配置，佐以案例代码，为高效数据存储提供指引并设互动，预告数据导入篇章。

overfit同步小助手 2024-11-28 07:03:20 0 收藏

SpringWebmvc和SpringWebflux

struts2，springmvc等都是基于Servlet API与Servlet容器基础之上运行的，在Servlet3.1之后才有了异步非阻塞的支持。而WebFlux是一个典型非阻塞异步的框架，它的核心是基于。

overfit同步小助手 2024-11-27 10:03:02 0 收藏

笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——02. 关联规则挖掘

西安交通大学COMP551705数据仓库与数据挖掘

overfit同步小助手 2024-11-26 13:03:29 0 收藏

DAMA数据管理知识体系(第11章数据仓库和商务智能)

文章将围绕数据仓库的构建与管理展开，探讨如何通过数据仓库实现历史数据的集中存储与分析

overfit同步小助手 2024-11-26 08:03:55 0 收藏

数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

overfit同步小助手 2024-11-25 15:03:41 0 收藏

Kettle：一款数据仓库ETL神器

Pentaho Data Integration（Kettle）是一款功能强大、灵活易用的数据集成工具。它能够高效地处理各种数据类型和数据源，实现数据的抽取、转换和加载。

overfit同步小助手 2024-11-25 06:03:40 0 收藏

hive分区详细教程

为了提高sql的查询效率比如：假如数据量比较大，这个sql就是全表扫描，速度肯定慢。可以将数据按照天进行分区，一个分区就是一个文件夹，当你查询20230826的时候只需要去20230826这个文件夹中取数据即可，不需要全表扫描，提高了查询效率。总结1）分区表实际上就是对应一个HDFS文件系统上的独立

overfit同步小助手 2024-11-22 16:03:34 0 收藏

Apache Doris 3.0 里程碑版本｜存算分离架构升级、湖仓一体再进化

亲爱的社区小伙伴们，我们很高兴地向大家宣布，在近期我们迎来了 Apache Doris 3.0 版本的正式发布，欢迎大家下载使用体验！3.0 版本是 Apache Doris 在湖仓一体演化路线上的重要里程碑版本。在 3.0 版本中 Apache Doris 增加了数据湖写回功能，用户可以在 Apa

overfit同步小助手 2024-11-22 15:05:19 0 收藏

初探Flink的序列化

Flink未直接使用Java序列化，而是自研了一套高效的序列化机制。

overfit同步小助手 2024-11-22 13:03:50 0 收藏

数仓建设实践——用户留存分析专题模型设计

overfit同步小助手 2024-11-21 22:03:43 0 收藏