数据湖 - overfit.cn

一文读懂数据仓库、数据湖、湖仓一体

一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）和二进制数据（如图形、音频、视频）。这套架构，以数据湖为中心，把数据湖作为中央存储库，再围绕数据湖建立专用“数据服务环”，环上的服务包括了数仓、机器学习、大

overfit同步小助手 2024-08-30 20:03:50 0 收藏

Paimon数据湖详解（第49天）

本文主要详解了Paimon数据湖的使用。

overfit同步小助手 2024-08-17 07:03:57 0 收藏

一文看懂：数据湖、数据仓库、数据中台，浅显直白！

数据湖是一种用于存储大量原始数据的存储系统，它可以容纳各种类型的数据，包括结构化数据、半结构化数据和非结构化数据。数据湖的设计目的是为了能够存储大规模的数据，并且能够支持多种数据处理和分析工具的访问和使用。数据湖通常不会对数据进行预先的清洗、转换和整合，而是以原始的形式存储数据。这使得数据湖能够更好

overfit同步小助手 2024-07-24 22:03:19 0 收藏

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQ

overfit同步小助手 2024-07-21 22:03:19 0 收藏

网易游戏如何基于 Apache Doris 构建全新湖仓一体架构

对于该需求，我们可以基于常用的数据维度设计物化视图，来满足用户绝大部分自定义聚合查询的需求。Doris 的一大优势在于能够自动识别并匹配最优物化视图进行查询，因此建议可设计 2-3 个物化视图，过多的物化视图可能会对数据导入速度造成影响。

overfit同步小助手 2024-07-09 05:06:34 0 收藏

一文掌握：数据湖是什么？可不是数据仓库

数据湖（Data Lake）是指一个大型数据存储和处理系统，它能够存储各种类型和格式的数据，包括结构化数据、半结构化数据和非结构化数据。数据湖的目的是为了让企业可以更好地管理和利用大量的数据，以便进行数据分析、机器学习等工作。数据湖通常采用分布式计算和存储技术，如Hadoop、Spark等，能够处理

overfit同步小助手 2024-06-06 19:03:54 0 收藏

使用Flink SQL实时入湖Hudi/Hive

Hudi是一个流式数据湖平台，使用Hudi可以直接打通数据库与数据仓库，Hudi可以连通大数据平台，支持对数据的增删改查。Hudi支持同步数据入库，提供了事务保证、索引优化，是打造实时数仓、实时湖仓一体的新一代技术。下面以我实际工作中遇到的问题，聊下湖仓一体的好处，如有不对，敬请指正。

overfit同步小助手 2024-05-24 08:04:16 0 收藏

数据湖技术选型——Flink+Paimon 方向

本文结合 Flink 对几大数据湖选型进行了对比，最终选择使用 Flink + Paimon 技术栈。

overfit同步小助手 2024-05-23 21:04:25 0 收藏

数据仓库和数据湖的区别

而数据湖则是一种原始、未经处理的数据存储，它可以包含结构化、半结构化和非结构化数据，数据以原始格式存储，没有强制的模式和架构。而数据湖通常提供更灵活的数据访问方式，可以使用不同的工具和技术来处理和分析数据，如数据科学家可以使用Python或R来开展分析工作。在实际应用中，可以将数据湖作为底层的数据存

overfit同步小助手 2024-03-02 02:03:54 0 收藏

数据湖系列之一 | 你一定爱读的极简数据平台史，从数据仓库、数据湖到湖仓一体

随着企业数据量的爆炸式增长，以及越来越多的企业上云，数据平台面临的数据存储、数据处理的挑战越来越大，采用什么样的技术来构建和迭代这个平台一直是业界研究的热点，新技术和新思路不断涌现。数据湖提倡所有的数据，不管是数据库的结构化数据，还是视频、图片、日志这类非结构化的数据，都以它们原始的格式存储到一个统

overfit同步小助手 2024-03-01 10:03:42 0 收藏

2024大数据“打假”：什么才是真湖仓一体？

湖仓一体是通过一套架构，满足所有的分析需求，抽象化的描述，要能实现 One Data、All Analytics 的业务价值。

overfit同步小助手 2024-02-02 06:03:34 0 收藏

4 Paimon数据湖之Hive Catalog的使用

Paimon提供了两种类型的Catalog：Filesystem Catalog和Hive Catalog。

overfit同步小助手 2024-01-21 23:03:19 0 收藏

6 Hive引擎集成Apache Paimon

想要在Hive中操作Paimon，首先需要在Hive中配置Paimon的依赖，此时我们需要用到一个jar包：paimon-hive-connector。

overfit同步小助手 2023-11-24 00:03:35 0 收藏

5 Paimon数据湖之表数据查询详解

主要涉及Paimon中系统表的查询、批量读取、流式读取，以及时间旅行特性的使用。

overfit同步小助手 2023-11-14 23:04:52 0 收藏

基于 Flink CDC 高效构建入湖通道

本文整理自阿里云 Flink 数据通道负责人、Flink CDC 开源社区负责人， Apache Flink PMC Member & Committer 徐榜江（雪尽），在 Streaming Lakehouse Meetup 的分享。内容主要分为四个部分： 1. Flink CDC 核心技

overfit同步小助手 2023-11-14 07:03:12 0 收藏

【大数据】Apache Iceberg 概述和源代码的构建

我们在使用不同的引擎进行大数据计算时，需要将数据根据计算引擎进行适配。这是一个相当棘手的问题，为此出现了一种新的解决方案：介于上层计算引擎和底层存储格式之间的一个中间层。这个中间层不是数据存储的方式，只是定义了数据的元数据组织方式，并向计算引擎提供统一的类似传统数据库中 “表” 的语义。它的底层仍然

overfit同步小助手 2023-09-14 18:03:32 0 收藏

Hudi系列13:Hudi集成Hive

Hudi集成hive

overfit同步小助手 2023-09-11 23:03:23 0 收藏

Hudi（23）：Hudi集成Hive之同步

Flink hive sync 现在支持两种 hive sync mode, 分别是 hms 和 jdbc 模式。其中 hms 只需要配置 metastore uris；注意：核心点为上述hive_sync系列的配置。

overfit同步小助手 2023-09-07 10:04:18 0 收藏

数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Form

overfit同步小助手 2023-09-05 13:04:24 0 收藏

离线数据仓库

数据中台：利用大数据技术，对海量数据统一进行采集、计算和存储、并统一数据标准和口径，该架构需要维护两套代码：离线架构代码和实时架构代码。随取随用、只有在使用时才进行数据转换等处理。数据中台：包含数据仓库和其他服务中间件。对原始数据进行清洗、转换和预处理。作为数据仓库或数据集市的数据源，更适合进行数据

overfit同步小助手 2023-08-14 04:04:07 0 收藏