数据仓库 - overfit.cn

HIVE中PST, UTC, PRC(CST)时区转换

以上是把PST时间转成PRC时间，其它同理。

overfit同步小助手 2023-10-10 12:03:52 0 收藏

Hive 中 sort by 和 order by 的区别

在 Hive 中，SORT BY和ORDER BY都用于对查询结果进行排序，但它们在实现方式和适用场景上有一些区别。

overfit同步小助手 2023-10-08 22:04:07 0 收藏

配置开启Hive远程连接

使用IDEA工具远程连接Hive，首先需要配置开启Hive远程连接支持，主要有2种方式来配置开启Hive远程连接。

overfit同步小助手 2023-10-08 05:03:17 0 收藏

【数据仓库设计基础（四）】数据仓库实施步骤

数据仓库实施步骤

overfit同步小助手 2023-10-06 21:03:38 0 收藏

数据仓库ELT流程是啥？8大好用的ELT工具我找来了，赶紧收藏！

数据清洗是数据转换的一个子集，主要是对原始数据进行清理、过滤、去重、处理异常数据等操作，以消除数据中的问题，如数据重复、二义性、不完整、违反业务或逻辑规则等，保证数据的准确性和稳定性。Logstash：一个开源的ETL工具，主要用于数据采集和转换。FineDataLink：帆软推出的一款可视化ETL

overfit同步小助手 2023-10-06 15:04:37 0 收藏

Git 基本操作【本地仓库与远程仓库的推送、克隆和拉取】

Git是分布式版本控制系统（Distributed Version Control System，简称 DVCS），分为两种类型的仓库：本地仓库和远程仓库工作流程如下1．从远程仓库中克隆或拉取代码到本地仓库(clone/pull)2．从本地进行代码修改3．在提交前先将代码提交到暂存区4．提交到本地仓

overfit同步小助手 2023-10-06 11:04:32 0 收藏

hive--给表名和字段加注释

增加之后的注释，会在元数据库（一般在MySQL 中的 hive 库）中的 TABLE_PARAMS 表中显示，该表存储表/视图的属性信息。注意：comment一定要是小写的，不能是COMMENT，且必须要加单引号！4.字段名修改添加注释。

overfit同步小助手 2023-10-04 13:03:25 0 收藏

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）使用 Hive 自带函数将 13位时间戳： 1682238448915 转成今天的时间（北京时间），格式样例：'2023-04-23 16:27:28'

overfit同步小助手 2023-10-03 01:04:00 0 收藏

数据仓库-核心概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量及控制。

overfit同步小助手 2023-10-01 09:03:35 0 收藏

Kettle（11）：SQL脚本组件

执行SQL脚本组件，可以让Kettle执行一段SQL脚本。我们可以利用它来自动执行某些操作。

overfit同步小助手 2023-09-29 19:03:45 0 收藏

Hive 数据仓库介绍

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

overfit同步小助手 2023-09-29 18:03:44 0 收藏

【数据仓库】BI看板DataEase入坑指南

开头夸夸国产开源BI软件DataEase，支持常见各种报表，还支持图表联动和上下级钻取，超赞有木有！！！再来为什么说入坑，源码启动各种不服啊。本地用的maven3.5一直导入不了Java项目backend。后来看了官网bilibili源码启动视频，搞了1个多小时。

overfit同步小助手 2023-09-27 23:03:52 0 收藏

数据仓库建设指导说明

元数据可以包括以下内容：数据定义描述数据的结构、格式、模式和约束条件。例如，数据表、字段、数据类型、主键、外键等。数据源和来源：记录数据的来源和数据源的信息，包括数据提供方、数据采集方式、数据传输协议等。数据质量指标：定义和记录数据质量指标和标准，例如数据准确性、完整性、一致性、时效性等。数据变动历

overfit同步小助手 2023-09-25 12:04:10 0 收藏

Flink+Paimon多流拼接性能优化实战

Flink+Paimon多流拼接性能优化实战，本文使用Flink+Paimon基于ParmaryKey Table主键表（PartialUpdate）进行多流拼接的时候，跑一段时间有时会遇到周期性背压、checkpoint时间过长等情况，本文通过剖析源码逻辑、修改源码，在一定程度上解决了这个问题。另

overfit同步小助手 2023-09-24 17:03:25 0 收藏

大数据数据仓库

数据仓库是为企业制定决策，提供数据支持的。数据采集和存储、对数据进行计算和分析。

overfit同步小助手 2023-09-24 13:03:21 0 收藏

Hive的更新和删除

更新数据： Hive中的更新操作实际上是替换记录的过程。删除数据：在Hive中，您可以使用DELETE语句删除表中的数据。但是，与传统的关系型数据库不同，Hive实际上并不删除数据，而是将其标记为已删除。但是，这些操作的执行方式与传统的关系型数据库不同，因为Hive使用Hadoop的MapRedu

overfit同步小助手 2023-09-23 05:03:21 0 收藏

【大数据】美团 DB 数据同步到数据仓库的架构与实践

作为数据仓库生产的基础，美团数据平台提供的基于 Binlog 的 MySQL2Hive 服务，基本覆盖了美团内部的各个业务线，目前已经能够满足绝大部分业务的数据同步需求，实现 DB 数据准确、高效地入仓。在后面的发展中，我们会集中解决 CanalManager 的单点问题，并构建跨机房容灾的架构，从

overfit同步小助手 2023-09-22 23:04:05 0 收藏

8月《中国数据库行业分析报告》已发布，聚焦数据仓库、首发【全球数据仓库产业图谱】

本月报告聚焦于数据仓库，一起从技术+案例入手深层次掌握数仓五大关键技术、六大发展趋势，并了解其架构演进、发展历程！本文为报告精彩概览。

overfit同步小助手 2023-09-22 21:03:45 0 收藏

Hive导入csv文件示例

关键是要引入org.apache.hadoop.hive.serde2.OpenCSVSerdecsv要保存到hive的parquet,需要先保存成textfile。

overfit同步小助手 2023-09-22 04:03:59 0 收藏

访问 Hive 的元数据存储（MetaStore）的API方式

访问 Hive 的元数据存储（MetaStore）是通过 Hive 的 Thrift API 来实现的。导入 thrift 和 Hive Metastore 的相应模块，创建一个 Thrift 的 transport 对象和一个 Hive Metastore 的 client 对象，并连接到 Hiv

overfit同步小助手 2023-09-18 05:03:42 0 收藏