大数据数据仓库

Hive创建外部表详细步骤

② 在hive中执行HDFS命令：上传/emp.txt至HDFS的data目录下，并命名为emp_out。① 在hive中执行HDFS命令：创建/data目录。③ 创建外部表：emp_out。

overfit同步小助手 2023-10-18 03:03:34 0 收藏

得物数据研发优化策略及数据仓库

通过合理的数据研发优化策略和数据仓库架构，得物可以更好地挖掘数据的价值，为企业的发展提供有力的支持。得物可以使用各种工具和技术来构建数据仓库，如ETL工具（如Apache Airflow、Talend）、数据存储（如关系型数据库、Hadoop、Spark）、数据处理工具（如Pandas、Apache

overfit同步小助手 2023-10-16 22:03:47 0 收藏

Hive字符串数组json类型取某字段再列转行

hive 数组 json 列转行

overfit同步小助手 2023-10-12 23:03:26 0 收藏

大数据ETL说明（外）

元数据（Metadata）是关于数据的数据，指对数据进行描述和说明的数据，包括数据的标识、类型、格式、来源、创建时间、修改时间等。数据源是数据仓库和数据挖掘系统中数据的来源，对数据的质量和可靠性有直接的影响。它是一个集成的、一致的、历史的、经过清洗的数据存储，可以帮助企业更好地理解其业务和客户，并做

overfit同步小助手 2023-10-11 05:03:47 0 收藏

HIVE中PST, UTC, PRC(CST)时区转换

以上是把PST时间转成PRC时间，其它同理。

overfit同步小助手 2023-10-10 12:03:52 0 收藏

Hive 中 sort by 和 order by 的区别

在 Hive 中，SORT BY和ORDER BY都用于对查询结果进行排序，但它们在实现方式和适用场景上有一些区别。

overfit同步小助手 2023-10-08 22:04:07 0 收藏

配置开启Hive远程连接

使用IDEA工具远程连接Hive，首先需要配置开启Hive远程连接支持，主要有2种方式来配置开启Hive远程连接。

overfit同步小助手 2023-10-08 05:03:17 0 收藏

【数据仓库设计基础（四）】数据仓库实施步骤

数据仓库实施步骤

overfit同步小助手 2023-10-06 21:03:38 0 收藏

数据仓库ELT流程是啥？8大好用的ELT工具我找来了，赶紧收藏！

数据清洗是数据转换的一个子集，主要是对原始数据进行清理、过滤、去重、处理异常数据等操作，以消除数据中的问题，如数据重复、二义性、不完整、违反业务或逻辑规则等，保证数据的准确性和稳定性。Logstash：一个开源的ETL工具，主要用于数据采集和转换。FineDataLink：帆软推出的一款可视化ETL

overfit同步小助手 2023-10-06 15:04:37 0 收藏

hive--给表名和字段加注释

增加之后的注释，会在元数据库（一般在MySQL 中的 hive 库）中的 TABLE_PARAMS 表中显示，该表存储表/视图的属性信息。注意：comment一定要是小写的，不能是COMMENT，且必须要加单引号！4.字段名修改添加注释。

overfit同步小助手 2023-10-04 13:03:25 0 收藏

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）使用 Hive 自带函数将 13位时间戳： 1682238448915 转成今天的时间（北京时间），格式样例：'2023-04-23 16:27:28'

overfit同步小助手 2023-10-03 01:04:00 0 收藏

数据仓库-核心概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量及控制。

overfit同步小助手 2023-10-01 09:03:35 0 收藏

Kettle（11）：SQL脚本组件

执行SQL脚本组件，可以让Kettle执行一段SQL脚本。我们可以利用它来自动执行某些操作。

overfit同步小助手 2023-09-29 19:03:45 0 收藏

Hive 数据仓库介绍

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

overfit同步小助手 2023-09-29 18:03:44 0 收藏

【数据仓库】BI看板DataEase入坑指南

开头夸夸国产开源BI软件DataEase，支持常见各种报表，还支持图表联动和上下级钻取，超赞有木有！！！再来为什么说入坑，源码启动各种不服啊。本地用的maven3.5一直导入不了Java项目backend。后来看了官网bilibili源码启动视频，搞了1个多小时。

overfit同步小助手 2023-09-27 23:03:52 0 收藏

数据仓库建设指导说明

元数据可以包括以下内容：数据定义描述数据的结构、格式、模式和约束条件。例如，数据表、字段、数据类型、主键、外键等。数据源和来源：记录数据的来源和数据源的信息，包括数据提供方、数据采集方式、数据传输协议等。数据质量指标：定义和记录数据质量指标和标准，例如数据准确性、完整性、一致性、时效性等。数据变动历

overfit同步小助手 2023-09-25 12:04:10 0 收藏

Flink+Paimon多流拼接性能优化实战

Flink+Paimon多流拼接性能优化实战，本文使用Flink+Paimon基于ParmaryKey Table主键表（PartialUpdate）进行多流拼接的时候，跑一段时间有时会遇到周期性背压、checkpoint时间过长等情况，本文通过剖析源码逻辑、修改源码，在一定程度上解决了这个问题。另

overfit同步小助手 2023-09-24 17:03:25 0 收藏

大数据数据仓库

数据仓库是为企业制定决策，提供数据支持的。数据采集和存储、对数据进行计算和分析。

overfit同步小助手 2023-09-24 13:03:21 0 收藏

Hive的更新和删除

更新数据： Hive中的更新操作实际上是替换记录的过程。删除数据：在Hive中，您可以使用DELETE语句删除表中的数据。但是，与传统的关系型数据库不同，Hive实际上并不删除数据，而是将其标记为已删除。但是，这些操作的执行方式与传统的关系型数据库不同，因为Hive使用Hadoop的MapRedu

overfit同步小助手 2023-09-23 05:03:21 0 收藏

【大数据】美团 DB 数据同步到数据仓库的架构与实践

作为数据仓库生产的基础，美团数据平台提供的基于 Binlog 的 MySQL2Hive 服务，基本覆盖了美团内部的各个业务线，目前已经能够满足绝大部分业务的数据同步需求，实现 DB 数据准确、高效地入仓。在后面的发展中，我们会集中解决 CanalManager 的单点问题，并构建跨机房容灾的架构，从

overfit同步小助手 2023-09-22 23:04:05 0 收藏

Hive创建外部表详细步骤

得物数据研发优化策略及数据仓库

Hive字符串数组json类型取某字段再列转行

大数据ETL说明（外）

HIVE中PST, UTC, PRC(CST)时区转换

Hive 中 sort by 和 order by 的区别

配置开启Hive远程连接

【数据仓库设计基础（四）】数据仓库实施步骤

数据仓库ELT流程是啥？8大好用的ELT工具我找来了，赶紧收藏！

hive--给表名和字段加注释

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）

数据仓库-核心概念

Kettle（11）：SQL脚本组件

Hive 数据仓库介绍

【数据仓库】BI看板DataEase入坑指南

数据仓库建设指导说明

Flink+Paimon多流拼接性能优化实战

大数据数据仓库

Hive的更新和删除

【大数据】美团 DB 数据同步到数据仓库的架构与实践

作者榜

资讯小助手

内容小助手

Deephub

奕凯