大数据数据仓库

【SparkSQL】基础入门（重点：SparkSQL和Hive的异同、SparkSQL数据抽象）

本文重点介绍Spark SQL的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。

overfit同步小助手 2024-01-30 07:03:51 0 收藏

【数据仓库与联机分析处理】数据仓库工具Hive

Hive是基于Hadoop的一个数据仓库工具，十分适合对数据仓库进行统计分析。本篇文章介绍Hive的安装配置以及配置Hive元数据存储到MySQL。

overfit同步小助手 2024-01-30 01:03:48 0 收藏

Hive实战：词频统计

通过这一系列的操作，我们深入学习了Hive的外部表创建、数据加载、查询、视图创建以及统计分析的操作。字段的内容按照空格分割成多个单词，并生成一个多行的结果集，每行包含一个单词。函数则将这个分割后的数组转换为多行记录，即每一行对应原字符串中的一个单词。统计每个单词分组的数量，结果将展示每个单词及其在原

overfit同步小助手 2024-01-29 03:03:23 0 收藏

8-Hive原理与技术

题目3：Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文件。题目2：Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。题目3：Hive最重视的性能是可测量性、延展性、对于输入格式的宽松

overfit同步小助手 2024-01-29 01:03:54 0 收藏

构建高效数据生态：数据库、数据仓库、数据湖、大数据平台与数据中台解析_光点科技

在数字化的浪潮中，一套高效的数据管理系统是企业竞争力的核心。从传统的数据库到现代的数据中台，每一种技术都在数据的旅程中扮演着关键角色。本文将深入探讨数据库、数据仓库、数据湖、大数据平台以及数据中台的功能和价值，帮助您构建一个符合自身业务需求的高效数据生态系统。

overfit同步小助手 2024-01-28 14:03:44 0 收藏

数据仓库与数据湖的区别与优劣

1.背景介绍数据仓库和数据湖都是在大数据领域中广泛应用的数据管理技术，它们在数据存储、处理和分析方面有着不同的特点和优劣。在本文中，我们将从以下几个方面进行深入探讨：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说明未来发展趋势与挑战附录常见问题与解答

overfit同步小助手 2024-01-28 06:03:51 0 收藏

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决。最近在使用海豚调度DolphinScheduler的Datax组件时，遇到这么一个问题：之前给客户使用海豚做的离线数仓的分层搭建，一直都运行好好的，过了个元旦，这几天突然在数仓做任务时报错

overfit同步小助手 2024-01-28 05:03:33 0 收藏

Hive外表创建和加载数据

由于我们的源数据目录没有显示的指定分区字段，因此建表的时候没有指定 location，通过 load data inpath 命令来装载数据。1、load data 命令会移动数据2、load data inpath … overwrite 命令使用不当会导致数据被覆盖。3、通过 alter tab

overfit同步小助手 2024-01-28 03:03:36 0 收藏

Hive csv文件导入Hive

【代码】Hive csv文件导入Hive。

overfit同步小助手 2024-01-28 01:03:43 0 收藏

数据仓库入门介绍框架（附带完整项目实战）

一、诞生背景- 企业数据分析需要：各个部门自己建立独立的数据抽取系统，导致数据不一致

overfit同步小助手 2024-01-26 22:03:48 0 收藏

【数据库原理】（38）数据仓库

定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持企业管理和决策制定过程。它专注于存储大量的历史数据，以便进行分析和提取洞见，从而辅助管理决策。与数据库的主要区别数据内容: 数据仓库存储历史数据，用于分析和报告，而数据库通常存储当前的事务数据。数据目标: 数据仓库面向

overfit同步小助手 2024-01-26 20:03:51 0 收藏

【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。重点：用户需要知道函数叫什么，能做什么。Hive提供了大量的内置函数，按照其特点可大致分为如下几类：单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1

overfit同步小助手 2024-01-26 20:03:48 0 收藏

Hive HWI 配置

1、下载安装好hive后，发现hive有hwi界面功能，研究下是否可以运行，于是使用hive –service hwi命令启动hwi界面报错。启动hwi功能2、访问192.168.126.110:9999/hwi，发现访问错误一、HWI介绍HWI）是Hive-2-1版本之前的源码中提供的网页控制台工

overfit同步小助手 2024-01-24 21:03:43 0 收藏

Hive表操作

external , 创建外部表partitioned by，分区表clustered by , 分桶表stored as , 存储格式location ，存储位置2.数据类型分类类型描述字面量示例原始类型TINYINT1字节的有符号整数 -128~1271YSMALLINT2字节的有符号整数 -

overfit同步小助手 2024-01-24 17:03:32 0 收藏

Hive行转列[一行拆分成多行/一列拆分成多列]

hive有张表armmttxn_tmp，其中有一个字段lot_number，该字段以逗号分隔开多个值，每个值又以冒号来分割料号和数量，如：A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A32

overfit同步小助手 2024-01-24 13:03:48 0 收藏

Hive的四种排序方法

hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY。hive排序方法,hive的排序方式。

overfit同步小助手 2024-01-23 21:03:51 0 收藏

大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】

数据仓库建模（Data Warehouse Modeling）是指在数据仓库（Data Warehouse）中组织和设计数据的过程，以便支持数据分析、报告和决策制定。数据仓库是一个集成的、主题导向的数据存储，用于存储来自不同来源的数据，经过清洗、转换和集成，以支持业务分析和决策。主要目标是创建一个能

overfit同步小助手 2024-01-22 16:03:55 0 收藏

Hive数据定义（1）

讲述Hive数据定义的基本知识点：数据仓库的创建、数据仓库的查询、数据仓库的修改、数据仓库的删除、表的创建、表的删除

overfit同步小助手 2024-01-21 07:03:49 0 收藏

【hive】Hive中的大宽表及其底层详细技术点

通过选择合适的存储格式、数据分区、列式存储和压缩、列存储索引、数据分桶等底层技术点，可以有效地管理和处理大量列的数据表格。在Hive中，可以选择不同的存储格式来存储大宽表，如文本格式、序列文件格式、列式存储格式等。为了满足这种需求，Hive引入了大宽表（Large Wide Table）的概念，它是

overfit同步小助手 2024-01-21 06:03:48 0 收藏

AnalyticDB for PostgreSQL 实时数据仓库上手指南

AnalyticDB for PostgreSQL 提供企业级数据仓库云服务，基于开源Greenplum构建，采用MPP架构，支持1000+节点PB级数据的实时分析。通过数据传输服务 DTS 、数据集成工具DataX、开源同步工具 rds_dbsync 、 Kettle 等，同步交易库数据到 AD

overfit同步小助手 2024-01-21 03:03:42 0 收藏