大数据数据仓库

安装配置hive

正确安装Hive；正确配置Hive，理解其配置原理。

overfit同步小助手 2024-02-28 06:03:22 0 收藏

hive--外部表常用操作全面且详细

在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的hdfs目录下,向该目录添加新文件的同时，该表也会读取到该文件(当然文件格式必须跟表定义的一致)。外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所

overfit同步小助手 2024-02-28 00:03:24 0 收藏

数据仓库概念梳理

上面雪花模型中，学生信息事实表的orderId还继续关联了下一个层级体验课记录表，体验课报名记录表还可能会继续往下关联，对于复杂的系统而言，一般会采用雪花模型，关键层级会较多，而星型模型的关联过于单一，层级不够深，无法支持这种操作。一个维表会对应多个事实表，而维表和事实表所有关联起来就形成一个宽表，

overfit同步小助手 2024-02-27 20:03:42 0 收藏

数据仓库ETL工具对比

1.背景介绍数据仓库ETL(Extract, Transform, Load)工具是用于将数据从不同的数据源提取、转换并加载到数据仓库中的一种技术。ETL工具是数据仓库建设的核心组件，它可以帮助数据仓库专家更快地构建、维护和管理数据仓库。在过去的几年里，ETL工具的市场已经出现了许多竞争对手。这些工

overfit同步小助手 2024-02-27 13:03:50 0 收藏

SQL Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言，用于处理大规模的结构化数据

Hive的数据模型是基于表的，用户可以通过Hive的DDL语句来创建表，并通过Hive的DML语句来插入、更新和删除数据。Hive是一个基于Hadoop的数据仓库工具，它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析大规模的结构化数据。总结来说，Hive的数据模型是基于表的，支持

overfit同步小助手 2024-02-26 21:03:44 0 收藏

HIVE核心优化方案

目录1.数据采样2.join优化3.Hive索引4.数据倾斜。

overfit同步小助手 2024-02-26 05:03:49 0 收藏

spark3使用hive zstd压缩格式总结

ZSTD（全称为Zstandard）是一种开源的无损数据压缩算法，其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式，本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC，RCFile，TextFile，JsonFile，Parquet，Squen

overfit同步小助手 2024-02-26 02:03:20 0 收藏

Chunjun纯钧(Flinkx)同步任务开发通用配置参数详解

Chunjun纯钧(Flinkx)是一款稳定、易用、高效、批流一体的数据集成框架，目前基于实时计算引擎Flink实现多种异构数据源之间的数据同步与计算，支持JSON模版配置任务，兼容FlinkSQL语法。本文对chunjun同步任务的配置文件进行详细的介绍和总结。

overfit同步小助手 2024-02-25 23:03:52 0 收藏

如何使用Hive或者HadoopMR访问表格存储中的表

更新时间：2023-12-14 09:58本文主要为您介绍如何使用Hive或者HadoopMR访问表格存储中的表。

overfit同步小助手 2024-02-25 04:03:37 0 收藏

Hive之set参数大全-16

在 Hive 中，是一个参数，用于配置 HiveServer2 的传输模式。该参数定义了 HiveServer2 使用的传输协议，可以是二进制（Binary）或 HTTP。以下是设置其中，是传输模式，可以是binary或http。请注意，这样的设置只对当前 HiveServer2 会话有效，当 Hi

overfit同步小助手 2024-02-25 01:03:46 0 收藏

Hive调优-计算资源分配

有些时候，代码运行速度慢、效率低，可能仅仅是因为资源分配不当。

overfit同步小助手 2024-02-24 22:03:32 0 收藏

Hive核心优化

分桶就是分文件, 在创建表的时候, 指定分桶字段, 并设置分多少个桶, 在添加数据的时候, hive会根据设置分桶字段, 将数据划分到N个桶(文件)中, 默认情况采用HASH分桶方案 , 分多少个桶, 取决于建表的时候, 设置分桶数量, 分了多少个桶最终翻译的MR也就会运行多少个reduce程序(H

overfit同步小助手 2024-02-23 23:03:51 0 收藏

【hive】列转行—collect_set()/collect_list()/concat_ws()函数的使用场景

overfit同步小助手 2024-02-23 21:03:50 0 收藏

Hive/SparkSQL中Map、Array的基本使用和转换

语法: map (key1, value1, key2, value2, …)说明：根据输入的key和value对构建map类型。

overfit同步小助手 2024-02-23 08:03:47 0 收藏

我的大数据之路 - 生产变更方案的注意事项

overfit同步小助手 2024-02-22 09:03:46 0 收藏

数据仓库与Tableau的集成与优化

1.背景介绍数据仓库与Tableau的集成与优化1. 背景介绍数据仓库和Tableau是现代数据分析领域中两个核心概念。数据仓库是一种用于存储和管理大量数据的系统，而Tableau是一种数据可视化和分析工具。在现代企业中，数据仓库和Tableau之间的集成和优化已经成为关键的技术要求。本文将深入探讨

overfit同步小助手 2024-02-21 22:03:38 0 收藏

HiveSQL——用户行为路径分析

overfit同步小助手 2024-02-21 21:03:56 0 收藏

Hive之set参数大全-15

在 Hive 中，是一个参数，用于配置是否允许 Tez 会话使用自定义队列。该参数影响在 HiveServer2 中执行的 Tez 会话是否可以选择使用自定义的队列。以下是设置其中，是布尔值，用于启用或禁用 Tez 会话使用自定义队列。请注意，这样的设置只对当前 HiveServer2 会话有效，当

overfit同步小助手 2024-02-21 21:03:49 0 收藏

软考笔记--数据仓库技术

为了更好地管理非结构化数据，数据仓库采用了元数据，元数据可用于记录数据的文件标识符，进入数据仓库的日期，文件描述，文件来源等信息。企业仓库面向企业级应用，它搜集了企业的各个主题的所有信息，提供企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是快多个功能范围的。数据集市面向企业部

overfit同步小助手 2024-02-21 13:03:51 0 收藏

解决hive表新增的字段查询为空null问题

这是怎么回事，怀疑是不是数据没有插入成功，于是查看日志确实是写入成功了，后换了impala和presto 两种引擎查询，发现两个结果都有值，如果直接到目录下查看数据文件会发现确实有值。第二种方案，要是我们表里有很多分区，这样处理就显得有些繁琐了，不知有没有更优雅的处理方式，答案是肯定的，那就是在修改

overfit同步小助手 2024-02-21 10:03:40 0 收藏