大数据数据仓库

Hive调优

Hive调优总结:1. 改硬件.2. 开启或者增大某些设置(配置). 负载均衡, 严格模式(禁用低效SQL), 动态分区数...3. 关闭或者减小某些设置(配置). 严格模式(动态分区), 推测执行...4. 减少IO传输. Input(输入)

overfit同步小助手 2024-02-20 23:03:58 0 收藏

(10)Hive的相关概念——文件格式和数据压缩

Hive的相关概念——文件格式和数据压缩

overfit同步小助手 2024-02-20 23:03:44 0 收藏

数据仓库与多源数据集成的技术与实践

1.背景介绍数据仓库与多源数据集成是数据科学领域的核心技术，它们为数据分析、报表和业务智能提供了基础设施。在本文中，我们将深入探讨数据仓库与多源数据集成的技术和实践，揭示其核心概念、算法原理、最佳实践和实际应用场景。1. 背景介绍数据仓库是一个用于存储、管理和分析大量历史数据的系统，它通常用于支持企

overfit同步小助手 2024-02-20 18:03:53 0 收藏

(01)Hive的相关概念——架构、数据存储、读写文件机制

Hive的相关概念——架构、数据存储、读写文件机制

overfit同步小助手 2024-02-19 23:03:45 0 收藏

(05) Hive的相关概念——函数介绍

HiveSQL的基础知识点

overfit同步小助手 2024-02-19 14:03:39 0 收藏

Hive的几种排序方式、区别，使用场景

ORDER BY：全局排序，但性能较差，适用于小数据集。SORT BY：在每个 Reducer 内部排序，性能较好，但不保证全局排序。：控制如何分发数据到 Reducer。CLUSTER BY和SORT BY的组合，当两者字段相同时使用。

overfit同步小助手 2024-02-19 01:03:17 0 收藏

公有云中的数据仓库和大数据处理

1.背景介绍随着互联网和数字化的发展，数据量不断增加，数据处理和分析成为企业和组织的关键能力。数据仓库和大数据处理技术在这个背景下崛起，成为关键技术之一。公有云在这个过程中也发挥着重要作用，为数据仓库和大数据处理提供了便捷的计算和存储资源。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法

overfit同步小助手 2024-02-18 23:03:56 0 收藏

ETL详解--数据仓库技术

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程，是数据仓库的生命线。它是一种数据处理过程，用于从不同的数据源中提取数据、对数据进行转换和清洗，并将处理后的数据加载到目标系统

overfit同步小助手 2024-02-18 20:03:50 0 收藏

Hive之set参数大全-22(完)

在 Hive 中，是一个配置参数，用于指定是否启用矢量化处理复杂数据类型。该参数用于控制是否启用 Hive 的矢量化执行引擎对复杂数据类型（例如结构体、数组、映射等）进行矢量化处理。矢量化执行是一种通过同时处理多个数据元素来提高查询性能的技术。默认情况下，的值通常是未设置的，由 Hive 使用其默认

overfit同步小助手 2024-02-18 13:03:37 0 收藏

hive中array相关函数总结

sort_array 函数可以用于对 Array 对象中的元素进行排序。具体来说，sort_array 函数会将 Array 对象中的元素按照升序顺序进行排序，并返回一个新的排序后的 Array 对象。explode 函数可以用于将一个 Array 对象拆分成多行。具体来说，explode 函数会将

overfit同步小助手 2024-02-18 07:03:56 0 收藏

(13)Hive调优——动态分区导致的小文件问题

Hive——动态分区导致的小文件问题

overfit同步小助手 2024-02-18 01:03:28 0 收藏

数据仓库内容分享(十六)：Doris到底有多牛，为什么大厂都在使用它？

官方地址：https://doris.apache.org/Apache Doris源于百度2008年启动的产品Palo在2018年捐献给Apache基金会，是一个基于 MPP 架构的高性能、实时的分析型数据库，它非常简单易用，而且性能还不错，仅需亚秒级响应时间即可获得查询结果，不仅支持高并发的查询

overfit同步小助手 2024-02-17 09:03:19 0 收藏

HiveSQL题——排序函数(row_number/rank/dense_rank)

overfit同步小助手 2024-02-17 01:03:56 0 收藏

(07)Hive——窗口函数详解

Hive窗口函数详解

overfit同步小助手 2024-02-16 19:03:56 0 收藏

Hive基础知识（十六）：Hive-SQL分区表使用与优化

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的。

overfit同步小助手 2024-02-16 04:03:29 0 收藏

数据仓库的多云策略：实现灵活的云计算资源管理

1.背景介绍数据仓库是企业中大量的历史数据存储和分析的重要工具，它需要高效、可靠、安全的存储和计算资源来支持企业的数据分析和决策。随着云计算技术的发展，多云策略逐渐成为企业数据仓库的主流部署方式。多云策略可以让企业在不同的云服务提供商之间分散部署数据仓库，实现资源的灵活分配和高可用性。在这篇文章中，

overfit同步小助手 2024-02-16 03:03:42 0 收藏

数据仓库与数据集成：实现高效的数据分析

1.背景介绍数据仓库和数据集成是现代数据科学和数据分析的核心技术。数据仓库是一种用于存储、管理和分析大量结构化数据的系统，而数据集成是将来自不同来源的数据进行整合、清洗和转换的过程。在今天的数据驱动经济中，数据仓库和数据集成技术已经成为企业和组织的核心竞争力，能够帮助他们更快更准确地做出决策。在本文

overfit同步小助手 2024-02-15 20:03:47 0 收藏

hive 创建表字段类型

这些只是部分常见的字段类型，还有其他更多的选项可供使用。在Hive中创建表时可以指定不同的字段类型。VARCHAR(n)：最大长度为 n 的可变长度字符串。INTERVAL：用于计算两个日期之间的时间间隔。TIMESTAMP：存储日期、小时、分钟等信息。CHAR(n)：固定长度为 n 的字符串。SM

overfit同步小助手 2024-02-15 18:03:37 0 收藏

Hive 排名函数ROW_NUMBER、RANK()、DENSE_RANK等功能介绍、对比和举例

例如，如果有 10 名学生，当前学生是按成绩排序后的第 3 名，那么前三名（包括当前学生）的学生数占总学生数的比例即为当前学生的累计分布百分比。如果两个学生的分数相同，他们将共享排名，例如都是排名1，下一个学生的排名将是3（假设只有两个学生分数相同）。说明：使用与 RANK() 相同的数据，DENS

overfit同步小助手 2024-02-15 15:03:51 0 收藏

数据湖 vs 数据仓库：选择正确的数据存储解决方案

1.背景介绍数据湖和数据仓库都是用于存储和管理大规模数据的解决方案。然而，它们之间存在一些关键的区别，这使得它们在不同场景下具有不同的优势和局限性。在本文中，我们将深入探讨数据湖和数据仓库的区别，以及如何根据不同的需求选择正确的数据存储解决方案。2.核心概念与联系2.1 数据湖数据湖是一种存储大规模

overfit同步小助手 2024-02-14 12:03:47 0 收藏