大数据 Hive - overfit.cn

深入理解 Hive SQL 中的 TRANSFORM 函数

本文详细介绍了 Hive SQL 中 TRANSFORM 函数的使用方法和应用场景。TRANSFORM 是一个强大的工具，用于在 SQL 查询中直接进行复杂的数据转换，或调用外部脚本进行自定义的数据处理。文章首先解释了 TRANSFORM 函数的基本用法，通过实例演示如何将销售物品列表中的每个项目提

overfit同步小助手 2024-10-01 06:03:51 0 收藏

pyhton - PyHive

这里，我们使用 PyHive 连接到 Hive 数据库，并使用 Pandas 读取了数据库中的数据。这里，我们使用 PyHive 连接到 Hive 数据库，并使用 SQL 查询语句获取数据集的总行数。这里，我们使用 pandas.read_sql 方法将查询结果转换为 Pandas DataFram

overfit同步小助手 2024-10-01 05:03:54 0 收藏

hive中的分区

Hive分区的概念与传统关系型数据库分区不一样。传统数据库的分区方式：就oracle而言，分区独立存在于段里，里面存储真实的数据，在数据进行插入的时候自动分配分区。Hive的分区方式：因为Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应一个目录名，子分区名就是子目录名，并非一个实际字段

overfit同步小助手 2024-09-30 20:06:22 0 收藏

Hive企业级调优[1]——计算资源配置

MapReduce 资源配置主要包括 Map Task 的内存和 CPU 核数，以及 Reduce Task 的内存和 CPU 核数。本教程的计算环境为 Hive on MR。计算资源的调整主要包括 YARN 和 MapReduce。

overfit同步小助手 2024-09-30 17:03:30 0 收藏

Python知识点：如何使用Hive与PyHive进行数据仓库操作

使用Hive与PyHive进行数据仓库操作涉及多个步骤，包括Hive的安装与配置、PyHive的安装以及通过PyHive执行Hive SQL语句等。

overfit同步小助手 2024-09-30 05:05:17 0 收藏

全国职业院校技能大赛（大数据赛项）-平台搭建hive笔记

在大数据时代，数据量呈爆炸性增长，传统的数据处理工具已难以满足需求。Hive作为一个开源的数据仓库工具，能够处理大规模数据集，提供了强大的数据查询和分析能力，是大数据学习中的关键工具。在全国职业院校技能大赛（大数据技术与应用赛项）中的平台搭建模块，hive的搭建也是经常考察的问题，今天大家随着小编一

overfit同步小助手 2024-09-28 13:03:44 0 收藏

Hive 安装

原因在于 Hive 默认使用的元数据库为 Derby。Derby 数据库的特点是同一时间只允许一个客户端访问。如果多个 Hive 客户端同时访问，就会报错。由于在企业开发中，都是多人协作开发，需要多客户端同时访问 Hive，怎么解决呢？我们可以将 Hive 的元数据改为用 MySQL 存储，MySQ

overfit同步小助手 2024-09-28 07:03:44 0 收藏

六种主流ETL工具的比较与Kettle的实践练习指南--MySQL、hive、hdfs等之间的数据迁移

ETL工具在数据集成和数据仓库建设中至关重要。本文比较了六种主流ETL工具并重点介绍了Kettle，一款开源且功能强大的ETL工具，适合不同规模的数据集成任务。文章提供了Kettle的实践指南，帮助读者更好地理解和应用Kettle。

overfit同步小助手 2024-09-27 18:03:05 0 收藏

PySpark单机模式（local）的环境搭建

本文介绍如何在Windows操作系统（以win11为例）上配置一个可以运行PySpark程序的开发环境

overfit同步小助手 2024-09-27 04:03:24 0 收藏

Hive原理剖析

Apache Hive是一个基于Hadoop的开源数据仓库软件，为分析和管理大量数据集提供了SQL-like的接口。最初由Facebook开发并贡献给Apache，Hive现已成为大数据处理领域的重要工具之一。它将传统的SQL功能与Hadoop的强大分布式处理能力结合，使用户可以通过熟悉的SQL语法

overfit同步小助手 2024-09-26 18:03:39 0 收藏

通俗易懂理解Hive四种排序

Hive的四种排序包括Sort By、Order By、Distribute By和Cluster By。有关这四种排序的区别，在大数据面试中可能会经常被问到，在我们很多人的实际应用中可能最常用的就是全局排序order by，因此对于其他几个排序理解并不准确，接下来我用简单的案例尽量描述清楚。ord

overfit同步小助手 2024-09-25 18:03:50 0 收藏

Hive的集群的搭建-内嵌模式-本地模式-远程链接

Hive 是一个框架，可以通过编写sql的方式，自动的编译为MR任务的一个工具Hive是一个数据仓库工，可以将数据加载到表中，编写sql进行分析，底层依赖Hadoop，所以每一次都需要启动hadoop(hdfs以及yarn)，Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ，Hive

overfit同步小助手 2024-09-25 16:03:35 0 收藏

伪分布hadoop集群+hive的搭建

文件下载（夸克）hadoop链接：https://pan.quark.cn/s/4a54107a89ff提取码：DRHrjdk链接：https://pan.quark.cn/s/74e3f3c97a98提取码：kq1fhive链接：https://pan.quark.cn/s/0a0d442ceea

overfit同步小助手 2024-09-24 22:03:45 0 收藏

Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化

Spark读取Hive数据或文件如何提升速度的优化思路

overfit同步小助手 2024-09-24 05:03:32 0 收藏

远程连接Hiveserver2服务

完成Hive本地模式安装后，可以启动hiveserver2服务进行远程连接和操作Hive。

overfit同步小助手 2024-09-23 23:03:43 0 收藏

【面试系列】Hive 高频面试题解答

本文介绍了 Hive 技术在初级、中级和高级面试中的常见问题及其详细解答。初级面试题集中于 Hive 的基础概念，如 Hive 架构、分区和分桶等。中级面试题探讨了 Hive 的查询优化技术、动态分区、UDF 和小文件处理问题。高级面试题则涵盖了 Hive 的 ACID 支持、物化视图、Tez 引擎

overfit同步小助手 2024-09-23 15:03:55 0 收藏

Hive Tutorial For Beginners

适合初学者的 Hive 导论~

overfit同步小助手 2024-09-23 08:03:31 0 收藏

二百六十六、Hive——Hive的DWD层数据清洗、清洗记录、数据修复、数据补全

Hive——Hive的DWD层数据清洗、清洗记录、数据修复、数据补全

overfit同步小助手 2024-09-22 20:03:45 0 收藏

Hive环境搭建（Mysql数据库）

在linux系统下，首先执行cd /simple 命令进入simple目录下，然后把/simple/soft目录下的hive压缩包解压到/simple目录下，执行命令为：tar -zxvf /simple/soft/hive-0.12.0.tar.gz。工具中默认使用的是derby数据库，该数据库

overfit同步小助手 2024-09-22 11:04:04 0 收藏

Hive建表语句详解及创建表时的分隔符使用

Hive 建表语句和分隔符的使用是 Hive 数据管理的重要组成部分。在创建表时，选择合适的分隔符对于正确解析和处理数据至关重要。通过详细了解 Hive 建表语句的各个组成部分和分隔符的使用方法，可以更好地管理和处理大数据集。本文通过多个实际案例和应用场景，介绍了如何创建内部表和外部表，如何选择和使

overfit同步小助手 2024-09-22 02:03:23 0 收藏