Hive - overfit.cn

【Hive_05】企业调优1（资源配置、explain、join优化）

Explain呈现的执行计划，由一系列Stage组成，这一系列Stage具有依赖关系，每个Stage对应一个MapReduce Job，或者一个文件系统操作等。stage可以对应mr，也可以对应文件系统操作。因为不是所有的sql语句的底层都是mr。比如说load语句，底层就不是mr而是文件系统操作。

overfit同步小助手 2024-02-02 19:03:34 0 收藏

如何使用 Hive 进行自然语言处理

1.背景介绍自然语言处理(NLP，Natural Language Processing)是人工智能领域的一个重要分支，其主要目标是让计算机能够理解、生成和翻译人类语言。自然语言处理涉及到语音识别、语义分析、语料库构建、情感分析等多个方面。随着大数据技术的发展，自然语言处理领域中的数据量越来越大，传

overfit同步小助手 2024-02-02 12:03:34 0 收藏

【系统学习Hive常用知识】

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。创建数据库创建表（1）内部表与外部表Hive中默认创建的表都是的内部表，有时也被称为管理表。对于内部表，Hive会完全管理表的元数据和数据文件。创建内部表id int,创

overfit同步小助手 2024-02-02 07:03:39 0 收藏

SparkSQL和Hive语法差异

rand()nullvoidCTAS建表。

overfit同步小助手 2024-02-02 00:03:30 0 收藏

explode与lateral view使用详解（spark及hive环境对比）

explode函数能够将array及map类型的数据炸开，实现一行变多行。

overfit同步小助手 2024-02-01 15:03:38 0 收藏

分布式数据库·Hive和MySQL的安装与配置

一、版本要求：Hadoop:hadoop-2.10.1、MySQL：mysql-8.0.35、HIVE：apache-hive-3.1.2、MySQL驱动：mysql-connector-java-5.1.49。

overfit同步小助手 2024-02-01 03:03:45 0 收藏

Apache Hive 简介

以上就是Hive的简介！下期预告~ HiveSQL 的DQL 操作。

overfit同步小助手 2024-01-31 10:03:46 0 收藏

Hive实战：词频统计

在本次实战任务中，我们的目标是在大数据环境下利用Hive工具进行词频统计。以下是详细步骤和关键操作的优化描述：test.txtt_word。

overfit同步小助手 2024-01-31 08:03:34 0 收藏

Hive09_函数

split( “category” , “,”) -----> [ “悬疑” ， “动作”, “科幻”, “剧情” ] array。果 value 为 NULL，则 NVL 函数返回 default_value 的值，否则返回 value 的值，如果两个参数。NVL：给

overfit同步小助手 2024-01-30 23:03:29 0 收藏

Hive运算符和函数

实现三个方法：initialize初始化、evaluate实现功能、帮助文档initialize方法只处理类型，就是在select 函数的时候，反序列化读取数据时，需要确认数据以什么类型返回的；evaluate方法只处理真实数据。/****/// 定义出读取出的文件类型/*** 初始化只用来

overfit同步小助手 2024-01-30 14:03:45 0 收藏

【SparkSQL】基础入门（重点：SparkSQL和Hive的异同、SparkSQL数据抽象）

本文重点介绍Spark SQL的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。

overfit同步小助手 2024-01-30 07:03:51 0 收藏

【数据仓库与联机分析处理】数据仓库工具Hive

Hive是基于Hadoop的一个数据仓库工具，十分适合对数据仓库进行统计分析。本篇文章介绍Hive的安装配置以及配置Hive元数据存储到MySQL。

overfit同步小助手 2024-01-30 01:03:48 0 收藏

关于hive on spark部署后insert报错Error code 30041问题

其中，Spark Executor内存是Spark配置中设置的executor总内存，包括堆内存和非堆内存。总内存 = Spark Executor内存 + Spark Executor的JVM堆内存 + Spark Executor的JVM非堆内存。1). 将/opt/module/spark/c

overfit同步小助手 2024-01-29 14:03:43 0 收藏

【大数据进阶第三阶段之Hive学习笔记】Hive安装

安装hadoop 以及 zookeeper、mysql《zookeeper的安装与配置》《Linux环境配置MySQL》

overfit同步小助手 2024-01-29 05:03:16 0 收藏

大数据-hive基本语法整理

hive基本语法一、hive建表语句create external table if not exists ods_base_org_info( id string comment '主键', org_code string comment

overfit同步小助手 2024-01-29 03:03:35 0 收藏

Hive实战：词频统计

通过这一系列的操作，我们深入学习了Hive的外部表创建、数据加载、查询、视图创建以及统计分析的操作。字段的内容按照空格分割成多个单词，并生成一个多行的结果集，每行包含一个单词。函数则将这个分割后的数组转换为多行记录，即每一行对应原字符串中的一个单词。统计每个单词分组的数量，结果将展示每个单词及其在原

overfit同步小助手 2024-01-29 03:03:23 0 收藏

8-Hive原理与技术

题目3：Hive分区字段不能与已存在字段重复，且分区字段是一个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据文件。题目2：Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。题目3：Hive最重视的性能是可测量性、延展性、对于输入格式的宽松

overfit同步小助手 2024-01-29 01:03:54 0 收藏

大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】

overfit同步小助手 2024-01-28 14:03:50 0 收藏

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决。最近在使用海豚调度DolphinScheduler的Datax组件时，遇到这么一个问题：之前给客户使用海豚做的离线数仓的分层搭建，一直都运行好好的，过了个元旦，这几天突然在数仓做任务时报错

overfit同步小助手 2024-01-28 05:03:33 0 收藏

Hive外表创建和加载数据

由于我们的源数据目录没有显示的指定分区字段，因此建表的时候没有指定 location，通过 load data inpath 命令来装载数据。1、load data 命令会移动数据2、load data inpath … overwrite 命令使用不当会导致数据被覆盖。3、通过 alter tab

overfit同步小助手 2024-01-28 03:03:36 0 收藏

【Hive_05】企业调优1（资源配置、explain、join优化）

如何使用 Hive 进行自然语言处理

【系统学习Hive常用知识】

SparkSQL和Hive语法差异

explode与lateral view使用详解（spark及hive环境对比）

分布式数据库·Hive和MySQL的安装与配置

Apache Hive 简介

Hive实战：词频统计

Hive09_函数

Hive运算符和函数

【SparkSQL】基础入门（重点：SparkSQL和Hive的异同、SparkSQL数据抽象）

【数据仓库与联机分析处理】数据仓库工具Hive

关于hive on spark部署后insert报错Error code 30041问题

【大数据进阶第三阶段之Hive学习笔记】Hive安装

大数据-hive基本语法整理

Hive实战：词频统计

8-Hive原理与技术

大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

Hive外表创建和加载数据

作者榜

资讯小助手

内容小助手

Deephub

奕凯