Hive - overfit.cn

头歌：Spark Streaming

套接字流是通过监听Socket端口接收的数据，相当于Socket之间的通信，任何用户在用Socket（套接字）通信之前，首先要先申请一个Socket号，Socket号相当于该用户的电话号码。同时要知道对方的Socket，相当于对方也有一个电话号码。然后向对方拨号呼叫，相当于发出连接请求。对方假如在场

overfit同步小助手 2024-05-26 15:03:54 0 收藏

【Hive SQL 每日一题】行列转换

列，分别代表每名同学对应的各科成绩，我们只需要在统计时加入判断条件即可，每列只固定求某科的成绩，如果不是则用。解决问题的方式有许多种，但往往我们需要去注重学习解决问题的思路，希望本文对你有所帮助。行转列操作，其实就是将行数据通过列的方式进行查询展示而已，这里行转列数据共有。会返回两个参数，其中第一个

overfit同步小助手 2024-05-26 13:04:07 0 收藏

hive中split函数相关总结

split 函数一直再用，居然发现没有总结，遂补充一下；

overfit同步小助手 2024-05-26 09:03:44 0 收藏

Hive基础知识（十）：Hive导入数据的五种方式

1）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into table:表示加载到哪张表（6）stude

overfit同步小助手 2024-05-26 06:04:09 0 收藏

头歌—Hive的安装与配置

头歌—hive的安装与配置

overfit同步小助手 2024-05-26 03:03:38 0 收藏

apache-hive-3.1.2-bin 安装

1. hadoop、hive、flink等目前版本基本依赖于jdk1.8, 所以需要专门的JDK环境，毕竟现在大多开发者都是使用>=11版本了。2. windows 系统建议使用VMware通过新建虚拟机安装，适用windows的版本在安装中配置、安装后使用都会挺麻烦(权限、cmd启动脚本、切换开发

overfit同步小助手 2024-05-26 03:03:33 0 收藏

Hive 特殊的数据类型 Array、Map、Struct

获取数组值的方式和我们在 Java 中一样，采用下标的方式访问，当访问的下标超过数组的长度时，并不会报错，它会返回。这里值 Value 中存在整型和字符型数据类型不统一的情况，它会统一将值 Value 都转换成字符型。Map 是 KV 键值对类型，其中存储的字段数量可多可少，但是 KV 键值对的数据

overfit同步小助手 2024-05-26 01:03:23 0 收藏

Hive中的NVL函数与COALESCE函数

说明： COALESCE是一个函数， (v1, v2, …,vn)依次参考各参数表达式，遇到非null值即停止并返回该值。如果所有的表达式都是空值，最终将返回一个空值。Hive SQL 中的一种聚合函数，它可以返回第一个非空值。功能：如果value为NULL，则NVL函数返回。如果两个参数都为NUL

overfit同步小助手 2024-05-26 00:03:31 0 收藏

Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。

overfit同步小助手 2024-05-25 21:04:01 0 收藏

【hive】transform脚本

和udf差不多的作用，支持用python实现。通过标准输入流从hive读取数据，内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些，只需要上传脚本=>add file加载到分布式缓存=>使用。

overfit同步小助手 2024-05-25 17:03:31 0 收藏

基于Hadoop和Hive的聊天数据（FineBI）可视化分析

Fine BI支持Hadoop Hive数据源，可以直接连接Hive进行数据查询和可视化，且提供多种图表类型，包括折线图、柱状图、饼图等，满足用户不同的数据展示需求。本文将通过FineBI将hadoop和hive联系起来对聊天数据进行可视化报表分析

overfit同步小助手 2024-05-25 11:03:41 0 收藏

Hive on Tez 性能优化

Hive on Tez 性能优化优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间，要评估和验证配置参数和任何SQL修改。建议在工作负载的性能测试期间一次进行一项更改，并且最好在生产环境中使用它们之前评估调整更改在您

overfit同步小助手 2024-05-25 09:04:03 0 收藏

Hive期末测试题（头歌）

头歌实验-Hive期末测试题

overfit同步小助手 2024-05-25 07:04:32 0 收藏

Spark 为什么比 Hive 快

由于 MapReduce 的特性，Hive 在处理大规模数据时可能会出现较高的延迟，因为它需要频繁地将数据写入和读取磁盘，Shuffle 操作会导致花费的时间代价比较大。那么在稳定性方面，Hive 优于 Spark，这是因为在 MR 任务中，数据总是按照块分片进行处理，每块数据都可以独立地读取和处理

overfit同步小助手 2024-05-25 06:03:56 0 收藏

Hive &mysql

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce

overfit同步小助手 2024-05-25 02:04:08 0 收藏

Hive数仓模型

overfit同步小助手 2024-05-24 15:04:05 0 收藏

hive 简简单单易如反掌

1. 实验一：Linux操作系统环境设置实验环境本实验所需之主要资源环境：资源环境服务器集群单节点，机器最低配置：双核 CPU、8GB 内存、100G 硬盘运行环境 CentOS 7.4 服务和组件服务和组件根据实验需求安装。

overfit同步小助手 2024-05-24 14:03:50 0 收藏

hive的简单认识

今天写的比较急，先凑活看，有空的话再完善一下

overfit同步小助手 2024-05-24 11:04:08 0 收藏

Hive-分区与分桶详解（超详细）

本文将介绍Hive中的两个重要概念：分区和分桶。在大数据处理场景下，通过合理地使用分区和分桶可以提高查询性能、管理灵活性以及支持更多的数据操作。在Hive中，分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区，可以将数据按照特定的维度进行组织，提高查询效率和数据管理的灵活性。分桶是将表

overfit同步小助手 2024-05-24 09:03:55 0 收藏

大数据技术原理及应用课实验6 :熟悉Hive的基本操作

在本次实验中，理解学习了Hive作为数据仓库在Hadoop体系结构中的角色以及学习了如何使用常用的HiveQL。具体如下：学习了创建内部表、从文件向表中导入数据、利用Hive自动分区特性向分区表dividends各个分区中插入对应数据、查询指定的内容等等。还有在实验中有遇到过一些问题，如在启动 Hi

overfit同步小助手 2024-05-24 08:03:37 0 收藏