大数据 Hive - overfit.cn

大数据之Hive基础

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是将HQL转化为MapReduce分类：1）UDF 一进一出2）UDAF 聚集函数，多进一出（类似于count，max）3）UDTF 一进多出（如lateral view expl

overfit同步小助手 2024-11-27 14:03:14 0 收藏

【已解决】【hadoop】如何解决Hive连接MySQL元数据库的依赖问题

在启动 Hive 之前，通常不需要手动连接到 MySQL 数据库。Hive 的配置文件中已经包含了连接到 MySQL 元数据库所需的信息，包括用户名和密码。当你启动 Hive 服务时，Hive 会使用这些配置信息自动连接到 MySQL 数据库。为什么还要手动连接MySQL数据库？文件中的配置可能有误

overfit同步小助手 2024-11-26 13:03:56 0 收藏

大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理与当前总结

UDF 是用户定义的函数，用于扩展大数据处理系统的功能。通过 UDF，用户可以实现特定的业务逻辑，用于数据的转换或计算。SerDe 是序列化与反序列化的缩写，用于定义数据的读写方式。在大数据框架中，数据通常以结构化或非结构化形式存储，SerDe 用于将这些数据转化为系统可以理解的格式，或从系统中导出

overfit同步小助手 2024-11-26 12:03:38 0 收藏

大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本

DWS 层通常被称为数据仓库服务层或明细层，它是数据仓库架构中的中间层，负责将原始数据经过清洗、转换后进行存储，并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层，主要聚焦于业务的直接需求和决策支持，提供高性能和高响应的数据查询能力，通常是直接为应用或决策系统提供服务。DWS 层

overfit同步小助手 2024-11-25 19:03:33 0 收藏

【大数据技术基础 | 实验十二】Hive实验：Hive分区

本实验介绍掌握Hive分区的用法，加深对Hive分区概念的理解，了解Hive表在HDFS的存储目录结构。

overfit同步小助手 2024-11-23 09:03:24 0 收藏

oracle和hive之间关于sql的语法差异及转换

Oracle与hive相互转换

overfit同步小助手 2024-11-22 18:04:11 0 收藏

hive分区详细教程

为了提高sql的查询效率比如：假如数据量比较大，这个sql就是全表扫描，速度肯定慢。可以将数据按照天进行分区，一个分区就是一个文件夹，当你查询20230826的时候只需要去20230826这个文件夹中取数据即可，不需要全表扫描，提高了查询效率。总结1）分区表实际上就是对应一个HDFS文件系统上的独立

overfit同步小助手 2024-11-22 16:03:34 0 收藏

springboot毕设基于hive线上问诊系统数据仓库源码+论文+部署

Hive作为一种建立在Hadoop之上的数据仓库基础架构，它提供了类似SQL的查询语言（HiveQL），能够处理大规模的结构化和半结构化数据，非常适合用于线上问诊系统这种产生大量数据的场景。利用Hive构建线上问诊系统的数据仓库，可以整合来自不同功能模块（如患者、医生、科室、在线问诊、预约医生等）的

overfit同步小助手 2024-11-22 00:03:41 0 收藏

基于python+django的Hive on Spark国内地震数据的可视化与分析系统

💗博主介绍：✌计算机全栈开发工作室，接各类程序定制开发，有需要的滴滴✌💗主要内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。✌💗👇🏻精彩专栏推荐订阅👇🏻🌟文

overfit同步小助手 2024-11-21 21:03:44 0 收藏

【hive-4.0.0 保姆级安装部署】

hadoop3.3.6版本下安装hive4.0版本，mysql版本选的是8.37，也可选择其他mysql版本，需要注意的一个点就是，jdbc驱动的名称略有区别

overfit同步小助手 2024-11-21 21:03:30 0 收藏

hive on tez 指定队列后任务一直处于running状态

抢占是 YARN 在资源紧张时的机制，用于重新分配低优先级任务的资源给更高优先级的任务。configured capacity=5%，表示队列的初始容量百分比，即avation队列在最开始可以使用132G*5%=6.75G，75*5%=3.75cores。: 这是当前等待资源的最高优先级请求的优先级

overfit同步小助手 2024-11-20 12:03:54 0 收藏

hive之greatest和least函数

greatest(col_a, col_b, ..., col_n)比较n个column的大小，过滤掉null或对null值进行处理，当某个column中是string，而其他是int/double/float等时，返回null；

overfit同步小助手 2024-11-19 22:03:50 0 收藏

hive4.0.0部署以及与MySQL8.4连接

在开始之前，需要在主机上准备好MySQL数据库，并且已经完成了hdfs和yarn的部署。

overfit同步小助手 2024-11-18 20:03:30 0 收藏

DBeaver工具连接Hive

DBeaver工具连接Hive首先解压安装包dbeaver-ce-latest-x86_64-setup.zip，并安装dbeaver-ce-latest-x86_64-setup.exe；安装Kerberos客户端4.1-amd64.msi；查看集群节点/etc/hosts文件内容，并追加到C:\

overfit同步小助手 2024-11-18 09:03:42 0 收藏

Hive-4.0.1版本部署文档

由于4.0.1版本已经废弃hive CLI，所以只能通过beeline连接，上述配置是允许使用未知用户连接。创建 Hive 的元数据库。确保数据库驱动已放置在。

overfit同步小助手 2024-11-17 19:03:28 0 收藏

Hive的部署，远程模式搭建，centos换源，linux上下载mysql。

已经给大家准备好了，这个文件里包含了应该有的hive的压缩包，mysql的jar包驱动，还有hadoop02和03的hive-site文件。删除当前目录下版本比较低的guava，如果不是下载的4.0版本的，可能自己的guava不是22版本，大家根据自己的实际情况进行修改哈。删除当前目录下版本比较低的

overfit同步小助手 2024-11-16 12:03:46 0 收藏

Linux系统部署Hive数据仓库

启动前面配置好的hdfs 以及YARN，然后再使用命令bin/hive(完整路径：/export/server/hive/bin/hive)启动Hive。修改/export/server/hadoop/etc/hadoop路径下core-site.xml文件，新增如下配置。切换为hadoop用户，在

overfit同步小助手 2024-11-16 09:03:59 0 收藏

【大数据技术基础 | 实验十一】Hive实验：新建Hive表

本实验介绍Hive的DDL操作，能够在Hive中新建，显示，修改和删除表等功能。

overfit同步小助手 2024-11-16 08:03:31 0 收藏

Hive中分区（Partition）和分桶（Bucket）区别

overfit同步小助手 2024-11-16 06:03:09 0 收藏

【头歌】Hive基本查询操作（二）答案

【头歌】Hive基本查询操作（二）答案第1关：Hive排序第2关：Hive数据类型和类型转换第3关：Hive抽样查询

overfit同步小助手 2024-11-16 03:03:27 0 收藏