大数据 Hive - overfit.cn

Impala：大数据交互查询工具

Impala是由Cloudera公司开发的一款开源的大数据交互查询工具，能够对存储在HDFS、HBase上的数据进行快速的交互式SQL查询。Impala可以实现对PB级别的数据的实时分析，其查询速度比基于MapReduce的Hive高出3到90倍。Impala使用了类似于传统的MPP数据库技术，避免

overfit同步小助手 2023-04-21 18:04:08 0 收藏

hive修改spark版本重新编译，hive3.1.3 on spark3.3.0

overfit同步小助手 2023-04-21 17:03:38 0 收藏

从0到1搭建大数据平台之调度系统

大数据调度系统。

overfit同步小助手 2023-04-21 11:03:42 0 收藏

使用hive sql 为hive增加或者创建自增列，自增id的五种方式

overfit同步小助手 2023-04-20 21:03:38 0 收藏

【Hive SQL】常用日期函数汇总

【Hive SQL】常用日期函数汇总：1.时间戳和日期相互转换函数2.转特定日期单位的函数3.获取特定日期函数4.实用案例

overfit同步小助手 2023-04-20 17:04:00 0 收藏

使用navicat连接虚拟机的hive

使用Navicat连接虚拟机的Hive数据的步骤。

overfit同步小助手 2023-04-20 00:03:35 0 收藏

Hive分区表修改（增删）列

Hive增加、删除列

overfit同步小助手 2023-04-19 21:03:45 0 收藏

JavaAPI操作Hive

overfit同步小助手 2023-04-19 07:03:39 0 收藏

hive创建表后怎么新增分区结构（创建表时没有创建分区）

hive在创建表时没有添加分区结构（希望大家不要杠，硬说是字段，只要您高兴，您怎么说都行），增加分区结构的方法

overfit同步小助手 2023-04-19 05:03:47 0 收藏

基于Hadoop生态的相关框架与组件的搭建

本篇文章，着重与Hadoop生态的相关框架与组件的搭建，以及不同框架或组件之间的依赖配置，使读者能够熟悉与掌握Hadoop集群的搭建，对于Hadoop生态有一定的认识。本次搭建三台虚拟机为hadoop01.bgd01、hadoop02.bgd01、hadoop03.bgd01，hadoop01.bg

overfit同步小助手 2023-04-19 03:04:08 0 收藏

Linux下hive的安装（保姆级）

Hadoop集群上hive安装全过程，详细截图配文字说明

overfit同步小助手 2023-04-18 23:03:43 0 收藏

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

Spark SQL是Apache Spark的一个模块，提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrame API来查询和操作数据，同时还支持使用Spark的分布式计算引擎进行高效的并行计算。Spark SQL支持多种数据源，包括Hive、JSON、Parquet、Av

overfit同步小助手 2023-04-18 22:03:51 0 收藏

Hive数据导出

书接上回，传闻昔日数据导入有五大派别，一时之间数码武林局势动荡，可怜的码农处于水深火热之中。乱世出英雄，打着劫富济贫，替天行道大旗的六大帮派（数据导出）横空出世。提示：以下是本篇文章正文内容，下面案例可供参考六大派别与五大帮派共同统治着数码武林，侠义精神深入人心，hive语句妇孺皆知。街头小巷上谈论

overfit同步小助手 2023-04-17 05:03:48 0 收藏

Hive的Rank排名（rank函数，dense_rank函数，row_numer函数）

rank函数，dense_rank函数，row_numer函数

overfit同步小助手 2023-04-16 02:04:06 0 收藏

dolphinscheduler3.0.0部署

overfit同步小助手 2023-04-15 22:04:05 0 收藏

Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-s

overfit同步小助手 2023-04-15 11:03:54 0 收藏

Hive中使用sort_array函数解决collet_list列表排序混乱问题

目录0. 相关文章链接1. 数据准备2. 使用collect_list和concat_ws进行行转列3. 使用sort_array函数解决collet_list列表排序混乱问题0. 相关文章链接开发随笔文章汇总1. 数据准备建表语句：create table temp( province st

overfit同步小助手 2023-04-15 10:04:00 0 收藏

大数据技术之SparkSQL（超级详细）

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模

overfit同步小助手 2023-04-15 08:04:32 0 收藏

Hive简介

ETL:首先从数据源池中提取数据，将数据保存在临时暂存数据库中（ODS），然后执行转换为合适目标数据仓库系统的形式，然后将结构化数据加载到仓库中，已备分析。数据仓库层（DW）：数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。操作型数据层（ODS）:存

overfit同步小助手 2023-04-14 20:03:32 0 收藏

HIVE和HBASE的区别和联系

Hive和HBase都是Hadoop集群下的工具，Hive是对MapReduce的优化，而HBase则是HDFS数据存储的大管家。那么，这两者各适用于哪些场景呢？

overfit同步小助手 2023-04-14 11:03:52 0 收藏