Hive - overfit.cn

Spark与Hive的比较与优势

1.背景介绍1. 背景介绍Apache Spark和Hive都是大数据处理领域的重要工具。Spark是一个快速、高效的大数据处理框架，可以处理批量数据和流式数据。Hive则是一个基于Hadoop的数据仓库系统，可以处理大量结构化数据。在大数据处理领域，选择合适的工具是非常重要的。因此，了解Spark

overfit同步小助手 2024-07-01 15:03:18 0 收藏

centos7下Hadoop集群的mysql5.7以及hive3.1搭建——包对的！

centos7下Hadoop集群的mysql5.7以及hive3.1搭建

overfit同步小助手 2024-07-01 12:03:24 0 收藏

Hive on spark源码编译与调优

一般生产环境NN和RM吃资源少的会单独配置，而工作节点会单独配置资源较多，例如Master节点配置为16核CPU、64G内存；Workder节点配置为32核CPU、128G内存，五台服务器如下所示hadoop100hadoop101hadoop102hadoop103hadoop104masterm

overfit同步小助手 2024-07-01 02:03:13 0 收藏

小时候的子弹击中了现在的我-hive进阶：案例解析（第18天）

本文主要介绍hive的表操作，内外部表，分区分桶表，hive复杂类型，Hive乱码解决。

overfit同步小助手 2024-06-30 23:04:08 0 收藏

hive调优原理详解：案例解析参数配置(第17天）

本文主要详解hive调优，案例解析。

overfit同步小助手 2024-06-30 20:03:14 0 收藏

hive sql执行优化策略集合

mapred.min.split.size.per.node和mapred.min.split.size.per.rack含义是单节点和单机架上的最小split大小。set hive.exec.max.dynamic.partitions.pernode=1000 （默认1000）表示每个maper

overfit同步小助手 2024-06-30 19:03:50 0 收藏

【精】hadoop、HIVE大数据从0到1部署及应用实战

ETL，即数据抽取（Extract）、转换（Transform）和加载（Load）的过程，是数据仓库领域中的一个重要概念。简单来说，ETL过程就是从各种数据源中抽取数据，将这些数据按照一定的规则进行转换，并最终将这些数据加载到目标数据仓库或其他数据存储系统中。在ETL过程中，数据抽取阶段主要涉及到从

overfit同步小助手 2024-06-30 17:03:38 0 收藏

在Mac上安装Hive.4.0.0（M3：基于arm架构）

要先装好Hadoop，mysql哦！！jdk也自己装好，要装1.8的。由于M系列芯片使用的是arm架构所以，在mac使用brew下载的hive会报错这里我直接去阿里镜像上下载下载这个带着bin的然后解压（在mac里面可以不用tar命令，直接点压缩包它自己会解压，然后把压缩包找个目录保存好，重命名ma

overfit同步小助手 2024-06-30 11:03:45 0 收藏

项目实践---Windows11中安装Zookeeper/Hadoop/Hive

Windows11中安装Hadoop/Hive

overfit同步小助手 2024-06-30 09:03:15 0 收藏

大数据技术Hadoop -- Hive的基本操作

（8）查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。（4）创建一个未分区的外部表dividends_unpartitioned，并从divide

overfit同步小助手 2024-06-30 07:03:49 0 收藏

网约车大数据综合项目——数据分析Hive

在 hive 中创建数据库在中创建表，将撤销订单清洗后的数据集导入表中。，数据集文件字段之间以在中创建表，将成功订单清洗后的数据集导入表中。，数据集文件字段之间以\t。

overfit同步小助手 2024-06-30 04:03:19 0 收藏

摸鱼大数据——Hive表操作——文件数据的导入和导出

1- 如果数据在Hive表的某一个文件中，可以使用直接下载文件的方式2- 如果想将Hive表中的数据导出到HDFS路径，推荐使用insert overwrite导出命令3- 如果只是想将Hive表中的数据导出到linux路径，可以使用insert overwrite导出命令或者hive sell命令

overfit同步小助手 2024-06-30 03:03:34 0 收藏

大数据开发之Hive（详细版，最后有实战训练）

第 1 章：Hive基本概念1.1 Hive1.1.1 Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑，开发人员要编写MR对数据进行统计分析难度极大，所以就产生了Hive这个数仓工具。H

overfit同步小助手 2024-06-30 00:03:42 0 收藏

Hive&Hadoop面试常用问题（精修篇）

该章节主要针对Hive和Hadoop做面试的常用问题做了汇总和解答

overfit同步小助手 2024-06-29 16:03:26 0 收藏

【Hive】HIVE运行卡死没反应

其实呢，我最开始就开始尝试打开yarn客户端界面了，但是没有打开，其实我发觉到我用的地址错误了，因为yarn并没有部署在了hadoop102上面，而我发觉之后立马改正，可还是打不开，我不由得觉得我的地址是不是真的输错了，哈哈哈哈，挺逗的，卡了好几分钟，最后在部署yarn的虚拟机(hadoop103)

overfit同步小助手 2024-06-28 22:03:44 0 收藏

hive的安装与基本配置（超详细，超简单）

本文介绍了hive的详细安装过程与基本配置

overfit同步小助手 2024-06-28 10:03:41 0 收藏

Hive on spark 多表full join 数据丢失大坑

长方形表示各表id所属范围，t1可能有t2没有的id，同时t2也有可能有t1没有的id，当t1、t2两者full join on t1.id=t2.id 后，若再要对t3表进行full join可以，但是join条件为on t2.id=t3.id，或者说是on t1.id=t3.id的时候都会出现一

overfit同步小助手 2024-06-27 13:03:47 0 收藏

HiveQL性能调优-概览

1、HiveQL 在执行时会转化为各种计算引擎的能够运行的算子，这里以mr引擎为切入点，要想让HiveQL 的效率更高，就要理解HiveQL 是如何转化为MapReduce任务的2、hive是基于hadoop的，分布式引擎采用mr、spark、tze，调度使用的yarn，分布式存储使用的hdfs，

overfit同步小助手 2024-06-27 12:03:50 0 收藏

hive DDL 语句

ShowDescribe在hive中DATABASE|SCHEMA是等效的，可以相互替代oRESTRICT: 默认值，在数据库中存在表的时候会失败，但如果是手动复制到该数据库下的，因为元数据中并没有相关信息，所以照样可以删除成功oCASCADE: 不管是否库中有表，全部删除。

overfit同步小助手 2024-06-27 12:03:45 0 收藏

Hive的存储格式和压缩算法的特点和选择

HIVE 中默认的存储格式；一般使用在数据贴源层(ODS 或 STG) ，针对需要使用脚本 LOAD 加载数据到 HIVE 数仓表中的情况；需要把表里数据导出或直接可以查看等场景，作为BI供数易读性要比 ORC 高很多；数据存储时不压缩，因此磁盘的开销和数据解析开销比较大；TEXTFILE 可以结合

overfit同步小助手 2024-06-27 11:03:50 0 收藏