Hadoop - overfit.cn

在Mac上安装Hive.4.0.0（M3：基于arm架构）

要先装好Hadoop，mysql哦！！jdk也自己装好，要装1.8的。由于M系列芯片使用的是arm架构所以，在mac使用brew下载的hive会报错这里我直接去阿里镜像上下载下载这个带着bin的然后解压（在mac里面可以不用tar命令，直接点压缩包它自己会解压，然后把压缩包找个目录保存好，重命名ma

overfit同步小助手 2024-06-30 11:03:45 0 收藏

【大数据复习】第3章分布式文件系统HDFS（重中之重）

D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自

overfit同步小助手 2024-06-30 10:03:49 0 收藏

大数据之Hadoop的特点是什么？有什么优缺点？有哪些发行版本？

Hadoop 是一个开源的分布式存储和计算框架，由 Apache 软件基金会维护。Hadoop 的这些特点使其成为处理大规模数据集的理想选择，广泛应用于互联网、金融、医疗、科研等领域。

overfit同步小助手 2024-06-30 09:03:51 0 收藏

项目实践---Windows11中安装Zookeeper/Hadoop/Hive

Windows11中安装Hadoop/Hive

overfit同步小助手 2024-06-30 09:03:15 0 收藏

大数据技术Hadoop -- Hive的基本操作

（8）查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。（4）创建一个未分区的外部表dividends_unpartitioned，并从divide

overfit同步小助手 2024-06-30 07:03:49 0 收藏

Hadoop一课一得

本文详细介绍了Hadoop课程的内容和学习路径，希望能够帮助读者更好地理解和应用这一强大的大数据处理工具。

overfit同步小助手 2024-06-30 06:03:29 0 收藏

摸鱼大数据——Hive表操作——文件数据的导入和导出

1- 如果数据在Hive表的某一个文件中，可以使用直接下载文件的方式2- 如果想将Hive表中的数据导出到HDFS路径，推荐使用insert overwrite导出命令3- 如果只是想将Hive表中的数据导出到linux路径，可以使用insert overwrite导出命令或者hive sell命令

overfit同步小助手 2024-06-30 03:03:34 0 收藏

Hadoop在win11安装

更改jre和jdk路径，不要包含空格和中文。

overfit同步小助手 2024-06-30 02:03:32 0 收藏

大数据开发之Hive（详细版，最后有实战训练）

第 1 章：Hive基本概念1.1 Hive1.1.1 Hive产生背景HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑，开发人员要编写MR对数据进行统计分析难度极大，所以就产生了Hive这个数仓工具。H

overfit同步小助手 2024-06-30 00:03:42 0 收藏

Hadoop 2.0 大家族（四）

本文讲解Hadoop2.0大家族，介绍Flume和Mahout。

overfit同步小助手 2024-06-29 20:03:17 0 收藏

Hive&Hadoop面试常用问题（精修篇）

该章节主要针对Hive和Hadoop做面试的常用问题做了汇总和解答

overfit同步小助手 2024-06-29 16:03:26 0 收藏

【Hive】HIVE运行卡死没反应

其实呢，我最开始就开始尝试打开yarn客户端界面了，但是没有打开，其实我发觉到我用的地址错误了，因为yarn并没有部署在了hadoop102上面，而我发觉之后立马改正，可还是打不开，我不由得觉得我的地址是不是真的输错了，哈哈哈哈，挺逗的，卡了好几分钟，最后在部署yarn的虚拟机(hadoop103)

overfit同步小助手 2024-06-28 22:03:44 0 收藏

【大数据 Hadoop zookeeper】基于azure云服务器的hadoop HA高可用性集群搭建

windows Azure提供了学生认证，通过学生认证后，每年可以免费使用100刀以内的相关云服务。笔者建议大家都可以去申请一个学生优惠认证，感兴趣可以搜索一下。下面的教程是笔者学生认证后搭建hadoop集群的全过程。

overfit同步小助手 2024-06-28 11:03:50 0 收藏

hive的安装与基本配置（超详细，超简单）

本文介绍了hive的详细安装过程与基本配置

overfit同步小助手 2024-06-28 10:03:41 0 收藏

Spark与Hadoop的关系和区别

Hadoop是一个由Apache基金会维护的开源分布式数据处理框架。Hadoop分布式文件系统（HDFS）：用于存储大规模数据的分布式文件系统。Hadoop MapReduce：用于分布式数据处理的编程模型和框架。Hadoop最初是为批处理任务设计的，适用于对大规模数据进行批处理分析。Spark与H

overfit同步小助手 2024-06-28 05:03:41 0 收藏

hadoop三大核心组件及其功能

Hadoop的三大核心组件是HDFS（Hadoop Distributed File System）、MapReduce和YARN（Yet Another Resource Negotiator）。以上三大组件共同构成了Hadoop的核心功能，它们分别负责数据的存储、计算和资源管理，为大数据处理提供

overfit同步小助手 2024-06-27 15:03:52 0 收藏

Hive on spark 多表full join 数据丢失大坑

长方形表示各表id所属范围，t1可能有t2没有的id，同时t2也有可能有t1没有的id，当t1、t2两者full join on t1.id=t2.id 后，若再要对t3表进行full join可以，但是join条件为on t2.id=t3.id，或者说是on t1.id=t3.id的时候都会出现一

overfit同步小助手 2024-06-27 13:03:47 0 收藏

HiveQL性能调优-概览

1、HiveQL 在执行时会转化为各种计算引擎的能够运行的算子，这里以mr引擎为切入点，要想让HiveQL 的效率更高，就要理解HiveQL 是如何转化为MapReduce任务的2、hive是基于hadoop的，分布式引擎采用mr、spark、tze，调度使用的yarn，分布式存储使用的hdfs，

overfit同步小助手 2024-06-27 12:03:50 0 收藏

hive DDL 语句

ShowDescribe在hive中DATABASE|SCHEMA是等效的，可以相互替代oRESTRICT: 默认值，在数据库中存在表的时候会失败，但如果是手动复制到该数据库下的，因为元数据中并没有相关信息，所以照样可以删除成功oCASCADE: 不管是否库中有表，全部删除。

overfit同步小助手 2024-06-27 12:03:45 0 收藏

Hive的存储格式和压缩算法的特点和选择

HIVE 中默认的存储格式；一般使用在数据贴源层(ODS 或 STG) ，针对需要使用脚本 LOAD 加载数据到 HIVE 数仓表中的情况；需要把表里数据导出或直接可以查看等场景，作为BI供数易读性要比 ORC 高很多；数据存储时不压缩，因此磁盘的开销和数据解析开销比较大；TEXTFILE 可以结合

overfit同步小助手 2024-06-27 11:03:50 0 收藏