Hadoop - overfit.cn

Hadoop完全分布式的搭建

今天我们来学习Hadoop完全分布式的搭建，我们要搭建hadoop完全分布式要掌握哪些东西呢？首先需要掌握的就是Hadoop的基础知识，了解Hadoop的生态系统，包括Hadoop的核心组件（如HDFS、MapReduce、YARN等）以及其他相关组件（如HBase、Hive、Zookeeper等）

overfit同步小助手 2024-03-26 23:03:25 0 收藏

大数据主要组件HDFS Iceberg Hadoop spark介绍

NameNode：NameNode 是 HDFS 的主节点，负责管理文件系统的元数据，包括文件和目录的结构、文件到数据块（Block）的映射、数据块到数据节点（DataNode）的映射等。每行都是每个数据文件的详细描述，包括数据文件的状态、文件路径、分区信息、列级别的统计信息（例如每列的最大最小值、

overfit同步小助手 2024-03-26 04:03:52 0 收藏

Hadoop 集群

可以访问的 web 页面全部绑定了 127.0.0.1。禁止外部访问，需要访问可以使用 nginx 反向代理增加鉴权之后暴露出去。如果不需要可以替换 IP。

overfit同步小助手 2024-03-26 03:03:45 0 收藏

Hadoop与Spark的x86和ARM混合集群部署【环境搭建篇】

笔者在完成课程设计时，突然想到把大数据框架同时部署到PC端虚拟机以及ARM架构的Linux板上，这篇博客记录集群部署流程以及例程测试。运行环境：PC方面，使用两台Ubuntu 20.04 LTS Focal Fossa虚拟机ARM板子则使用香橙派5（RK3588S），系统是香橙派官方适配的Ubun

overfit同步小助手 2024-03-25 19:03:32 0 收藏

Hive拉链表设计、实现、总结

拉链表的设计思路，如何制作，实践踩坑......

overfit同步小助手 2024-03-25 18:03:28 0 收藏

大数据集群管理软件 CDH、Ambari、DataSophon 对比

DataSophon也是个类似的管理平台，只不过与智子不同的是，智子的目的是锁死人类的基础科学阻碍人类技术爆炸，而DataSophon是致力于自动化监控、运维、管理大数据基础组件和节点的，帮助您快速构建起稳定，高效的大数据集群服务。

overfit同步小助手 2024-03-25 10:03:32 0 收藏

CloudCanal x Hive 构建高效的实时数仓

CloudCanal 最近对于全周期数据流动进行了初步探索，打通了Hive 目标端的实时同步，为实时数仓的构建提供了支持，这篇文章简要做下分享。

overfit同步小助手 2024-03-25 07:03:43 0 收藏

Linux虚拟机上Hadoop的安装与使用

手把手教你如何在虚拟机环境下安装和使用hadoop

overfit同步小助手 2024-03-25 06:03:45 0 收藏

大数据技术学习-部署Hadoop完全分布式

本篇文章是本人基于一学期的Hadoop大数据技术原理与应用学习后的总结和感悟，内容包含了配置虚拟机和基于完全分布式模式部署Hadoop

overfit同步小助手 2024-03-25 05:03:36 0 收藏

04hive数仓内外部表复杂数据类型与分区分桶

内部表和外部表区别总结。

overfit同步小助手 2024-03-24 23:03:28 0 收藏

数据架构的大数据处理：Hadoop 与 Spark 的结合

1.背景介绍大数据处理是现代数据科学和工程的核心技术，它涉及到处理海量、高速、多源、不确定性和不可靠性的数据。随着互联网、人工智能、物联网等领域的快速发展，大数据处理的重要性日益凸显。Hadoop 和 Spark 是目前最主流的大数据处理技术，它们各自具有不同的优势和应用场景。Hadoop 是一个开

overfit同步小助手 2024-03-24 21:03:48 0 收藏

大数据技术Hadoop小白教程（一）——Hadoop概述及环境配置

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和分析。它基于Google的MapReduce和Google文件系统（GFS）的概念，并且能够在廉价的硬件上运行。Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）和Hadoop YARN（Yet Another Res

overfit同步小助手 2024-03-24 20:03:37 0 收藏

HIVE搭建教程

拷贝master安装包到beeline客户端机器上（任意一个节点即可）

overfit同步小助手 2024-03-24 20:03:33 0 收藏

在Hadoop设置中输入jps没有出现namenode和datanode

可能是多次格式化NameNode后未删除相关文件，需要检查在hadoop中查看hdfs-site.xml和core-site.xml配置文件，确认其中的相关配置项是否正确设置，查看目录路径，然后删除相关文件。

overfit同步小助手 2024-03-24 20:03:28 0 收藏

hadoop分布式环境搭建

(hadoop、jdk文件链接：https://pan.baidu.com/s/1wal1CSF1oO2h4dkSbceODg 提取码：4zra)前四步可参考。

overfit同步小助手 2024-03-24 17:03:22 0 收藏

数据仓库hive的安装说明

在hive-env.sh文件中加入下列配置信息： export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_231。# 不重启mysql服务而使修改的内容直接生效。写入下列信息： export HIVE_HOME=/usr/local/hive。将bind-address

overfit同步小助手 2024-03-24 07:03:41 0 收藏

Hadoop-3.3.0-Centos7安装详解

这里是将JDK添加到user_hbase用户的环境变量中，执行“vi ~/.bash_profile”命令，打开.bash_profile文件，在文件底部添加如下内容即可。配置IP映射，将三台虚拟机的IP地址与对应的主机名进行映射，便于后续可以直接通过主机名访问对应的主机，这里以虚拟机node1为例

overfit同步小助手 2024-03-23 21:03:40 0 收藏

有关Hive对数据库的常见操作(二)

分桶和分区一样，也是一种通过改变表的存储模式，从而完成对表优化的一种调优方式但和分区不同，分区是将表拆分到不同的子文件夹中进行存储，而分桶是将表拆分到固定数量的不同文件中进行存储。需要map字段之间的分隔符："#"；struct类型是一个复合类型，可以在一个列中存入多个子列，每个子列允许设置类型和

overfit同步小助手 2024-03-23 11:03:38 0 收藏

【程序员必知必会3】ClickHouse和Hive究竟哪些区别

ClickHouse和Hive都是用于大数据处理和分析的分布式存储和计算系统，但它们之间存在一些区别：架构：ClickHouse采用列式存储和向量化执行引擎，可以实现亚秒级别的数据查询。而Hive采用基于Hadoop的数据存储和MapReduce计算引擎，数据查询速度相对较慢。查询语言：ClickH

overfit同步小助手 2024-03-23 05:03:42 0 收藏

第二章 hive环境配置

rw-r--r--. 1 root root 609556480 3 月 21 15:41 mysql-5.7.28- 1.el7.x86_64.rpm-bundle.tar。libaio.so.1(LIBAIO_0.1)(64bit) 被 mysql-community-server-5.7.28

overfit同步小助手 2024-03-23 03:03:40 0 收藏