hdfs - overfit.cn

一篇搞定，Hadoop高可用集群搭建及API调用，超详细

在Hadoop1中NameNode存在一个单点故障问题，如果NameNode所在的机器发生故障，整个集群就将不可用(Hadoop1中虽然有个SecorndaryNameNode，但是它并不是NameNode的备份，它只是NameNode的一个助理，协助NameNode工作，SecorndaryNam

overfit同步小助手 2024-08-16 04:03:55 0 收藏

云存储技术：HBase & HDFS 无感知迁移方案

在大数据生态系统中，HBase 和 HDFS 是两个关键组件。HBase 是一个分布式列式数据库，常用于实时读写大规模数据；HDFS 是一个高可靠的分布式文件系统，用于存储海量数据。 1、背景随着业务的发展和技术的进步，可能需要对现有的HBase/Hadoop集群进行迁移，或是因为各种原因（如成本控

overfit同步小助手 2024-08-14 05:03:49 0 收藏

Hadoop_hdfs介绍

Hadoop 是一个开源框架，由 Apache Software Foundation 开发和维护，用于分布式存储和处理大规模数据集。Hadoop 允许用户通过简单的编程模型跨大型集群分布式处理大量数据。它特别适用于大数据应用，可以处理数千台服务器上的 PB 级数据。

overfit同步小助手 2024-08-06 21:03:32 0 收藏

Hadoop3.3.4 + HDFS Router-Based Federation配置

HDFS Router-based Federation 3.34

overfit同步小助手 2024-08-06 16:03:50 0 收藏

Hive表使用ORC格式和SNAPPY压缩建表语句示例

在选择压缩算法时，一般可以考虑以下几个因素： 1. 压缩比：不同的压缩算法具有不同的压缩比，一般来说，压缩比越高，存储空间占用越小，但可能会影响查询性能。 2. 压缩速度：有些压缩算法压缩速度较快，适合对数据进行频繁压缩，而有些压缩算法压缩速度较慢，但压缩比较高。 3. 解压速度：压缩算法解压速度也

overfit同步小助手 2024-08-06 11:03:49 0 收藏

hadoop-hdfs配置 + HA(高可用)配置(学习)

需要编写hadoop目录下的配置文件配置文件在hadoop安装目录下面的etc/hadoop/下。成功会出现namenode,datanode,secondarynamenode。在浏览器中打开namenode所在id: 192.168.72.88:9870。core-site.xml h

overfit同步小助手 2024-08-06 00:04:30 0 收藏

HDFS分布式文件系统详解(Hadoop)

HDFS

overfit同步小助手 2024-07-30 20:04:01 0 收藏

大数据HDFS概述【长期更新】

Hadoop基本介绍和设计原理

overfit同步小助手 2024-07-27 06:03:50 0 收藏

【大数据·hadoop】在hdfs上运行shell基本常用命令

在Hadoop生态系统中，supergroup 是一个默认的用户组，通常与HDFS的超级用户（即 Hadoop 的管理员账户，类似于 Unix 系统中的 root 用户）关联。超级用户和属于 supergroup 组的用户通常有着对HDFS上所有文件和目录的全权限，这包括读取、写入和执行权限。

overfit同步小助手 2024-07-26 20:03:40 0 收藏

关于HDFS 和HBase

总结来说，Apache HBase 就像是一个超级智能的图书管理系统，它建在巨大的图书馆（HDFS）之上，能够让你快速找到需要的信息，不管数据量有多大，都可以通过添加更多的电脑来轻松应对。想象一下，你有一个巨大的图书馆，这个图书馆就像 HDFS，它的架子上堆满了各种各样的书籍，每本书都非常厚，而且有

overfit同步小助手 2024-07-22 15:03:52 0 收藏

Hadoop3：HDFS-通过配置黑白名单对集群进行扩缩容，并实现数据均衡（实用）

Hadoop

overfit同步小助手 2024-07-22 02:03:38 0 收藏

Hadoop之HDFS重点架构原理简介

Hadoop之HDFS（Hadoop Distributed File System）的重点架构原理主要涉及其分布式文件系统的核心组件、数据存储机制、以及关键的数据读写流程。

overfit同步小助手 2024-07-18 06:03:49 0 收藏

Hadoop入门—HDFS、MR、Yarn【看这一篇就够了！】

hadoop生态及架构，HDFS存储方式、Yarn资源调度、MR并行计算

overfit同步小助手 2024-07-13 17:03:48 0 收藏

大数据基础：Hadoop之HDFS重点架构原理

Hadoop Distributed File System - 分布式文件存储系统，解决海量数据存储问题。

overfit同步小助手 2024-07-12 16:03:21 0 收藏

大数据—数据采集DataX

DataX 是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCom

overfit同步小助手 2024-07-11 10:03:44 0 收藏

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

MapReduce是一个分布式离线计算框架，专门用于处理大数据场景中与实时性无关的一些离线计算任务。MapReduce的数据输入一般是HDFS，然后经过InputFormat进行输入格式化，变成格式；然后执行用户实现的Mapper类型的map方法，进行数据映射，映射处理的结果也是格式；然后执行一个s

overfit同步小助手 2024-07-03 19:03:18 0 收藏

虚拟机配置（hadoop）前置准备

安装集群化软件，需要有多台Linux服务器（至少三台）。1.首先创建一台CentOS7系统的Linux虚拟机，作为基础虚拟机2.在VMware中新建文件夹，命名为：hadoop集群3.克隆三台虚拟机并且命名为hadoop1、hadoop2、hadoop3、内存分别设置为4GB,2GB,2GB.

overfit同步小助手 2024-07-03 01:03:43 0 收藏

【大数据复习】第3章分布式文件系统HDFS（重中之重）

D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自

overfit同步小助手 2024-06-30 10:03:49 0 收藏

Hadoop HDFS：海量数据的存储解决方案

作为处理大规模数据集的强大工具，HDFS已经成为了很多组织在大数据时代的基石。虽然存在一些设计和性能挑战，但其开源的本质和持续的技术进步保证了HDFS在未来数据技术领域的重要位置。无论是数据存储、大数据分析还是云服务，HDFS都将继续发挥其独特的价值和功能。

overfit同步小助手 2024-06-23 17:03:54 0 收藏

Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce

HDFS（Hadoop Distributed File System）：HDFS是Hadoop生态系统中的分布式文件系统，主要用于存储大规模数据集。它将数据分布在多个节点上，支持数据冗余备份，确保数据的可靠性和高可用性。HDFS是Hadoop分布式计算的基础，能够让Hadoop系统高效地处理大规模

overfit同步小助手 2024-06-23 17:03:47 0 收藏