大数据 Hadoop - overfit.cn

DataX简介、部署、原理和使用介绍

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(

overfit同步小助手 2023-09-03 04:04:11 0 收藏

HDFS中的Federation联邦机制

命名空间（namespace）由文件，块和目录组成的统一抽象的目录树结构。由namenode根据用户操作实时维护树结构块存储层包括两部分：块管理：namenode执行块管理。块管理通过处理注册和定期心跳来提供DataNode集群成员身份。它处理块报告并迟滞与块相关的操作，如创建，删除，修改或获取块位

overfit同步小助手 2023-09-03 02:04:17 0 收藏

HBase JMX 指标学习

overfit同步小助手 2023-09-02 21:04:18 0 收藏

HBase 2.3.7中snappy压缩配置

本文将介绍如何在HBase 2.3.7中配置snappy压缩。snappy是一种快速的数据压缩和解压缩算法，可以提高HBase的存储空间利用率和读写性能。本文使用了HBase 2.3.7版本，运行在三个Ubuntu系统的虚拟机中，分别作为master和slave节点。也可以使用其他版本的HBase和

overfit同步小助手 2023-09-02 19:04:01 0 收藏

Ambari自动部署hadoop

Apache Ambari项目旨在通过开发用于配置，管理和监控Apache Hadoop集群的软件来简化Hadoop管理.Ambari提供了一个由RESTful API支持的直观，易用的Hadoop管理Web Ul。Ambari使系统管理员能够:提供Hadoop集群Ambari提供了跨任意数量的主机

overfit同步小助手 2023-09-02 04:04:20 0 收藏

CDH6.3.2搭建HIVE ON TEZ

如果内存不够：可以修改如下参数设置。----配置hive运行引擎。

overfit同步小助手 2023-09-01 20:04:29 0 收藏

Python与大数据：Hadoop、Spark和Pyspark的应用和数据处理技巧

通过Python强大的数据处理库和易用的编程语法，我们可以处理和分析大规模数据集，从中获得有价值的信息和见解。掌握一些数据处理技巧，如数据清洗、特征工程、数据聚合与汇总、并行处理和数据可视化，可以提高大数据处理的效率和准确性。通过不断学习和实践，读者可以不断探索和应用Python在大数据领域的新技术

overfit同步小助手 2023-09-01 07:04:07 0 收藏

【Hadoop】Hadoop入门概念简介

Hadoop设计了一个在分布式集群上实现资源管理与功能水平分层的架构，该分层解耦架构让大家可以在Hadoop上不断地叠加组件，并且每个组件可以独立升级，同类组件可以相互竞争，不断提升性能。作为Hadoop生态系统的核心，HDFS、YARN、MapReduce形成了一个灵活的基座，并以此为基础扩展出了

overfit同步小助手 2023-09-01 05:04:02 0 收藏

【数据湖Hudi-10-Hudi集成Flink-读取方式&限流&写入方式&写入模式&Bucket索引】

数据湖Hudi-10-Hudi集成Flink-读取方式&限流&写入方式&写入模式&Bucket索引

overfit同步小助手 2023-09-01 03:04:10 0 收藏

【Hadoop】DataNode 详解

Datanode是HDFS文件系统的工作节点，它们根据客户端或者是namenode的调度进行存储和检索数据，并且定期向namenode发送它们所存储的块(block)的列表。

overfit同步小助手 2023-08-31 18:04:16 0 收藏

【Hive实战】Hive的事务表

Hive 事务表简介

overfit同步小助手 2023-08-31 05:04:13 0 收藏

HIve中count（1），count（*），count（字段名）三种统计的区别

overfit同步小助手 2023-08-29 21:04:23 0 收藏

大数据基础知识

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。灵活的可扩展性灵活的数据模型与云计算紧密融合现在已经有很多公司使用了NoSQL数据库：GoogleFacebookMozillaAdobeFoursquareLinkedInDigg百度、腾讯、阿里、新浪、华为……Spa

overfit同步小助手 2023-08-29 19:04:21 0 收藏

Flink 检查点配置

当有界数据 , 部分Task 完成 , Flink 1.14 后 , 它们依然能进行检查点。检查点存储 (CheckpointStorage) : 持久化存储位置。Rocksdb 状态后端 : 启用增量 checkpoint。

overfit同步小助手 2023-08-29 18:04:34 0 收藏

hive数据的导入导出

1. TextFile：使用TextFile格式存储的表将数据以文本文件的形式进行存储。这是最常用的默认存储格式。2. SequenceFile：使用SequenceFile格式存储的表将数据以键-值对的形式存储，适用于数据压缩和高效读取。3. ORC（Optimized Row Colum

overfit同步小助手 2023-08-29 12:04:30 0 收藏

HDFS写流程源码分析（一）-客户端

环境为hadoop 3.1.3。

overfit同步小助手 2023-08-29 07:04:12 0 收藏

HDFS读写流程

NameNode将位置信息返回给客户端：NameNode接收到客户端的请求后，会返回该文件所在的DataNode节点的IP地址和块ID等信息。客户端向NameNode请求文件的位置：客户端想要访问一个文件时，会向NameNode发送一个请求，要求获取该文件在HDFS上的位置信息。DataNode返回

overfit同步小助手 2023-08-29 02:03:40 0 收藏

Hive概述

UDF当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。TRANSFORM,andUDFandUDAFUDF：就是做一个mapper，对每一条输入数据，映射为一条输出数据。UDAF:就是一个reducer，

overfit同步小助手 2023-08-29 01:04:14 0 收藏

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录

java.lang.NoClassDefFoundError: org/apache/hadoop/hive/metastore/api/MetaException2、java.lang.NoClassDefFoundError: org/apache/thrift/TBase3、java.lang

overfit同步小助手 2023-08-28 17:03:50 0 收藏

Hadoop知识点

第二个阶段是由 ApplicationMaster 创建应用程序，为它申请资源，并监控它的整个运行过程，直到运行完成。（1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。（3）DataNod

overfit同步小助手 2023-08-28 10:04:17 0 收藏