Hadoop - overfit.cn

HDFS写流程源码分析（一）-客户端

环境为hadoop 3.1.3。

overfit同步小助手 2023-08-29 07:04:12 0 收藏

HDFS读写流程

NameNode将位置信息返回给客户端：NameNode接收到客户端的请求后，会返回该文件所在的DataNode节点的IP地址和块ID等信息。客户端向NameNode请求文件的位置：客户端想要访问一个文件时，会向NameNode发送一个请求，要求获取该文件在HDFS上的位置信息。DataNode返回

overfit同步小助手 2023-08-29 02:03:40 0 收藏

Hive概述

UDF当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。TRANSFORM,andUDFandUDAFUDF：就是做一个mapper，对每一条输入数据，映射为一条输出数据。UDAF:就是一个reducer，

overfit同步小助手 2023-08-29 01:04:14 0 收藏

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录

java.lang.NoClassDefFoundError: org/apache/hadoop/hive/metastore/api/MetaException2、java.lang.NoClassDefFoundError: org/apache/thrift/TBase3、java.lang

overfit同步小助手 2023-08-28 17:03:50 0 收藏

Hadoop知识点

第二个阶段是由 ApplicationMaster 创建应用程序，为它申请资源，并监控它的整个运行过程，直到运行完成。（1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。（3）DataNod

overfit同步小助手 2023-08-28 10:04:17 0 收藏

Hadoop运行模式

🍊hi，各位友友们，本篇文章是大数据系列-Hadoop运行模式的文章，里面讲解了Hadoop和集群的启动命令、日志、历史记录等内容，欢迎各位学习者阅读，也欢迎对不足的地方提出批评和建议

overfit同步小助手 2023-08-27 23:04:16 0 收藏

[数据存储]HDFS的简介、初始化配置与运行

HDFS（Hadoop Distributed File System）Hadoop分布式文件系统，是Hadoop项目中关于数据存储的组件，是Hadoop项目的一部分。

overfit同步小助手 2023-08-26 13:04:00 0 收藏

Hadoop中命令检查hdfs的文件是否存在

示例中，使用hadoop fs -test -e命令检查/user/hadoop/myfile.txt文件是否存在。接着，通过检查命令的返回值来确定文件的存在与否。如果文件存在，命令返回0；如果文件不存在，命令返回非0值。其中，是要检查的HDFS文件的路径。

overfit同步小助手 2023-08-26 05:03:54 0 收藏

Hadoop理论及实践-HDFS读写数据流程（参考Hadoop官网）

NameNode根据一定的策略选择可用的DataNode，并为文件的每个数据块分配一个主节点（Primary DataNode）和多个副本节点（Replica DataNode），NameNode返回文件的数据节点列表给客户端。5、客户端根据数据节点列表，将数据切分成数据块，并按照指定的策略将这些数

overfit同步小助手 2023-08-26 01:04:26 0 收藏

HDFS报错：Couldn‘t preview the file.

解决hdfs的web界面不能能查看文件内容问题

overfit同步小助手 2023-08-25 23:04:13 0 收藏

一、1、Hadoop的安装与环境配置

dfs.namenode.name.dir和dfs.datanode.data.dir分别指名称节点和数据节点存储路径。切换到路径/usr/local/hadoop/etc/hadoop下，需要修改2个配置文件core-site.xml和hdfs-site.xml。并选择相应系统以及位数下载（本文选

overfit同步小助手 2023-08-25 18:04:14 0 收藏

最详细HDFS常用命令作用及截图

HDFS常用命令集合

overfit同步小助手 2023-08-25 10:04:24 0 收藏

Hadoop巡检脚本

变量为你的Hadoop连接信息和输出文件路径。运行脚本后，将会生成一个巡检报告文件，其中包含了Hadoop版本、HDFS健康状态、集群节点信息、YARN应用程序信息和YARN节点信息等。同样，这只是一个基本的示例脚本，你可以根据具体需求进行扩展和定制，添加更多的巡检项和检查规则。

overfit同步小助手 2023-08-25 08:04:10 0 收藏

大数据课程E5——Flume的Selector

根据headers中的指定字段决定将数据发送给哪一个Channel。1. Selector本身是Source的子组件，决定了将数据分发给哪个Channel。如果是multiplexing，那么在所有值不匹配的情况下数据发送的Channel。如果是multiplexing，那么需要指定监听字段匹配的只

overfit同步小助手 2023-08-25 06:04:23 0 收藏

Hive底层数据存储格式

在大数据领域，Hive是一种常用的数据仓库工具，用于管理和处理大规模数据集。Hive底层支持多种数据存储格式，这些格式对于数据存储、查询性能和压缩效率等方面有不同的优缺点。本文将介绍Hive底层的三种主要数据存储格式：文本文件格式、Parquet格式和ORC格式。总结来说，Hive底层数据存储格式的

overfit同步小助手 2023-08-24 15:04:35 0 收藏

【hadoop】windows上hadoop环境的搭建步骤

在大数据开发领域中，不得不说说传统经典的hadoop基础计算框架。一般我们都会将hadoop集群部署在服务器上，但是作为一个资深搬砖人，我们本地环境也需要一个开发hadoop的开发环境。那么，今天就安排一个在windows上搭建一个hadoop环境。

overfit同步小助手 2023-08-23 04:03:58 0 收藏

hive删除数据进行恢复

hdfs dfs -cp 回收站目录数据/* 数据表存储目录/对恢复后的数据表进行验证，包括数据内容和数据条数的验证。（2）将回收站里的数据复制到表的数据存储目录。（3）执行hive的修复命令。

overfit同步小助手 2023-08-22 23:04:22 0 收藏

基于Hadoop的疫情信息分析与可视化研究——包含大屏可视化及预测算法

基于Hadoop的疫情信息分析与可视化研究在国内外都有较为广泛的应用。国外研究主要集中在疫情数据的处理和分析，以及疫情预测模型的构建。而国内研究则主要集中在疫情数据的可视化和知识图谱的构建。未来，基于Hadoop的疫情信息分析与可视化研究还有很大的发展空间，可以进一步提高对疫情的监测和预警能力，为政

overfit同步小助手 2023-08-22 22:04:15 0 收藏

HIVE SQL 根据主键去重并实现其余字段分组聚合

注意：此处是取的首个不为空（即不为null）的字段，所以在实际使用过程中应提前将空字符串转为null值。

overfit同步小助手 2023-08-22 15:04:22 0 收藏

【hive】hive中将string数据转为bigint的操作

【代码】【hive】hive中将string数据转为bigint的操作。

overfit同步小助手 2023-08-22 08:04:18 0 收藏