大数据 Hadoop - overfit.cn

Hadoop运行模式

🍊hi，各位友友们，本篇文章是大数据系列-Hadoop运行模式的文章，里面讲解了Hadoop和集群的启动命令、日志、历史记录等内容，欢迎各位学习者阅读，也欢迎对不足的地方提出批评和建议

overfit同步小助手 2023-08-27 23:04:16 0 收藏

[数据存储]HDFS的简介、初始化配置与运行

HDFS（Hadoop Distributed File System）Hadoop分布式文件系统，是Hadoop项目中关于数据存储的组件，是Hadoop项目的一部分。

overfit同步小助手 2023-08-26 13:04:00 0 收藏

Hadoop中命令检查hdfs的文件是否存在

示例中，使用hadoop fs -test -e命令检查/user/hadoop/myfile.txt文件是否存在。接着，通过检查命令的返回值来确定文件的存在与否。如果文件存在，命令返回0；如果文件不存在，命令返回非0值。其中，是要检查的HDFS文件的路径。

overfit同步小助手 2023-08-26 05:03:54 0 收藏

Hadoop理论及实践-HDFS读写数据流程（参考Hadoop官网）

NameNode根据一定的策略选择可用的DataNode，并为文件的每个数据块分配一个主节点（Primary DataNode）和多个副本节点（Replica DataNode），NameNode返回文件的数据节点列表给客户端。5、客户端根据数据节点列表，将数据切分成数据块，并按照指定的策略将这些数

overfit同步小助手 2023-08-26 01:04:26 0 收藏

HDFS报错：Couldn‘t preview the file.

解决hdfs的web界面不能能查看文件内容问题

overfit同步小助手 2023-08-25 23:04:13 0 收藏

一、1、Hadoop的安装与环境配置

dfs.namenode.name.dir和dfs.datanode.data.dir分别指名称节点和数据节点存储路径。切换到路径/usr/local/hadoop/etc/hadoop下，需要修改2个配置文件core-site.xml和hdfs-site.xml。并选择相应系统以及位数下载（本文选

overfit同步小助手 2023-08-25 18:04:14 0 收藏

最详细HDFS常用命令作用及截图

HDFS常用命令集合

overfit同步小助手 2023-08-25 10:04:24 0 收藏

Hadoop巡检脚本

变量为你的Hadoop连接信息和输出文件路径。运行脚本后，将会生成一个巡检报告文件，其中包含了Hadoop版本、HDFS健康状态、集群节点信息、YARN应用程序信息和YARN节点信息等。同样，这只是一个基本的示例脚本，你可以根据具体需求进行扩展和定制，添加更多的巡检项和检查规则。

overfit同步小助手 2023-08-25 08:04:10 0 收藏

大数据课程E5——Flume的Selector

根据headers中的指定字段决定将数据发送给哪一个Channel。1. Selector本身是Source的子组件，决定了将数据分发给哪个Channel。如果是multiplexing，那么在所有值不匹配的情况下数据发送的Channel。如果是multiplexing，那么需要指定监听字段匹配的只

overfit同步小助手 2023-08-25 06:04:23 0 收藏

Hive底层数据存储格式

在大数据领域，Hive是一种常用的数据仓库工具，用于管理和处理大规模数据集。Hive底层支持多种数据存储格式，这些格式对于数据存储、查询性能和压缩效率等方面有不同的优缺点。本文将介绍Hive底层的三种主要数据存储格式：文本文件格式、Parquet格式和ORC格式。总结来说，Hive底层数据存储格式的

overfit同步小助手 2023-08-24 15:04:35 0 收藏

【hadoop】windows上hadoop环境的搭建步骤

在大数据开发领域中，不得不说说传统经典的hadoop基础计算框架。一般我们都会将hadoop集群部署在服务器上，但是作为一个资深搬砖人，我们本地环境也需要一个开发hadoop的开发环境。那么，今天就安排一个在windows上搭建一个hadoop环境。

overfit同步小助手 2023-08-23 04:03:58 0 收藏

hive删除数据进行恢复

hdfs dfs -cp 回收站目录数据/* 数据表存储目录/对恢复后的数据表进行验证，包括数据内容和数据条数的验证。（2）将回收站里的数据复制到表的数据存储目录。（3）执行hive的修复命令。

overfit同步小助手 2023-08-22 23:04:22 0 收藏

基于Hadoop的疫情信息分析与可视化研究——包含大屏可视化及预测算法

基于Hadoop的疫情信息分析与可视化研究在国内外都有较为广泛的应用。国外研究主要集中在疫情数据的处理和分析，以及疫情预测模型的构建。而国内研究则主要集中在疫情数据的可视化和知识图谱的构建。未来，基于Hadoop的疫情信息分析与可视化研究还有很大的发展空间，可以进一步提高对疫情的监测和预警能力，为政

overfit同步小助手 2023-08-22 22:04:15 0 收藏

HIVE SQL 根据主键去重并实现其余字段分组聚合

注意：此处是取的首个不为空（即不为null）的字段，所以在实际使用过程中应提前将空字符串转为null值。

overfit同步小助手 2023-08-22 15:04:22 0 收藏

【hive】hive中将string数据转为bigint的操作

【代码】【hive】hive中将string数据转为bigint的操作。

overfit同步小助手 2023-08-22 08:04:18 0 收藏

【Hive】分隔符『单字节分隔符 | 多字节分隔符』

1. 概述2. 单字节分隔符方法：使用delimited关键字3. 其它复杂情况方式一：写MR程序进行字符替换转为单字节分隔符问题（不推荐）方式二：自定义InputFormat转为单字节分隔符问题（不推荐）方式三：使用serde关键字（推荐）

overfit同步小助手 2023-08-22 05:04:10 0 收藏

Hive常见面试题

Hive是一个基于Hadoop生态系统的数据仓库和数据处理工具。它提供了类似于SQL的查询语言（HiveQL），使用户能够使用SQL语句来查询和分析大规模存储在Hadoop集群上的数据。Hive的主要作用是将大数据的处理变得更加易于理解和使用，尤其适合那些熟悉SQL查询语言的非技术用户。Hive

overfit同步小助手 2023-08-22 04:04:18 0 收藏

Flink 归约聚合（reduce）

其实，reduce 的语义是针对列表进行规约操作，运算规则由 ReduceFunction 中的 reduce方法来定义，而在 ReduceFunction 内部会维护一个初始值为空的累加器，注意累加器的类型。将合并的结果看作一个数据、再跟后面的数据合并，最终会将它“简化”成唯一的一个数据，这也就是

overfit同步小助手 2023-08-21 23:04:46 0 收藏

配置Hadoop_0

Hadoop配置

overfit同步小助手 2023-08-21 11:04:11 0 收藏

[Flink] Flink On Yarn（yarn-session.sh）启动错误

在Flink上启动 yarn-session.sh时出现 The number of requested virtual cores for application master 1 exceeds the maximum number of virtual cores 0 available in

overfit同步小助手 2023-08-21 06:04:18 0 收藏