大数据 Hadoop - overfit.cn

【大数据入门核心技术-Hadoop】（六）Hadoop3.2.1高可用集群搭建

独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。单Namenode节点模式-高可用HA模式集

overfit同步小助手 2023-05-11 23:03:53 0 收藏

非常详细HDFS读写流程+完美视觉的HDFS读写流程图

DataStreamer 将数据包流式传输到管线中第 1 个DataNode（dn1），该 DataNode（dn1）存储数据包并将它发送到管线中的第 2 个 DataNode（dn2）。同样地，第 2 个 DataNode（dn2）存储该数据包并且发送给管线中的第3个DataNode（dn3）

overfit同步小助手 2023-05-11 21:03:53 0 收藏

hive之入门配置

学习hive之路就此开启啦，让我们共同努力。

overfit同步小助手 2023-05-11 17:04:20 0 收藏

HBase 架构

包含访问HBase的接口并维护cache来加快对HBase的访问。

overfit同步小助手 2023-05-11 15:03:33 0 收藏

MapReduce实战小案例（自定义排序、二次排序、分组、分区）

MapReduce实战小案例

overfit同步小助手 2023-05-11 08:03:35 0 收藏

简单配置HDFS

搭建最基本的完全分布式集群环境，简单的hdfs基础配置

overfit同步小助手 2023-05-11 01:03:31 0 收藏

Hadoop 高可用集群的启动与关闭命令

overfit同步小助手 2023-05-10 18:03:43 0 收藏

HADOOP 伪分布式集群搭建

HDFS 会以128M为单位将上传的文件进行切分为若干个block 存储在不同的datanode中，由于为了在不可靠的机器上进行提供可靠的服务，所以采用多副本机制进行存储。由于Hadoop 依赖于JDK运行环境，笔者这里采用的是hadoop3.3.4版本，支持JDK11，所以笔者安装的也是JDK11

overfit同步小助手 2023-05-10 07:03:49 0 收藏

hadoop单机模式搭建

搭建hadoop单机模式

overfit同步小助手 2023-05-10 01:03:53 0 收藏

Hive任务实施（航空公司客户价值数据）

注意命令的使用与输入文件路径的引用建表字段的顺序。

overfit同步小助手 2023-05-09 18:03:49 0 收藏

读取hive表中的数据进行数据可视化

1，目的将数据导入到hive中，通过数据分析后将结果存到新的表中，然后读取hive中的数据进行数据可视化。2，hive中的操作首先将数据上传到HDFS，然后启动hive，如果因为namenode处于安全模式而无法启动hive可参考我的另一篇博文：“Name node is in safe mode”

overfit同步小助手 2023-05-09 10:03:46 0 收藏

Hive内部表与外部表的区别具体说明

将hdfs上的数据上传到内部表中，数据是被剪切到内部表中，内部表删除，hdfs上的数据也被删除；将hdfs上的数据上传到外部表中，数据是被拷贝到外部表中，外部表删除，hdfs上的数据不会被删除。

overfit同步小助手 2023-05-09 06:03:34 0 收藏

云计算实验1 基于Hadoop的云计算平台配置和map-reduce编程案例

云计算实验一

overfit同步小助手 2023-05-08 20:03:37 0 收藏

eclipse和hadoop连接攻略（详细）

超详细eclipse与hadoop链接，不踩雷，看了10篇+稿子的终极版

overfit同步小助手 2023-05-08 19:03:56 0 收藏

24.大数据---Hive的连接三种连接方式

hive的三种连接方式

overfit同步小助手 2023-05-08 15:03:41 0 收藏

元数据管理-解决方案调研三：元数据管理解决方案——开源解决方案

数据血缘、基于角色的安全策略、表或列级标签以及中央审计功能使数据管理员可以轻松自信地管理和保护数据访问，直接在 Lakehouse 上满足合规性和隐私需求。2、查看自动化和精选的元数据：使用自动化和精选的元数据建立对数据的信任——表和列的描述、其他常用用户、表上次更新时间、统计信息、数据预览（如果允

overfit同步小助手 2023-05-08 09:03:33 0 收藏

大数据 | Spark安装及性能测试

Spark On Yarn集群模式下的安装和基本测试

overfit同步小助手 2023-05-08 06:03:33 0 收藏

用idea操作hbase数据库，并映射到hive

overfit同步小助手 2023-05-08 01:03:46 0 收藏

BigTop3.2.0 大数据组件编译--组件编译

接上篇环境准备，环境准备好以后就可以开始bigtop大数据组件编译了，建议使用科学上网方式，降低网络连接报错，主要网络报错出现在nodejs npm yarn bower等前端资源的下载上。搞定网络问题后，按本文的方式可以完成大数据相关组件的编译，编译后生成的rpm包在output目录中，包含源码r

overfit同步小助手 2023-05-07 22:03:46 0 收藏

MapReduce 编程实例：词频统计

1.右击resources目录，单击【new】选择【resources bundle】，弹出下图界面输入log4j，单击【ok】按钮。在export目录下，创建wordcount目录，在里面创建words.txt文件，向words.txt输入下面内容。2.在弹出的【Create Resource B

overfit同步小助手 2023-05-07 16:03:39 0 收藏