大数据 Hadoop - overfit.cn

解决：java.net.NoRouteToHostException: 没有到主机的路由

解决：java.net.NoRouteToHostException: 没有到主机的路由在执行spark程序的jar包时，出现下面问题查看： http://wiki.apache.org/hadoop/NoRouteToHost中，提示如下可以根据上面查找问题我出现是虚拟机之间的防火墙没有关闭查看防

overfit同步小助手 2023-07-04 10:04:16 0 收藏

Hbase的bulkload流程与实践

通常MapReduce在写HBase时使用的是方式，在 reduce 中直接生成 put 对象写入HBase，该方式在大数据量写入时效率低下（HBase 会 block 写入，频繁进行 flush、split、compact 等大量 IO 操作），并对HBase节点的稳定性造成一定的影响（GC 时间

overfit同步小助手 2023-07-04 10:04:07 0 收藏

Flink1.14提交任务报错classloader.check-leaked-classloader问题解决

Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that t

overfit同步小助手 2023-07-03 23:04:20 0 收藏

hadoop实验

overfit同步小助手 2023-07-03 21:04:06 0 收藏

HDFS中Block size的默认大小

为了确认上述问题的答案，从Hadoop的官网上看了各个版本的说明文档中关于 Data Blocks 的说明，发现是从2.7.3版本开始，官方关于Data Blocks 的说明中，block size由64 MB变成了128 MB的。有的说是Hadoop 1.X版本是64MB，2.X版本是128MB，

overfit同步小助手 2023-07-03 12:05:11 0 收藏

第1关：HDFS 上查看文件块信息

第1关：HDFS 上查看文件块信息在右侧命令行模式操作，将本地的 /opt 目录上传至 HDFS中 /user/hadoop 目录下，并查找文件块的位置和机架信息，将查找出来的信息保存至本地的 /usr/result.txt 中。

overfit同步小助手 2023-07-03 09:04:45 0 收藏

Hadoop大数据从入门到实战（二）分布式文件系统HDFS

头歌实践教学平台教学课堂大数据从入门到实战 - 第2章分布式文件系统HDFS。

overfit同步小助手 2023-07-03 08:03:58 0 收藏

Flink ON YARN

Flink ON YARN 模式就是使用客户端的方式，直接向Hadoop集群提交任务即可，不需要单独启动Flink进程。

overfit同步小助手 2023-07-03 06:04:16 0 收藏

大数据基础考试复习（考试前不停更）——《大数据技术与原理应用》

小题：文章目录小题：选择：判断：填空：大题一、简答题1、Hadoop 生态及各部分的作用2、HDFS的实现目标3、FsImage和EditLog的过程4、HDFS读数据的过程5、HBase Region的定位方式6、MapReduce运行流程7、简述Map函数和Reduce函数的功能二、实验题三、综

overfit同步小助手 2023-07-03 02:04:23 0 收藏

利用Docker快速部署hadoop、hive和spark

文章目录一、配置文件yml1.docker-compose.yml二、执行脚本1.启动脚本run.sh2.关闭脚本stop.sh一、配置文件yml1.docker-compose.ymlversion: '3.4' services: namenode: image: test/hadoop

overfit同步小助手 2023-07-02 21:03:59 0 收藏

CENTOS上的网络安全工具（二十四）Windows下的Hadoop+Spark编程环境构建

前面我们搭建了hadoop集群，spark集群，也利用容器构建了spark的编程环境。但是一般来说，就并行计算程序的开发，一刚开始一般是在单机上的，比如hadoop的single node。但是老师弄个容器或虚拟机用vscode远程访问式开发，终究还是有些不爽。还好，hadoop和spark都是支持

overfit同步小助手 2023-07-02 20:04:23 0 收藏

大数据框架之Hive：第7章综合案例练习（初级）

overfit同步小助手 2023-07-02 12:05:50 0 收藏

Hadoop基本操作

Hadoop基本操作方法

overfit同步小助手 2023-07-02 10:05:21 0 收藏

hadoop无法访问9870端口

首先查看一下防火墙是否关闭。今天连接Hadoop端口的时候，发现9870端口无法连上。查看了下进程，都已经成功启动。根据自己的host映射。

overfit同步小助手 2023-07-02 09:05:26 0 收藏

Hadoop之MapReduce概述

Hadoop之mapreduce概述，描述相关工作机制和原理

overfit同步小助手 2023-07-02 09:05:14 0 收藏

Hbase，Hive和Hdfs的关系以及区别

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive。

overfit同步小助手 2023-07-02 01:04:32 0 收藏

Hbase

Hbase 的扩展性主要体现在两个方面，一个是基于运算能力（RegionServer）的扩展，通过增加 RegionSever 节点的数量，提升 Hbase 上层的处理能力；HBase擅长于存储结构简单的海量数据但索引能力有限，而Oracle，mysql等传统关系型数据库(RDBMS)能够提供丰富

overfit同步小助手 2023-07-02 01:04:20 0 收藏

Hadoop DataNode不能启动，不能全部启动

可以查看一下{hadoop文件路径}/etc/hadoop/slaves这个文件，这个文件是集群里所有DataNode的主机名，如果缺少某一个主机名，不能全部启动，将全部要启动datanode的主机名加入即可。目前有三台主机，配置如下：在hadoop102主机上执行启动脚本（自定义脚本或者start

overfit同步小助手 2023-07-01 23:04:07 0 收藏

hive分区表之insert overwrite 注意事项

比如跑上月的数据最开始有44条记录，后面业务说不对，应该一条都没有的，结果你重跑了，确实跑出了0条记录，但是你插入的时候就是不能覆盖。所以这里有个注意事项！如果我们建立了一个分区表，如果每个月都要更新数据，不要因为省事就是用动态分区插入。但是今天遇到一个问题，如果我查询的数据=0，那么数据还会覆盖么

overfit同步小助手 2023-07-01 20:04:13 0 收藏

Hadoop启动正常，能ping通，无法打开hadoop102:9870

浏览器无法打开hadoop102:9870。

overfit同步小助手 2023-07-01 15:04:09 0 收藏