Hadoop - overfit.cn

Flink ON YARN

Flink ON YARN 模式就是使用客户端的方式，直接向Hadoop集群提交任务即可，不需要单独启动Flink进程。

overfit同步小助手 2023-07-03 06:04:16 0 收藏

大数据基础考试复习（考试前不停更）——《大数据技术与原理应用》

小题：文章目录小题：选择：判断：填空：大题一、简答题1、Hadoop 生态及各部分的作用2、HDFS的实现目标3、FsImage和EditLog的过程4、HDFS读数据的过程5、HBase Region的定位方式6、MapReduce运行流程7、简述Map函数和Reduce函数的功能二、实验题三、综

overfit同步小助手 2023-07-03 02:04:23 0 收藏

利用Docker快速部署hadoop、hive和spark

文章目录一、配置文件yml1.docker-compose.yml二、执行脚本1.启动脚本run.sh2.关闭脚本stop.sh一、配置文件yml1.docker-compose.ymlversion: '3.4' services: namenode: image: test/hadoop

overfit同步小助手 2023-07-02 21:03:59 0 收藏

CENTOS上的网络安全工具（二十四）Windows下的Hadoop+Spark编程环境构建

前面我们搭建了hadoop集群，spark集群，也利用容器构建了spark的编程环境。但是一般来说，就并行计算程序的开发，一刚开始一般是在单机上的，比如hadoop的single node。但是老师弄个容器或虚拟机用vscode远程访问式开发，终究还是有些不爽。还好，hadoop和spark都是支持

overfit同步小助手 2023-07-02 20:04:23 0 收藏

大数据框架之Hive：第7章综合案例练习（初级）

overfit同步小助手 2023-07-02 12:05:50 0 收藏

Hadoop基本操作

Hadoop基本操作方法

overfit同步小助手 2023-07-02 10:05:21 0 收藏

hadoop无法访问9870端口

首先查看一下防火墙是否关闭。今天连接Hadoop端口的时候，发现9870端口无法连上。查看了下进程，都已经成功启动。根据自己的host映射。

overfit同步小助手 2023-07-02 09:05:26 0 收藏

Hadoop之MapReduce概述

Hadoop之mapreduce概述，描述相关工作机制和原理

overfit同步小助手 2023-07-02 09:05:14 0 收藏

Hbase，Hive和Hdfs的关系以及区别

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive。

overfit同步小助手 2023-07-02 01:04:32 0 收藏

Hbase

Hbase 的扩展性主要体现在两个方面，一个是基于运算能力（RegionServer）的扩展，通过增加 RegionSever 节点的数量，提升 Hbase 上层的处理能力；HBase擅长于存储结构简单的海量数据但索引能力有限，而Oracle，mysql等传统关系型数据库(RDBMS)能够提供丰富

overfit同步小助手 2023-07-02 01:04:20 0 收藏

Hadoop DataNode不能启动，不能全部启动

可以查看一下{hadoop文件路径}/etc/hadoop/slaves这个文件，这个文件是集群里所有DataNode的主机名，如果缺少某一个主机名，不能全部启动，将全部要启动datanode的主机名加入即可。目前有三台主机，配置如下：在hadoop102主机上执行启动脚本（自定义脚本或者start

overfit同步小助手 2023-07-01 23:04:07 0 收藏

hive分区表之insert overwrite 注意事项

比如跑上月的数据最开始有44条记录，后面业务说不对，应该一条都没有的，结果你重跑了，确实跑出了0条记录，但是你插入的时候就是不能覆盖。所以这里有个注意事项！如果我们建立了一个分区表，如果每个月都要更新数据，不要因为省事就是用动态分区插入。但是今天遇到一个问题，如果我查询的数据=0，那么数据还会覆盖么

overfit同步小助手 2023-07-01 20:04:13 0 收藏

Hadoop启动正常，能ping通，无法打开hadoop102:9870

浏览器无法打开hadoop102:9870。

overfit同步小助手 2023-07-01 15:04:09 0 收藏

实验5 MapReduce初级编程实践（3）——对给定的表格进行信息挖掘

一、实验目的通过实验掌握基本的MapReduce编程方法；掌握用MapReduce解决一些常见的数据处理问题，包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统：Linux（建议Ubuntu16.04或Ubuntu18.04）Hadoop版本：3.1.3三、实验内容对给定的表格进行信息挖掘下面

overfit同步小助手 2023-07-01 02:04:28 0 收藏

Spark 从入门到精通

spark 从入门到精通从spark集群搭建到案例spark core spark streaming sparkSQL

overfit同步小助手 2023-07-01 02:04:12 0 收藏

大数据实战（hadoop+spark+python）：淘宝电商数据分析

利用docker部署hadoop，spark分布式环境，配合python对淘宝100万条数据进行分析

overfit同步小助手 2023-06-30 23:04:11 0 收藏

hadoop报错：没有那个文件或目录

overfit同步小助手 2023-06-30 20:04:14 0 收藏

DBeaver同时执行多条insert into报错处理

overfit同步小助手 2023-06-30 16:04:38 0 收藏

大数据项目实战——基于某招聘网站进行数据采集及数据分析（二）

大数据项目实战第二章搭建大数据集群环境文章目录大数据项目实战学习目标一、安装准备二、使用步骤1.引入库2.读入数据总结学习目标了解虚拟机的安装和克隆熟悉虚拟机网络配置和 SSH 服务配置掌握 Hadoop 集群的搭建熟悉 Hive 的安装掌握 Sqoop 的安装搭建大数据集群环境是开发本项目的基础

overfit同步小助手 2023-06-30 13:04:42 0 收藏

虚拟机时间不同步如何解决？

hadoop三台服务器时间不同步

overfit同步小助手 2023-06-30 11:04:18 0 收藏