Hadoop - overfit.cn

MapReduce编程规范

对多个Map任务的结果进行排序以及合并,编写Reduce函数实现自己的逻辑,对输入的Key-Value进行处理,转为新的Key-Value(K3和V3）输出。MapReduce的开发一共有八个步骤,其中Map阶段分为2个步骤，Shuffle阶段4个步骤，Reduce阶段分为2个步骤。设置InputF

overfit同步小助手 2023-04-03 15:04:32 0 收藏

HBase详细安装指南

随着大数据时代的来临，mysql已经无法满足人们的需要，海量数据存储到达了瓶颈，hbase应运而生。提示：以下是本篇文章正文内容，下面案例可供参考。

overfit同步小助手 2023-04-03 14:04:41 0 收藏

Ranger (五) --------- 使用 Ranger 对 Hive 进行权限管理

使用 Ranger 对 Hive 进行权限管理

overfit同步小助手 2023-04-03 14:04:31 0 收藏

Ubuntu 20.04 搭建hadoop 集群

文章目录1. 虚拟机的安装1.1 下载VMware Workstation1.2 下载ubantu20.041.3 安装一台虚拟机1.4 安装Vmware Tools2. 网络配置2.1 添加权限2.2 DHCP动态分配IP地址2.3 配置静态IP地址2.4 主机名和IP地址映射3. 安装必要工具

overfit同步小助手 2023-04-03 13:04:11 0 收藏

Hadoop集群启动但是没有datanode/namenode的情况

Hadoop集群我们是用三台笔记本电脑装了Ubuntu虚拟机然后进行集群的搭建。但是后来启动集群，一开始是主节点没启动起来，因为配置文件看走眼，配错了，然后又重新初始化了一次，然后可能因为重复初始化，导致datanode又没了，然后一直在尝试，一直在搜CSDN到底什么原因。目前根据搜索到的以及老师说

overfit同步小助手 2023-04-03 12:04:25 0 收藏

大数据开发工程师是做什么的？岗位要求高吗？

大数据开发工程师是做什么的？岗位要求高吗？大数据开发工程师要负责数据仓库建设、ETL开发、数据分析、数据指标统计、大数据实时计算平台及业务开发、平台建设及维护等工作内容。熟练掌握数据仓库、hadoop生态体系、计算及二次开发、大数据平台工具的开发：开发平台、调度系统、元数据平台等工具，该岗位对于技术

overfit同步小助手 2023-04-03 12:04:22 0 收藏

Hadoop3.3.4最新版本安装分布式集群部署

NameNode和SecondaryNameNode不要安装在同一台服务器ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

overfit同步小助手 2023-04-03 12:04:18 0 收藏

Spark高手之路1—Spark简介

Spark官网Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎，相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算.Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件

overfit同步小助手 2023-04-03 11:04:45 0 收藏

prometheus监控hadoop

overfit同步小助手 2023-04-03 11:04:40 0 收藏

【Hadoop全分布式环境搭建】

Hadoop全分布式集群搭建，ntp时间同步，免密登录，hadoop一键启动

overfit同步小助手 2023-04-03 11:04:13 0 收藏

hadoop之JobHistoryServer无法启动的解决方案

看完这些问题后，我继续网上翻阅出现了下面这段话，显示我的jdk版本是18的，版本冲突了，导致service编译通过（因为有jdk），然后运行失败（版本不兼容），但在次之前我是已经将java的jdk版本改到了8但是我的机子里面确实还装了一个jdk18版本，并且两个都是全局生效export。第一步：检查

overfit同步小助手 2023-04-03 11:04:05 0 收藏

大数据Canal（四）：Canal HA原理及安装

Canal一般用于实时同步数据场景，那么对于实时场景HA显得尤为重要，Canal支持HA搭建，canal的HA分为两部分，canal server和canal client分别有对应的HA实现。将Canal安装包上传到node3，node4，并解压到“/software/canal”目录下，修改“/

overfit同步小助手 2023-04-03 11:04:02 0 收藏

hdfs小文件合并

overfit同步小助手 2023-04-03 11:03:57 0 收藏

Hadoop集群配置2

本章节讲对Hadoop安装后的一些基本配置，对于slave1和slave2的分发和使用！

overfit同步小助手 2023-04-03 10:04:51 0 收藏

hive和hbase的一些数据导入导出操作

hive 、hbase的一些基本操作

overfit同步小助手 2023-04-03 09:04:43 0 收藏

最详细全面的Hbase安装流程和环境配置

1. Zookeeper正常部署首先保证Zookeeper集群的正常部署，并启动：[root@hadoop101 zookeeper-3.5.7]$ bin/zkServer.sh start[root@hadoop102 zookeeper-3.5.7]$ bin/zkServer.sh star

overfit同步小助手 2023-04-03 08:04:56 0 收藏

【云启实验室】《搭建Hadoop环境》-Hadoop-2.10.1伪分布式

资源创建过程需要1~3分钟。1. 点击右侧切换至Web Terminal，执行以下命令，下载JDK1.8安装包。4. 执行以下命令，修改配置文件yarn-env.sh和hadoop-env.sh。2. 执行以下命令，解压Hadoop安装包至/opt/hadoop。3. 启动成功后，执行以下命令，查

overfit同步小助手 2023-04-03 08:04:49 0 收藏

windows下安装pyspark及pycharm配置最完整详细教程

一、安装jdk1.81.jdk下载首先要保证电脑上安装了jdk，这里下载jdk1.8，可以去官网下载，也可以使用我分享的文件链接：https://pan.baidu.com/s/1MErkVhORho7tp3Eg97a9Aw提取码：1234下载后完成后全部无脑下一步就行，不用修改安装路径，占不了多少

overfit同步小助手 2023-04-03 07:04:13 0 收藏

Hadoop生态系统全面介绍

Hadoop作为大数据的分布式计算框架，发展到今天已经建立起了很完善的生态，本文将一一介绍基于Hadoop生态的一系列框架和组件。Flume简介：Flume 是一个分布式、高可用的服务，用于高效收集、聚合和移动大量日志数据。作用：Flume 主要承载的作用是收集各个数据源的事件或日志数据，然后将其S

overfit同步小助手 2023-04-03 06:04:46 0 收藏

HBase---HBase基础语法

HBase基础语法

overfit同步小助手 2023-04-03 06:04:41 0 收藏