Hadoop - overfit.cn

Hadoop入门运行环境搭建

模板虚拟机文章目录模板虚拟机1 硬件2 操作系统3 IP地址和主机名称vmwindows10Hadoop100服务器远程访问工具其他准备克隆虚拟机克隆修改主机名/ip安装jdk1 上传jdk和hadoop安装包2 解压安装包进module文件夹下3 配置JDK环境变量安装hadoop1 解压安装包进

overfit同步小助手 2022-04-04 08:28:32 0 收藏

大数据学习

提示：避雷Hadoop集群搭建的各种坑！文章目录前言一、基础环境的下载二、基础环境安装jdk安装与环境配置2.hadoop安装总结前言提示：不是小白你别来！提示：以下是本篇文章正文内容，下面案例可供参考一、基础环境的下载1: 系统环境 Ubuntu18.042: jdk1.8.0_321 下载地址链

overfit同步小助手 2022-04-04 08:28:17 0 收藏

Hadoop UserGroupInformation详解

hadoop UserGroupInformation研究了很多次，每次都是朦朦胧胧，这一次花了一些力气，终于是搞明白了。下面大概了解下面Java的认证相关框架JAAS 认证和授权框架，只要负责用户的认证和权限。SASL client 和 server之间认证的框架GSS 是sasl的一个provi

overfit同步小助手 2022-04-04 08:28:06 0 收藏

Hadoop集群搭建（详细简单粗暴）

hadoop集群搭建 hadoop jdk

overfit同步小助手 2022-04-01 07:39:11 0 收藏

从一个sql引发的hive谓词下推的全面复盘及源码分析（上）

嗨，大家好，我是小萝卜算子。（微信公众号：数据仓库践行者。感谢关注）下面开始今天的正题Hive版本：hive-2.1.1经常听到**【谓词下推】**这个词，却从来没有对它进行全面的深入的研究，直到前些天，我们的数据产品跑过来跟我讨论他写的一个sql，这个sql最终出现的结果并不是他想要的。看了具体

overfit同步小助手 2022-04-01 07:39:04 0 收藏

Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Java环境配置(Oracle JDK)

写在前面本系列文章索引以及一些默认好的条件在传送门本文以CentOS7为例来进行搭建step1. 下载jdk博主设置的jdk版本为jdk1.8(8u181)，官网下载地址可以根据需要选择自己的版本博主提供自己的阿里云分享链接step2. 删除原有的open jdk查看原有的JDK：java -ve

overfit同步小助手 2022-03-31 09:38:55 0 收藏

大数据之安装Hadoop单机伪分布（新手上路必备）三

1，安装vmware虚拟机，Linux版本可以自行选择2，安装ubuntu虚拟机 2.1 下载iso镜像百度搜索中国镜像站随便哪个网页都可以，各大公司，各大高校； 2.2 安装ubuntu虚拟机；3，hadoop的安装模式官方帮助文档https://hadoop.apache.org/doc

overfit同步小助手 2022-03-31 09:38:50 0 收藏

Linux免密大法好 ssh-copy-id 和 expect 免交互输入脚本

Linux 终于不用手动输入密码了，得益于 ssh-copy-id 与 expect

overfit同步小助手 2022-03-30 08:04:27 0 收藏

Hadoop本地运行模式（Grep案例和WordCount 案例）

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。

overfit同步小助手 2022-03-30 08:04:21 0 收藏

Spark框架—RDD算式mapPartitionsWithIndex与filter的用法

@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ print

overfit同步小助手 2022-03-29 08:04:32 0 收藏

Apache Yarn重启,历史任务可以永久保留的几个参数

非HA模式下的Apache Yarn在重启以后,8088端口默认是看不到之前运行过的历史任务的,如果想要看到历史任务,只需要在yarn-site.xml里面设置三个参数即可.<property> <name>yarn.resourcemanager.recove

overfit同步小助手 2022-03-28 08:04:28 0 收藏

从0到1搭建大数据平台之开篇

学大数据必须了解的知识点。硬核

overfit同步小助手 2022-03-27 09:47:23 0 收藏

Flink窗口转换算子

overfit同步小助手 2022-03-26 08:49:43 0 收藏

Hadoop集群的搭建及配置

操作环境1.VMware2.CentOS6.8系统操作步骤创建Linux虚拟机

overfit同步小助手 2022-03-25 08:05:18 0 收藏

Unable to deliver event. Exception follows.配置出错

今天在进行hbase-kafka-flume 的集群集成时，我是三个节点，三个Kafka节点，二三节点flume收集信息到一节点flume，再同时打入hbase和kafka，结果在打开一节点的收集flume之后，再去打开二三节点时就报了下面的错。[ERROR - org.apache.flume.S

overfit同步小助手 2022-03-23 13:21:21 0 收藏

eclipse连接Hadoop并实现词频统计（大数据分析）

Ubuntu系统内实现eclipse连接Hadoop远程操作并完成词频统计实例

overfit同步小助手 2022-03-22 07:56:56 0 收藏

大数据Hadoop之——Scala基础

文章目录一、概述二、Scala发展历史三、 Scala 和 Java 关系四、Scala 环境搭建一、概述Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Spark就是使用Scala编写的。因此为了更好的学习Sp

overfit同步小助手 2022-03-20 07:15:23 0 收藏

centos7搭建集群过程

搭建集群

overfit同步小助手 2022-03-20 07:15:19 0 收藏

【云计算平台】Hadoop伪分布式模式环境搭建

Centos7环境 – Hadoop伪分布式模式部署前一篇博客 Hadoop单机模式部署中已经配置好了jdk环境，对hadoop软件也进行了安装和基本配置；本篇博客承接前篇，简单记录一下Hadoop伪分布式模式部署，伪分布式的部署应该会比较规范一点了，这里会新建一个hadoop用户来进行与hado

overfit同步小助手 2022-03-20 07:14:59 0 收藏

Hadoop简介和体系架构

目录2．1 Hadoop简介2．1．1 Hadoop由来2．1．2 Hadoop发展历程2．1．3 Hadoop生态系统2．2 Hadoop的体系架构2．2．1 分布式文件系统HDFS2．2．2 分布式计算框架MapReduce2．2．3 分布式资源调度系统YARN2. 2. 4三大发行版本2．1

overfit同步小助手 2022-03-18 07:51:48 0 收藏