Hadoop快速入门——第二章、分布式集群(第一节、网络与ssh登录配置)
第二章、hadoop分布式集群1、配置静态IP地址和修改主机名2、配置主机名查询静态表3、配置SSH免密
Hadoop快速入门——第二章、分布式集群(第二节、Hadoop分布式模式搭建)
第二章、hadoop分布式集群Hadoop分布式模式搭建流程:1、修改配置文件core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml slaves1、配置【core-site.xml】vi /opt/hadoop/etc/hadoop/co
Oozie常用命令
启动命令:bin/oozied.sh start关闭命令:bin/oozied.sh stop页面访问:http://node01:11000/oozie/查看信息:bin/oozie job -oozie http://node01:11000/oozie -info 0000029-191027
HDFS小文件问题分析与解决方案(面试层面~)
1)会有什么影响(1)存储层面:1个文件块,占用namenode多大内存150字节1亿个小文件150字节1个文件块 * 150字节(2)计算层面:每个小文件都会起到一个MapTask,占用了大量计算资源2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFor
保姆级Hadoop集群部署
保姆级hadoop集群部署
Spark开发环境的搭建
(1)在/opt目录下建立 software,module两个文件,software用来下载安装包,下载或的安装包可以解压到module文件。小编下载spark的版本是:spark-2.3.2-bin-hadoop2.7.tgz。所以下载spark版本到software文件后,解压到module文件
九十四、Spark-SparkSQL(整合Hive)
读取本地文件上传至Hive数据仓库
【云计算平台】Hadoop全分布式模式环境搭建
Centos7环境 – Hadoop全分布式模式部署此前搭建了hadoop的单机模式与伪分布式模式:单机模式部署伪分布式模式部署中间拖得有点久了,今天索性做个了结,把hadoop的全分布式模式部署的操作也简单地记录一下,算是一个系统性的学习吧。伪分布式模式是学习阶段最常用的模式,它可以将进程都运行在
九十二、Spark-SparkSQL(统计电影平均分Top10)
Spark-SparkSQL(统计电影平均分Top10)
hadoop源码编译(从0到1一步步教你如何编译,适用于任何hadoop版本)
hadoop-2.10.1源码编译 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用文章目录hadoop-2.10.1源码编译前言一、下载hadoop-2.10.1二、环境要求1.JDK 1.7 or 1.82.Maven
MapReduce on Yarn(包含MapReduce执行详细流程)
1. MapReduce1.1 MapReduce任务在Yarn中执行流程MapReduce作为一种分布式计算框架,它在Yarn中执行的流程为:(1)客户端提交job;细节:① org.apache.hadoop.mapreduce.Job类配置job;② mapred-site.xml中mapre
Hadoop入门 运行环境搭建
模板虚拟机文章目录模板虚拟机1 硬件2 操作系统3 IP地址和主机名称vmwindows10Hadoop100服务器远程访问工具其他准备克隆虚拟机克隆修改主机名/ip安装jdk1 上传jdk和hadoop安装包2 解压安装包进module文件夹下3 配置JDK环境变量安装hadoop1 解压安装包进
大数据学习
提示:避雷Hadoop集群搭建的各种坑!文章目录前言一、基础环境的下载二、基础环境安装jdk安装与环境配置2.hadoop安装总结前言提示:不是小白你别来!提示:以下是本篇文章正文内容,下面案例可供参考一、基础环境的下载1: 系统环境 Ubuntu18.042: jdk1.8.0_321 下载地址链
Hadoop UserGroupInformation详解
hadoop UserGroupInformation研究了很多次,每次都是朦朦胧胧,这一次花了一些力气,终于是搞明白了。下面大概了解下面Java的认证相关框架JAAS 认证和授权框架,只要负责用户的认证和权限。SASL client 和 server之间认证的框架GSS 是sasl的一个provi
Hadoop集群搭建(详细简单粗暴)
hadoop集群搭建 hadoop jdk
从一个sql引发的hive谓词下推的全面复盘及源码分析(上)
嗨,大家好,我是小萝卜算子。(微信公众号:数据仓库践行者。感谢关注)下面开始今天的正题Hive版本:hive-2.1.1经常听到**【谓词下推】**这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要的。看了具体
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Java环境配置(Oracle JDK)
写在前面本系列文章索引以及一些默认好的条件在 传送门本文以CentOS7为例来进行搭建step1. 下载jdk博主设置的jdk版本为jdk1.8(8u181),官网下载地址可以根据需要选择自己的版本博主提供自己的阿里云分享链接step2. 删除原有的open jdk查看原有的JDK:java -ve
大数据之安装Hadoop单机伪分布(新手上路必备)三
1,安装vmware虚拟机,Linux版本可以自行选择2,安装ubuntu虚拟机 2.1 下载iso镜像 百度搜索 中国镜像站 随便哪个网页都可以,各大公司,各大高校; 2.2 安装ubuntu虚拟机;3,hadoop的安装模式 官方帮助文档https://hadoop.apache.org/doc
Linux免密大法好 ssh-copy-id 和 expect 免交互输入脚本
Linux 终于不用手动输入 密码了,得益于 ssh-copy-id 与 expect
Hadoop本地运行模式(Grep案例和WordCount 案例)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。