九十四、Spark-SparkSQL(整合Hive)
读取本地文件上传至Hive数据仓库
【云计算平台】Hadoop全分布式模式环境搭建
Centos7环境 – Hadoop全分布式模式部署此前搭建了hadoop的单机模式与伪分布式模式:单机模式部署伪分布式模式部署中间拖得有点久了,今天索性做个了结,把hadoop的全分布式模式部署的操作也简单地记录一下,算是一个系统性的学习吧。伪分布式模式是学习阶段最常用的模式,它可以将进程都运行在
九十二、Spark-SparkSQL(统计电影平均分Top10)
Spark-SparkSQL(统计电影平均分Top10)
hadoop源码编译(从0到1一步步教你如何编译,适用于任何hadoop版本)
hadoop-2.10.1源码编译 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用文章目录hadoop-2.10.1源码编译前言一、下载hadoop-2.10.1二、环境要求1.JDK 1.7 or 1.82.Maven
MapReduce on Yarn(包含MapReduce执行详细流程)
1. MapReduce1.1 MapReduce任务在Yarn中执行流程MapReduce作为一种分布式计算框架,它在Yarn中执行的流程为:(1)客户端提交job;细节:① org.apache.hadoop.mapreduce.Job类配置job;② mapred-site.xml中mapre
Hadoop入门 运行环境搭建
模板虚拟机文章目录模板虚拟机1 硬件2 操作系统3 IP地址和主机名称vmwindows10Hadoop100服务器远程访问工具其他准备克隆虚拟机克隆修改主机名/ip安装jdk1 上传jdk和hadoop安装包2 解压安装包进module文件夹下3 配置JDK环境变量安装hadoop1 解压安装包进
大数据学习
提示:避雷Hadoop集群搭建的各种坑!文章目录前言一、基础环境的下载二、基础环境安装jdk安装与环境配置2.hadoop安装总结前言提示:不是小白你别来!提示:以下是本篇文章正文内容,下面案例可供参考一、基础环境的下载1: 系统环境 Ubuntu18.042: jdk1.8.0_321 下载地址链
Hadoop UserGroupInformation详解
hadoop UserGroupInformation研究了很多次,每次都是朦朦胧胧,这一次花了一些力气,终于是搞明白了。下面大概了解下面Java的认证相关框架JAAS 认证和授权框架,只要负责用户的认证和权限。SASL client 和 server之间认证的框架GSS 是sasl的一个provi
Hadoop集群搭建(详细简单粗暴)
hadoop集群搭建 hadoop jdk
从一个sql引发的hive谓词下推的全面复盘及源码分析(上)
嗨,大家好,我是小萝卜算子。(微信公众号:数据仓库践行者。感谢关注)下面开始今天的正题Hive版本:hive-2.1.1经常听到**【谓词下推】**这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要的。看了具体
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Java环境配置(Oracle JDK)
写在前面本系列文章索引以及一些默认好的条件在 传送门本文以CentOS7为例来进行搭建step1. 下载jdk博主设置的jdk版本为jdk1.8(8u181),官网下载地址可以根据需要选择自己的版本博主提供自己的阿里云分享链接step2. 删除原有的open jdk查看原有的JDK:java -ve
大数据之安装Hadoop单机伪分布(新手上路必备)三
1,安装vmware虚拟机,Linux版本可以自行选择2,安装ubuntu虚拟机 2.1 下载iso镜像 百度搜索 中国镜像站 随便哪个网页都可以,各大公司,各大高校; 2.2 安装ubuntu虚拟机;3,hadoop的安装模式 官方帮助文档https://hadoop.apache.org/doc
Linux免密大法好 ssh-copy-id 和 expect 免交互输入脚本
Linux 终于不用手动输入 密码了,得益于 ssh-copy-id 与 expect
Hadoop本地运行模式(Grep案例和WordCount 案例)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。
Spark框架—RDD算式mapPartitionsWithIndex与filter的用法
@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ print
Apache Yarn重启,历史任务可以永久保留的几个参数
非HA模式下的Apache Yarn在重启以后,8088端口默认是看不到之前运行过的历史任务的,如果想要看到历史任务,只需要在yarn-site.xml里面设置三个参数即可.<property> <name>yarn.resourcemanager.recove
从0到1搭建大数据平台之开篇
学大数据必须了解的知识点。硬核
Flink窗口转换算子
Flink窗口转换算子
Hadoop集群的搭建及配置
操作环境1.VMware2.CentOS6.8系统操作步骤创建Linux虚拟机
Unable to deliver event. Exception follows.配置出错
今天在进行hbase-kafka-flume 的集群集成时,我是三个节点,三个Kafka节点,二三节点flume收集信息到一节点flume,再同时打入hbase和kafka,结果在打开一节点的收集flume之后,再去打开二三节点时就报了下面的错。[ERROR - org.apache.flume.S