Hadoop生态圈(二十一)- MapReduce编程基础
MapReduce Partition分区,MapReduce Combiner规约,MapReduce自定义对象序列化,MapReduce自定义排序,MapReduce自定义分区,MapReduce自定义分组,自定义分组扩展:topN问题,默认情况下MR输出文件个数,数据分区概念,默认分区规则,P
Hadoop入门(一)
Hadoop是一个有Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题
Hadoop之伪分布式配置安装
Hadoop支持本地模式、伪分布式模式、完全分布式模式3种安装模式。本地模式,在系统中下载Hadoop,默认情况下,它会被配置为一个独立的模式, 用于运行Java程序;伪分布式模式,这是在单台机器上的分布式模拟,这种模式对开发非常有用:完全分布式模式,又叫集群安装,Hadoop 安装在最少两台计算机
Hive hql 经典5道面试题
最近在深入了解Hive,尚硅谷的这5道题很经典,有引导意义,分步解题也很有用,故记录之,方便回看1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量找出连续 3 天及以上减少碳排放量在 100 以上的用户id dt lowcarbon1001 2021-12-12 1231002 2021-12-
spark技术学习与思考(sparkcore&sparksql)
Spark 产生之前,已经有 MapReduce 这类非常成熟的并行计算框架存在了,并提供了高层次的API(map/reduce),它在集群上进行计算并提供容错能力,从而实现分布式计算。所以为什么 spark 会流行呢?
hive_实现ip的十进制和点分十进制(xxx.xxx.xxx.xxx)之间的相互转换
hive实现ip的十进制和点分十进制(xxx.xxx.xxx.xxx)之间相互转换
Hadoop——MapReduce(3)
MapReduce:自己处理业务相关代码 + 自身的默认代码文章目录1.MapReduce优缺点2.MapReduce进程3.序列化4 InputFormat数据输入4.1 切片与MapTask并行度决定机制4.2 Job提交流程源码详解4.3 FileInputFormat 切片机制4.4 Fil
HadoopHA 搭建
1.准备三台机器 centos7安装步骤 略( 可以看我的 虚拟机安装 centos7 文章)2.配置免秘钥访问略(可以看我的免秘钥配置文章)3.JKD 安装1.8略4.Hadoop官网下载3.1.2网址 http://hadoop.apache.org/https://archive.apache
Hadoop HA《hadoop-Yarn》
1.Hadoop集群HA搭建可参考我的文章《Hadoop分布式搭建(一)》2.修改环境变量cd /opt/hadoop-3.1.2/etc/hadoopvi hadoop-env.shexport JAVA_HOME=/usr/lib/jvm/jdk1.8.0_111export HDFS_NAME
【Hadoop】——JavaAPI操作
Haoop Java API操作
HBase集群搭建(一)
1.准备三台机器 centos7安装步骤 略( 可以看我的 虚拟机安装 centos7 文章)2.配置免秘钥访问略(可以看我的免秘钥配置文章)3.JKD 安装1.8略4.下载 HBasehttps://hbase.apache.org/downloads.html5.安装tar -zxvf hbas
什么是大数据?
本文从七个部分阐述大数据分析,包括:背景、定义、意义、挑战及未来趋势以及市场等部分。
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方式,对hive metastore进行认
搭建Hadoop集群(超详细版)
搭建Hadoop集群
Hadoop分布式搭建
1.Hadoop官网下载3.1.2网址 http://hadoop.apache.org/https://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/2.准备三台机器(本教程使用的虚拟机)centos 7 安装教程可以看我的这篇https:/
SQLDeveloper连接Hive使用说明
SQLDeveloper连接Hive使用说明
Hadoop分布式集群的安装(图解)
搭建是学习大数据的基础,大家一定要好好的搭建,可以试着多搭建几遍
Hadoop2.7.2集群搭建
一,基础环境1、主机名配置hostnamectl set-hostname node1hostnamectl set-hostname node2hostnamectl set-hostname node3vim /etc/hosts192.168.137.128 node1192.168.137.
大数据高级开发工程师——工作流调度器Azkaban(1)
文章目录工作流调度器AzkabanAzkaban介绍为什么需要工作流调度系统工作流调度实现方式Azkaban简介Azkaban架构Azkaban基本架构Azkaban架构的三种运行模式1. solo server mode(单机模式)2. two server mode3. multiple exe
从Hadoop框架讨论大数据生态
乾坤未定,你我仍需砥砺前行。一是,二知,三版,四高,与吾皆有关。