手把手教你搭建HADOOP集群

准备工作:准备三台虚拟机,关闭防火墙,修改他们的主机名,第一台虚拟机为master 剩下两台分别是slave1和slave2,修改hosts文件 修改他们的主机映射,三台进行免密操作。基础配置:修改主机名永久修改:vim /etc/hostname重启 restart零时修改: hostnamect

大数据组件之Hive(Hive学习一篇就够了)

文章目录一、Hive安装1、解压环境2、环境变量配置3、配置文件信息1.打开编辑文件2.输入以下内容4、拷贝mysql驱动5、更新guava包和hadoop一致6、mysql授权7、初始化8、hive启动模式9、Hadoop的core-site.xml配置二、Hive1、Hive的文件结构2、MyS

DolphinScheduler无故删除HDFS上的Hive库表目录

亲爱的朋友们,我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情就是在DolphinScheduler上发生的。据领导描述,某团队负责的某业务数仓上云后,HDFS上的Hive库表目录总是无故被删,他们找不

Hadoop入门(一篇就够了)

文章目录01 引言02 Hadoop概述2.1 Hadoop定义2.2 Hadoop优势2.3 Hadoop组成2.3.1 HDFS2.3.2 MapReduce2.3.3 YARN2.4 Hadoop工作方式2.4.1 Hadoop的主从工作方式2.4.2 Hadoop的守护进程03 Hadoop

Hadoop—在私有云上创建与配置虚拟机

Hadoop-在私有云上创建与配置虚拟机一、登录私有云(一)查看【概览】(二)查看【镜像】(三)查看【实例】二、创建网络(一)创建网络三、创建实例(一)基于WindowsThinPC镜像创建hw_win7实例(二)基于centos7创建master实例(三)基于centos7创建slave1实例(四

Hive之解析Json数组

目录Hive自带的json解析函数1、get_json_object函数2、json_tuple函数Hive解析json数组一、嵌套子查询解析json数组二、使用 lateral view 解析json数组Hive自带的json解析函数1、get_json_object函数语法:get_json_o

大数据Hadoop之——Flink DataStream API 和 DataSet API

文章目录一、DataStream API概述一、DataStream API概述DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据集合。你可以认为 它们是可以包含重复项的不可变数据集合。这些数据可以是有界(有限)的,也可以是无界(无限)的,但

hive之连续登录问题

目录1、开窗函数的格式2、窗口范围图例连续登录问题:限制时间段内登录次数问题:1、开窗函数的格式FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC

Hadoop—在私有云上创建与配置虚拟机

一、登录已有的私有云账号(1)查看【概览】(2)查看【镜像】(3)查看【实例】二、创建项目、用户与网络(1)创建项目 - huawei(2)创建用户 - huawei(3)创建网络 - LAN192三、创建实例(1)基于WindowsThinPC镜像创建hw_win7实例(2)基于centos7创建

Spark环境搭建(保姆级教程)

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置,以及各种模式的代码提交,包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

入门ClickHouse和Elasticsearch

❄️大多数同学都知道数据有mysql、mongodb、oracle、nosql等等,这些是我们在学校能接触到最多的数据库,今天我们就来认识2个企业中比较常用的数据库clickhouse和elasticsearch。对大数据感兴趣的同学可以参考下面的文章👇:hadoop专题: hadoop系列文章.

Hadoop:HDFS总结

Hadoop:HDFS总结HDFS架构NameNode(nn): 管理文件的元数据,如文件名、文件目录结构、文件属性等信息【NN运行时,元数据是存储在内存中,从而保证响应时间】元数据只保留在内存中是非常不可靠的,所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据:fsimage文件,以fsi

一篇解析论文MapReduce

一篇解析论文MapReduce,这样你也可以和面试官“讲一讲”

PySpark与GraphFrames的安装与使用

pandas快速升级到spark,简单丝滑,值得拥有。

2、Hive数据仓库——环境搭建及简单使用

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时

六十七、Spark-两种运行方式(本地运行,提交集群运行)

本地运行:在IDEA中直接运行控制台输出结果即可集群运行:在本地将程序打包为 jar,提交至集群运行其程序(将结果上传至hdfs)

Hadoop(三)HDFS 原理

HDFS核心的设计思想  HDFS 集群中,主要的角色有 NameNode 和 DataNode 两大角色 (SecondaryNamenode 和 Client);  NameNode 负责管理文件系统的元数据,并响应 Client 的请求;  DataNode 负责存储用户的文件块(block)

12、Hadoop框架MapReduce 统计人数、总分、关联

文章目录Hadoop框架MapReduce 统计人数、总分、关联数据Hadoop框架MapReduce 统计人数、总分、关联数据students.txt1500100001,施笑槐,22,女,文科六班1500100002,吕金鹏,24,男,文科六班1500100003,单乐蕊,22,女,理科六班15

Hadoop(二)介绍HDFS

HDFS的简单介绍

09、Hadoop框架Zookeeper Java API

Hadoop框架Zookeeper Java API

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈