0


总结:HDFS+YARN+HIVE

总结:HDFS+YARN+HIVE

第一章 Hello大数据&分布式

Part1 数据导论

一. 数据

数据:一种可以被鉴别的对客观事件进行记录的符号。简单来说就是:对人类的行为及产生的事件的一种记录。

二. 数据的价值
  • 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律
  • 比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。

Part2 大数据诞生

Part3 大数据概述

一. 什么是大数据

狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。

广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。

二.大数据特征

从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

三.大数据的核心工作

数据计算

数据存储

数据传输

Part4 大数据软件生态

一. 大数据软件生态

数据存储: Apache Hadoop - HDFS, Apache HBase, Apache KUDU, 云存储

数据计算: Apache Hadoop - MapReduce, Apache Hive,Apache Spark, Apache Flink

数据传输: Apache Kafka, Apache Pulsar, Apache Flume,Apache Sqoop

Part5 Apache Hadoop 概述

一. Hadoop概念
  • 分布式数据存储 - HDFS组件
  • 分布式数据计算 - MapReduce组件
  • 分布式资源调度 - YARN组件

第二章 分布式存储Hadoop HDFS

Part1 为什么需要分布式存储

  • 数据量太大,单机存储能力有上限,需要靠数量来解决问题
  • 数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。 分布式组合在一起可以达到1+1>2的效果

Part2 分布式的基础架构分析

一. 分布式的基础架构 - 2类架构模式

去中心化模式:没有明确的中心。众多服务器之间基于特定规则进行同步协调

中心化模式: 有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱 – 主从模式(Master And Slaves)

Part3 HDFS基础架构

一. HDFS

HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一

  • 全称是:Hadoop Distributed File System(Hadoop分布式文件系统)
  • 是Hadoop技术栈内提供的分布式数据存储解决方案
  • 可以在多台服务器上构建存储集群,存储海量的数据
  • HDFS是一个典型的主从模式架构
二. HDFS的基础架构

HDFS集群:

  • 主角色 : NameNode – 唯一的 - HDFS系统的主角色,是一个独立的进程- 负责管理HDFS整个文件系统- 负责管理DataNode
  • 从角色 : DataNode - 若干个 - HDFS系统的从角色,是一个独立进程- 主要负责数据的存储,即存入数据和取出数据
  • 主角色辅助角色: SecondaryNameNode - NameNode的辅助,是一个独立进程- 主要帮助NameNode完成元数据整理工作(打杂)

Part4 HDFS集群环境部署

一. 部署步骤

1. 下载安装包 - hadoop-3.3.6.tar.gz

2. 集群规划
节点服务node1NameNode, DataNode,SecondaryNameNodenode2DataNodenode3DataNode
3. 上传和解压 – root用户

  • 上传Hadoop安装包到node1节点中, 位置 root用户家目录中
  • 解压缩安装包到/export/server/中tar -zxvf hadoop-3.3.6.tar.gz -C /export/server
  • 构建软连接

cd /export/server

ln -s /export/server/hadoop-3.3.4 hadoop
  • 进入hadoop安装包中

cd hadoop

4. Hadoop安装包目录结构

各个文件夹含义如下

  • bin,存放Hadoop的各类程序(命令)
  • etc,存放Hadoop的配置文件
  • include,C语言的一些头文件
  • lib,存放Linux系统的动态链接库(.so文件)
  • libexec,存放配置Hadoop系统的脚本文件(.sh和.cmd)
  • licenses-binary,存放许可证文件
  • sbin,管理员程序(super bin)
  • share,存放二进制源码(Java jar包)-- MapReduce接口(wordcount, pi)

5. 修改配置文件,应用自定义设置

  • workers:配置从节点(DataNode)有哪些 – node1,node2,node3
  • hadoop-env.sh:配置Hadoop的相关环境变量
  • core-site.xml:Hadoop核心配置文件
  • hdfs-site.xml:HDFS核心配置文件

6. 准备数据

  • 在node1节点:
mkdir -p /data/nn
mkdir -p /data/dn
  • 在node2和node3节点:mkdir -p /data/dn

7.分发Hadoop文件夹

分发
  • 在node1执行如下命令cd /export/servers``````cp -r hadoop-3.3.4 node2:pwd``````cp -r hadoop-3.3.4 node3:pwd
  • 在node2执行ln -s /export/server/hadoop-3.3.4 /export/server/hadoop
  • 在node3执行

ln -s /export/server/hadoop-3.3.4 /export/server/hadoop

8. 配置环境变量

9.授权为hadoop用户

10.格式化整个文件系统

二.HDFS启停

一键启停

  • $HADOOP_HOME/sbin/start-dfs.sh,一键启动HDFS集群
  • $HADOOP_HOME/sbin/stop-dfs.sh,一键关闭HDFS集群

单进程启停

hadoop-daemon.sh (start|status|stop) (namenode|secondarynamenode|datanode)
hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)
三.文件系统操作命令-- 自己补充完整

1. 创建文件夹

hadoop fs -mkdir [-p] <path> ...
hdfs dfs -mkdir [-p] <path> ...
  • path 为待创建的目录
  • -p选项的行为与Linux mkdir -p一致,它会沿着路径创建父目录。

2.查看指定目录

hadoop fs -ls [-h] [-R] [<path> ...] 
hdfs dfs -ls [-h] [-R] [<path> ...] 
  • path 指定目录路径
  • -h 人性化显示文件size
  • -R 递归查看指定目录及其子目录

3.上传

4.查看文件内容

5.下载

6.拷贝

7.追加

8.移动

9.删除

四.权限修改

1. 修改所属用户和组

2. 修改权限

Part5 HDFS存储原理

一. HDFS存储原理\
二. fsck命令
  • 我们还可以在上传文件的时候,临时决定被上传文件以多少个副本存储
hadoop fs -D dfs.replication=2 -put test.txt /tmp/
  • 对于已经存在HDFS的文件,修改dfs.replication属性不会生效,如果要修改已存在文件可以通过命令
hadoop fs -setrep [-R] 2 path
  • fsck命令检查文件的副本数
hdfs fsck path [-files [-blocks [-locations]]]
三.NameNode管理元数据
四.HDFS数据读写流程

第三章 MapReduce和YARN入门

标签: hdfs hive hadoop

本文转载自: https://blog.csdn.net/Rouer_jia/article/details/136936714
版权归原作者 Rouer_jia 所有, 如有侵权,请联系我们删除。

“总结:HDFS+YARN+HIVE”的评论:

还没有评论