0


Apache Hadoop介绍, 大数据世界的大门

相关概念介绍

数据相关概念

什么是数据?

对人的行为及习惯做的一种记录

数据有什么?

可以帮助我们更好的了解事与物之间的规律, 更好的提高人们的生活体验和生活环境.

数据能做什么?

我们能够对数据进行数据分析, 从海量的数据中提取出有效的价值信息, 实现数据的商业化, 价值化,能够给企业决策者或者运营人员提供分析型报告和数据支持

大数据相关概念

什么是大数据?

从狭义上理解就是分析海量的数据, 提取出有价值的信息, 而从广义上理解就是用数据为生活赋能, 改善人类的生活体验和生活质量.

大数据的特点?

大数据的特点主要就五个字: 大多值快信.

数据体量大, 种类繁多, 价值密度低, 速度快, 数据的可信赖度高.

大数据解决了什么问题?

存储, 计算, 传输

大数据的体系介绍

存储: HDFS, HBase

计算: MapReduce, Hive, Spark, Flink

传输: Sqoop, Flume, Kafka...

下面是关于大数据体系的详细概念图

Apache Hadoop介绍

Hadoop之父: 道格 卡丁(Doug Cutting)

吉祥物: 大象

Hadoop的介绍:

在狭义上指的是HDFS, MapReduce, Yarn等框架, 而在广义上指的是Hadoop生态圈, 包括但不限于周边所有技术, 例如: Spark, Flink, Sqoop...

Hadoop是由HDFS, MapRedure, Yarn三部分组成:

HDFS: hadoop distributed file system, Hadoop的分布式文件系统.

MapReduce: 分布式计算框架

Yarn: 分布式任务接收和资源调度框架

分布式和集群介绍

分布式: 多台机器做不同的事情, 然后组成一个整体.

集群: 多台机器做相同的事情.

扩展: 多台机器既可以组成中心化模式(主从模式), 也可以组成去中心化模式(主备模式)

Hadoop的架构图

Hadoop1.X = HDFS + MapReduce

Hadoop2.X, 3.X = HDFS + MapReduce + Yarn

Hadoop集群高可用模式图解

相关概念介绍

HDFS: 分布式文件存储系统
namenode: 主节点

管理整个HDFS集群,维护和管理元数据

元数据: 描述数据的数据被称为元数据

SecondaryNameNode: 辅助节点

辅助namenode管理元数据的

datenode: 从节点

维护和管理源文件, 负责数据的读写操作, 定时向namenode报活

MapReduce集群:

JobTracker: 主节点

负责任务的接收, 调度, 监控, 负责资源的调度和分配

TaskTracker: 从节点

负责接收并执行JobTracker分配过来的计算任务

扩展: JobTracker的任务过于繁重,容易宕机,会存在单点故障的问题,一般都不再使用该集群

Yarn集群:

ResourceManager: 主节点

负责任务的接收, 负责资源的调度和分配

AppMaster进程: 代码级别

一个计算任务 = 一个Application Master进程

由该AppMaster进程来监控和管理该计算任务,并负责向ResourceManager申请资源

nodemanager: 从节点

负责接收并执行ResourceManager分配过来的计算任务

扩展: 此时已经没有MapReduce集群的概念了,而是代码级别的程序,即: MR计算任务, 我们只需要用代码编写MR计算任务,然后交由Yarn调度执行即可

HDFS的特点

HDFS文件系统可存储超大文件,时效性稍差

HDFS具有硬件故障检测和自动快速恢复功能

HDFS为数据存储提供很强的扩展能力

HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改

HDFS可在普通廉价的机器上运行

HDFS的架构图

心跳机制:

1.datanode会定时3秒向namenode发送心跳包,告知namenode我还活着

2.如果超过一定时间630秒,namenode没有收到datanode的心跳包,就会认为它宕机了,此时就会将该datanode的块信息交由给其他活跃的datanode来存储

3.所有的datanode会定时6小时,向namenode汇报一次自己完整的块信息,让namenode校验更新

负载均衡:

namenode会保证所有的datanode的资源使用率尽量保持一致

副本机制:

可以提高容错率,默认的副本数是3

如果当前副本总数>默认的副本数,namenode会自动删除某个副本

如果当前副本总数<默认的副本数,namenode会自动增加该副本

如果当前活跃的机器总数<默认的副本数,就会强制进入到安全模式,在安全模式下只能读不能写

如果想要了解更多配置信息,也可以直接去Hadoop官方文档那里去查看

https://hadoop.apache.org/docs/r3.3.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml​​​​​​​


本文转载自: https://blog.csdn.net/m0_65395640/article/details/136004448
版权归原作者 む妖饰千年ょ乱一世浮华 所有, 如有侵权,请联系我们删除。

“Apache Hadoop介绍, 大数据世界的大门”的评论:

还没有评论