0


Hadoop的基本介绍

一、Hadoop的介绍:

hadoop是一个架构(想法)用来处理和存储海量数据的;

如图:

HDFS:分布式存储系统。

YARN: 任务调度和集群资源管理的框架。

MapReduce:一种基于Hadoop YARN的大型数据集并行计算处理系统。

其它模块,还有一些hadoop生态圈中的辅助工具,主要用于特定目的或者功能等…,如:

  Hibase:是基于一个分布式的、面向列的开源数据库。

  Hive:是基于Hadoop的一个数据仓库工具。

  Pig:运行在Hadoop上,是对于大型数据集进行分析和评估的平台。

  Spark:Hadoop数据快速通用的计算引擎。

  ZooKeeper:一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。

等等..............

每一个模块有自己独立的功能,而模块之间又有相互的关联。通常我们所说的hadoop指的是hadoop的一个生态圈。

hadoop的优势:

  • 高可靠性。Hadoop设计时考虑了数据存储和处理的高可靠性,通过维护多个数据副本来实现,即使某个节点发生故障,数据仍然可以从其他副本中获取,确保任务继续运行。

  • 高扩展性。Hadoop能够在多台机器组成的集群上进行分布式存储和计算,可以轻松地添加或移除节点,从而实现横向扩展,适应大规模数据处理的需求。

  • 高效性。Hadoop能够在多个节点之间动态地移动数据并保证节点间的动态平衡,从而实现高效的数据处理。

  • 低成本。Hadoop可以运行在普通商用服务器上,不需要高端配置,因此大大降低了硬件成本。

  • 高容错性。Hadoop的分布式文件系统(HDFS)设计时就考虑了数据丢失和节点故障的情况,自动保存多个副本,并在任务失败时自动重新分配任务到其他节点。

  • 可构建在廉价机器上。Hadoop对机器配置的要求不高,适合在成本较低的硬件上部署。

  • 支持多种编程语言。Hadoop支持使用Java、C++等多种语言进行编程,提供了丰富的开发工具和生态系统。

  • 支持PB级数据。Hadoop能够处理非常庞大的数据量,适合处理超大数据集的应用程序。

例如:比如说我要存储很大的数据和处理数据,那么Hadoop就是存储海量数据和分析海量数据的工具。(它的两个核心组件HDFS(分布式文件存储系统)和MapReduce(任务调度和集群资源管理的框架)

前者是:用来引入存放文件元数据信息的服务器(Namenode)和实际存放数据的服务器(Datanode),对数据进行分布式储存和读取。

后者是:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。)

*注:(map和reduce是两个函数)

map()是将传入的函数依次作用到序列的每个元素,每个元素都是独自被函数“作用”一次 。

reduce()是将传人的函数作用在序列的第一个元素得到结果后,把这个结果继续与下一个元素作用(累积计算)。

二、Hadoop的作用

主要:

大数据分布式存储处理:

日志处理;

ETL(Extract-Transform-Load):将数据抽取到数据库

机器学习;

搜索引擎:Hadoop + lucene(lucene是一个全文搜索引擎包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎)实现

数据挖掘(目前比较流行的广告推荐,个性化广告推荐)

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

标签: hadoop

本文转载自: https://blog.csdn.net/ckbyte/article/details/136539982
版权归原作者 大三岁896 所有, 如有侵权,请联系我们删除。

“Hadoop的基本介绍”的评论:

还没有评论