作者:禅与计算机程序设计艺术
1.简介
19年下半年,随着互联网、移动互联网的飞速发展,信息化时代到来。无论是在传统行业还是在新兴的创新型企业中,都开始面临海量数据的存储、处理、分析、挖掘等方面的挑战。尤其是当下中国,近几年信息技术革命带来的巨大的产业变革,对现有的技术体系、管理体制都产生了深刻的影响。在这个大数据时代,业界不断涌现新的技术产品和服务,如云计算、大数据处理平台、大数据分析平台、搜索引擎等等。
由于大数据技术日新月异,各大公司纷纷研发自己的大数据解决方案,如阿里巴巴基于 Hadoop 的分布式计算框架 ODPS(OnLine Processing
System)、百度公司基于 MapReduce 和 HDFS 技术的大数据处理平台 Spark、腾讯公司基于 Flume 的日志采集系统、京东方面基于 Hive 数据仓库平台等等。这就使得大数据技术领域出现了很多产业联盟,比如 Apache 基金会旗下的 Hadoop、Spark、Flink 等开源框架,以及 Cloudera、Hortonworks、IBM 等公司提供的商业大数据产品和服务。而作为 Hadoop 发起者之一的 Apache 软件基金会,通过它的开源项目 Hadoop,更是成为众多数据科学家、工程师、学生以及企业的选择。
本文将详细介绍 Hadoop 生态圈的组成及主要特性,阐述 Hadoop 在大数据领域的作用,并进一步介绍如何利用 Hadoop 来进行数据分析、数据存储和处理。
2.Hadoop 的架构设计及组成
2.1 Hadoop 的架构设计
2.1.1 总体架构
上图展示了 Hadoop 的总体架构,
版权归原作者 禅与计算机程序设计艺术 所有, 如有侵权,请联系我们删除。