❤️❤️❤️关于Hadoop的初体验

👉👉首先我们需要知道Hadoop的基本概念，究竟是什么，还要了解可以用他来做什么，让我们一起接下来学习：

一、Hadoop是什么？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大数据技术中的基石。

Hadoop以一种可靠、高效、可伸缩的方式进行数据处理，用户可以在不了解分布式底层细节的情况下，开发分布式程序，用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

二、Hadoop能解决什么问题？

1、海量数据存储

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（High throughput）来访问数据，适合那些有着超大数据集（large data set）的应用程序,它由n台运行着DataNode的机器组成和1台（另外一个standby）运行NameNode进程一起构成。每个DataNode 管理一部分数据，然后NameNode负责管理整个HDFS 集群的信息（存储元数据)。

2、资源管理，调度和分配

Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

三、了解集群，分布式的概念🧐

什么是集群,什么是分布式?(多台服务器参与运行)

集群: 多台服务器共同完成相同的业务,就是一个集群.

分布式: 多台服务器共同完成不同的业务就是分布式.

安装部署层面说

单机部署- 使用一台服务器安装所有服务

集群部署- 使用多台服务器安装对应分布式服务

四、虚拟机的拷贝

1、纯净的虚拟机node01在Vmware中

（1.）右键node01----->管理----->克隆

（2）再修改机器名称即可

五、基础环境的搭建

1.主机名称修改:

/etc/hostname

echo node1 > /etc/hostname

2.修改域名解析文件:

/etc/hosts

后续搭建集群时使用域名访问电脑

在平时使用www.baidu.com域名访问时，最终会同dns服务器将域名解析为ip地址访问

echo '192.168.88.100 node1.itcast.cn node1' >> /etc/hosts
echo '192.168.88.101 node2.itcast.cn node2' >> /etc/hosts
echo '192.168.88.102 node3.itcast.cn node3' >> /etc/hosts

3.关闭防火墙

 systemctl stop firewalld.service

4.禁用防火墙

 systemctl disable firewalld.service

5.关闭SELinux:

/etc/selinux/config

sed -i "s/enforcing/disabled/" /etc/selinux/config

6.时钟同步

ntpdate ntp4.aliyun.com

# 内部服务器不允许上网，内部搭建一个时钟服务器   同步内部
ntpdate  192.168.88.3

7.设置静态ip地址:

/etc/sysconfig/network-scripts/ifcfg-ens33

sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.100"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33

sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.101"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33

sed -i "s/dhcp/static/" /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'IPADDR="192.168.88.102"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'PREFIX="24"' >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'GATEWAY="192.168.88.2"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33
echo 'DNS1="8.8.8.8"'  >>  /etc/sysconfig/network-scripts/ifcfg-ens33

8.创建软件安装目录

mkdir /export
cd /export
mkdir data logs server software

9.重启系统

init 6

六、Java环境安装

1.java文件上传解压:

jdk-8u65-linux-x64.tar.gz

注意：上传文件位置为 /export/server目录

cd /export/server
tar zxvf /export/server/jdk-8u65-linux-x64.tar.gz

2.修改环境变量

echo 'export JAVA_HOME=/export/server/jdk1.8.0_241' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile
source /etc/profile

3.验证

java -version

七、数据导论[了解]

日常生活中不断产生各类数据，通过对各类数据的分析，得到用户的行为习惯，发现用户的数据价值

八、大数据诞生[了解]

随着用户数据增多传统数据处理方式无法满足海量数据处理的需求，此时引入分布式技术

将海量数据进行分布式的存储，计算，资源调度

可以统一管理多台服务器进行存储和计算，把多台服务器当成一个整体

使用hadoop实现分布式存储，计算和资源调度

九、大数据概述[了解]

大数据主要解决海量数据的存储和计算

海量数据

excel KB MB 1MB=1024KB

mysql GB TB 1GB =1024 MB 1TB =1024GB

大数据 PB,EB（海量数据） 1PB=1024TB

KB < MB < GB < TB < PB < EB < ZB < YB

大数据的特点

数据量大
数据种类多- 结构化数据- 表- 半结构化数据- xml- json- 非结构数据- 文本数据
数据低价值密度- 分析用户的消费习惯- 用户注册基本信息姓名，性别，年龄 1个- 用户的购买信息订单数据手机，2023-10-22 100个- 用户浏览信息浏览哪些商品 100个- 用户访问信息访问网站时间，地点，设备 100000条- 1000201条数有价值的数据200条
增长速度快- 每天都会产生大量数据
数据结果质量高- 对海量数据结果更接近真实情况

十一、大数据软件生态[了解]

Welcome to The Apache Software Foundation!

存储：Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

计算：Apache Hadoop MapReduce、Apache Spark、Apache Flink

传输：Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

十二、Apache Hadoop概述[了解]

Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

Hadoop版本

社区版: 开源免费

优点: 更新速度快,技术新

缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

优点: 兼容稳定性好

确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.

十三、为什么需要分布式存储[了解]

数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件

存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部

此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.

标签： hadoop 大数据分布式

本文转载自: https://blog.csdn.net/DrKYQ/article/details/137210427
版权归原作者 DrKYQ 所有，如有侵权，请联系我们删除。