0


【大数据】Linux环境下分布式大数据框架安装部署流程(更新中)

Linux环境下分布式大数据框架安装部署流程(离线):
JDK、Scala→Hadoop→Spark、Flink→Kafka

一、JDK安装配置步骤

以jdk 1.8为例

1.1 准备安装包

  • 查看Linux系统的架构(如x64)uname -m
  • 访问Oracle官网或其他可信源根据Linux系统架构下载对应的JDK安装包到本地,后续以 jdk-8u431-linux-x64.tar.gz 为例
  • 设置root用户密码sudopasswd root
  • 为避免权限问题,后续都使用root用户登录服务器sudosu root
  • 在Linux服务器上创建存放各种压缩包的文件夹目录,并将下载的JDK安装包上传到该目录下cd /optmkdirfile
  • 进入存放JDK安装包的目录cd /opt/file
  • 解压JDK安装包tar -zxvf jdk-8u431-linux-x64.tar.gz
  • 解压完成后删除安装包(可选)rm -rf jdk-8u431-linux-x64.tar.gz

1.2 安装与环境变量配置

  • 创建安装目录,并将解压后的JDK安装包移动到安装目录下cd /usr/localmkdir program/Javamv /opt/file/jdk-8u431-linux-x64.tar.gz /usr/local/program/Java/
  • 编辑配置系统环境变量,Ubuntu环境下需要先使用命令apt-get install vim安装vimvim /etc/profile
  • 在文件末尾加入以下内容(以实际版本和路径为准)# Java环境变量exportJAVA_HOME=/usr/local/program/Java/jdk1.8.0_431exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportPATH=$PATH:$JAVA_HOME/bin
  • 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
  • 刷新环境变量配置source /etc/profile
  • 检查JDK是否安装成功,并查看安装的JDK版本java -version
  • 使用命令echo JAVA_HOME</code><code>echo PATH检查环境变量是否配置正确

二、、Scala:2.11.12安装配置步骤

在安装Scala之前,确保Linux服务器上已经安装了JDK,因为Scala是运行在JVM上的。另外,如果在解压或配置环境变量过程中遇到权限问题,可以使用sudo命令提高权限。

2.1 准备步骤

  • 访问Scala官网找到对应版本的安装包并下载scala-2.11.12
  • 将下载的Scala安装包上传到Linux服务器的指定目录/usr/local/scala

2.2 安装步骤

  • 进入存放Scala安装包的目录cd /usr/local/scala
  • 解压安装包tar -zxvf scala-2.11.12.tgz -C /usr/local/scala

2.3 配置步骤

  • 编辑配置系统环境变量vim /etc/profile
  • 在文件末尾加入以下内容(以实际版本和路径为准)# Scala环境变量exportSCALA_HOME=/usr/local/scala/scala-2.11.12exportPATH=$SCALA_HOME/bin:$PATH
  • 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
  • 刷新环境变量配置source /etc/profile
  • 检查Scala是否安装成功,并查看安装的版本bashscala -version

三、Hadoop:2.7.x或2.8.x安装配置步骤

3.1 准备环境

  1. 确保Linux系统已安装:通常使用CentOS或Ubuntu等发行版。
  2. 检查Java环境:Hadoop是基于Java开发的,因此需要先安装JDK。前面已经安装了JDK 1.8版本。
  3. 配置SSH服务:Hadoop集群中的节点之间需要通过SSH进行通信。

3.2 下载Hadoop安装包

访问Apache Hadoop官方网站或相关镜像网站。
找到Hadoop 2.7版本的安装包,如hadoop-2.7.x.tar.gz,并下载。

3.3 解压并安装Hadoop

使用tar命令解压Hadoop安装包,例如:

tar -zxvf hadoop-2.7.x.tar.gz -C /usr/local/

这将把Hadoop解压到/usr/local/目录下,并创建一个名为hadoop-2.7.x(x为具体的小版本号)的子目录。

重命名Hadoop目录(可选),例如:

mv /usr/local/hadoop-2.7.x /usr/local/hadoop

3.4 配置Hadoop环境变量

使用vim或其他文本编辑器打开/etc/profile文件,例如:

vim /etc/profile

在文件末尾添加以下内容,以配置Hadoop的环境变量:

# Hadoop environmentexportHADOOP_HOME=/usr/local/hadoop
   exportPATH=$HADOOP_HOME/bin:$PATH

保存并退出vim编辑器。

使用source命令刷新环境变量,例如:

source /etc/profile

3.5 配置Hadoop相关文件

进入Hadoop的配置文件目录,例如:

cd /usr/local/hadoop/etc/hadoop/

配置hadoop-env.sh文件,指定Java的安装路径,例如:

exportJAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk  # 根据实际Java安装路径修改

配置core-site.xml文件,设置Hadoop的临时目录和文件系统名称等,例如:

<configuration><property><name>hadoop.tmp.dir</name><value>/tmp/hadoop-${user.name}</value></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>

配置hdfs-site.xml文件,设置HDFS的副本数量和数据节点等,例如:

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>/tmp/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/tmp/hadoop/dfs/data</value></property></configuration>

如果需要配置MapReduce,还需配置mapred-site.xml文件(通常mapred-site.xml.template是模板文件,需要重命名并编辑),例如:

<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>

3.6 格式化HDFS并启动Hadoop

格式化HDFS文件系统(首次启动Hadoop前需要执行),例如:

   hdfs namenode -format

启动Hadoop的NameNode和DataNode守护进程,例如:

   start-dfs.sh

如果配置了MapReduce,还需启动JobTracker和TaskTracker守护进程(在Hadoop 2.x版本中,这些组件已被ResourceManager和NodeManager替代,但在此2.7版本中仍使用JobTracker和TaskTracker),例如:

   start-mapred.sh  # 仅在配置了MapReduce时需要

使用jps命令检查Hadoop相关进程是否启动成功。

3.7 验证Hadoop安装

访问Hadoop的Web UI界面,通常可以通过以下URL访问NameNode和ResourceManager的状态页面:

NameNode:http://localhost:50070/
ResourceManager(如果配置了YARN):http://localhost:8088/
在Hadoop的交互模式下运行简单的Hadoop程序,如WordCount示例,以验证Hadoop是否安装成功。

注意事项
在安装和配置Hadoop过程中,确保所有路径和配置信息都正确无误。
如果遇到权限问题,可以使用sudo命令提升权限。
在生产环境中,建议将Hadoop安装到非root用户下,并配置相应的权限和安全措施。

四、Spark:2.4.0安装配置步骤

五、Flink:1.13.0安装配置步骤

安装、集群配置

六、Kafka:2.2.2安装配置步骤


本文转载自: https://blog.csdn.net/weixin_43348948/article/details/143361687
版权归原作者 -Aerolite- 所有, 如有侵权,请联系我们删除。

“【大数据】Linux环境下分布式大数据框架安装部署流程(更新中)”的评论:

还没有评论