Linux环境下分布式大数据框架安装部署流程(离线):
JDK、Scala→Hadoop→Spark、Flink→Kafka
一、JDK安装配置步骤
以jdk 1.8为例
1.1 准备安装包
- 查看Linux系统的架构(如x64)
uname -m
- 访问Oracle官网或其他可信源根据Linux系统架构下载对应的JDK安装包到本地,后续以 jdk-8u431-linux-x64.tar.gz 为例
- 设置root用户密码
sudopasswd root
- 为避免权限问题,后续都使用root用户登录服务器
sudosu root
- 在Linux服务器上创建存放各种压缩包的文件夹目录,并将下载的JDK安装包上传到该目录下
cd /optmkdirfile
- 进入存放JDK安装包的目录
cd /opt/file
- 解压JDK安装包
tar -zxvf jdk-8u431-linux-x64.tar.gz
- 解压完成后删除安装包(可选)
rm -rf jdk-8u431-linux-x64.tar.gz
1.2 安装与环境变量配置
- 创建安装目录,并将解压后的JDK安装包移动到安装目录下
cd /usr/localmkdir program/Javamv /opt/file/jdk-8u431-linux-x64.tar.gz /usr/local/program/Java/
- 编辑配置系统环境变量,Ubuntu环境下需要先使用命令
apt-get install vim
安装vimvim /etc/profile
- 在文件末尾加入以下内容(以实际版本和路径为准)
# Java环境变量exportJAVA_HOME=/usr/local/program/Java/jdk1.8.0_431exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportPATH=$PATH:$JAVA_HOME/bin
- 按Esc键,输入
:wq
(权限不够时输入:wq!
强制退出)并按回车保存退出vim编辑器 - 刷新环境变量配置
source /etc/profile
- 检查JDK是否安装成功,并查看安装的JDK版本
java -version
- 使用命令
echo JAVA_HOME</code>
和<code>echo PATH
检查环境变量是否配置正确
二、、Scala:2.11.12安装配置步骤
在安装Scala之前,确保Linux服务器上已经安装了JDK,因为Scala是运行在JVM上的。另外,如果在解压或配置环境变量过程中遇到权限问题,可以使用sudo命令提高权限。
2.1 准备步骤
- 访问Scala官网找到对应版本的安装包并下载scala-2.11.12
- 将下载的Scala安装包上传到Linux服务器的指定目录/usr/local/scala
2.2 安装步骤
- 进入存放Scala安装包的目录
cd /usr/local/scala
- 解压安装包
tar -zxvf scala-2.11.12.tgz -C /usr/local/scala
2.3 配置步骤
- 编辑配置系统环境变量
vim /etc/profile
- 在文件末尾加入以下内容(以实际版本和路径为准)
# Scala环境变量exportSCALA_HOME=/usr/local/scala/scala-2.11.12exportPATH=$SCALA_HOME/bin:$PATH
- 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
- 刷新环境变量配置
source /etc/profile
- 检查Scala是否安装成功,并查看安装的版本bash
scala -version
三、Hadoop:2.7.x或2.8.x安装配置步骤
3.1 准备环境
- 确保Linux系统已安装:通常使用CentOS或Ubuntu等发行版。
- 检查Java环境:Hadoop是基于Java开发的,因此需要先安装JDK。前面已经安装了JDK 1.8版本。
- 配置SSH服务:Hadoop集群中的节点之间需要通过SSH进行通信。
3.2 下载Hadoop安装包
访问Apache Hadoop官方网站或相关镜像网站。
找到Hadoop 2.7版本的安装包,如hadoop-2.7.x.tar.gz,并下载。
3.3 解压并安装Hadoop
使用tar命令解压Hadoop安装包,例如:
tar -zxvf hadoop-2.7.x.tar.gz -C /usr/local/
这将把Hadoop解压到/usr/local/目录下,并创建一个名为hadoop-2.7.x(x为具体的小版本号)的子目录。
重命名Hadoop目录(可选),例如:
mv /usr/local/hadoop-2.7.x /usr/local/hadoop
3.4 配置Hadoop环境变量
使用vim或其他文本编辑器打开/etc/profile文件,例如:
vim /etc/profile
在文件末尾添加以下内容,以配置Hadoop的环境变量:
# Hadoop environmentexportHADOOP_HOME=/usr/local/hadoop
exportPATH=$HADOOP_HOME/bin:$PATH
保存并退出vim编辑器。
使用source命令刷新环境变量,例如:
source /etc/profile
3.5 配置Hadoop相关文件
进入Hadoop的配置文件目录,例如:
cd /usr/local/hadoop/etc/hadoop/
配置hadoop-env.sh文件,指定Java的安装路径,例如:
exportJAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk # 根据实际Java安装路径修改
配置core-site.xml文件,设置Hadoop的临时目录和文件系统名称等,例如:
<configuration><property><name>hadoop.tmp.dir</name><value>/tmp/hadoop-${user.name}</value></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>
配置hdfs-site.xml文件,设置HDFS的副本数量和数据节点等,例如:
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>/tmp/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>/tmp/hadoop/dfs/data</value></property></configuration>
如果需要配置MapReduce,还需配置mapred-site.xml文件(通常mapred-site.xml.template是模板文件,需要重命名并编辑),例如:
<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>
3.6 格式化HDFS并启动Hadoop
格式化HDFS文件系统(首次启动Hadoop前需要执行),例如:
hdfs namenode -format
启动Hadoop的NameNode和DataNode守护进程,例如:
start-dfs.sh
如果配置了MapReduce,还需启动JobTracker和TaskTracker守护进程(在Hadoop 2.x版本中,这些组件已被ResourceManager和NodeManager替代,但在此2.7版本中仍使用JobTracker和TaskTracker),例如:
start-mapred.sh # 仅在配置了MapReduce时需要
使用jps命令检查Hadoop相关进程是否启动成功。
3.7 验证Hadoop安装
访问Hadoop的Web UI界面,通常可以通过以下URL访问NameNode和ResourceManager的状态页面:
NameNode:http://localhost:50070/
ResourceManager(如果配置了YARN):http://localhost:8088/
在Hadoop的交互模式下运行简单的Hadoop程序,如WordCount示例,以验证Hadoop是否安装成功。
注意事项
在安装和配置Hadoop过程中,确保所有路径和配置信息都正确无误。
如果遇到权限问题,可以使用sudo命令提升权限。
在生产环境中,建议将Hadoop安装到非root用户下,并配置相应的权限和安全措施。
四、Spark:2.4.0安装配置步骤
五、Flink:1.13.0安装配置步骤
安装、集群配置
六、Kafka:2.2.2安装配置步骤
版权归原作者 -Aerolite- 所有, 如有侵权,请联系我们删除。