0


Hadoop 集群搭建

  1. Hadoop 的安装模式
  2. 基础环境准备
  3. 软件环境准备
  4. 安装单机模式的 Hadoop
  5. 安装单机伪分布式模式的 Hadood

一,Hadoop 的安装模式

  1. 单机模式
  2. 安装在一台服务器上
  3. 没有启动完整的功能
  4. 用于开发和调试 MapReduce 程序
  5. 分布式集群模式(企业生产环境)
  6. 安装在成千上万台服务器上
  7. 启动全部的功能
  8. 不同功能,分布在不同的服务器
  9. 单机伪分布式模式(学习环境)
  10. 安装在一台服务器上
  11. 启动全部功能
  12. 所有功能集中在一台服务器上

二,基础环境准备-选择操作系统

  1. Hadoop 使用 Linux 作为其开发和生产平台
  2. Linux 发行版选择
  3. CentOS 7:企业中使用最多的操作平台
  4. Ubuntu 18:官方推荐的操作平台
  5. CentOS 7 和 Ubuntu 18 的异同
  6. 不同地方:部分 Linux 系统命令不相同
  7. 相同地方:Hadoop 的操纵命令一模一样
  8. 此文章中以 Ubuntu 18 作为 Hadoop 的操作 基础环境准备-安装 VMware
  9. 下载 VMware的平台
  10. https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html 平台
  11. 建议取消启动时检查产品更新,创建在桌面和开始菜单创建快捷方式
  12. 安装完成后基础环境准备-部署 Ubuntu
  13. 下载 Ubuntu 18 镜像http://mirrors.aliyun.com/ubuntu-releases/18.04/![](https://img-blog.csdnimg.cn/f2581ef862aa44b2aa3dea3cae9ddf3c.png) 基础环境准备-部署 Ubuntu
  14. 打开 VMware 点击【创建新的虚拟机】

选择前边下载好的 Ubuntu 镜像

设置服务器名称和用户名

设置虚拟机名称和存储位置

设置磁盘容量

完成虚拟机创建,并自动启动虚拟机

选择 English 作为系统语言

配置 Ubuntu 的镜像地址

  1. https://mirrors.aliyun.com/ubuntu/

   使用 ip a 命令查找 ip 地址,并记录下来
  1. 使用 xshell 登录 Ubuntu

  2. 使用 sudo vim /etc/netplan/50-cloud-init.yaml 命令

  3. 编辑 /etc/netplan/50-cloud-init.yaml 文件

  4. 配置静态 ip

  5. 按下 i 键进入编辑模式

  6. 修改文件内容如图片所示,addresses 为上一步记录的 ip

  7. 所有冒号后边需要添加一个空格

  8. gateway 的前三位和 ip 保持一致,最后一位是 2

  9. 按下 ESC 键,退出编辑模式

  10. 按下 : 键,进入命令行模式

  11. 输入 wq 后敲回车,保存并退出文件

  12. 使用 sudo netplan apply 重启网络

  13. 使用 ping 检测是否配置成功

  14. 使用 sudo passwd root 为 root 用户设置密码

  15. 使用 sudo useradd -m hadoop -s /bin/bash 命令

  16. 创建 hadoop 用户

  17. 使用 sudo passwd hadoop 命令

  18. 为 hadoop 用户设置密码

  19. 使用 sudo adduser hadoop sudo 为 hadoop 命令

  20. 为 hadoop 用户添加管理员权限

  21. 使用 su hadoop 命令

  22. 切换到 hadoop 用户

  23. 使用 cd ~ 命令

  24. 进入 /home/hadoop 目录

  25. 后续软件安装都需要使用 hadoop 用户

  26. 在 /home/hadoop 目录进行操作

  27. 使用 sudo apt-get install lrzsz 命令安装 lrzsz 软件

  28. 安装 lrzsz 软件后可以实现拖拽上传文件

  29. 拖拽文件到到 xshell 窗口即可自动上传到 Linux

  30. 从网络获取他人共享的 Oracle 账号密码

  31. http://bugmenot.com/view/oracle.com

  32. 下载 jdk https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html

三,软件环境准备-安装 jdk

  1. 拖拽下载的 jdk 到 xshell 进行上传

  2. 使用 sudo tar -xvf jdk-8u212-linux-x64.tar.gz -C /usr/local/lib/ 命令

  3. 解压 jdk 到 /usr/local/lib 目录

  4. 使用 vim .bashrc 命令

  5. 编辑环境变量

  6. 在文件最后追加以下内容:

  7. export JAVA_HOME=/usr/local/lib/jdk1.8.0_212

  8. export JRE_HOME=${JAVA_HOME}/jre

  9. export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

  10. export PATH=${JAVA_HOME}/bin:$PATH

  11. 使用 source .bashrc 命令

  12. 刷新环境变量使用 java -version 命令

  13. 验证 jdk 是否配置成功

  14. 看到版本号说明配置成功,否则说明配置有误

软件环境准备-配置 ssh 免密登录

  1. Hadoop 各个节点之间需要频繁进行远程登录操作
  2. 需要配置 ssh 消除远程登录时输入密码的操作
  3. 使用 ssh-keygen 命令
  4. 在 /home/hadoop/.ssh 目录下生成公钥和私钥
  5. 所有选项全部敲回车
  6. 使用 ssh-copy-id localhost 命令
  7. 发送本机的公钥给 localhost
  8. 本机就可以免密登录 localhost
  9. 使用 ssh localhost 命令
  10. 远程登录 localhost
  11. 第一次执行可能需要输入 yes 和密码
  12. 后续再执行就不需要输入任何内容
  13. 使用 exit 命令
  14. 退出远程登录
  15. ssh 免密登录的关键在于公钥和私钥
  16. id_rsa.pub 是公钥
  17. Id_rsa 是私钥
  18. 公钥加密,私钥解;私钥加密,公钥解;
  19. 谁持有你的公钥,你就可以免密登录谁

四,安装单机 Hadoop-下载 Hadoop

  1. 从 Hadoop 官网下载 Hadoop
  2. https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/
  3. 程序文件是:hadoop-2.7.7.tar.gz
  4. 拖拽下载的 hadoop 到 xshell 进行上传
  5. 使用 sudo tar -xvf hadoop-2.7.7.tar.gz -C /usr/local/ 命令
  6. 解压 hadoop 到 /usr/local 目录
  7. 使用 cd /usr/local 命令
  8. 进入 /usr/local 目录
  9. 使用 sudo mv hadoop-2.7.7 hadoop 命令
  10. 重命名 hadoop-2.7.7 目录为 hadoop
  11. 使用 sudo chown -R hadoop hadoop 命令
  12. 使用 cd hadoop 命令
  13. 进入 hadoop 目录
  14. 使用 mkdir input 命令
  15. 创建 input 目录
  16. 使用 cp etc/hadoop/*.xml input 命令
  17. 复制 etc/hadoop 目录下的 xml 文件到 input 目录
  18. 使用 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar grep input output ‘dfs[a-z]+’命令
  19. 执行 mapreduce 程序
  20. 从 input 中找出以 dfs 开头的字符串
  21. 使用 cat output/part-r-00000 命令
  22. 查看 mapreduce 执行结果
  23. 如果需要再次执行 mapreduce 程序,请先使用 rm -rf output 命令删除 ouput 目录 ###

五,安装单机伪分布式 Hadoop

  1. 使用 sudo vim etc/hadoop/hadoop-env.sh 命令
  2. 修改文件 hadoop-env.sh 文件
  3. 修改第 25 行为:
  4. export JAVA_HOME=/usr/local/lib/jdk1.8.0_212
  5. 使用 sudo vim etc/hadoop/yarn-env.sh 命令
  6. 修改文件 yarn-env.sh 文件
  7. 修改第 23 行为:
  8. export JAVA_HOME=/usr/local/lib/jdk1.8.0_212
  9. 使用 sudo vim etc/hadoop/core-site.xml 命令
  10. 修改文件 core-site.xml 文件
  11. core-site.xml
  12. <configuration>
  13. <property>
    
  14.     <name>hadoop.tmp.dir</name>
    
  15.     <value>file:/usr/local/hadoop/tmp</value>
    
  16. </property>
    
  17. <property>
    
  18.     <name>fs.defaultFS</name>
    
  19.     <value>hdfs://localhost:9000</value>
    
  20. </property>
    
  21. </configuration>

使用 sudo vim etc/hadoop/hdfs-site.xml 命令

修改文件 hdfs-site.sh 文件

  1. hdfs-site.xml
  2. <configuration>
  3. <property>
    
  4.     <name>dfs.replication</name>
    
  5.   <value>1</value>
    
  6. </property>
  7. <property>
  8.     <name>dfs.namenode.name.dir</name>
    
  9.     <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    
  10. </property>
  11. <property>
    
  12.     <name>dfs.datanode.data.dir</name>
    
  13.  <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    
  14. </property>
    
  15. </configuration>
  16. 使用 sudo vim etc/hadoop/yarn-site.xml 命令
  17. 修改文件 yarn-site.sh 文件
  18. yarn-site.xml
  19. <configuration>
  20.     <property>
    
  21.          <name>yarn.nodemanager.aux-services</name>
    
  22.          <value>mapreduce_shuffle</value>
    
  23.     </property>
    
  24. </configuration>
  25. 使用 mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml 命令
  26. 重命名 mapred-site.xml.template 文件为 mapred-site.xml
  27. 使用 sudo vim etc/hadoop/mapred-site.xml 命令
  28. 修改文件 mapred-site.sh 文件
  29. mapred-site.xml
  30. <configuration>
  31.     <property>
    
  32.          <name>mapreduce.framework.name</name>
    
  33.          <value>yarn</value>
    
  34.     </property>
    
  35. </configuration>
  36. 使用 bin/hdfs namenode -format 命令
  37. 格式化 hdfs
  38. 使用 sbin/start-all.sh 命令
  39. 启动 hdfs 和 yarn
  40. 第一次启动可能需要输入 yes
  41. 使用 jps 命令
  42. 查看进程

安装单机伪分布式 Hadoop

  1. 使用 http://[ubuntu的ip]:50070 地址访问 hdfs 的监控页面
  2. 使用 http://[ubuntu的ip]:8088 地址
  3. 访问 yarn 的监控页面
  4. 使用 sbin/stop-all.sh 命令
  5. 关闭 hdfs 和 yarn
标签: hadoop 大数据 hdfs

本文转载自: https://blog.csdn.net/m0_68687919/article/details/126780976
版权归原作者 Never give up~w 所有, 如有侵权,请联系我们删除。

“Hadoop 集群搭建”的评论:

还没有评论