0


大数据综合项目——招聘网大数据职位分析

随着信息技术的迅猛发展,大数据已经成为各行各业不可或缺的重要资源。在人力资源领域,招聘网站积累了海量的职位信息数据。本项目的目的是通过大数据分析技术,对招聘网站上的职位信息进行深入挖掘和分析,以揭示当前劳动力市场的趋势、行业热点以及人才流动情况等,为企业和求职者提供有价值的参考信息。

关键词:Hadoop集群;Mysql数据库;SQL server;Hive;Sqoop;JDK

本项目旨在通过大数据技术对招聘网站职位数据进行采集、预处理、分析和可视化展示。项目的主要目标包括:

1.搭建大数据实验环境

2.实现数据预处理

3.实现数据可视化

1.搭建大数据实验环境

前提需提前安装Centos7

1.配置ip地址

修改ip配置文件

[root@node1 /]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
# 1.把dhcp修改成static
BOOTPROTO="static"
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="dfd8991d-799e-46b2-aaf0-ed2c95098d58"
DEVICE="ens33"
ONBOOT="yes"
# 2.添加以下内容到文件末尾
IPADDR="192.168.88.101"
PREFIX="24"
GATEWAY="192.168.88.2"
NETMASK="255.255.255.0"
DNS1="8.8.8.8"
DNS2="114.114.114.114"
IPV6_PRIVACY="no"

网络服务(关闭启动重启)

[root@node1 ~]# service network stop
[root@node1 ~]# service network start
[root@node1 ~]# service network restart

查看ip地址

[root@node1 /]# ifconfig

2.配置主机名

[root@node1 ~]# vim /etc/hostname 
# 文件内容如下:
node1

3.禁用防火墙

友情提醒先关闭再禁用防火墙

[root@node1 ~]# systemctl stop firewalld.service
[root@node1 ~]# systemctl disable firewalld.service

查看防火墙状态

[root@node1 ~]# systemctl status firewalld.service

默认状态是 Active: active (running) , 关闭后查看状态是Active: inactive (dead)

4.关闭Selinux

SELinux(Security-Enhanced Linux) 是美国国家安全局制造的新安全子系统(它限制了进程只能在允许的范围内操作资源)

如果开启了SELinux, 需要做非常复杂的配置, 才能正常使用系统, 在学习阶段, 在非生产环境, 一般不使用SELinux

SELinux的工作模式:enforcing: 强制模式 permissive:宽容模式 disabled:关闭禁用

[root@node1 ~]# vim /etc/selinux/config
# 默认是强制模式SELINUX=enforcing,进入文件修改为关闭即可
SELINUX=disabled

5.时钟同步

[root@node1 ~]# yum -y install ntpdate
[root@node1 ~]# ntpdate ntp4.aliyun.com
[root@node1 ~]# crontab -e
# crontab -e命令直接在/var/spool/cron目录中编辑并生成root用户的定时任务
# 分时 日月周  定时每分钟连接阿里云时间同步服务器,进行时钟同步
*/1 * * * * /usr/sbin/ntpdate -u ntp4.aliyun.com

6.创建软件安装目录

[root@node1 ~]# mkdir /export
[root@node1 ~]# cd /export
[root@node1 export]# mkdir data logs server software

7.配置域名映射

[root@node1 ~]# vim /etc/hosts
# 文件内容如下:
192.168.88.101 node1.itcast.cn node1
192.168.88.102 node2.itcast.cn node2
192.168.88.103 node3.itcast.cn node3

8.重启系统

[root@node1 ~]# reboot
或者
[root@node1 ~]# init 6

init 进程是 Linux 内核引导运行的用户级进程 .共有7个等级:

0停机或者关机, 1单用户模式, 2多用户模式, 3完全多用户模式, 4安全模式, 5图形界面模式, 6重启

二. 安装jdk软件

1.上传软件

友情提醒使用CRT等客户端远程上传jdk-8u65-linux-x64.tar.gz文件到/export/software目录下

2.解压软件

[root@node1 ~]# cd /export/software/
[root@node1 software]# tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/server/

3.添加环境变量

[root@node1 software]# vim /etc/profile
# 把如下内容复制到profile文件的最后,注意:记得保存并退出wq
# 小技巧 : 按G + o快速到文件末尾
export JAVA_HOME=/export/server/jdk1.8.0_65
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

4.重新加载文件(配置生效)

[root@node1 software]# source /etc/profile

5.检查jdk版本

[root@node1 software]# java -version

三. 安装mysql软件

0.卸载mariadb-libs

友情提醒centos7内部集成了mariadb,而安装mysql的话会和mariadb的文件冲突,所以需要先卸载掉mariadb

[root@node1 software]# rpm -e --nodeps mariadb-libs

1.上传软件

友情提醒使用CRT等客户端远程上传mysql文件文件到/export/software目录下

2.解压软件

[root@node1 software]# mkdir /export/server/mysql5.7
[root@node1 software]# cd /export/software/mysql\ 5.7.29/
[root@node1 mysql 5.7.29]# tar -xvf mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar -C /export/server/mysql5.7

3.安装mysql

[root@node1 mysql 5.7.29]# cd /export/server/mysql5.7/
[root@node1 mysql5.7]# rpm -ivh mysql-community-common-5.7.29-1.el7.x86_64.rpm mysql-community-libs-5.7.29-1.el7.x86_64.rpm mysql-community-client-5.7.29-1.el7.x86_64.rpm mysql-community-server-5.7.29-1.el7.x86_64.rpm

4.初始化服务

[root@node1 mysql5.7]# mysqld --initialize

5.修改文件用户和组

[root@node1 mysql5.7]# chown mysql:mysql /var/lib/mysql -R

6.启动mysql服务

[root@node1 mysql5.7]# systemctl start mysqld.service

7.设置开启自动启动

[root@node1 mysql5.7]# systemctl enable mysqld.service

8.查看mysql状态

[root@node1 mysql5.7]# systemctl status mysqld

9.登录mysql

[root@node1 mysql5.7]# Pass=$(grep 'A temporary password' /var/log/mysqld.log |awk '{print $NF}')
​
[root@node1 mysql5.7]# mysql -uroot -p"$Pass"

10.修改root密码且授权远程访问

mysql> alter user user() identified by "123456";
mysql> use mysql;
mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;
mysql> FLUSH PRIVILEGES;
mysql> exit;

[了解]卸载mysql软件

#关闭mysql服务
[root@binzi ~]# systemctl stop mysqld.service
​
#查找安装mysql的rpm包
[root@binzi ~]# rpm -qa | grep -i mysql      
​
#卸载
[root@binzi ~]# yum remove mysql-community-libs-5.7.29-1.el7.x86_64 mysql-community-common-5.7.29-1.el7.x86_64 mysql-community-client-5.7.29-1.el7.x86_64 mysql-community-server-5.7.29-1.el7.x86_64
​
#查看是否卸载干净
[root@binzi ~]# rpm -qa | grep -i mysql
​
#查找mysql相关目录 删除
[root@binzi ~]# find / -name mysql
[root@binzi ~]# rm -rf /var/lib/mysql
[root@binzi ~]# rm -rf /var/lib/mysql/mysql
[root@binzi ~]# rm -rf /usr/share/mysql
​
#删除默认配置和日志
[root@binzi ~]# rm -rf /etc/my.cnf 
[root@binzi ~]# rm -rf /var/log/mysqld.log
​

四. 集群设置免密登录

** 友情提醒克隆node1虚拟机的前置条件:node1虚拟机存在且处于关闭状态**

1.克隆出node2虚拟机

1.node1虚拟机: 右键 -> "管理" -> "克隆"

2.图形化弹窗中: "下一页"->"下一页"->选择"创建完整克隆"再"下一页"->填写: "node2" 并且选择对应位置"再点击"完成"

3.node2虚拟机: 右键 -> "设置" -> "NAT模式" -> "高级" -> "生成"Mac地址再'确定' -> 最后点击"确定"

node2基础配置
  • 修改ip地址
[root@node1 /]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 注意此操作是在node2中修改ip地址
IPADDR="192.168.88.102"
  • 修改主机名
[root@node1 ~]# vim /etc/hostname 
# 注意此操作是在node2中修改主机名
node2
  • 重启虚拟机
[root@node1 ~]# reboot
  • 查看配置是否生效
[root@node2 ~]# ifconfig

2.克隆出node3虚拟机

node3基础配置
  • 修改ip地址
[root@node1 /]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 注意此操作是在node3中修改ip地址
IPADDR="192.168.88.103"
  • 修改主机名
[root@node1 ~]# vim /etc/hostname 
# 注意此操作是在node3中修改主机名
node3
  • 重启虚拟机
[root@node1 ~]# reboot
  • 查看配置是否生效
[root@node3 ~]# ifconfig

3.CRT操作所有会话

SecureCRT软件: "查看 "- >  选择"交互窗口" -> 右键选择"发送交互到所有会话"

4.设置免密登录

启动YARN集群

注意: 如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可

③单个集群启动和关闭
[root@node1 ~]# stop-dfs.sh
[root@node1 ~]# stop-yarn.sh
​
[root@node1 ~]# start-dfs.sh
[root@node1 ~]# start-yarn.sh
④jps查看进程

jps是jdk提供的一个查看当前java进程的小工具, 全称是JavaVirtual Machine Process Status Tool

[root@node1 ~]# jps
[root@node2 ~]# jps
[root@node3 ~]# jps
⑤一键启动和关闭

如果配置了etc/hadoop/workers和ssh免密登录,则可使用脚本一键操作Hadoop两个集群的相关进程,在主节点所设定的机器上执行

[root@node1 ~]# stop-all.sh
​
[root@node1 ~]# start-all.sh
⑥启动jobHistory服务

JobHistory用来记录已经finished的mapreduce运行日志,日志信息存放于HDFS目录中

[root@node1 ~]# mapred --daemon start historyserver

[了解]hadoop shell

[root@node1 ~]# hdfs dfs -ls /
[root@node1 ~]# hdfs dfs -mkdir /binzi
[root@node1 ~]# hdfs dfs -touch /binzi/1.txt /binzi/2.txt
[root@node1 ~]# hdfs dfs -ls /binzi
​
[root@node1 ~]# hdfs dfs -mv /binzi /binzi2
[root@node1 ~]# hdfs dfs -cp /binzi2 /binzi3
​
[root@node1 ~]# echo hello binzi > a.txt
[root@node1 ~]# hdfs dfs -put /root/a.txt /binzi
[root@node1 ~]# hdfs dfs -cat /binzi/a.txt
[root@node1 ~]# hdfs dfs -get /binzi/a.txt /
​
[root@node1 ~]# hdfs dfs -rm /binzi/2.txt
[root@node1 ~]# hdfs dfs -rm -r /binzi
[root@node1 ~]# hdfs dfs -ls /
​
[root@node1 ~]# hdfs dfs 回车
②hive-site.xml

友情提醒该文件默认是没有的,需要我们自己创建

6.上传mysql驱动

7.初始化元数据

友情提醒按如下操作初始化成功后会在mysql中创建74张表

[root@node1 mysql 5.7.29]# cd /export/server/apache-hive-3.1.2-bin/
[root@node1 apache-hive-3.1.2-bin]# schematool -initSchema -dbType mysql -verbos

注意: 初始化成功会在 mysql中创建 74张表

[root@node1 apache-hive-3.1.2-bin]# mysql -uroot -p123456
mysql> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| hive3              |
| mysql              |
| performance_schema |
| sys                |
+--------------------+
5 rows in set (0.00 sec) 

8.在hdfs创建hive存储目录

友情提醒前提: 启动hdfs服务

[root@node1 apache-hive-3.1.2-bin]# hdfs dfs -mkdir /tmp
[root@node1 apache-hive-3.1.2-bin]# hadoop fs -mkdir -p /user/hive/warehouse
[root@node1 apache-hive-3.1.2-bin]# hadoop fs -chmod g+w /tmp
[root@node1 apache-hive-3.1.2-bin]# hadoop fs -chmod g+w /user/hive/warehouse

9.启动hive服务[重点]

  • 三台虚拟机都生成公钥和私钥输入命令(注意需要三次回车操作): ssh-keygen> 友情提醒三台虚拟机都执行完命令后,在 /root/.ssh 中会自动生成两个文件: id_rsaid_rsa.pub
  • 分别拷贝公钥给其他虚拟机输入命令(注意需要输入yes和密码): ssh-copy-id node1输入命令(注意需要输入yes和密码): ssh-copy-id node2输入命令(注意需要输入yes和密码): ssh-copy-id node3
  • 测试免密登录输入命令(注意此时会直接登录成功): ssh node1输入命令(注意此时会直接登录成功): ssh node2输入命令(注意此时会直接登录成功): ssh node3
  • 五. 安装hadoop软件#### 1.上传软件> 友情提醒使用CRT等客户端远程上传 hadoop-3.3.0-Centos7-64-with-snappy.tar.gz文件到/export/software目录下#### 2.解压软件[root@node1 ~]# cd /export/software/[root@node1 software]# tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz -C /export/server/#### 3.添加环境变量[root@node1 software]# vim /etc/profile> > # 把如下内容复制到profile文件的最后,注意:记得保存并退出wq> # 小技巧 : 按G + o快速到文件末尾> export HADOOP_HOME=/export/server/hadoop-3.3.0> export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin>

  • 修改完后重启生效
  • [root@node1 server]# source /etc/profile#### 4.1修改配置文件[自动方式]##### 上传文件> 友情提醒使用CRT等客户端远程上传 配置好的文件压缩包> > hadoop-config.tar> > 文件到/export/software目录下##### 解压文件[root@node1 ~]# cd /export/software/[root@node1 software]# tar -xvf hadoop-config.tar -C /export/server/##### 覆盖原有文件[root@node1 software]# mv -f /export/server/hadoop-config/* /export/server/hadoop-3.3.0/etc/hadoop/[root@node1 software]# rm -rf /export/server/hadoop-config* #### 4.2配置文件详解[手动方式]##### ①hadoop-env.sh文件[root@node1 hadoop]# vim hadoop-env.sh> > # 在55行添加JAVA_HOME,因为Hadoop把当前的执行环境当成远程服务器,所以需要重新配置下> export JAVA_HOME=/export/server/jdk1.8.0_65> # 在440行文件末尾添加以下内容> export HDFS_NAMENODE_USER=root> export HDFS_DATANODE_USER=root> export HDFS_SECONDARYNAMENODE_USER=root> export YARN_RESOURCEMANAGER_USER=root> export YARN_NODEMANAGER_USER=root > ##### ② core-site.xml文件[root@node1 hadoop]# vim core-site.xml> > <!-- 友情提醒在文件的<configuration></configuration>的标签中添加以下内容: -->> <!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->> <property>> <name>fs.defaultFS</name>> <value>hdfs://node1:8020</value>> </property>> ​> <!-- 设置Hadoop本地保存数据路径 -->> <property>> <name>hadoop.tmp.dir</name>> <value>/export/data/hadoop-3.3.0</value>> </property>> ​> <!-- 设置HDFS web UI用户身份 -->> <property>> <name>hadoop.http.staticuser.user</name>> <value>root</value>> </property>> ​> <!-- 整合hive 用户代理设置 -->> <property>> <name>hadoop.proxyuser.root.hosts</name>> <value>*</value>> </property>> ​> <property>> <name>hadoop.proxyuser.root.groups</name>> <value>*</value>> </property>> ​> <!-- 开启垃圾桶机制[可选操作] 1440 表示1440分钟也就是24小时一天的时间-->> <property>> <name>fs.trash.interval</name>> <value>1440</value>> </property>> ##### ③ hdfs-site.xml文件[root@node1 hadoop]# vim hdfs-site.xml> > <!-- 友情提醒在文件的<configuration></configuration>的标签中添加以下内容: --> > <!-- 指定secondarynamenode运行位置 -->> <property>> <name>dfs.namenode.secondary.http-address</name>> <value>node2:9868</value>> </property>> ##### ④ mapred-site.xml文件[root@node1 hadoop]# vim mapred-site.xml> > <!-- 友情提醒在文件的<configuration></configuration>的标签中添加以下内容: --> > <!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->> <property>> <name>mapreduce.framework.name</name>> <value>yarn</value>> </property>> ​> <!-- MR程序历史服务器端地址 -->> <property>> <name>mapreduce.jobhistory.address</name>> <value>node1:10020</value>> </property>> ​> <!-- 历史服务器web端地址 -->> <property>> <name>mapreduce.jobhistory.webapp.address</name>> <value>node1:19888</value>> </property>> ​> <property>> <name>yarn.app.mapreduce.am.env</name>> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>> </property>> ​> <property>> <name>mapreduce.map.env</name>> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>> </property>> ​> <property>> <name>mapreduce.reduce.env</name>> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>> </property>> ##### ⑤ yarn-site.xml文件[root@node1 hadoop]# vim yarn-site.xml> > <!-- 友情提醒在文件的<configuration></configuration>的标签中添加以下内容: --> > <!-- 设置YARN集群主角色运行机器位置 -->> <property>> <name>yarn.resourcemanager.hostname</name>> <value>node1</value>> </property>> ​> <property>> <name>yarn.nodemanager.aux-services</name>> <value>mapreduce_shuffle</value>> </property>> ​> <!-- 是否将对容器实施物理内存限制 -->> <property>> <name>yarn.nodemanager.pmem-check-enabled</name>> <value>false</value>> </property>> ​> <!-- 是否将对容器实施虚拟内存限制。 -->> <property>> <name>yarn.nodemanager.vmem-check-enabled</name>> <value>false</value>> </property>> ​> <!-- 开启日志聚集 -->> <property>> <name>yarn.log-aggregation-enable</name>> <value>true</value>> </property>> ​> <!-- 设置yarn历史服务器地址 -->> <property>> <name>yarn.log.server.url</name>> <value>http://node1:19888/jobhistory/logs</value>> </property>> ​> <!-- 保存的时间7天 -->> <property>> <name>yarn.log-aggregation.retain-seconds</name>> <value>604800</value>> </property>> ##### ⑥ workers文件[root@node1 hadoop]# vim workers> > # 用以下内容把之前内容覆盖> node1> node2> node3> #### 5.拷贝软件到其他机器
  • 友情提醒nod1主机上拷贝到node2和node3中各一份
  • [root@node1 server]# scp -r /export/server/hadoop-3.3.0 root@node2:/export/server/[root@node1 server]# scp -r /export/server/hadoop-3.3.0 root@node3:/export/server/
  • node2主机配置环境变量
  • [root@node2 server]# echo 'export HADOOP_HOME=/export/server/hadoop-3.3.0' >> /etc/profile[root@node2 server]# echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile[root@node2 server]# source /etc/profile
  • node3主机配置环境变量
  • [root@node3 server]# echo 'export HADOOP_HOME=/export/server/hadoop-3.3.0' >> /etc/profile[root@node3 server]# echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile[root@node3 server]# source /etc/profile
  • 6.hadoop集群启动要启动Hadoop集群,其实就是启动HDFS和YARN两个集群##### ① 数据初始化> 友情提醒首次启动HDFS必须对其进行格式化操作 : 本质是清理和准备工作,因为此时的HDFS在物理上还是不存在的> > 注意: 初始化操作必须在node1中执行[root@node1 ~]# hdfs namenode -format##### ②单节点逐个启动###### 启动HDFS集群

  • 在主节点上使用以下命令启动HDFS NameNode[root@node1 ~]# hdfs --daemon start namenode
  • 在每个从节点上使用以下命令启动HDFS DataNode[root@node2 ~]# hdfs --daemon start datanode``````[root@node3 ~]# hdfs --daemon start datanode
  • node2上使用以下命令启动HDFS SecondaryNameNode[root@node2 ~]# hdfs --daemon start secondarynamenode
  • 在主节点上使用以下命令启动YARN ResourceManager[root@node1 ~]# yarn --daemon start resourcemanager
  • 在每个从节点上使用以下命令启动YARN nodemanager[root@node2 ~]# yarn --daemon start nodemanager``````[root@node3 ~]# yarn --daemon start nodemanager
  • 六. 集群web-ui一旦Hadoop集群启动并运行,可以通过web-ui进行集群查看,如下所述:访问HDFS的NameNode主机 : http://192.168.88.101:9870/访问YARN的ResourceManager主机 : http://192.168.88.101:8088/注意: 想要上传文件夹需要配置本地域名映射#### 本地配置域名映射如果在windows下,去访问 node1 或者是访问 node1.itcast.cn 的时候是被不到。可以进入 C:\Windows\System32\drivers\etc 目录打开hosts文件,添加以下内容:> > 192.168.88.101 node1.itcast.cn node1> 192.168.88.102 node2.itcast.cn node2> 192.168.88.103 node3.itcast.cn node3> 配置完成后,可以直接通过node1访问HDFS: http://node1:9870/YARN: http://node1:8088/#### 查看计算任务jobhistoryjobhistory: http://node1:19888/jobhistory### 七. 安装hive软件> 课程中采用远程模式部署hive的metastore服务。在node1机器上安装。> > 注意:以下两件事在启动hive之前必须确保正常完成。> > 1、提前安装mysql,确保具有远程访问的权限> > 2、启动hadoop集群,确保集群正常能够访问#### 1.上传软件> 友情提醒使用CRT等客户端远程上传 apache-hive-3.1.2-bin.tar.gz 文件到/export/software目录下#### 2.解压软件[root@node1 software]# cd /export/software/[root@node1 software]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /export/server/#### 3.解决Hive与Hadoop之间guava版本差异[root@node1 software]# rm -rf /export/server/apache-hive-3.1.2-bin/lib/guava-19.0.jar[root@node1 software]# cp /export/server/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar /export/server/apache-hive-3.1.2-bin/lib/#### 4.添加环境变量[root@node1 software]# vim /etc/profile> > # 把如下内容复制到profile文件的最后,注意:记得保存并退出wq> # 友情提醒小技巧 : 按G + o快速到文件末尾> export HIVE_HOME=/export/server/apache-hive-3.1.2-bin> export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/sbin>

  • 修改完后重启生效
  • [root@node1 server]# source /etc/profile#### 5.修改配置文件##### ①hive-env.sh
  • 修改文件名称[root@node1 software]# cd /export/server/apache-hive-3.1.2-bin/conf[root@node1 conf]# mv hive-env.sh.template hive-env.sh
  • 打开文件写入数据[root@node1 conf]# vim hive-env.sh> > # 把如下内容复制到profile文件的最后,注意:记得保存并退出wq> # 小技巧 : 按G + o快速到文件末尾> export HADOOP_HOME=/export/server/hadoop-3.3.0> export HIVE_CONF_DIR=/export/server/apache-hive-3.1.2-bin/conf> export HIVE_AUX_JARS_PATH=/export/server/apache-hive-3.1.2-bin/lib>
  • 打开文件写入数据[root@node1 conf]# vim hive-site.xml> > <configuration>> <!-- 存储元数据mysql相关配置 -->> <property>> <name>javax.jdo.option.ConnectionURL</name>> <value>jdbc:mysql://node1:3306/hive3?createDatabaseIfNotExist=true&amp;useSSL=false</value>> </property>> ​> <property>> <name>javax.jdo.option.ConnectionDriverName</name>> <value>com.mysql.jdbc.Driver</value>> </property>> ​> <property>> <name>javax.jdo.option.ConnectionUserName</name>> <value>root</value>> </property>> ​> <property>> <name>javax.jdo.option.ConnectionPassword</name>> <value>123456</value>> </property>> ​> ​> ​> <!-- H2S运行绑定host -->> <property>> <name>hive.server2.thrift.bind.host</name>> <value>node1</value>> </property>> ​> <!-- 远程模式部署metastore metastore地址 -->> <property>> <name>hive.metastore.uris</name>> <value>thrift://node1:9083</value>> </property>> ​> ​> <!-- 关闭元数据存储授权 --> > <property>> <name>hive.metastore.event.db.notification.api.auth</name>> <value>false</value>> </property>> </configuration>>
  • 上传驱动> 上传mysql-connector-java-5.1.32.jar到 /export/software/mysql 5.7.29/ 下
  • 移动驱动[root@node1 conf]# cd /export/software/mysql\ 5.7.29/[root@node1 mysql 5.7.29]# cp mysql-connector-java-5.1.32.jar /export/server/apache-hive-3.1.2-bin/lib/
  • 启动metastore服务> 一代客户端 : 启动metastore服务> > 输入 命令: hive 可以直接进行数据库操作# 前台启动(一般不用) # ctrl+c关闭[root@node1 apache-hive-3.1.2-bin]# hive --service metastore[root@node1 apache-hive-3.1.2-bin]# hive --service metastore --hiveconf hive.root.logger=DEBUG,console​``````#后台启动 回车后进程挂起 关闭使用jps+ kill -9[root@node1 apache-hive-3.1.2-bin]# nohup hive --service metastore &[root@node1 apache-hive-3.1.2-bin]# hive​# 直接输入show databases;查看表hive> show databases;# 结果OK default...说明成功
  • 启动hiveserver2服务> 二代客户端 : 启动metastore和hiveserver2服务> > 输入命令: beeline 两次验证> > 注意: 启动hiveserver2需要一定的时间 不要启动之后立即beeline连接 可能连接不上[root@node1 apache-hive-3.1.2-bin]# nohup hive --service metastore &[root@node1 apache-hive-3.1.2-bin]# nohup hive --service hiveserver2 &[root@node1 apache-hive-3.1.2-bin]# lsof -i:10000COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAMEjava 18804 root 520u IPv6 266172 0t0 TCP *:ndmp (LISTEN)[root@node1 apache-hive-3.1.2-bin]# beeline​# 先输入!connect jdbc:hive2://node1:10000连接beeline> !connect jdbc:hive2://node1:10000​# 再输入用户名root,密码不用输入直接回车即可Enter username for jdbc:hive2://node1:10000: rootEnter password for jdbc:hive2://node1:10000:​# 输入show databases;查看表0: jdbc:hive2://node1:10000> show databases;# 结果OK default...说明成功

八. 安装sqoop软件

配置数据迁移工具,用于将关系型数据库中的数据导入 Hadoop

解压

tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/module/

改名:

cd /opt/module
mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop-1.4.7
vi /etc/profile

在文件末尾添加

vi /etc/profile

# 在文件末尾添加

#SQOOP_HOME
export SQOOP_HOME=/opt/module/sqoop-1.4.7
export PATH=$PATH:$SQOOP_HOME/bin

export HADOOP_COMMON_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
保存退出,使环境变量立即生效

source /etc/profile

#4.配置环境变量
vi /etc/profile
#添加SQOOP_HOME
export SQOOP_HOME=/usr/local/sqoop
export PATH=$PATH:$SQOOP_HOME/bin

source /etc/profile
#5.效果测试
cd ../lib
rz(mysql-connector-java-5.1.40.jar)#上传jar包到lib目录下
cd ../bin/
sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root -P
#(sqoop list-database用于输出连接的本地MySQL数据库中的所有数据库,如果正确返回指定地址的MySQL数据库信息,说明Sqoop配置完成)

2.实现数据预处理

查看数据结构内容,格式化数据

本项目主要分析的内容是薪资、福利、技能要求、职位分布这四个方面。

salary(薪资字段的数据 字符串形式)
city(城市字段的数据 字符串形式)
skillLabels(技能要求字段 数组形式)
companyLabelList(福利标签数据字段 数组)

positionAdvantage(数据形式为字符串)
linux安装Pycharm

启动Pycharm

1.数据清洗
import codecs
import pandas as pd
import json
import csv
 
from pyhdfs import HdfsClient
 
client = HdfsClient(hosts='centos72:50070', user_name='root')
hdfs_path = '/output'
#with client.open('/Jobdata/page1.csv',) as reader:
#    content = reader.read()
    # print(content)
#decode = codecs.decode(content,'utf-8')
#print(decode)
all_job_data = []
 
for page in range(1, 31):
    with client.open(f'/Jobdata/page{page}.csv', ) as reader:
        content = reader.read()
        # print(content)
    decode = codecs.decode(content, 'utf-8')
    data = json.loads(decode)
 
    if isinstance(data, list):
        df = pd.DataFrame(data)
 
        # 数据处理步骤保持不变...
        df['salary'] = df['salary'].str.replace('k', '', regex=False)
        df['companyLabelList'] = df['companyLabelList'].apply(lambda x: '-'.join(x) if x else '')
        df['positionAdvantage'] = df['positionAdvantage'].str.replace(r'[,\s,、]+', '-', regex=True).fillna('')
        df['combined_labels'] = (df['companyLabelList'] + '-' + df['positionAdvantage']).str.replace('^-',
                                                                                                     '').str.replace(
            '-$', '')
        df['skillLables'] = df['skillLables'].apply(lambda x: '-'.join(x) if x else '')
        df['jobResultData'] = df['city'] + ',' + df['salary'] + ',' + df['combined_labels'] + ',' + df[
            'skillLables']
 
        # 将处理后的'jobResultData'添加到列表中
        all_job_data.extend(df['jobResultData'].tolist())
print(all_job_data)
# 将所有数据写入到一个Pandas DataFrame
all_job_data_df = pd.DataFrame({'jobResultData': all_job_data})
print(all_job_data_df)
# 将DataFrame转换为CSV字符串
csv_data = all_job_data_df.to_csv(index=False,quoting=csv.QUOTE_MINIMAL).encode('utf-8')
 
# 指定HDFS上的文件路径
hdfs_path = '/output'
 
# 写入HDFS
# 如果文件已存在并且需要覆盖,则先删除
if client.exists(hdfs_path):
    client.delete(hdfs_path, recursive=False)
 
# 创建文件句柄,注意这里没有直接传入data参数
client.create(hdfs_path,csv_data)
 
print("所有页面的'jobResultData'已成功写入到HDFS中")

2.Hive分析

3.构建关系型数据库

使用 MySQL 构建关系型数据库,用于存储分析结果

数据迁移 运用sqoop进行数据迁移可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中

4.数据可视化

用eclipse建一个web页面

标签: 大数据 mysql hadoop

本文转载自: https://blog.csdn.net/CSGOkasha/article/details/140740045
版权归原作者 慎小独 所有, 如有侵权,请联系我们删除。

“大数据综合项目——招聘网大数据职位分析”的评论:

还没有评论