数据采集与Hadoop总结

数据采集项目部署

Python环境安装部署

首先到官网：3.8

https://www.python.org/https://www.python.org/然后我们找到Windows版本且在3.8版本以上最好是64位的Python下载。

安装好以后选择第二个自定义安装，并且添加path路径（注意安装的地址不要出现中文）。

在cmd中验证pytho的安装环境：

Pycharm部署

打开pycharm的官网下载社区版：

https://www.jetbrains.com/pycharmhttps://www.jetbrains.com/pycharm

爬虫对于网页的采集，网站的开发者模式的介绍：

在网页当中按f12或者右键选择检查打开开发者模式

其中对应着网页组成的元素、控制台、源代码、网络等。

在网络当中选择了一个文件以后我们可以看到它的获取方式、请求头、URL地址等信息

pycharm中爬虫采集数据代码构成：

我们想要采集数据，首先要安装requests库

随后我们导入requsts的包导入：import requests

制定我们的请求头：{'User-Agent':' '}

获取网址：xxx_url=' '

拼接搜索功能：url=xxx_url+' '

设置参数:data={' ' + ' '}

设置我们的请求方式、请求头、以及传递的参数:response = requests.get(url,headers=header,params=data)

打印请求地址以及状态码:print(response.url) ; print(response.status_code)

Hadoop生态体系基础

关于VMware和Linux centos7的安装

我们可以进到VMware的官网下载，最好选择16版本的：

https://www.vmware.com/products.htmlhttps://www.vmware.com/products.html下载centos7镜像：

http://centos7.orghttp://centos7.org当上面两个都下载完成了以后，我们打开VMware选择新建虚拟机。

选择自定义，注意我们在安装操作系统那时需要选择：安装程序光盘映像文件，选择自己centos7镜像所在的地址，其余都按照推荐即可。

下载SSH工具与免密：

官网网址：

http://www.hostbuf.com/http://www.hostbuf.com/

选择支持Windows版的，下载安装好后，链接我们的虚拟机：

修改我们的hosts文件：vim /etc/hosts

修改好后保存并且拷贝到另外两台虚拟机：scp /etc/hosts root@xx:/etc/hosts

设置免密:ssh-keygen -t rsa

注意的是需要进行三次回车，然后将秘钥拷贝到另外的虚拟机当中即可。

配置jdk

rz 上传压缩包后解压：tar -zxvf +你的压缩包名称

随后便是编辑环境 vim/etv/profile

最后我们重启一遍就可以查看我们的环境了：source /etc/profile ; java -version

标签： hadoop 大数据分布式

本文转载自: https://blog.csdn.net/2203_75927674/article/details/132918516
版权归原作者 宁_不想写前端 所有，如有侵权，请联系我们删除。

数据采集与Hadoop总结

数据采集项目部署

Python环境安装部署

Pycharm部署

爬虫对于网页的采集，网站的开发者模式的介绍：

pycharm中爬虫采集数据代码构成：

Hadoop生态体系基础

关于VMware和Linux centos7的安装

下载SSH工具与免密：

配置jdk

发表评论

“数据采集与Hadoop总结”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航