0


数据采集与Hadoop总结

数据采集项目部署

Python环境安装部署

首先到官网:3.8

https://www.python.org/https://www.python.org/然后我们找到Windows版本且在3.8版本以上最好是64位的Python下载。

安装好以后选择第二个自定义安装,并且添加path路径(注意安装的地址不要出现中文)。

在cmd中验证pytho的安装环境:

Pycharm部署

打开pycharm的官网下载社区版:

https://www.jetbrains.com/pycharmhttps://www.jetbrains.com/pycharm

爬虫对于网页的采集,网站的开发者模式的介绍:

在网页当中按f12或者右键选择检查打开开发者模式

其中对应着网页组成的元素、控制台、源代码、网络等。

在网络当中选择了一个文件以后我们可以看到它的获取方式、请求头、URL地址等信息

pycharm中爬虫采集数据代码构成:

我们想要采集数据,首先要安装requests库

随后我们导入requsts的包导入:import requests

制定我们的请求头:{'User-Agent':' '}

获取网址:xxx_url=' '

拼接搜索功能:url=xxx_url+' '

设置参数:data={' ' + ' '}

设置我们的请求方式、请求头、以及传递的参数:response = requests.get(url,headers=header,params=data)

打印请求地址以及状态码:print(response.url) ; print(response.status_code)

Hadoop生态体系基础

关于VMware和Linux centos7的安装

我们可以进到VMware的官网下载,最好选择16版本的:

https://www.vmware.com/products.htmlhttps://www.vmware.com/products.html下载centos7镜像:

http://centos7.orghttp://centos7.org当上面两个都下载完成了以后,我们打开VMware选择新建虚拟机。

选择自定义,注意我们在安装操作系统那时需要选择:安装程序光盘映像文件,选择自己centos7镜像所在的地址,其余都按照推荐即可。

下载SSH工具与免密:

官网网址:

http://www.hostbuf.com/http://www.hostbuf.com/

选择支持Windows版的,下载安装好后,链接我们的虚拟机:

修改我们的hosts文件:vim /etc/hosts

修改好后保存并且拷贝到另外两台虚拟机:scp /etc/hosts root@xx:/etc/hosts

设置免密:ssh-keygen -t rsa

注意的是需要进行三次回车,然后将秘钥拷贝到另外的虚拟机当中即可。

配置jdk

rz 上传压缩包后解压:tar -zxvf +你的压缩包名称

随后便是编辑环境 vim/etv/profile

最后我们重启一遍就可以查看我们的环境了:source /etc/profile ; java -version


本文转载自: https://blog.csdn.net/2203_75927674/article/details/132918516
版权归原作者 宁_不想写前端 所有, 如有侵权,请联系我们删除。

“数据采集与Hadoop总结”的评论:

还没有评论