数据采集项目部署
Python环境安装部署
首先到官网:3.8
https://www.python.org/https://www.python.org/然后我们找到Windows版本且在3.8版本以上最好是64位的Python下载。
安装好以后选择第二个自定义安装,并且添加path路径(注意安装的地址不要出现中文)。
在cmd中验证pytho的安装环境:
Pycharm部署
打开pycharm的官网下载社区版:
https://www.jetbrains.com/pycharmhttps://www.jetbrains.com/pycharm
爬虫对于网页的采集,网站的开发者模式的介绍:
在网页当中按f12或者右键选择检查打开开发者模式
其中对应着网页组成的元素、控制台、源代码、网络等。
在网络当中选择了一个文件以后我们可以看到它的获取方式、请求头、URL地址等信息
pycharm中爬虫采集数据代码构成:
我们想要采集数据,首先要安装requests库
随后我们导入requsts的包导入:import requests
制定我们的请求头:{'User-Agent':' '}
获取网址:xxx_url=' '
拼接搜索功能:url=xxx_url+' '
设置参数:data={' ' + ' '}
设置我们的请求方式、请求头、以及传递的参数:response = requests.get(url,headers=header,params=data)
打印请求地址以及状态码:print(response.url) ; print(response.status_code)
Hadoop生态体系基础
关于VMware和Linux centos7的安装
我们可以进到VMware的官网下载,最好选择16版本的:
https://www.vmware.com/products.htmlhttps://www.vmware.com/products.html下载centos7镜像:
http://centos7.orghttp://centos7.org当上面两个都下载完成了以后,我们打开VMware选择新建虚拟机。
选择自定义,注意我们在安装操作系统那时需要选择:安装程序光盘映像文件,选择自己centos7镜像所在的地址,其余都按照推荐即可。
下载SSH工具与免密:
官网网址:
http://www.hostbuf.com/http://www.hostbuf.com/
选择支持Windows版的,下载安装好后,链接我们的虚拟机:
修改我们的hosts文件:vim /etc/hosts
修改好后保存并且拷贝到另外两台虚拟机:scp /etc/hosts root@xx:/etc/hosts
设置免密:ssh-keygen -t rsa
注意的是需要进行三次回车,然后将秘钥拷贝到另外的虚拟机当中即可。
配置jdk
rz 上传压缩包后解压:tar -zxvf +你的压缩包名称
随后便是编辑环境 vim/etv/profile
最后我们重启一遍就可以查看我们的环境了:source /etc/profile ; java -version
版权归原作者 宁_不想写前端 所有, 如有侵权,请联系我们删除。