填空
1.网络爬虫又称为网络蜘蛛或______
2.robots协议又称为_______协议,用于保护网站数据和敏感信息
3.网络爬虫按照系统结构和实现技术可分为通用网络爬虫,______,增量式网络爬虫,深层网络爬虫.
4.浏览器在访问网站时会携带_______,向网站表明自己的的真实身份
5网络爬虫的基本流程包括抓取网页数据,____和存储数据
判断
6.robots协议可以限制爬虫程序采集某些网页的数据()
7.网络爬虫是一个模拟真人浏览互联网行为的程序()
8.网络爬虫可以抓取互联网上的任何数据()
9.通用网络爬虫会访问与预定主题相关的网页()
10.网络爬虫只能使用python语言开发()
选择
11.下列选项中,不属于python开发网络爬虫的优势是
A 语法简洁,容易上手 B开发效率高 C模块丰富 D 运行速度快,性能强
12.下列选项中,关于网络爬虫描述错误的是()
A 聚焦网络爬虫可以抓取指定网站的数据
B通用网络爬虫是可以访问全互联网资源的网络爬虫
C增量式网络爬虫只能抓取新产生的网页或内容发生变化的网页
D聚焦网络爬虫通常用于实现搜索引擎
13.下列选项中,表示robots协议禁止网络爬虫访问的是()
A User-agent B Disallow C Allow D Sitemap
14.下列选项中,关于聚焦网络爬虫工作原理描述错误的是()
A聚焦网络爬虫的种子url只能有一个
B聚焦网络爬虫会根据爬虫策略,在url队列中确定url的优势级
C聚焦网络爬虫会根据爬虫策略,在url队列中确定url的优先级
D聚焦网络爬虫会循环抓取数据直到满足条件为止
简答题
15.请简述什么事网络爬虫?
16.请简述网络爬虫的工作流程
答案
1.网络机器人
2.爬虫协议
3.聚焦网络爬虫
4.User-agent
5.解析网页数据
6.看写爬虫的人,如果他是君子,那么可以限制,如果他是不讲武德的人,那么就限制不了.
7.√
8.× 只能说是大部分数据,毕竟网站的反爬也不是吃素的,让你爬就爬.
9.×通用网络爬虫的目标是爬取全互联网的资源,聚焦网络爬虫才是爬预定目标的网页
10.×大部分编程语言都可以实现爬虫
11.D python是解释型语言,相对来说,性能不是很好
12.D 通用网络爬虫才是实现搜索引擎的
13.B
14.A聚焦网络爬虫的种子url可以有多个
15.按照一定规则,自动请求并提取网页数据的程序
16.先把种子url放入待抓取url列表,依次从该列表中读取url并用DNS解析,把解析好的服务器ip和网页地址给网页下载器,下载器从互联网下载资源到本地,在将本地的资源放入下载页面库中,同时把下载过的url放入已抓取url队列,再从下载的网页中抽取url,看是否已经在已抓取url队列,如果不在就放入待抓取url队列,循环爬.直到待抓取url为空
版权归原作者 蓝花楹下 所有, 如有侵权,请联系我们删除。