day19 selenium获取网页数据
prepare、试用
# 导包
import time
import requests
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
# 尝试能用否
b = Chrome()
b.get('网址')
input()
一、selenium获取网页数据步骤:
1.创建浏览器对象
2.打开网页()
3.获取网页源代码
# 1
b = Chrome()
# 2
b.get('网址')
# 3
print(b.page_source)
二、selenium操作:
1.输入框中输入内容
获取输入框
浏览器对象.find_element(By.获取方式, 值):按照指定方式获取第一个满足条件的标签,返回一个标签值
浏览器对象.find_elements(By.获取方式, 值):按照指定方式获取所有满足条件的标签,返回一个标签值
seleniu中常见的获取方式
名称用法By.ID通过id属性值获取标签By.CLASS_NAME通过class属性值获取标签By.CSS_SELECTOR通过css选择器获取标签By.XPATH通过xpath路径获取标签By.LINK_TEXT通过超链接获取标签
2.点击内容
3.前进/后退/切换选项卡
# 1
# 创建谷歌浏览器,返回一个浏览器对象
b = Chrome()
# 通过浏览器对象打开指定网页
b.get('网址')
# 模拟人行为,等浏览器加载稳定
time.sleep(2)
# 获取输入框(获取标签),id = kw
search1 = b.find_element(By.ID, 'kw')
# search2 = b.find_element(By.CSS_SELECTOR, '#kw')
# search3 = b.find_element(By.XPATH, '//input[@id="kw"]')
# 输入内容
# \n(回车搜索)
search1.send_keys('你好\n')
time.sleep(1)
search1.send_keys(Keys.ENTER) # 回车键
time.sleep(1)
# 注意:如需要在输入框中执行特殊按键的效果,需要Key类提供
search1.send_keys('你好helloword')
time.sleep(1)
search1.send_keys(Keys.BACKSPACE) # 删除键
# 2
# 获取需要被点击的标签值
news = b.find_element(By.LINK_TEXT, '新闻') # '地图' '...'
# 点击标签
news.click()
# 3.
b = Chrome()
# 打开TOP250
b.get('网址')
time.sleep(1)
# 点击电视剧, 进入电视剧页面
b.find_element(By.LINK_TEXT, '电视剧').click()
time.sleep(1)
# 前进/后退
# 后退, 回到top250首页
b.back()
# 前进, 进入电视剧页面
b.forward()
# 切换选项卡
# 获取小组对应超链接
b.find_element(By.LINK_TEXT, '小组').click()
time.sleep(1)
# 网页源代码验证b指向哪个页面
# print(b.page_source) # b是第一个窗口内容
# 让浏览器对象指向第二个窗口
b.switch_to.window(b.window_handles[1])
time.sleep(1)
# print(b.page_source)
# 关闭第二个窗口
b.close()
# 切换第一个窗口
b.switch_to.window(b.window_handles[0])
partice:爬取中国知网
# 创建浏览器
b = Chrome()
# 打开知网
b.get('网址')
time.sleep(1)
# 获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)
# 获取搜索结果详情页对应a标签
all_a = b.find_elements(By.CLASS_NAME, 'fz14')
# 遍历每个搜索结果a标签
for a in all_a:
# 点击进入论文详情页
a.click()
time.sleep(1)
# 切换到新窗口获取数据
b.switch_to.window(b.window_handles[-1])
# 获取详情页数据
html = b.page_source
# 解吸数据:正则, bs, xpath
soup = BeautifulSoup(html, 'lxml')
title = soup.select_one('h1').text
digest = soup.select_one('#ChDivSummary').text
key_words_tag = soup.select_one('.keywords')
if key_words_tag:
key_words = key_words_tag.text
else:
key_words = ''
type_id = soup.select_one('div.row>ur>li:nth-child(2)>p').text
print(soup, title, digest, key_words, type_id)
# 关闭详情页
b.close()
# 切换回第一个页面
b.switch_to.window(b.window_handles[0])
partice: 取五页知网
b = Chrome()
# 2.打开中国知网
b.get('网址')
time.sleep(1)
# 3.获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)
def get_one_page(page):
# 如果写在开头他会一开始就下一页,不合理
# p = b.find_elements(By.CLASS_NAME, 'PageNext') # id="PageNext",这里的By.CLASS_NAME应该写By.ID
# for page in p:
# page.click()
# time.sleep(1)
all_a = b.find_elements(By.CLASS_NAME, 'fz14')
# 5. 遍历拿到每个搜索结果对应的a标签
for a in all_a:
# 点击进入到论文详情页
a.click()
time.sleep(1)
# 切换到详情页对应的新的窗口
b.switch_to.window(b.window_handles[-1])
# 获取详情页数据
html = b.page_source
# 解析数据
soup = BeautifulSoup(html, 'lxml')
title = soup.select_one('h1').text
digest = soup.select_one('#ChDivSummary').text
keyword_tag = soup.select_one('.keywords')
if keyword_tag:
keyword = keyword_tag.text
else:
keyword = ''
type_id = soup.select_one('div.row>ul>li:nth-child(2)>p').text
print(title, digest, keyword, type_id)
print('---------------------------------------华丽的分割线------------------------------------')
# 关闭详情页
b.close()
# 切换回第一个页面
b.switch_to.window(b.window_handles[0])
time.sleep(1)
next_page = b.find_element(By.ID, 'PageNext')
next_page.click()
time.sleep(2)
# next_page = b.find_element(By.ID, 'PageNext')
# next_page.click()
# time.sleep(2)
# for循环的前面应该是b.find_elements
# for page in next_page:
# page.click()
# time.sleep(1)
print(f'第{page}页完成!')
if __name__ =='__main__':
for x in range(1, 6):
get_one_page(x)
补充
滚动页面:有些网页不滚动的话数据获取 不全
b.execute_script(‘window.scrollBy()’)
js让网页滚动的方法:window.scrollBy(x方向偏移量, y方向偏移量)
浏览器配置
1.创建配置对象
options.add_argument(‘blink-settings=imagesEnable=false’)
2.取消测试环境
options.add_experimental_option(‘excludeSwitches’,[‘enable-automation’])
3.给浏览器对象添加配置
b = Chrome(options=options)
# 京东
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('blink-settings=imagesEnabled=false')
options.add_experimental_option('excludeSwitches',['enable-automation'])
b = Chrome(options=options)
b.get('网址')
time.sleep(1)
# 不滚动可以得到多少个数据
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result)) # 30
# 滚动操作,连续循环 :
for _ in range(8):
b.execute_script('window.scrollBy(0, 800)')
time.sleep(1)
time.sleep(1)
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result)) # 60
反爬解释:爬虫拿别人在网络上公开的数据,合理使用数据 ,不能违法哦~
浏览器反爬:
浏览器伪装
登录反爬:
换个方式,cookie保存登录信息
人工完成登录,然后通过cookie完成自动登录
封ip反爬
找代理ip(花钱)
三、requests自动登录流程:
第一步:人工完成网页的登录
第二步:获取登录后的网页的cookie(右键 -> 检查 -> network -> all -> name中和网页地址一样的请求地址 -> 获取requestHeader中cookie值)
第三步:发送请求的时候给headers中添加cookie对应的键值对
headers = {
'cookie': '...',
'user-agent': '...'
}
response = requests.get('网址', headers=headers)
print(response)
print(response.text)
四、selenium 获取cookies
- 创建浏览器打开需要做自动登录的网站
- 留足够长的时间来完成人工登录 3.获取登录成功后的cookie
- 将获取到的cookie保存到本地文件中
# 1b = Chrome()b.get('网址')# 2.完成人工登录的时候一定要保证浏览器对象(b)指向的页面中有登录成功信息input('是否完成登录:')# 3.cookies = b.get_cookies()# 4.import jsonwith open('files/网站名称.json', 'w', encoding='utf-8') as f: f.write(json.dumps(cookies))
### 五、selenium 使用cookies1.创建浏览器,打开需要自动登陆的网站 2.添加cookie() 3.重新打开网站 b.get(‘网址’)
b = Chrome()
b.get('网址')
import json
# 获取本地保存的cookie值
with open('files/网站名称.json', encoding='utf-8') as f:
cookies = json.loads(f.read())
for x in cookies:
b.add_cookie(x)
b.get('网址')
# # 保持浏览器一直存在
input('结束:')
版权归原作者 百事不可乐BOOM 所有, 如有侵权,请联系我们删除。