day19 selenium获取网页数据

prepare、试用

# 导包
import time
import requests
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup

# 尝试能用否
b = Chrome()
b.get('网址')
input()

一、selenium获取网页数据步骤：

1.创建浏览器对象
2.打开网页()
3.获取网页源代码

# 1
b = Chrome()

# 2
b.get('网址')

# 3
print(b.page_source)

二、selenium操作：

1.输入框中输入内容
获取输入框
浏览器对象.find_element(By.获取方式, 值):按照指定方式获取第一个满足条件的标签，返回一个标签值
浏览器对象.find_elements(By.获取方式, 值)：按照指定方式获取所有满足条件的标签，返回一个标签值
seleniu中常见的获取方式
名称用法By.ID通过id属性值获取标签By.CLASS_NAME通过class属性值获取标签By.CSS_SELECTOR通过css选择器获取标签By.XPATH通过xpath路径获取标签By.LINK_TEXT通过超链接获取标签
2.点击内容
3.前进/后退/切换选项卡

# 1
# 创建谷歌浏览器，返回一个浏览器对象
b = Chrome()
# 通过浏览器对象打开指定网页
b.get('网址')
# 模拟人行为，等浏览器加载稳定
time.sleep(2)
# 获取输入框(获取标签)，id = kw
search1 = b.find_element(By.ID, 'kw')
# search2 = b.find_element(By.CSS_SELECTOR, '#kw')
# search3 = b.find_element(By.XPATH, '//input[@id="kw"]')

# 输入内容
# \n（回车搜索）
search1.send_keys('你好\n')
time.sleep(1)

search1.send_keys(Keys.ENTER)     # 回车键
time.sleep(1)
# 注意:如需要在输入框中执行特殊按键的效果,需要Key类提供
search1.send_keys('你好helloword')
time.sleep(1)
search1.send_keys(Keys.BACKSPACE)  # 删除键

# 2
# 获取需要被点击的标签值
news = b.find_element(By.LINK_TEXT, '新闻')   # '地图'  '...'
# 点击标签
news.click()

# 3.
b = Chrome()

# 打开TOP250
b.get('网址')
time.sleep(1)

# 点击电视剧, 进入电视剧页面
b.find_element(By.LINK_TEXT, '电视剧').click()
time.sleep(1)

# 前进/后退
# 后退, 回到top250首页
b.back()

# 前进, 进入电视剧页面
b.forward()

# 切换选项卡
# 获取小组对应超链接
b.find_element(By.LINK_TEXT, '小组').click()
time.sleep(1)

# 网页源代码验证b指向哪个页面
# print(b.page_source)   # b是第一个窗口内容

# 让浏览器对象指向第二个窗口
b.switch_to.window(b.window_handles[1])
time.sleep(1)
# print(b.page_source)

# 关闭第二个窗口
b.close()

# 切换第一个窗口
b.switch_to.window(b.window_handles[0])

partice:爬取中国知网

# 创建浏览器
b = Chrome()

# 打开知网
b.get('网址')
time.sleep(1)

# 获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)

# 获取搜索结果详情页对应a标签
all_a = b.find_elements(By.CLASS_NAME, 'fz14')

# 遍历每个搜索结果a标签
for a in all_a:
    # 点击进入论文详情页
    a.click()
    time.sleep(1)

    # 切换到新窗口获取数据
    b.switch_to.window(b.window_handles[-1])

    # 获取详情页数据
    html = b.page_source

    # 解吸数据:正则, bs, xpath
    soup = BeautifulSoup(html, 'lxml')

    title = soup.select_one('h1').text

    digest = soup.select_one('#ChDivSummary').text

    key_words_tag = soup.select_one('.keywords')
    if key_words_tag:
        key_words = key_words_tag.text
    else:
        key_words = ''

    type_id = soup.select_one('div.row>ur>li:nth-child(2)>p').text
    print(soup, title, digest, key_words, type_id)

    # 关闭详情页
    b.close()

    # 切换回第一个页面
    b.switch_to.window(b.window_handles[0])

partice: 取五页知网


b = Chrome()

# 2.打开中国知网
b.get('网址')
time.sleep(1)

# 3.获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)

def get_one_page(page):
    # 如果写在开头他会一开始就下一页,不合理
    # p = b.find_elements(By.CLASS_NAME, 'PageNext')  # id="PageNext",这里的By.CLASS_NAME应该写By.ID
    # for page in p:
    #     page.click()
    #     time.sleep(1)

    all_a = b.find_elements(By.CLASS_NAME, 'fz14')

    # 5. 遍历拿到每个搜索结果对应的a标签
    for a in all_a:
        # 点击进入到论文详情页
        a.click()
        time.sleep(1)

        # 切换到详情页对应的新的窗口
        b.switch_to.window(b.window_handles[-1])

        # 获取详情页数据
        html = b.page_source

        # 解析数据
        soup = BeautifulSoup(html, 'lxml')
        title = soup.select_one('h1').text
        digest = soup.select_one('#ChDivSummary').text
        keyword_tag = soup.select_one('.keywords')
        if keyword_tag:
            keyword = keyword_tag.text
        else:
            keyword = ''
        type_id = soup.select_one('div.row>ul>li:nth-child(2)>p').text
        print(title, digest, keyword, type_id)

        print('---------------------------------------华丽的分割线------------------------------------')

        # 关闭详情页
        b.close()

        # 切换回第一个页面
        b.switch_to.window(b.window_handles[0])
        time.sleep(1)
    next_page = b.find_element(By.ID, 'PageNext')
    next_page.click()
    time.sleep(2)
    # next_page = b.find_element(By.ID, 'PageNext')
    # next_page.click()
    # time.sleep(2)

    # for循环的前面应该是b.find_elements
    # for page in next_page:
    #     page.click()
    #     time.sleep(1)

    print(f'第{page}页完成!')

if __name__ =='__main__':
    for x in range(1, 6):
        get_one_page(x)

补充

滚动页面：有些网页不滚动的话数据获取不全
b.execute_script(‘window.scrollBy()’)
js让网页滚动的方法:window.scrollBy(x方向偏移量, y方向偏移量)

浏览器配置
1.创建配置对象
options.add_argument(‘blink-settings=imagesEnable=false’)

2.取消测试环境
options.add_experimental_option(‘excludeSwitches’,[‘enable-automation’])

3.给浏览器对象添加配置
b = Chrome(options=options)

# 京东
from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('blink-settings=imagesEnabled=false')

options.add_experimental_option('excludeSwitches',['enable-automation'])

b = Chrome(options=options)
b.get('网址')
time.sleep(1)

# 不滚动可以得到多少个数据
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result))   # 30

# 滚动操作,连续循环 :
for _ in range(8):
    b.execute_script('window.scrollBy(0, 800)')
    time.sleep(1)

time.sleep(1)
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result))  # 60

反爬解释：爬虫拿别人在网络上公开的数据，合理使用数据，不能违法哦~

浏览器反爬：
浏览器伪装
登录反爬：
换个方式,cookie保存登录信息
人工完成登录,然后通过cookie完成自动登录
封ip反爬
找代理ip(花钱)

三、requests自动登录流程:

第一步：人工完成网页的登录

第二步：获取登录后的网页的cookie(右键 -> 检查 -> network -> all -> name中和网页地址一样的请求地址 -> 获取requestHeader中cookie值)

第三步：发送请求的时候给headers中添加cookie对应的键值对

headers = {
    'cookie': '...',
    'user-agent': '...'

}
response = requests.get('网址', headers=headers)

print(response)
print(response.text)

四、selenium 获取cookies

创建浏览器打开需要做自动登录的网站
留足够长的时间来完成人工登录 3.获取登录成功后的cookie
将获取到的cookie保存到本地文件中# 1b = Chrome()b.get('网址')# 2.完成人工登录的时候一定要保证浏览器对象(b)指向的页面中有登录成功信息input('是否完成登录：')# 3.cookies = b.get_cookies()# 4.import jsonwith open('files/网站名称.json', 'w', encoding='utf-8') as f: f.write(json.dumps(cookies))### 五、selenium 使用cookies1.创建浏览器,打开需要自动登陆的网站 2.添加cookie() 3.重新打开网站 b.get(‘网址’)

b = Chrome()
b.get('网址')

import json
# 获取本地保存的cookie值
with open('files/网站名称.json', encoding='utf-8') as f:
    cookies = json.loads(f.read())
    for x in cookies:
        b.add_cookie(x)

b.get('网址')

# # 保持浏览器一直存在
input('结束:')

标签： selenium python 前端

本文转载自: https://blog.csdn.net/qq_63449560/article/details/128584233
版权归原作者 百事不可乐BOOM 所有，如有侵权，请联系我们删除。

day19 selenium获取网页数据