首先导包
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
指定的ChromeDriver 的可执行文件路径,告诉 Selenium 从何处启动这个服务(也即 ChromeDriver)。
service = Service(executable_path=r"C:\Program Files\Google\Chrome\Application\chromedriver.exe")
添加了一个启动参数,这个参数可以禁用特定的 Blink 引擎功能,Blink 是 Chrome 使用的渲染引擎。这里禁用的
AutomationControlled
特性可以帮助避免网站检测到你使用了自动化工具,从而让你的爬虫更难被识别。
opt = Options()
opt.add_argument('--disable-blink-features=AutomationControlled')
访问网页的url地址
url = 'https://www.baidu.com/'
这行代码初始化了一个 Chrome 浏览器实例。这里的
options
和
service
参数分别是你之前定义的 Chrome 启动选项和 ChromeDriver 服务。简单来说,这行代码实质上就是开启了一个(无头模式的)Chrome浏览器。
browser = webdriver.Chrome(options=opt, service=service)
这行代码让浏览器访问你指定的
url
。
get()
方法会阻塞执行,直到整个网页(包括相关的所有 Ajax 请求、图片等资源)都加载完成,或者超时(默认超时时间可以在创建 webdriver 对象时通过
timeout
参数来设定)
browser.get(url)
这行代码获取当前浏览器中的网页HTML代码。这个 HTML 代码是在 JavaScript 执行完成后的最终代码,所以它能包含 JavaScipt 生成的一些动态内容。
page_text = browser.page_source
打印输出获得的HTML代码
print(page_text)
最后右键运行即可
版权归原作者 ✎ℳ๓演绎生命的云彩~ 所有, 如有侵权,请联系我们删除。