Python pyppeteer基本使用

1. 简介

Pyppeteer是一个基于Python的无头浏览器库，它封装了Google Chrome DevTools Protocol，通过模拟用户操作来实现网页的自动化测试和爬取。这篇文章将详细介绍Pyppeteer的基本使用方法。

2. 安装pyppeteer

在开始之前，首先需要安装pyppeteer库。可以使用pip命令进行安装：

pip install pyppeteer

如果你使用的是Python 3.7版本以上，请使用最新版本的pyppeteer库，它支持最新的Chromium浏览器。如果是Python 3.6版本或以下，请使用pyppeteer 2.2.5版本。

3. 引入pyppeteer库

在Python脚本中，引入pyppeteer库的方法如下：

import asyncio
from pyppeteer import launch

asyncio：Python的异步IO库，用于实现异步操作。
launch：pyppeteer库的启动函数，用于启动无头浏览器实例。

4. 启动浏览器实例

在使用pyppeteer之前，我们需要先启动一个无头浏览器实例，可以通过以下代码实现：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们通过调用launch函数来启动浏览器实例，然后使用newPage函数创建一个新的页面对象。最后，通过close函数关闭浏览器实例。

5. 打开网页

通过上一步骤启动的浏览器实例，我们可以通过page对象来打开网页。以下是一个例子：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.example.com')
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们使用goto函数来加载指定的网页，然后可以进行后续的操作。

6. 截图

使用pyppeteer可以方便地对网页进行截图。以下是一个例子：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.example.com')
    await page.screenshot({'path': 'example.png'})
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们使用screenshot函数来截取当前页面的截图，并将截图保存为example.png文件。

7. 执行JavaScript代码

pyppeteer可以执行JavaScript代码，我们可以使用它来操作网页元素。以下是一个例子：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.example.com')
    await page.evaluate('document.querySelector("#myElement").textContent = "Hello World"')
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们使用evaluate函数来执行指定的JavaScript代码。这里的例子是将id为myElement的元素的内容修改为”Hello World”。

8. 获取网页内容

pyppeteer可以获取网页的HTML内容和元素的属性值。以下是一个例子：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.example.com')
    content = await page.content()
    print(content)
    element_text = await page.evaluate('document.querySelector("#myElement").textContent')
    print(element_text)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们使用content函数来获取当前页面的HTML内容，并打印出来。然后使用evaluate函数获取id为myElement元素的textContent属性值，并打印出来。

9. 等待页面加载完成

有时候我们需要在页面完全加载完成之后再进行后续的操作，可以使用waitFor函数来实现。以下是一个例子：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.example.com')
    await page.waitFor(5000)  # 等待5秒钟
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们使用waitFor函数来等待5秒钟，然后再进行后续操作。

10. 设置窗口大小和用户代理

pyppeteer可以设置浏览器窗口的大小和用户代理。以下是一个例子：

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.setViewport({'width': 1280, 'height': 800})  # 设置窗口大小为1280x800
    await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36')  # 设置用户代理
    await page.goto('https://www.example.com')
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

在上述代码中，我们使用setViewport函数来设置窗口大小，使用setUserAgent函数来设置用户代理。