HTML 获取JavaScript渲染后页面的HTML

在本文中，我们将介绍如何使用不同的方法获取JavaScript渲染后页面的HTML。当我们需要提取包含动态内容的网页时，传统的HTML解析器获取的是未经JavaScript处理的静态页面。为了获取动态生成的内容，我们需要使用一些技术来模拟用户与页面的交互。

阅读更多：HTML 教程

使用浏览器自动化工具

一种可行的方法是使用浏览器自动化工具，例如Selenium或Puppeteer。这些工具可以模拟用户与页面的交互，包括点击、滚动和填写表单等操作。在与页面进行交互后，我们可以轻松地获取渲染后的HTML。

以下是使用Python和Selenium获取渲染后页面的HTML的示例代码：

from selenium import webdriver

# 使用Chrome浏览器驱动
driver = webdriver.Chrome()

# 打开网页并进行交互操作
driver.get("https://example.com")
driver.find_element_by_id("button").click()
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

# 获取渲染后的HTML
html = driver.page_source

# 关闭浏览器驱动
driver.quit()

print(html)

在这个例子中，我们首先使用Selenium创建一个Chrome浏览器驱动。然后，我们打开一个网页并进行一些交互操作，例如点击按钮和滑动页面。最后，我们使用page_source属性获取渲染后的HTML。

使用无头浏览器

另一种方法是使用无头浏览器。无头浏览器是一种没有图形用户界面的浏览器，它可以在后台静默运行。使用无头浏览器，我们可以通过执行JavaScript来获取渲染后的HTML。

Puppeteer是一个非常流行的无头浏览器工具，它可以通过Node.js进行操作。以下是使用Puppeteer获取渲染后页面的HTML的示例代码：

const puppeteer = require('puppeteer');

(async () => {
  // 启动无头浏览器
  const browser = await puppeteer.launch();

  // 创建一个新页面
  const page = await browser.newPage();

  // 打开网页并进行交互操作
  await page.goto('https://example.com');
  await page.click('#button');
  await page.evaluate(() => {
    window.scrollTo(0, document.body.scrollHeight);
  });

  // 获取渲染后的HTML
  const html = await page.content();

  console.log(html);

  // 关闭无头浏览器
  await browser.close();
})();

在这个例子中，我们使用Puppeteer启动一个无头浏览器。然后，我们创建一个新页面并打开目标网页。通过执行JavaScript，我们点击按钮并滚动页面。最后，我们使用content方法获取渲染后的HTML。

使用API

一些网页提供了API来获取渲染后的页面内容。这些API通常返回JSON格式的数据，其中包含页面的HTML。

以下是使用Puppeteer和Express框架创建一个简单的API，用于获取渲染后页面的HTML的示例代码：

const express = require('express');
const puppeteer = require('puppeteer');

const app = express();

app.get('/api/get-html', async (req, res) => {
  // 启动无头浏览器
  const browser = await puppeteer.launch();

  // 创建一个新页面
  const page = await browser.newPage();

  // 打开网页并进行交互操作
  await page.goto('https://example.com');
  await page.click('#button');
  await page.evaluate(() => {
    window.scrollTo(0, document.body.scrollHeight);
  });

  // 获取渲染后的HTML
  const html = await page.content();

  // 关闭无头浏览器
  await browser.close();

  // 返回HTML响应
  res.send(html);
});

app.listen(3000, () => {
  console.log('API服务器启动成功！');
});