HTML 利用 VBA 从网页上爬取数据

在本文中，我们将介绍如何使用 VBA（Visual Basic for Applications）从网页上爬取数据。HTML（Hypertext Markup Language）是一种标记语言，是Web页面的基础。VBA是微软的一种编程语言，常用于Microsoft Office中的宏编程。通过结合这两种技术，我们可以非常方便地从网页上抓取所需的数据。

阅读更多：HTML 教程

设置 VBA 环境

首先，我们需要在使用VBA之前设置一些环境。打开Excel，并按下Alt + F11打开VBA编辑器。在VBA编辑器中，点击工具，然后选择引用。在弹出的对话框中，勾选Microsoft Internet Controls和Microsoft HTML Object Library，然后点击确定。

这样，我们就成功地设置了VBA的开发环境，现在可以编写VBA代码来爬取网页数据了。

获取网页内容

首先，我们需要将指定的网页内容获取到本地。我们可以使用VBA中的XMLHTTP对象来实现这一功能。下面是一个示例代码：

Sub GetHTMLContent()
    Dim htmlReq As New XMLHTTP
    Dim htmlDoc As New HTMLDocument
    Dim url As String

    url = "https://www.example.com" ' 替换为目标网页的URL

    ' 发送HTTP请求
    htmlReq.Open "GET", url, False
    htmlReq.send

    ' 将返回的HTML内容加载到HTML文档对象中
    htmlDoc.body.innerHTML = htmlReq.responseText

    ' 在Excel中显示网页内容
    Sheets("Sheet1").Range("A1").Value = htmlDoc.body.innerHTML
End Sub

在上述示例中，我们使用了XMLHTTP对象来发送HTTP请求，并将返回的HTML内容加载到HTMLDocument对象中。最后，我们将HTML内容显示在Sheet1的A1单元格中。

解析网页内容

通过上述的示例代码，我们已经成功地将网页内容获取到本地。接下来，我们可以使用HTMLDocument对象来解析网页内容，以便提取我们需要的数据。

VBA中，我们可以使用getElementById、getElementsByClassName、getElementsByTagName等方法来选择网页中的元素。下面是一个示例代码，演示如何从网页中提取指定元素的数据：

Sub ParseHTMLContent()
    Dim htmlReq As New XMLHTTP
    Dim htmlDoc As New HTMLDocument
    Dim url As String
    Dim targetElement As Object
    Dim data As String

    url = "https://www.example.com" ' 替换为目标网页的URL

    ' 发送HTTP请求
    htmlReq.Open "GET", url, False
    htmlReq.send

    ' 将返回的HTML内容加载到HTML文档对象中
    htmlDoc.body.innerHTML = htmlReq.responseText

    ' 通过元素ID获取指定元素
    Set targetElement = htmlDoc.getElementById("targetElementID") ' 替换为目标元素的ID

    ' 提取元素的数据
    data = targetElement.innerText

    ' 在Excel中显示提取到的数据
    Sheets("Sheet1").Range("A1").Value = data
End Sub

在上述示例中，我们通过getElementById方法获取了网页中具有指定ID的元素，并提取了其内部文本。最后，我们将提取到的数据显示在Excel的Sheet1的A1单元格中。

遍历网页内容

有时候，我们需要遍历一个网页中的多个元素，以便获取更多的数据。在VBA中，我们可以使用getElementsByTagName、getElementsByClassName等方法来选择一组元素，并使用For Each循环来遍历它们。

下面是一个示例代码，演示如何遍历网页中的多个元素，并提取它们的数据：

Sub TraverseHTMLContent()
    Dim htmlReq As New XMLHTTP
    Dim htmlDoc As New HTMLDocument
    Dim url As String
    Dim targetElements As Object
    Dim targetElement As Object

    url = "https://www.example.com" ' 替换为目标网页的URL

    ' 发送HTTP请求
    htmlReq.Open "GET", url, False
    htmlReq.send

    ' 将返回的HTML内容加载到HTML文档对象中
    htmlDoc.body.innerHTML = htmlReq.responseText

    ' 通过元素标签获取一组元素
    Set targetElements = htmlDoc.getElementsByTagName("a") ' 替换为目标元素的标签

    ' 遍历元素并提取数据
    For Each targetElement In targetElements
        ' 在Excel中显示提取到的数据
        Sheets("Sheet1").Range("A1").Value = targetElement.innerText
    Next targetElement
End Sub

在上述示例中，我们通过getElementsByTagName方法获取了网页中具有指定标签的一组元素，并通过For Each循环遍历它们。在每次循环中，我们提取了元素的内部文本，并将其显示在Excel的Sheet1的A1单元格中。