BeautifulSoup 使用 Python BeautifulSoup 解析 HTML 表格

在本文中，我们将介绍如何使用 BeautifulSoup 库来解析 HTML 表格。BeautifulSoup 是一个强大的Python库，用于从HTML和XML文档中提取信息。它提供了许多功能，包括解析和遍历HTML树、搜索和修改树中的标签和文本等。通过使用 BeautifulSoup，我们可以轻松地提取表格中的数据，并进行后续的处理和分析。

阅读更多：BeautifulSoup 教程

什么是 HTML 表格？

HTML表格是用来展示结构化数据的最常用的方式之一。它由行和列组成，可以包含文本、图片、链接等元素。HTML表格通常使用表格标签\

包围，并使用行标签\

定义行，列标签\

定义列。

下面是一个简单的HTML表格的示例：

<table>
  <tr>
    <td>姓名</td>
    <td>年龄</td>
  </tr>
  <tr>
    <td>张三</td>
    <td>20</td>
  </tr>
  <tr>
    <td>李四</td>
    <td>25</td>
  </tr>
</table>

在这个例子中，我们有一个包含姓名和年龄的表格，有两行数据。

使用 BeautifulSoup 解析 HTML 表格

首先，我们需要安装 BeautifulSoup 库。可以使用 pip 命令来安装：

pip install beautifulsoup4

安装完成后，我们可以在 Python 中导入 BeautifulSoup：

from bs4 import BeautifulSoup

接下来，我们需要将 HTML 文档加载到 BeautifulSoup 中：

html_doc = """
<html>
<head>
<title>HTML 表格示例</title>
</head>
<body>
<table>
  <tr>
    <td>姓名</td>
    <td>年龄</td>
  </tr>
  <tr>
    <td>张三</td>
    <td>20</td>
  </tr>
  <tr>
    <td>李四</td>
    <td>25</td>
  </tr>
</table>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

现在，我们已经将 HTML 文档加载到 BeautifulSoup 对象中，可以开始解析表格了。

提取表格数据

要提取表格数据，我们首先需要找到表格标签\

table>。然后，我们可以使用 BeautifulSoup 提供的方法来遍历表格的行和列，并提取数据。

首先，找到表格标签：

table = soup.find('table')

然后，我们可以使用 find_all 方法来找到所有的行标签\

：

rows = table.find_all('tr')

接下来，我们可以遍历每一行，并找到该行的所有列标签\

。然后，我们可以使用 .text 属性来提取列的文本内容。

for row in rows:
    columns = row.find_all('td')
    for column in columns:
        print(column.text)

运行上述代码，将会输出表格中的每个单元格的文本内容。在我们的示例中，输出如下：

姓名
年龄
张三
20
李四
25

我们也可以将提取的数据存储在一个数据结构中，便于后续的处理和分析。例如，我们可以将每一行的数据存储为一个字典，并将所有行的字典存储在一个列表中：

data = []
for row in rows[1:]:
    columns = row.find_all('td')
    record = {
        '姓名': columns[0].text,
        '年龄': columns[1].text
    }
    data.append(record)

print(data)

运行上述代码，将会输出一个包含所有行数据的列表。在我们的示例中，输出如下：

[{'姓名': '张三', '年龄': '20'}, {'姓名': '李四', '年龄': '25'}]

修改表格数据

除了提取数据，我们还可以使用 BeautifulSoup 来修改表格数据。例如，我们可以将表格中的某一列的值全部修改为大写：

for row in rows[1:]:
    columns = row.find_all('td')
    columns[0].string = columns[0].text.upper()

print(table.prettify())

运行上述代码，将会将表格中的姓名列的值全部修改为大写，并输出修改后的表格：

<table>
  <tr>
    <td>姓名</td>
    <td>年龄</td>
  </tr>
  <tr>
    <td>张三</td>
    <td>20</td>
  </tr>
  <tr>
    <td>李四</td>
    <td>25</td>
  </tr>
</table>

总结

在本文中，我们介绍了如何使用 BeautifulSoup 库解析 HTML 表格。通过使用 BeautifulSoup，我们可以轻松地提取表格数据，并进行后续的处理和分析。我们可以使用 find 和 find_all 方法来定位表格标签和行标签，使用 .text 属性来提取数据，使用 .string 属性来修改数据。希望这篇文章能帮助你理解如何使用 BeautifulSoup 解析 HTML 表格。