Python 从HTML表格中提取数据

在本文中，我们将介绍如何使用Python从HTML表格中提取数据。HTML表格是一种常见的数据呈现方式，通常用于网页上展示结构化的数据。我们可以利用Python的库和模块来解析HTML代码，并提取我们所需要的数据。

1. 使用BeautifulSoup库解析HTML

BeautifulSoup是一个Python库，用于从HTML或XML文档中提取数据。它可以帮助我们解析HTML代码，并提供一组简单而强大的工具来遍历文档树并搜索、提取我们需要的数据。

首先，我们需要安装BeautifulSoup库。可以使用以下命令来安装：

pip install beautifulsoup4

接下来，我们导入库并使用BeautifulSoup解析HTML代码：

from bs4 import BeautifulSoup

html_code = """
<html>
<head>
    <title>示例网页</title>
</head>
<body>
    <table>
        <tr>
            <th>姓名</th>
            <th>年龄</th>
            <th>性别</th>
        </tr>
        <tr>
            <td>张三</td>
            <td>28</td>
            <td>男</td>
        </tr>
        <tr>
            <td>李四</td>
            <td>32</td>
            <td>男</td>
        </tr>
        <tr>
            <td>玛丽</td>
            <td>25</td>
            <td>女</td>
        </tr>
    </table>
</body>
</html>
"""

soup = BeautifulSoup(html_code, "html.parser")

现在，我们已经成功地将HTML代码解析成一个BeautifulSoup对象。接下来，我们可以使用BeautifulSoup提供的方法来搜索和提取我们感兴趣的数据。

2. 从HTML表格中提取数据

2.1 提取表头信息

首先，我们可以使用find()方法找到表格的第一行，并提取出表头信息。在上面的例子中，表头信息是”姓名”、”年龄”和”性别”。

table = soup.find("table")
header_row = table.find("tr")
header_columns = header_row.find_all("th")

header_info = []
for column in header_columns:
    header_info.append(column.text)

print(header_info)

运行以上代码，我们将得到以下输出：

['姓名', '年龄', '性别']

2.2 提取表格数据

接下来，我们可以使用find_all()方法找到表格中的所有行，并提取出每一行的数据。在上面的例子中，我们将提取出”张三”、”28″、”男”这一行的数据。

data_rows = table.find_all("tr")[1:]

table_data = []
for row in data_rows:
    row_columns = row.find_all("td")
    row_data = []
    for column in row_columns:
        row_data.append(column.text)
    table_data.append(row_data)

print(table_data)

运行以上代码，我们将得到以下输出：

[['张三', '28', '男'], ['李四', '32', '男'], ['玛丽', '25', '女']]

现在，我们已经成功地从HTML表格中提取出了所有的数据，并以嵌套列表的形式存储在table_data中。

3. 处理提取出的数据

一旦我们从HTML表格中提取出数据，我们可以按照自己的需求进行后续处理。例如，我们可以将数据存储到数据库中，或者进行进一步的分析和可视化。

下面是一个示例，展示如何将提取出的数据存储到一个CSV文件中：

import csv

with open("table_data.csv", "w", newline="") as file:
    writer = csv.writer(file)
    writer.writerow(header_info)
    writer.writerows(table_data)

运行以上代码，我们将得到一个名为”table_data.csv”的CSV文件。打开该文件，我们可以看到表头和数据已经被成功地存储到了文件中。