BeautifulSoup 使用 BeautifulSoup 解析嵌套的 HTML 列表

在本文中，我们将介绍如何使用 BeautifulSoup 库解析嵌套的 HTML 列表。HTML 列表是网页中常见的元素之一，经常用来展示层级关系或者有序的元素。嵌套的 HTML 列表是指一个列表中包含另一个或多个列表，形成多层级的结构。使用 BeautifulSoup，我们可以轻松地提取和处理这种嵌套的 HTML 列表数据。

阅读更多：BeautifulSoup 教程

1. 创建 BeautifulSoup 对象

首先，我们需要导入 bs4 库并创建一个 BeautifulSoup 对象，以便对 HTML 进行解析。可以使用 BeautifulSoup 构造函数，并传入要解析的 HTML 字符串或者文件对象。

from bs4 import BeautifulSoup

html_doc = """
<html>
    <body>
        <ul>
            <li>Apple</li>
            <li>Banana</li>
            <li>
                <ul>
                    <li>Orange</li>
                    <li>Mango</li>
                </ul>
            </li>
        </ul>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

上述代码中，我们创建了一个包含嵌套列表的简单 HTML 文档，并将其传递给 BeautifulSoup 构造函数。

2. 定位嵌套列表

接下来，我们需要定位嵌套列表的位置，以便提取其中的数据。可以使用标签名、类名、属性等各种选择器来定位。在嵌套的 HTML 列表中，我们可以使用多次选择器迭代获取每个层级的列表元素。

nested_list = soup.find_all('ul')

for ul in nested_list:
    nested_items = ul.find_all('li')
    for li in nested_items:
        print(li.text)

在上述代码中，我们使用 find_all 方法定位所有的 ul 标签，并使用嵌套循环遍历每个层级的嵌套列表。最后，使用 text 属性提取每个列表元素的文本内容，并进行打印输出。

3. 处理多层级嵌套列表

如果 HTML 列表中存在多个层级的嵌套，我们可以使用递归的方式处理，以便提取所有层级的列表元素。

def process_nested_list(ul):
    nested_items = ul.find_all('li')
    for li in nested_items:
        print(li.text)
        nested_ul = li.find('ul')
        if nested_ul:
            process_nested_list(nested_ul)

nested_list = soup.find_all('ul')

for ul in nested_list:
    process_nested_list(ul)

在上述代码中，我们定义了一个递归函数 process_nested_list，其输入参数为 ul 元素。函数内部先提取当前层级的所有 li 元素，并进行打印输出。然后，继续查找下一层级的嵌套列表 ul，如果存在则递归调用 process_nested_list 函数。

这样，我们就可以逐层提取嵌套的 HTML 列表中的数据，并进行处理。

总结

本文介绍了如何使用 BeautifulSoup 解析嵌套的 HTML 列表。通过创建 BeautifulSoup 对象，并使用合适的选择器定位嵌套列表的位置，我们可以轻松提取嵌套列表中的数据。使用递归的方法，我们还可以处理多层级的嵌套列表。希望本文对你理解和使用 BeautifulSoup 解析嵌套的 HTML 列表有所帮助。