BeautifulSoup 获取标签之外的文本和标签之内的文本

在本文中，我们将介绍如何使用BeautifulSoup库来获取HTML标签之外的文本和标签之内的文本。BeautifulSoup是一个用于解析HTML和XML文档的Python库，它提供了强大而灵活的功能，可用于提取网页上的信息。

获取标签之外的文本

有时候我们需要获取HTML标签之外的文本，例如网页的标题、导航栏等。使用BeautifulSoup的 get_text() 方法可以轻松地获得这些文本。

首先，我们需要安装BeautifulSoup库。可以使用以下命令在Python环境中安装BeautifulSoup：

pip install beautifulsoup4

下面是一个示例HTML代码：

<html>
  <head>
    <title>示例网页</title>
  </head>
  <body>
    <h1>欢迎来到示例网页</h1>
    <p>这是一个示例网页，用于演示BeautifulSoup的功能。</p>
    <div>
      <h2>重要通知</h2>
      <p>请务必阅读以下内容。</p>
      <ul>
        <li>通知1</li>
        <li>通知2</li>
        <li>通知3</li>
      </ul>
    </div>
    <p>感谢您的访问！</p>
  </body>
</html>

接下来，我们编写Python代码来获取HTML标签之外的文本：

from bs4 import BeautifulSoup

html = """
<html>
  <head>
    <title>示例网页</title>
  </head>
  <body>
    <h1>欢迎来到示例网页</h1>
    <p>这是一个示例网页，用于演示BeautifulSoup的功能。</p>
    <div>
      <h2>重要通知</h2>
      <p>请务必阅读以下内容。</p>
      <ul>
        <li>通知1</li>
        <li>通知2</li>
        <li>通知3</li>
      </ul>
    </div>
    <p>感谢您的访问！</p>
  </body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')
text_outside_tags = soup.get_text(strip=True, separator=' ')
print(text_outside_tags)

运行以上代码，输出结果如下：

示例网页 欢迎来到示例网页 这是一个示例网页，用于演示BeautifulSoup的功能。 重要通知 请务必阅读以下内容。 通知1 通知2 通知3 感谢您的访问！

我们使用 get_text() 方法将HTML标签之外的文本提取出来，并通过 strip=True 参数去除多余的空格，通过 separator=' ' 参数在文本之间添加空格分隔符。通过这种方式，我们可以方便地获取HTML标签之外的文本。

获取标签之内的文本

除了获取HTML标签之外的文本，有时候我们还需要获取HTML标签之内的文本，例如获取特定标签内的文字内容。BeautifulSoup也提供了相应的方法来实现这个功能。

下面是一个示例HTML代码：

<div>
  <h2>重要通知</h2>
  <p>请务必阅读以下内容。</p>
  <ul>
    <li>通知1</li>
    <li>通知2</li>
    <li>通知3</li>
  </ul>
</div>

接下来，我们编写Python代码来获取HTML标签之内的文本：

from bs4 import BeautifulSoup

html = """
<div>
  <h2>重要通知</h2>
  <p>请务必阅读以下内容。</p>
  <ul>
    <li>通知1</li>
    <li>通知2</li>
    <li>通知3</li>
  </ul>
</div>
"""

soup = BeautifulSoup(html, 'html.parser')
tag = soup.find('ul')
text_inside_tag = tag.get_text(strip=True, separator=' ')
print(text_inside_tag)

运行以上代码，输出结果如下：

通知1 通知2 通知3

我们使用 find() 方法找到 <ul> 标签，并使用 get_text() 方法获取该标签之内的文本。同样，我们通过 strip=True 参数去除多余的空格，通过 separator=' ' 参数在文本之间添加空格分隔符。通过这种方式，我们可以方便地获取HTML标签之内的文本。