Python 去除字符串中的HTML标签

在本文中，我们将介绍如何使用Python去除字符串中的HTML标签。

什么是HTML标签？

HTML（HyperText Markup Language）是一种用于创建和呈现网页的标记语言。在HTML中，标签用于标识文本中的特定元素，比如标题、段落、链接等。HTML标签通常用尖括号表示，比如<p>用于表示段落。

但有时候我们从网络上或其他来源获取的字符串中可能包含HTML标签，而我们想要处理的只是纯文本部分，因此需要将HTML标签从字符串中删除。

使用正则表达式删除HTML标签

Python中的re模块提供了正则表达式的功能，可以用于匹配字符串中的特定模式。我们可以使用正则表达式来删除HTML标签。

下面是一个示例代码，演示了如何使用正则表达式删除HTML标签：

import re

def strip_html_tags(text):
    html_tags = re.compile('<.*?>')
    return re.sub(html_tags, '', text)

# 示例用法
html_string = '<p>这是一个<b>粗体</b>文本。</p>'
plain_string = strip_html_tags(html_string)
print(plain_string)  # 输出：这是一个粗体文本。

在上述示例中，我们定义了一个strip_html_tags函数，该函数接受一个字符串作为参数，并使用正则表达式<.*?>，匹配所有的HTML标签并将其替换为空字符串。最后返回处理后的纯文本字符串。

使用第三方库删除HTML标签

除了使用正则表达式外，还有一些第三方库可以用于删除HTML标签。其中一种常用的库是BeautifulSoup，它提供了丰富的功能，可以用于解析HTML文档。

下面是一个示例代码，演示了如何使用BeautifulSoup库删除HTML标签：

from bs4 import BeautifulSoup

def strip_html_tags(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

# 示例用法
html_string = '<p>这是一个<b>粗体</b>文本。</p>'
plain_string = strip_html_tags(html_string)
print(plain_string)  # 输出：这是一个粗体文本。

在上述示例中，我们首先导入BeautifulSoup库，并定义了一个strip_html_tags函数，该函数接受一个字符串作为参数。我们将字符串传递给BeautifulSoup类的构造函数，并指定解析器为html.parser。然后，使用get_text方法从解析后的文档中提取纯文本字符串，并返回结果。