Beautiful Soup 解析文档的部分内容
有多种情况下,你想要使用Beautifulsoup4仅提取特定类型的信息(仅<a>
标签)。Beautifulsoup中的SoupStrainer类允许你只解析传入文档的特定部分。
一种方法是创建一个SoupStrainer对象,并将其作为parse_only参数传递给Beautifulsoup4构造函数。
SoupStrainer
SoupStrainer告诉BeautifulSoup要提取哪些部分,并且解析树仅包含这些元素。如果将所需信息缩小到HTML的特定部分,这将加快搜索结果的速度。
以上代码将仅从产品网站解析标题,标题可能位于标签字段内。
类似于上述,我们可以使用其他soupStrainer对象,从HTML标签中解析特定信息。以下是一些示例 –