Beautiful Soup 解析文档的部分内容

有多种情况下，你想要使用Beautifulsoup4仅提取特定类型的信息（仅<a>标签）。Beautifulsoup中的SoupStrainer类允许你只解析传入文档的特定部分。

一种方法是创建一个SoupStrainer对象，并将其作为parse_only参数传递给Beautifulsoup4构造函数。

SoupStrainer

SoupStrainer告诉BeautifulSoup要提取哪些部分，并且解析树仅包含这些元素。如果将所需信息缩小到HTML的特定部分，这将加快搜索结果的速度。

product = SoupStrainer('div',{'id': 'products_list'})
soup = BeautifulSoup(html,parse_only=product)

以上代码将仅从产品网站解析标题，标题可能位于标签字段内。

类似于上述，我们可以使用其他soupStrainer对象，从HTML标签中解析特定信息。以下是一些示例 –

from bs4 import BeautifulSoup, SoupStrainer

#Only "a" tags
only_a_tags = SoupStrainer("a")

#Will parse only the below mentioned "ids".
parse_only = SoupStrainer(id=["first", "third", "my_unique_id"])
soup = BeautifulSoup(my_document, "html.parser", parse_only=parse_only)

#parse only where string length is less than 10
def is_short_string(string):
   return len(string) < 10

only_short_strings =SoupStrainer(string=is_short_string)