Beautiful Soup教程
在本教程中,我们将向您展示如何使用Beautiful Soup 4在Python中执行网络抓取,以从HTML、XML和其他标记语言中获取数据。在这个教程中,我们将尝试从不同的网站(包括IMDB)上抓取网页。我们将介绍Beautiful Soup 4、Python基本工具以有效和清晰地导航、搜索和解析HTML网页。我们已经尽力在本教程中涵盖了Beautiful Soup 4的几乎所有功能。您可以将本教程中介绍的多个功能组合到一个更大的程序中,以将多个有意义的数据从网站捕获到其他子程序中。
教程对象
本教程基本上是为指导您进行网页抓取而设计的。所有这些的基本要求是从庞大的杂乱数据中获取有意义的数据。本教程的目标受众可以是以下任何人:
- 想要了解如何使用BeautifulSoup 4在Python中抓取网页的任何人。
-
任何数据科学开发者/爱好者或任何希望使用这个抓取的(有意义的)数据来使用不同的Python数据科学库来做出更好决策的人。
先决条件
尽管对于本教程没有强制要求。但是,如果您对以下任何一种技术有任何或全部(非常棒)先前知识,这将是一个附加优势: