Beautiful Soup教程
在本教程中,我们将向你展示如何使用Beautiful Soup 4在Python中进行网络刮削,以获取HTML、XML和其他标记语言中的数据。在本教程中,我们将尝试从各种不同的网站(包括IMDB)上抓取网页。我们将介绍Beautiful Soup 4,这是Python的基本工具,用于有效和清晰地导航、搜索和解析HTML网页。我们试图在本教程中涵盖Beautiful Soup 4的几乎所有功能。你可以把本教程中介绍的多种功能结合到一个更大的程序中,从网站上抓取多种有意义的数据,作为输入到其他一些子程序中。
听众
本教程基本上是为了指导你对一个网页进行伤痕处理。所有这些的基本要求是要从巨大的无组织的数据集中获得有意义的数据。本教程的目标受众可以是以下任何人:
- 任何想知道–如何使用BeautifulSoup 4在python中抓取网页的人。
-
任何数据科学的开发者/爱好者或任何人,如何使用这些刮出的(有意义的)数据到不同的python数据科学库,以做出更好的决定。
前提条件
虽然本教程没有强制性要求。但是,如果你有任何或所有(超级酷)关于以下提到的技术的知识,这将是一个额外的优势。