Beautiful Soup – 安装
由于BeautifulSoup不是一个标准的python库,我们需要先安装它。我们将安装BeautifulSoup 4库(也被称为BS4),它是最新的。
为了隔离我们的工作环境,以免干扰现有的设置,让我们首先创建一个虚拟环境。
创建一个虚拟环境(可选)
虚拟环境允许我们为一个特定的项目创建一个隔离的python工作副本,而不影响外部设置。
安装任何python包机的最好方法是使用pip,然而,如果pip还没有安装(你可以在你的命令或shell提示符中使用 “pip -version “来检查),你可以通过以下命令来安装
Linux环境
Windows环境
要在windows下安装pip,请执行以下步骤
- 从https://bootstrap.pypa.io/get-pip.py或 从github上下载get-pip.py到你的电脑。
-
打开命令提示符,导航到包含get-pip.py文件的文件夹。
-
运行下面的命令 –
就这样,pip现在已经安装在你的windows机器上了。
你可以通过运行下面的命令来验证你的pip是否安装了
安装虚拟环境
在你的命令提示符下运行以下命令
运行后,你会看到下面的屏幕截图 —
下面的命令将在你的当前目录下创建一个虚拟环境(”myEnv”)。
屏幕截图
要激活你的虚拟环境,请运行以下命令 –
在上面的截图中,你可以看到我们有 “myEnv “作为前缀,这告诉我们,我们在虚拟环境 “myEnv “下。
要从虚拟环境中出来,请运行deactivate。
由于我们的虚拟环境已经准备好了,现在让我们来安装 beautifulsoup。
安装BeautifulSoup
由于BeautifulSoup不是一个标准库,我们需要安装它。我们将使用BeautifulSoup 4包(被称为bs4)。
Linux机器
要在Debian或Ubuntu linux上使用系统包管理器安装bs4,请运行下面的命令 —
你可以使用easy_install或pip来安装bs4(如果你发现使用系统打包器安装有问题的话)。
(如果你使用python3,你可能需要分别使用easy_install3或pip3)
Windows机器
在windows下安装beautifulsoup4是非常简单的,尤其是当你已经安装了pip。
所以现在beautifulsoup4已经安装在我们的机器上了。让我们来谈谈安装后遇到的一些问题。
安装后的问题
在windows机器上,你可能会遇到,错误的版本被安装的错误,主要是通过—
- 错误: ImportError “No module named HTMLParser” ,那么你必须在Python 3下运行Python 2版本的代码。
-
错误: ImportError “No module named html.parser” 错误,那么你必须在Python 2下运行Python 3版本的代码。
摆脱以上两种情况的最好方法是重新安装BeautifulSoup,完全删除现有的安装。
如果你在ROOT_TAG_NAME = u'[document]’这一行得到 SyntaxError “Invalid syntax” ,那么你需要将Python 2代码转换为Python 3,只需安装软件包 –
或者通过在bs4目录下手动运行python的2到3转换脚本 –
安装一个解析器
默认情况下,Beautiful Soup 支持包含在 Python 标准库中的 HTML 解析器,然而它也支持许多外部的第三方 python 解析器,如 lxml 解析器或 html5lib 解析器。
要安装 lxml 或 html5lib 解析器,请使用命令 —
Linux机器
Windows机器
一般来说,用户使用lxml是为了追求速度,如果你使用老版本的python 2(2.7.3版本之前)或python 3(3.2.2之前),建议使用lxml或html5lib解析器,因为python的内置HTML解析器在处理老版本方面不是很好。
运行Beautiful Soup
现在是时候在一个html页面中测试我们的Beautiful Soup包了(以网页为例 –https://www.tutorialspoint.com/index.htm ,你可以选择你想要的任何其他网页),并从其中提取一些信息。
在下面的代码中,我们试图从网页中提取标题-
输出
一个常见的任务是提取一个网页中的所有URLs。为此,我们只需要添加下面这行代码–
输出
同样,我们可以使用beautifulsoup4提取有用的信息。
现在让我们进一步了解上述例子中的 “Soup”。