开始使用Python
在第一章中,我们已经了解了网络爬虫是怎么回事。在这一章中,让我们看看如何用Python实现网络爬取。
为什么要用Python进行网络爬取
Python是实现网络爬取的一个流行工具。Python编程语言也被用于其他与网络安全、渗透测试以及数字取证应用有关的有用项目。使用Python的基础编程,可以在不使用任何其他第三方工具的情况下进行网络爬虫。
Python编程语言正在获得巨大的普及,使Python成为网络爬虫项目的好帮手的原因如下-
语法的简单性
与其他编程语言相比,Python具有最简单的结构。Python的这一特点使测试更容易,开发者可以更专注于编程。
内建的模块
使用Python进行网络爬虫的另一个原因是它所拥有的内置和外部有用的库。通过使用Python作为编程的基础,我们可以执行许多与网络爬虫有关的实现。
开源的编程语言
由于Python是一种开放源码的编程语言,它得到了社区的大力支持。
广泛的应用
Python可以用于各种编程任务,从小型的shell脚本到企业网络应用。
Python的安装
Python发行版可用于Windows、MAC和Unix/Linux等平台。我们只需要下载适用于我们平台的二进制代码来安装Python。但是,如果我们平台的二进制代码不可用,我们必须有一个C语言编译器,这样就可以手动编译源代码。
我们可以在各种平台上安装Python,如下所示
在 Unix 和 Linux 上安装 Python
你需要按照下面的步骤在Unix/Linux机器上安装Python。
第1步 - 进入链接https://www.python.org/downloads/
第2步 --在上面的链接中下载可用于Unix/Linux的压缩源代码。
第3步 - 将文件解压到你的电脑上。
第4步 – 使用下面的命令来完成安装 —
run ./configure script
make
make install
你可以在标准位置 /usr/local/bin 找到已安装的Python,在 /usr/local/lib/pythonXX 找到其库,其中XX是Python的版本。
在Windows上安装Python
你需要按照下面的步骤在Windows机器上安装Python。
第1步 - 转到链接https://www.python.org/downloads/
第2步 - 下载Windows安装程序 python-XYZ.msi 文件,其中XYZ是我们需要安装的版本。
第3步 - 现在,将安装程序文件保存到你的本地机器上,并运行MSI文件。
第4步 - 最后,运行下载的文件,调出 Python 安装向导。
在 Macintosh 上安装 Python
我们必须使用 Homebrew 来在Mac OS X上安装Python 3。Homebrew很容易安装,是一个很好的软件包安装工具。
Homebrew也可以通过使用以下命令来安装 −
$ ruby -e "$(curl -fsSL
[https://raw.githubusercontent.com/Homebrew/install/master/install)"](https://raw.githubusercontent.com/Homebrew/install/master/install\))
为了更新软件包管理器,我们可以使用以下命令 −
$ brew update
在以下命令的帮助下,我们可以在我们的MAC机器上安装Python3。
$ brew install python3
设置PATH
你可以使用下面的说明在各种环境下设置路径 –
在Unix/Linux上设置路径
使用下面的命令来设置路径,使用各种命令外壳 –
对于 csh shell
setenv PATH "$PATH:/usr/local/bin/python".
对于bash shell (Linux)
ATH="$PATH:/usr/local/bin/python".
对于sh或ksh外壳
PATH="$PATH:/usr/local/bin/python".
在Windows上设置路径
在Windows上设置路径,我们可以在命令提示符下使用路径 %path%;C:\Python,然后按回车。
运行Python
我们可以使用以下三种方式中的任何一种启动Python −
交互式解释器
像 UNIX 和 DOS 这样提供命令行解释器或 shell 的操作系统可以用来启动 Python。
我们可以在交互式解释器中开始编码,如下所示
第1步 - 在命令行中输入 python 。
第2步 - 然后,我们可以在交互式解释器中立即开始编码。
$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS
从命令行执行脚本
我们可以通过调用解释器在命令行上执行Python脚本。它可以被理解为: –
$python script.py # Unix/Linux
or
python% script.py # Unix/Linux
or
C: >python script.py # Windows/DOS
集成开发环境
如果系统有支持Python的GUI应用程序,我们也可以从GUI环境中运行Python。下面给出了一些在不同平台上支持Python的集成开发环境
UNIX 的 IDE - UNIX,对于 Python,有 IDLE IDE。
Windows 的 IDE - Windows 有 PythonWin IDE,它也有图形界面。
适用于 Macintosh 的 IDE – Macintosh 有 IDLE IDE,可以从主网站下载 MacBinary 或 BinHex’d 文件。