Python文本处理 环境搭建

Python文本处理 环境搭建

为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,该环境既具有通用的Python功能,又具备数据科学所需的特殊包。我们首先看一下安装通用的Python,可以是Python 2或Python 3。但是,出于成熟度和对外部包的更广泛支持,我们将首选Python 2。

获取Python

最新的源代码、二进制文件、文档、新闻等信息均可在Python官方网站上获得。 https://www.python.org/

您可以从https://www.python.org/doc/下载Python文档。文档提供HTML、PDF和PostScript格式。

安装Python

Python发行版适用于各种平台。您只需下载适用于您平台的二进制代码并安装Python即可。

如果您平台的二进制代码不可用,则需要使用C编译器手动编译源代码。编译源代码可以更灵活地选择您安装中所需的功能。

以下是在各个平台上安装Python的简要概述:

Unix和Linux安装

在Unix/Linux机器上安装Python的简单步骤如下:

  • 打开Web浏览器并访问https://www.python.org/downloads/。

  • 跟随链接下载适用于Unix/Linux的压缩源代码。

  • 下载并解压文件。

  • 如果您想自定义某些选项,请编辑Modules/Setup文件。

  • 运行./configure脚本。

  • 运行make。

  • 运行make install。

这将安装Python在标准位置/usr/local/bin,其库位于/usr/local/lib/pythonXX,其中XX是Python的版本。

Windows安装

在Windows机器上安装Python的步骤如下:

  • 打开Web浏览器并访问https://www.python.org/downloads/。

  • 跟随链接下载Windows安装程序python-XYZ.msi文件,其中XYZ是您需要安装的版本。

  • 要使用此安装程序python-XYZ.msi,Windows系统必须支持Microsoft Installer 2.0。将安装程序文件保存到本地计算机,然后运行它以查看您的计算机是否支持MSI。

  • 运行下载的文件。这将启动Python安装向导,非常容易使用。只需接受默认设置,等待安装完成,即可完成安装。

Macintosh安装

最近的Mac电脑都预装了Python,但可能是几年前的版本。请访问http://www.python.org/download/mac/获取最新版本以及支持Mac开发所需的额外工具的安装说明。对于2003年之前发布的较旧版本的Mac OS,可以使用MacPython。

Jack Jansen维护此版本,并且您可以在他的网站上完整查看所有文档,网址是http://www.cwi.nl/~jack/macpython.html。您可以找到适用于Mac OS安装的完整安装细节。

设置PATH

程序和其他可执行文件可以位于多个目录中,因此操作系统提供了一个搜索路径,其中列出了操作系统用于搜索可执行文件的目录。

路径存储在环境变量中,这是操作系统维护的一种命名字符串。该变量包含对命令行和其他程序可用的信息。

在Unix系统中,该变量命名为PATH;在Windows系统中命名为Path(Unix区分大小写,而Windows不区分)。

在Mac OS中,安装程序会处理路径的详细信息。要从特定目录调用Python解释器,您必须将Python目录添加到您的路径中。

在Unix/Linux中设置路径

要在Unix中的特定会话中将Python目录添加到路径中 –

  • 在csh shell中 - 输入setenv PATH “$PATH:/usr/local/bin/python”并按Enter键。

  • 在bash shell(Linux)中 - 输入export ATH=”$PATH:/usr/local/bin/python”并按Enter键。

  • 在sh或ksh shell中 - 输入PATH=”$PATH:/usr/local/bin/python”并按Enter键。

  • 注意 - /usr/local/bin/python是Python目录的路径。

在Windows中设置路径

要在Windows中的特定会话中将Python目录添加到路径中 –

在命令提示符中 - 输入path %path%;C:\Python并按Enter键。

注意 - C:\Python是Python目录的路径。

Python环境变量

以下是Python可以识别的重要环境变量:

序号 变量与说明
1 PYTHONPATH 它类似于PATH。此变量告诉Python解释器在哪里找到导入到程序中的模块文件。它应包括Python源库目录和包含Python源代码的目录。PYTHONPATH有时由Python安装程序预设。
2 PYTHONSTARTUP 它包含一个包含Python源代码的初始化文件的路径。每次启动解释器时都会执行它。在Unix中,它被命名为.pythonrc.py,其中包含加载工具或修改PYTHONPATH的命令。
3 PYTHONCASEOK 它在Windows中用于指示Python在一个导入语句中找到第一个不区分大小写的匹配项。将此变量设置为任意值以激活它。
4 PYTHONHOME 它是一个替代的模块搜索路径。通常嵌入在PYTHONSTARTUP或PYTHONPATH目录中,以便轻松切换模块库。

运行Python

有三种不同的方法来启动Python −

交互式解释器

您可以从Unix、DOS或任何其他提供命令行解释器或shell窗口的系统中启动Python。

在命令行中输入 python 命令。

立即在交互式解释器中开始编码。

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

这是所有可用的命令行选项列表:

序号 选项和描述
1 -d 提供调试输出。
2 -O 生成优化的字节码(生成.pyo文件)。
3 -S 不运行import site在启动时查找Python路径。
4 -v 冗长输出(详细跟踪import语句)。
5 -X 禁用基于类的内建异常(仅使用字符串);从1.6版本开始已过时。
6 -c cmd 运行以cmd字符串发送的Python脚本。
7 file 从给定文件运行Python脚本。

从命令行运行脚本

可以通过在应用程序上调用解释器,在命令行上执行Python脚本,如下所示:

$python script.py # Unix/Linux

or

python% script.py # Unix/Linux

or 

C: >python script.py # Windows/DOS

注意 - 确保文件权限允许执行。

集成开发环境

如果您的系统支持Python的图形用户界面(GUI)应用程序,您也可以从GUI环境中运行Python。

  • Unix - IDLE是最早的Unix IDE for Python。

  • Windows - PythonWin是第一个Windows界面的Python IDE,并且是一个带有GUI的IDE。

  • Macintosh - Macintosh版本的Python以及IDLE IDE可以从主要网站下载,可作为MacBinary或BinHex’d文件。

安装NLTK包

NLTK非常容易集成到Python环境中。使用下面的命令将NLTK添加到环境中。

sudo pip install -U nltk

在每个章节中,我们将根据需要讨论其他库在Python程序中的使用。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程