pandas读取txt|极客教程

pandas读取txt

概述

在数据处理和分析中，读取和处理文本文件是一项常见的任务。Python的pandas库提供了强大的函数和类，可以方便地读取和处理各种格式的文本文件，包括txt文件。本文将详细介绍如何使用pandas库读取txt文件，并展示一些常用的读取操作。

安装和导入pandas

要使用pandas库，首先需要安装它。可以通过在终端或命令提示符下运行以下命令来安装pandas：

pip install pandas

安装完成后，可以在Python脚本中导入pandas库：

import pandas as pd

读取txt文件

在开始读取txt文件之前，我们首先需要准备一个txt文件作为示例。在本文中，我们将使用名为data.txt的文件。假设该文件的内容如下：

姓名 年龄 性别
张三 20 男
李四 25 女
王五 30 男

要读取该文件，可以使用pandas库中的read_csv()函数。虽然函数名中包含了“csv”，但实际上该函数可以读取多种文本文件格式，包括txt。下面是读取txt文件的示例代码：

df = pd.read_csv('data.txt', delimiter=' ')
print(df)

在代码中，read_csv()函数的第一个参数是要读取的文件路径，我们将其指定为data.txt。第二个参数delimiter指定了分隔符，这里我们使用了空格作为分隔符。读取结果存储在一个DataFrame对象df中，并通过print()函数将其打印出来。

代码运行结果如下：

   姓名  年龄 性别
0  张三  20  男
1  李四  25  女
2  王五  30  男

可以看到，pandas成功地读取了txt文件，并按照表格的形式展示了数据。

自定义列名

在上面的示例中，pandas按照第一行的内容自动推断出了列名。然而，有时候txt文件可能没有列名，或者列名与数据行对齐存在问题。在这种情况下，我们可以自定义列名。

要自定义列名，可以使用names参数传递一个字符串列表给read_csv()函数。下面是示例代码：

df = pd.read_csv('data.txt', delimiter=' ', names=['姓名', '年龄', '性别'])
print(df)

运行结果如下：

   姓名  年龄 性别
0  张三  20  男
1  李四  25  女
2  王五  30  男

可以看到，列名已经被自定义为”姓名”、”年龄”和”性别”。

跳过指定行

有时候txt文件的开头几行可能是注释或其他无关的内容，我们希望在读取时跳过这些行。pandas提供了一个skiprows参数，用于指定要跳过的行数。

下面是一个示例，跳过前两行读取txt文件：

df = pd.read_csv('data.txt', delimiter=' ', skiprows=2, names=['姓名', '年龄', '性别'])
print(df)

运行结果如下：

   姓名  年龄 性别
0  王五  30  男

可以看到，只有最后一行被读取出来。

处理缺失值

在真实的数据中，经常会出现缺失值。pandas可以很好地处理这些缺失值。

在txt文件中，常见的表示缺失值的符号包括NaN、NA、NULL等。pandas可以自动识别和处理这些符号。

下面是一个示例，演示如何处理包含缺失值的txt文件：

df = pd.read_csv('data_nan.txt', delimiter=' ', names=['姓名', '年龄', '性别'])
print(df)

假设data_nan.txt的内容如下：

姓名 年龄 性别
张三 20 NaN
李四 25 女
王五 NA 男

运行结果如下：

   姓名    年龄   性别
0  张三  20.0  NaN
1  李四  25.0    女
2  王五   NaN    男

可以看到，pandas将缺失值自动表示为NaN，并正确地读取和展示了数据。

总结

本文介绍了使用pandas库读取txt文件的基本操作。首先，通过安装和导入pandas库进行准备。然后，通过read_csv()函数读取txt文件，并可以自定义列名、跳过指定行以及处理缺失值。使用这些基本操作，可以方便地读取和处理txt文件中的数据。

pandas读取txt