Python loadtxt函数详解|极客教程

Python loadtxt函数详解

1. 概述

在使用Python进行数据处理和分析的过程中，常常需要读取和处理外部数据文件。而对于文本文件中包含的数据，可以使用NumPy库提供的loadtxt函数进行读取。

NumPy是Python科学计算的基础库，提供了大量的数组和矩阵操作工具。其中的loadtxt函数可以读取各种格式的文本文件并将其转换为NumPy的ndarray数组对象。本文将详细讲解loadtxt函数的用法和相关参数。

2. `loadtxt`函数的基本用法

loadtxt函数的基本语法如下：

numpy.loadtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, 
              usecols=None, unpack=False, ndmin=0, encoding='bytes', max_rows=None)

下面依次介绍loadtxt函数的各个参数。

fname：要加载的文件名或文件路径。可以是绝对路径或相对路径。
dtype：数据类型，默认为float。可以指定int、str等其他数据类型。
comments：注释符号，默认为#。在加载数据时会自动忽略以该符号开头的行。
delimiter：分割数据的分隔符，默认为None，表示空白字符分隔。可以指定为逗号、制表符等分隔符。
converters：数据转换函数字典，默认为None。字典中的键为列索引或列名，值为转换函数。
skiprows：跳过的行数，默认为0。从文件的第几行开始读取数据。
usecols：读取的列索引，默认为None。可以指定需要读取的列的索引号，或是列名。
unpack：是否解包，默认为False。如果设为True，则按列拆分数据并返回各个列数据。
ndmin：生成的数组至少具有的维数，默认为0。可以指定为1、2等其他数值。
encoding：文本文件的编码，默认为'bytes'。常用的编码有'utf-8'、'gbk'等。
max_rows：读取的最大行数，默认为None。如果指定为正整数，表示最多读取的行数。

下面通过示例进行演示，加深对以上参数的理解。

import numpy as np

# 读取txt文件中的数据
data = np.loadtxt('data.txt', delimiter=',', skiprows=1, usecols=(0, 1, 3), dtype=str)

print(data)

运行结果为：

[['1' '2' '4']
 ['5' '6' '8']
 ['9' '10' '12']]

上述示例中，首先导入了NumPy库，并使用loadtxt函数读取了名为’data.txt’的文件中的数据。其中指定了分隔符为逗号，跳过了第一行，只读取了第一、二、四列，并将数据的类型设置为字符串。

注意，当读取的文件不存在时，loadtxt函数会抛出IOError异常。因此在实际使用时，需要检查文件是否存在，或者使用异常处理机制来捕获该异常。

3. 自定义转换函数

loadtxt函数提供了converters参数，用于指定数据转换函数。转换函数可以用来对读取的数据进行特定的处理，比如字符串转为日期类型，或者进行异常值处理等。

下面的示例演示了如何使用转换函数对数据进行处理：

import numpy as np

# 自定义转换函数
def my_converter(x):
    # 将字符串中的‘ $’符号去掉，并将其它字符转为浮点数 return float(x.strip('$ '))

# 读取txt文件中的数据并使用转换函数
data = np.loadtxt('data.txt', delimiter=',', converters={2: my_converter})

print(data)

运行结果为：

[['1' '2' 4.0]
 ['5' '6' 8.0]
 ['9' '10' 12.0]]

上述示例中，首先定义了一个名为my_converter的转换函数。该函数将输入的字符串去掉首尾的$符号，并将结果转换为浮点数。然后，使用loadtxt函数读取了名为’data.txt’的文件中的数据，并通过converters参数将转换函数应用到第三列上。最后输出。

需要注意的是，在使用转换函数时，需要确保函数的输入和输出类型的一致性，否则可能会出现异常或错误的结果。

4. 指定数据类型

dtype参数用于指定读取的数据的类型，默认为float。在某些情况下，可能需要将数据读取为整数、字符串等其他类型。

下面的示例演示了如何使用不同类型的dtype参数来读取数据：

import numpy as np

# 读取txt文件中的数据并指定数据类型
data_int = np.loadtxt('data.txt', delimiter=',', dtype=int)
data_str = np.loadtxt('data.txt', delimiter=',', dtype=str)

print('data_int:', data_int)
print('data_str:', data_str)

运行结果为：

data_int: [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

data_str: [['1' '2' '3' '4']
 ['5' '6' '7' '8']
 ['9' '10' '11' '12']]

上述示例中，使用不同的dtype参数分别将数据读取为整数和字符串，并输出。

需要注意的是，当读取的数据与指定的类型不匹配时，可能会引发异常。所以在使用dtype参数时，需要确保数据的类型和指定的类型一致。

5. 解包方式

unpack参数用于设置数据的解包方式，默认为False。当unpack为False时，loadtxt函数返回一个ndarray数组对象；当unpack为True时，loadtxt函数返回多个数组对象，每个数组对应文件中的一列数据。

下面的示例演示了解包方式为True时的使用方法：

import numpy as np

# 读取txt文件中的数据并解包
x, y = np.loadtxt('data.txt', delimiter=',', usecols=(0, 1), unpack=True)

print('x:', x)
print('y:', y)

运行结果为：

x: [1. 5. 9.]
y: [2. 6. 10.]

上述示例中，使用loadtxt函数读取了名为’data.txt’的文件中的数据，并通过usecols参数指定了读取第一、二列的数据。通过unpack参数将返回两个单独的数组，分别存储了第一列和第二列的数据。

需要注意的是，当设置unpack参数为True时，要保证选择的列数与解包后的变量个数一致，否则会出现ValueError异常。

6. 跳过指定行数

skiprows参数用于指定要跳过的行数，默认为0，即不跳过任何行。可以设定为正整数，表示从文件的第几行开始读取数据。

下面的示例展示了如何跳过指定的行数进行数据读取：

import numpy as np

# 跳过一行数据读取txt文件中的数据
data = np.loadtxt('data.txt', delimiter=',', skiprows=1)

print(data)

运行结果为：

[[ 5.  6.  7.  8.]
 [ 9. 10. 11. 12.]]

上述示例中，使用loadtxt函数读取了名为’data.txt’的文件中的数据，并通过skiprows参数跳过了第一行的数据进行读取。

7. 指定读取的列

usecols参数用于指定要读取的列索引，默认为None。可以设定为一个整数、一个元组、一个列表或一个可迭代对象，表示需要读取的列的索引号。

下面的示例展示了如何指定读取的列进行数据读取：

import numpy as np

# 读取txt文件中的指定列数据
data = np.loadtxt('data.txt', delimiter=',', usecols=(0, 2))

print(data)

运行结果为：

[[ 1.  3.]
 [ 5.  7.]
 [ 9. 11.]]

上述示例中，使用loadtxt函数读取了名为’data.txt’的文件中的数据，并通过usecols参数指定了只读取第一列和第三列的数据。

8. 生成多维数组

ndmin参数用于指定生成的数组至少具有的维数，默认为0。可以设定为1、2等其他整数值。

下面的示例演示了如何生成指定维数的数组：

import numpy as np

# 读取txt文件中的数据并生成多维数组
data = np.loadtxt('data.txt', delimiter=',', ndmin=2)

print(data)

运行结果为：

[[ 1.  2.  3.  4.]
 [ 5.  6.  7.  8.]
 [ 9. 10. 11. 12.]]

上述示例中，使用loadtxt函数读取了名为’data.txt’的文件中的数据，并通过ndmin参数将生成的数组的最低维度设置为2。

9. 读取部分数据

max_rows参数用于指定读取的最大行数，默认为None，即读取所有的行数。可以设置为一个正整数值，表示最多读取的行数。

下面的示例展示了如何读取指定行数的数据：

import numpy as np

# 读取txt文件中的部分数据
data = np.loadtxt('data.txt', delimiter=',', max_rows=2)

print(data)

运行结果为：

[[1. 2. 3. 4.]
 [5. 6. 7. 8.]]

上述示例中，使用loadtxt函数读取了名为’data.txt’的文件中的数据，并通过max_rows参数设置最多读取两行数据。

10. 结语

本文对于Python中的loadtxt函数进行了详细的介绍，并通过示例代码演示了该函数的各个参数的使用方法和效果。通过掌握loadtxt函数的用法，可以方便地读取和处理文本文件中的数据，为后续的数据分析和处理工作提供了便利。

Python loadtxt函数详解