NumPy中的flatten()函数：高效数组展平操作详解|极客教程

NumPy中的flatten()函数：高效数组展平操作详解

NumPy是Python中用于科学计算的核心库之一，它提供了大量用于处理多维数组的强大工具。其中，flatten()函数是一个非常实用的方法，用于将多维数组转换为一维数组。本文将深入探讨NumPy中的flatten()函数，包括其用法、参数、返回值以及在实际应用中的各种场景。

1. flatten()函数简介

flatten()是NumPy数组对象的一个方法，用于将多维数组”展平”成一维数组。这个操作在数据预处理、特征提取和机器学习模型输入等场景中非常有用。

基本语法

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
flattened = arr.flatten()
print("Original array from numpyarray.com:")
print(arr)
print("Flattened array:")
print(flattened)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

在这个例子中，我们首先创建了一个2×3的二维数组，然后使用flatten()方法将其转换为一维数组。输出结果将显示原始数组和展平后的数组。

2. flatten()函数的参数

flatten()函数有一个可选参数order，用于指定元素在内存中的存储顺序。

order参数

'C'（默认）：按行优先顺序
'F'：按列优先顺序
'A'：按原数组的存储顺序
'K'：按元素在内存中的出现顺序

让我们通过示例来理解这些不同的顺序：

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]], order='F')
print("Original array from numpyarray.com:")
print(arr)

print("C-style (row-major) flattening:")
print(arr.flatten('C'))

print("F-style (column-major) flattening:")
print(arr.flatten('F'))

print("A-style (preserve original order) flattening:")
print(arr.flatten('A'))

print("K-style (memory order) flattening:")
print(arr.flatten('K'))

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了使用不同的order参数对同一个数组进行展平的结果。注意，原始数组是以Fortran顺序（列优先）创建的，这会影响’A’和’K’顺序的结果。

3. flatten()与ravel()的比较

NumPy中还有一个类似的函数ravel()，它也可以用来展平数组。主要区别在于：

flatten()总是返回数组的副本
ravel()返回视图（如果可能），否则返回副本

让我们通过一个例子来说明这个区别：

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])
print("Original array from numpyarray.com:")
print(arr)

flattened = arr.flatten()
raveled = arr.ravel()

print("After modifying flattened array:")
flattened[0] = 99
print("Original:", arr)
print("Flattened:", flattened)

print("After modifying raveled array:")
raveled[0] = 88
print("Original:", arr)
print("Raveled:", raveled)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

在这个例子中，我们可以看到修改flatten()的结果不会影响原始数组，而修改ravel()的结果可能会影响原始数组（如果返回的是视图）。

4. 在多维数组上使用flatten()

flatten()函数可以应用于任何维度的数组。让我们看一个三维数组的例子：

import numpy as np

arr_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("3D array from numpyarray.com:")
print(arr_3d)

flattened_3d = arr_3d.flatten()
print("Flattened 3D array:")
print(flattened_3d)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何将一个3x2x2的三维数组展平为一维数组。

5. 在非连续数组上使用flatten()

对于非连续的数组（例如，通过切片创建的数组），flatten()仍然可以正常工作，但会创建一个新的连续数组：

import numpy as np

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print("Original array from numpyarray.com:")
print(arr)

sliced = arr[:, ::2]  # 选择所有行，每隔一列
print("Sliced array:")
print(sliced)

flattened_sliced = sliced.flatten()
print("Flattened sliced array:")
print(flattened_sliced)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

在这个例子中，我们首先创建了一个3×4的数组，然后通过切片操作选择了每隔一列的元素，最后对这个非连续数组进行了展平操作。

6. 在结构化数组上使用flatten()

flatten()函数也可以用于结构化数组，但结果可能不如预期：

import numpy as np

dt = np.dtype([('name', 'U10'), ('age', 'i4')])
arr = np.array([('Alice', 25), ('Bob', 30), ('Charlie', 35)], dtype=dt)
print("Structured array from numpyarray.com:")
print(arr)

flattened = arr.flatten()
print("Flattened structured array:")
print(flattened)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

在这个例子中，我们创建了一个包含名字和年龄的结构化数组。使用flatten()后，我们得到的是一个一维的结构化数组，而不是一个普通的一维数组。

7. 在矩阵上使用flatten()

NumPy的矩阵对象也支持flatten()方法：

import numpy as np

matrix = np.matrix([[1, 2, 3], [4, 5, 6]])
print("Matrix from numpyarray.com:")
print(matrix)

flattened_matrix = matrix.flatten()
print("Flattened matrix:")
print(flattened_matrix)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何将一个NumPy矩阵展平为一维数组。注意，结果是一个普通的NumPy数组，而不是矩阵对象。

8. 在复数数组上使用flatten()

flatten()函数也可以用于复数数组：

import numpy as np

complex_arr = np.array([[1+2j, 3+4j], [5+6j, 7+8j]])
print("Complex array from numpyarray.com:")
print(complex_arr)

flattened_complex = complex_arr.flatten()
print("Flattened complex array:")
print(flattened_complex)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何将一个包含复数的2×2数组展平为一维数组。

9. 使用flatten()处理大型数组

对于大型数组，flatten()可能会消耗大量内存，因为它创建了一个新的数组。在这种情况下，使用ravel()或迭代器可能更有效：

import numpy as np

large_arr = np.arange(1000000).reshape(1000, 1000)
print("Large array shape from numpyarray.com:", large_arr.shape)

# 使用flatten()
flattened = large_arr.flatten()
print("Flattened array shape:", flattened.shape)

# 使用ravel()
raveled = large_arr.ravel()
print("Raveled array shape:", raveled.shape)

# 使用迭代器
it = np.nditer(large_arr)
first_10 = [next(it) for _ in range(10)]
print("First 10 elements using iterator:", first_10)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何处理一个1000×1000的大型数组。我们比较了flatten()和ravel()的结果，并展示了如何使用迭代器来访问数组元素而不需要完全展平数组。

10. 在自定义类型的数组上使用flatten()

flatten()函数也可以用于包含自定义类型的数组：

import numpy as np

class Point:
    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __repr__(self):
        return f"Point({self.x}, {self.y})"

dt = np.dtype([('point', Point)])
arr = np.array([(Point(1, 2),), (Point(3, 4),), (Point(5, 6),)], dtype=dt)
print("Custom type array from numpyarray.com:")
print(arr)

flattened = arr.flatten()
print("Flattened custom type array:")
print(flattened)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何创建一个包含自定义Point类的结构化数组，并对其进行展平操作。

11. 在masked数组上使用flatten()

NumPy的masked数组也支持flatten()方法：

import numpy as np
import numpy.ma as ma

arr = np.array([[1, 2, 3], [4, 5, 6]])
mask = np.array([[True, False, True], [False, True, False]])
masked_arr = ma.masked_array(arr, mask)
print("Masked array from numpyarray.com:")
print(masked_arr)

flattened_masked = masked_arr.flatten()
print("Flattened masked array:")
print(flattened_masked)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何创建一个masked数组并对其进行展平操作。注意，展平后的数组仍然保留了掩码信息。

12. 在记录数组上使用flatten()

记录数组是一种特殊的结构化数组，它也支持flatten()方法：

import numpy as np

dt = np.dtype({'names': ['name', 'age', 'weight'],
                'formats': ['U10', 'i4', 'f4']})
rec_arr = np.array([('Alice', 25, 55.0), ('Bob', 30, 70.5), ('Charlie', 35, 65.2)], dtype=dt)
print("Record array from numpyarray.com:")
print(rec_arr)

flattened_rec = rec_arr.flatten()
print("Flattened record array:")
print(flattened_rec)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何创建一个包含名字、年龄和体重的记录数组，并对其进行展平操作。

13. 在字符串数组上使用flatten()

flatten()函数也可以用于字符串数组：

import numpy as np

str_arr = np.array([['apple', 'banana'], ['cherry', 'date']])
print("String array from numpyarray.com:")
print(str_arr)

flattened_str = str_arr.flatten()
print("Flattened string array:")
print(flattened_str)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何将一个2×2的字符串数组展平为一维数组。

14. 在布尔数组上使用flatten()

布尔数组也可以使用flatten()方法：

import numpy as np

bool_arr = np.array([[True, False, True], [False, True, False]])
print("Boolean array from numpyarray.com:")
print(bool_arr)

flattened_bool = bool_arr.flatten()
print("Flattened boolean array:")
print(flattened_bool)

Output:

NumPy中的flatten()函数：高效数组展平操作详解

这个例子展示了如何将一个2×3的布尔数组展平为一维数组。

15. 结合其他NumPy函数使用flatten()

flatten()函数常常与其他NumPy函数结合使用，例如：

import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Original array from numpyarray.com:")
print(arr)

# 使用flatten()和sum()
total = arr.flatten().sum()
print("Sum of all elements:", total)

# 使用flatten()和mean()
average = arr.flatten().mean()
print("Average of all elements:", average)

# 使用flatten()和max()
maximum = arr.flatten().max()
print("Maximum element:", maximum)