DataFrame 转换为 NumPy 数组|极客教程

DataFrame 转换为 NumPy 数组

在数据处理和分析中，将数据从一种格式转换为另一种格式是一项常见的任务。Pandas 的 DataFrame 和 NumPy 的数组是Python中两种非常流行的数据结构。DataFrame 提供了一个灵活的数据结构，适合处理表格数据，而 NumPy 数组则提供了高效的数值计算功能。在某些情况下，为了利用 NumPy 提供的高效操作，我们可能需要将 DataFrame 转换为 NumPy 数组。本文将详细介绍如何将 DataFrame 转换为 NumPy 数组，并提供多个示例代码以展示不同的转换方法和技巧。

1. 基本转换方法

最基本的将 DataFrame 转换为 NumPy 数组的方法是使用 .values 属性或者 .to_numpy() 方法。这两种方法都可以直接从 DataFrame 中提取出数据，并将其存储为 NumPy 数组。

示例代码 1: 使用 `.values` 属性

import pandas as pd
import numpy as np

# 创建一个简单的DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 将DataFrame转换为NumPy数组
array = df.values
print(array)

Output:

DataFrame 转换为 NumPy 数组

示例代码 2: 使用 `.to_numpy()` 方法

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [40, 50, 60],
    'C': [70, 80, 90]
})

# 将DataFrame转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

2. 指定数据类型

在转换过程中，我们可以指定数组的数据类型。这对于确保数据处理的效率和准确性非常重要。

示例代码 3: 指定数据类型为 float

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 将DataFrame转换为NumPy数组，指定数据类型为float
array = df.to_numpy(dtype=float)
print(array)

Output:

DataFrame 转换为 NumPy 数组

3. 处理缺失数据

在实际应用中，数据中往往存在缺失值。NumPy 数组处理 NaN（不是数字）和 None 值有其特定的方式。

示例代码 4: 处理含有 NaN 的 DataFrame

import pandas as pd
import numpy as np

# 创建一个含有NaN的DataFrame
df = pd.DataFrame({
    'A': [1, np.nan, 3],
    'B': [4, 5, 6],
    'C': [np.nan, 8, 9]
})

# 将DataFrame转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

4. 选择特定的列

有时候我们只需要 DataFrame 中的某几列数据转换为数组。

示例代码 5: 选择特定列转换

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 选择特定列转换为NumPy数组
array = df[['A', 'C']].to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

5. 使用条件过滤

在转换为 NumPy 数组之前，我们可能需要根据某些条件过滤数据。

示例代码 6: 使用条件过滤数据

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [2, 3, 4, 5, 6]
})

# 使用条件过滤数据
filtered_df = df[df['A'] > 3]

# 将过滤后的DataFrame转换为NumPy数组
array = filtered_df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

6. 转换时保留列名

在某些情况下，我们希望在转换过程中保留列名，以便于后续处理。虽然 NumPy 数组本身不支持直接存储列名，但我们可以通过其他方式来处理。

示例代码 7: 转换时记录列名

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 记录列名
column_names = df.columns.tolist()

# 将DataFrame转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

7. 多维数据转换

DataFrame 可以存储多维数据，而在转换为 NumPy 数组时，这种结构可以被保留。

示例代码 8: 处理多维数据

import pandas as pd
import numpy as np

# 创建一个多维数据的DataFrame
data = {
    'A': [[1, 2], [3, 4]],
    'B': [[5, 6], [7, 8]]
}
df = pd.DataFrame(data)

# 将DataFrame转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

8. 性能考虑

在处理大规模数据时，转换性能是一个重要的考虑因素。.to_numpy() 方法通常比 .values 属性更优，因为它更灵活，支持更多的参数。

示例代码 9: 性能考虑

import pandas as pd
import numpy as np

# 创建一个大规模的DataFrame
df = pd.DataFrame(np.random.randint(0, 100, size=(10000, 4)), columns=list('ABCD'))

# 使用.to_numpy()转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

9. 复杂数据结构

DataFrame 支持比 NumPy 数组更复杂的数据结构，如时间序列、分类数据等。在转换这些复杂数据结构时，需要特别注意。

示例代码 10: 转换时间序列数据

import pandas as pd
import numpy as np

# 创建一个时间序列数据的DataFrame
times = pd.date_range('20230101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=times, columns=list('ABCD'))

# 将DataFrame转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

以上示例展示了从基本的 DataFrame 到 NumPy 数组的转换方法，以及在转换过程中可能遇到的一些问题和解决方案。通过这些示例，我们可以看到，虽然转换过程相对直接，但在实际应用中可能需要根据具体的数据特性和需求进行适当的调整和优化。

10. 转换包含字符串的 DataFrame

在处理包含字符串或其他非数值类型数据的 DataFrame 时，直接转换可能会导致性能下降或者数据类型不匹配的问题。我们可以通过选择或转换数据类型来优化这一过程。

示例代码 11: 转换包含字符串的 DataFrame

import pandas as pd
import numpy as np

# 创建一个包含字符串的DataFrame
df = pd.DataFrame({
    'A': ['one', 'two', 'three'],
    'B': ['four', 'five', 'six'],
    'C': [1, 2, 3]
})

# 将DataFrame中的数值列转换为NumPy数组
array = df[['C']].to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

11. 使用自定义转换函数

有时候，我们需要在转换过程中对数据进行一些自定义的处理，比如数据标准化、类型转换等。这可以通过应用函数来实现。

示例代码 12: 使用自定义转换函数

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 定义一个简单的转换函数，将所有值乘以2
def custom_transform(x):
    return x * 2

# 应用转换函数并转换为NumPy数组
array = df.apply(custom_transform).to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

12. 转换并处理时间数据

处理包含日期或时间的 DataFrame 时，我们可能需要特别处理这些列，以确保它们在转换后仍然保持有意义。

示例代码 13: 转换并处理时间数据

import pandas as pd
import numpy as np

# 创建一个包含日期的DataFrame
df = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', periods=4, freq='D'),
    'value': [10, 20, 30, 40]
})

# 将日期转换为字符串格式，然后转换为NumPy数组
array = df.astype({'date': 'str'}).to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

13. 处理分类数据

当 DataFrame 中包含分类数据时，直接转换可能不会保留这种数据的特性。我们可以先将分类数据转换为数值数据，然后再进行转换。

示例代码 14: 处理分类数据

import pandas as pd
import numpy as np

# 创建一个包含分类数据的DataFrame
df = pd.DataFrame({
    'grade': pd.Categorical(['excellent', 'good', 'fair', 'poor']),
    'score': [90, 75, 65, 50]
})

# 将分类数据转换为数值数据
df['grade'] = df['grade'].cat.codes

# 转换为NumPy数组
array = df.to_numpy()
print(array)

Output:

DataFrame 转换为 NumPy 数组

14. 保留索引信息

在某些情况下，DataFrame 的索引包含重要信息，我们可能希望在转换为 NumPy 数组时保留这些信息。

示例代码 15: 保留索引信息

import pandas as pd
import numpy as np

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}, index=['x', 'y', 'z'])

# 将索引和数据一起转换为NumPy数组
array = np.column_stack([df.index, df.values])
print(array)

Output:

DataFrame 转换为 NumPy 数组

15. 转换具有多级索引的 DataFrame

处理具有多级索引的 DataFrame 时，转换过程可能需要特别注意，以确保索引的层次结构被适当地保留或处理。

示例代码 16: 转换具有多级索引的 DataFrame

import pandas as pd
import numpy as np

# 创建一个具有多级索引的DataFrame
index = pd.MultiIndex.from_tuples([('one', 'a'), ('one', 'b'), ('two', 'a'), ('two', 'b')])
df = pd.DataFrame({
    'A': [10, 20, 30, 40],
    'B': [50, 60, 70, 80]
}, index=index)

# 将多级索引和数据一起转换为NumPy数组
array = np.column_stack([df.index.get_level_values(0), df.index.get_level_values(1), df.values])
print(array)