Pandas 分裂大型数据框

在本文中，我们将介绍Pandas如何分裂大型数据框，使其在处理更大的数据集时具有更好的可读性和可维护性。

阅读更多：Pandas 教程

为什么要将Pandas数据框分裂？

大型数据集往往难以处理和理解。将它们分割成更小的部分可以显著提高其可读性和可维护性。这也可以让我们更好地了解数据集，更准确地分析它们。

例如，假设我们有一个包含许多行和列的大型数据集。我们想要分析该数据集，但是由于其规模巨大，这将变得非常费时。如果我们将该数据集拆分为几个较小的数据框，则可以更快地分析每个单独的数据框，并在分析期间更好地控制我们的内存使用情况。

如何将Pandas数据框拆分成更小的部分？

我们可以使用Pandas中的多个函数或方法来分割大型数据框，例如：

groupby()方法：按列或多列的值对数据框进行分组；
split()方法：根据特定的条件或分隔符拆分字符串列；
resample()方法：按特定时间内隔排列成数据块；
sample()方法：从数据框中随机抽取一定数量的行和/或列；
iloc[]和loc[]方法：按行或列的索引选取数据框的特定部分。

下面，我们将根据特定的条件拆分数据框，使用Pandas中的split()和groupby()方法进行演示。

使用`split()`方法拆分数据框

假设我们有以下数据框，其中包含一个包含名称和姓氏的人员列，我们想要将名称和姓氏拆分成单独的列：

import pandas as pd

# 创建数据框
df = pd.DataFrame({'Name': ['John Doe', 'Jane Smith', 'James Brown'], 'Age': [35, 28, 42]})

# 显示数据框
print(df)

输出：

          Name  Age
0     John Doe   35
1   Jane Smith   28
2  James Brown   42

我们可以使用split()方法来分割‘Name’列，将其拆分为“姓”和“名”两列：

# 将Name列拆分成“姓”和“名”
df[['Last Name', 'First Name']] = df['Name'].str.split(' ', 1, expand=True)

# 显示数据框
print(df)

输出：

          Name  Age Last Name First Name
0     John Doe   35      John        Doe
1   Jane Smith   28     Jane       Smith
2  James Brown   42    James      Brown

使用`groupby()`方法拆分数据框

假设我们有以下数据集，其中包含几个国家的人口和GDP数据：

import pandas as pd

# 创建数据框
df = pd.DataFrame({'Country': ['China', 'India', 'China', 'India', 'USA', 'USA'], 
                   'Category': ['Population', 'Population', 'GDP', 'GDP', 'Population', 'GDP'], 
                   'Amount': [1398, 1324, 1409.007, 270.592, 332.915, 21.439]})

# 显示数据框
print(df)

输出：

  Country    Category     Amount
0   China  Population  1398.0000
1   India  Population  1324.0000
2   China         GDP  1409.0070
3   India         GDP   270.5920
4     USA  Population   332.9150
5     USA         GDP    21.4390

我们可以使用groupby()方法，将数据框按国家和类别进行分组：

# 按国家和类别分组
grouped = df.groupby(['Country', 'Category'])

# 显示每组的总和
print(grouped.sum())

输出：

                     Amount
Country Category           
China   GDP       1409.0070
        Population 2796.0000
India   GDP        270.5920
        Population 1324.0000
USA     GDP         21.4390
        Population  332.9150

此时，我们可以更加轻松地分析每个国家和类别的总和。