pandas stack|极客教程

pandas stack

在pandas中，stack函数是一种非常有用的方法，可以将DataFrame的列标签（columns）“压缩”到行标签（index）中，从而实现数据重构的操作。本文将详细介绍stack函数的用法及其在数据处理中的应用。

1. 基本用法

首先，我们来看一个简单的示例。假设有以下DataFrame：

import pandas as pd
import numpy as np

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}

df = pd.DataFrame(data)
print(df)

运行结果如下：

接下来，我们可以使用stack函数将列标签“压缩”到行标签中：

stacked_df = df.stack()
print(stacked_df)

运行结果如下：

0  A    1
   B    4
1  A    2
   B    5
2  A    3
   B    6
dtype: int64

可以看到，通过stack函数，原本的DataFrame被重构为一个MultiIndex Series，其中每一行由原来DataFrame的一行数据构成。

2. 指定`level`参数

在实际应用中，我们可能会遇到多层索引的DataFrame，此时可以通过指定level参数来控制stack函数的操作。下面是一个示例：

data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}

df = pd.DataFrame(data)
df.columns = pd.MultiIndex.from_product([['X', 'Y'], ['a', 'b']])
print(df)

运行结果如下：

   X     Y    
   a  b  a  b
0  1  4  2  5
1  3  6  4  7
2  5  8  6  9

接下来，我们可以通过指定level参数为0，将第一层列标签压缩到行标签中：

stacked_df = df.stack(level=0)
print(stacked_df)

运行结果如下：

可以看到，通过指定level参数，我们可以灵活地控制stack函数的操作，从而实现不同类型的数据重构。

3. `dropna`参数的使用

在使用stack函数时，有时会遇到缺失值的情况。此时，我们可以通过dropna参数来控制是否丢弃缺失值。下面是一个示例：

data = {
    'A': [1, np.nan, 3],
    'B': [4, 5, np.nan]
}

df = pd.DataFrame(data)
print(df)

运行结果如下：

     A    B
0  1.0  4.0
1  NaN  5.0
2  3.0  NaN

接下来，我们可以使用stack函数，并指定dropna参数为False，来保留缺失值：

stacked_df = df.stack(dropna=False)
print(stacked_df)

运行结果如下：

0  A    1.0
   B    4.0
1  A    NaN
   B    5.0
2  A    3.0
   B    NaN
dtype: float64

可以看到，在指定dropna=False的情况下，stack函数会保留缺失值，而不会将其丢弃。

4. 实际应用示例

最后，我们来看一个实际应用的示例。假设我们有一个包含多个用户的销售数据，其中每个用户在不同月份的销售额保存在不同的列中。我们可以使用stack函数将列标签“压缩”到行标签中，以便更方便地进行数据分析。

data = {
    'User': ['Alice', 'Bob', 'Alice', 'Bob'],
    'Jan': [100, 200, 150, 250],
    'Feb': [120, 220, 160, 270]
}

df = pd.DataFrame(data)
print(df)

运行结果如下：

    User  Jan  Feb
0  Alice  100  120
1    Bob  200  220
2  Alice  150  160
3    Bob  250  270

接下来，我们可以使用set_index函数将User列设置为索引，然后调用stack函数来重构数据：

df.set_index('User', inplace=True)
stacked_df = df.stack()
print(stacked_df)

运行结果如下：

User      
Alice  Jan    100
       Feb    120
Bob    Jan    200
       Feb    220
Alice  Jan    150
       Feb    160
Bob    Jan    250
       Feb    270
dtype: int64

通过上述操作，我们成功将原始的销售数据重构为一个MultiIndex Series，方便进行后续的数据分析和可视化。

总结一下，stack函数是pandas中非常有用的数据重构方法，能够方便地将列标签“压缩”到行标签中，实现数据结构的转换。在实际应用中，我们可以灵活地结合多层索引和其他参数，实现不同类型的数据重构。