Pandas 新的多级索引下合并列

在本文中，我们将介绍如何使用Pandas在新的多级索引下合并数据框的列。首先，让我们来了解一下多级索引。

多级索引

多级索引是指在Pandas中可以使用的将索引分为多个层次的方式。在多级索引中，每个层次可以有自己的名称。这就是说，索引可以由多个层级组成，每个层级都可以有自己的名称。例如，我们可以使用以下代码定义一个多级索引：

import pandas as pd
import numpy as np
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

这样定义的多级索引可以被用来创建一个数据框，例如：

df = pd.DataFrame(np.random.randn(8, 4), index=index, columns=['A', 'B', 'C', 'D'])

这个数据框的索引由两个层次组成，我们可以使用以下代码从中获取数据：

df.loc[('bar', 'one')]

合并列

现在让我们来看看如何在新的多级索引下合并数据框的列。假设我们有以下两个数据框：

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'E': ['E4', 'E5', 'E6', 'E7'],
                    'F': ['F4', 'F5', 'F6', 'F7'],
                    'G': ['G4', 'G5', 'G6', 'G7'],
                    'H': ['H4', 'H5', 'H6', 'H7']})

现在，我们想要将它们合并为一个数据框，但是我们希望在新的多级索引中创建新的层级。这可以通过使用“concat”函数来实现：

pd.concat([df1, df2], keys=['level1', 'level2'], axis=1)

concat函数是一个用于沿着给定轴连接一系列数据构建函数。上述代码中的“keys”参数用于指定数据框的每个列表头的层级标签。返回的数据框如下所示：

   level1                    level2
       A   B   C   D              E   F   G   H
0     A0  B0  C0  D0             E4  F4  G4  H4
1     A1  B1  C1  D1             E5  F5  G5  H5
2     A2  B2  C2  D2             E6  F6  G6  H6
3     A3  B3  C3  D3             E7  F7  G7  H7

在数据框之间合并列也可以使用join方法。例如，假设我们有如下数据框：

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3']})

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})

在这种情况下，在新的多级索引下合并这两个数据框的列可以使用join方法，代码如下：

df1.join(df2, how='outer', lsuffix='_left', rsuffix='_right')

这里，how参数指定合并方法为“outer”，lsuffix和rsuffix参数指定当有重复列名时使用的后缀。返回的数据框如下所示：

    A   B C_left D_left C_right D_right
0  A0  B0     C0     D0      C0      D0
1  A1  B1     C1     D1      C1      D1
2  A2  B2     C2     D2      C2      D2
3  A3  B3     C3     D3      C3      D3