Pandas：在Pandas数据框中创建多索引列

在本文中，我们将介绍如何在Pandas数据框中创建多索引列。

Pandas是用于数据处理的Python库。它提供了强大的数据结构和数据分析工具，可以轻松地进行数据处理、清洗和分析。其中，数据框是Pandas中最常用的数据结构之一。

在某些情况下，我们需要在数据框的列中使用多重索引。例如，考虑一个销售数据框，我们需要按地区和月份对销售量进行汇总，同时也需要按产品和月份对销售量进行汇总。这种情况下，我们可以使用多重列索引来表示这种层次结构数据。

阅读更多：Pandas 教程

如何在Pandas数据框中创建多索引列

要创建具有多个列索引的Pandas数据框，我们可以使用Pandas提供的MultiIndex类。MultiIndex类允许我们在列中创建多个层次结构的标签。

MultiIndex可以使用两种方式创建：

使用数组创建

例如，我们可以通过以下代码创建一个具有两层索引的数据框：

import pandas as pd

index = pd.MultiIndex.from_arrays([['foo', 'foo', 'bar', 'bar'], ['one', 'two', 'one', 'two']], names=['first', 'second'])

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]}, index=index)

print(df)

输出结果如下所示：

             A  B   C
first second         
foo   one    1  5   9
      two    2  6  10
bar   one    3  7  11
      two    4  8  12

我们可以看到，我们创建了一个多层次的数据框，其中第一层级是’foo’和’bar’，第二层级是’one’和’two’。

使用元组列表创建

我们也可以使用元组列表来创建MultiIndex，例如：

index = pd.MultiIndex.from_tuples([('foo', 'one'), ('foo', 'two'), ('bar', 'one'), ('bar', 'two')], names=['first', 'second'])

这将得到与使用数组相同的输出。

如何使用多索引列对数据进行分组和聚合

使用多索引列后，我们可以更轻松地对数据进行分组和聚合。例如，我们可以按第一层级分组，然后对每个组的第二层级求和：

grouped = df.groupby('first').sum()

print(grouped)

输出结果如下所示：

       A   B   C
first          
bar    7  15  23
foo    3  11  19

我们也可以按第二个层次分组：

grouped = df.groupby('second').sum()

print(grouped)

输出结果如下所示：

        A   B   C
second          
one     4  12  20
two     6  14  22

总结

在本文中，我们介绍了如何在Pandas数据框中创建多索引列。通过使用MultiIndex类，我们可以轻松地创建多层次列标签，并使用它们进行分组和聚合。这样，我们可以更轻松地处理层次结构数据。

Pandas：在Pandas数据框中创建多索引列

Pandas：在Pandas数据框中创建多索引列

如何在Pandas数据框中创建多索引列

如何使用多索引列对数据进行分组和聚合

总结

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Pandas 精品教程

回顶部