Pandas 将行数据转化为列头|极客教程

Pandas 将行数据转化为列头

在本文中，我们将介绍如何使用Python的Pandas库将行数据转化为列头，也就是“透视”数据。对于经常处理数据的人员来说，这个技能是非常必要的。在这种情况下，我们将使用以下数据集：

Name	Year	Value1	Value2
Alice	2020	10	20
Bob	2020	30	40
Alice	2021	50	60
Bob	2021	70	80

我们将使用Pandas库中的pivot_table()方法来完成这项任务。pivot_table()方法允许我们使用指定的行和列作为索引，并将值重塑为新的表格。

我们首先将在Python中导入Pandas库：

import pandas as pd

然后，我们将创建一个Pandas DataFrame对象并从CSV文件中加载数据：

data = pd.read_csv('data.csv')

现在，我们将使用pivot_table()方法来透视数据：

pivot = pd.pivot_table(
    data, 
    values=['Value1', 'Value2'], 
    index=['Name'], 
    columns=['Year']
)

在这里，我们使用Value1和Value2列作为数据值，并使用Name列作为行索引，Year列作为列索引。最终输出的透视表如下：

	Value1		Value2
Year	2020	2021	2020	2021
Name
Alice	10	50	20	60
Bob	30	70	40	80

现在我们可以看到，在透视表中，Name列被设置为行索引，Year列被设置为列索引，并且Value1和Value2列作为数据值被重塑为了新的列头。

我们还可以使用其他参数来控制透视表的输出。例如，我们可以使用aggfunc参数来指定如何计算数据值。默认情况下，pivot_table()方法使用numpy.mean()函数来计算值。我们可以指定其他函数，例如numpy.sum()或numpy.max()，以更改计算方法。例如：

pivot = pd.pivot_table(
    data, 
    values=['Value1', 'Value2'], 
    index=['Name'], 
    columns=['Year'], 
    aggfunc=numpy.max
)

这将返回以下透视表：

	Value1		Value2
Year	2020	2021	2020	2021
Name
Alice	10	50	20	60
Bob	30	70	40	80

在这个例子中，我们使用numpy.max()来计算Value1和Value2列的最大值。

我们还可以使用fill_value参数指定当存在缺失值时要填充的值。例如：

pivot = pd.pivot_table(
    data, 
    values=['Value1', 'Value2'], 
    index=['Name'], 
    columns=['Year'], 
    aggfunc=numpy.max, 
    fill_value=0
)

现在，透视表中的所有缺失值都被填充为0。

阅读更多：Pandas 教程

总结

在本文中，我们介绍了如何使用Pandas库将行数据转化为列头，以便更方便地处理和分析数据。使用pivot_table()方法，我们可以轻松地透视数据集并重塑数据表。我们还介绍了如何使用其他参数来控制透视表的输出，例如aggfunc和fill_value参数。透视数据对于数据处理和分析工作而言，透视数据是一项非常重要的技能。通过将行数据转化为列头，我们可以更方便地查看数据，并深入了解数据之间的关系。在Pandas中，pivot_table()方法为我们提供了一种简单而有效的透视数据的方式，使得数据处理更加简便和高效。