Pandas每列的value_counts应用

在本文中，我们将介绍使用Pandas的value_counts函数对每一列进行计数。

Pandas是Python中最受欢迎的数据分析库之一。value_counts函数常用于计算系列中不同值的出现次数，并将其转换为一种易于理解的方式。但是，如果您需要计算许多列，那么手动计算每一列可能会变得很麻烦。幸运的是，value_counts函数可以应用于整个数据框的每一列。

我们首先将导入所需的库，并创建一个具有3列的示例数据框：

import pandas as pd
import numpy as np

data = {
    'column1': ['A', 'B', 'C', 'B', 'B', 'A'],
    'column2': [1, 2, 1, 3, 2, 1],
    'column3': ['x', 'y', 'y', 'z', 'x', 'x']
}

df = pd.DataFrame(data)
print(df)

输出：

  column1  column2 column3
0       A        1      x
1       B        2      y
2       C        1      y
3       B        3      z
4       B        2      x
5       A        1      x

数据框由3列组成，每列都有多个值。我们可以使用value_counts函数计算每一列中不同值出现的次数。为了逐列应用该函数，我们可以使用apply函数。

counts_per_column = df.apply(pd.Series.value_counts)
print(counts_per_column)

输出：

   column1  column2  column3
1      2.0      3.0      1.0
2      1.0      2.0      1.0
3      NaN      1.0      1.0
A      2.0      NaN      3.0
B      3.0      NaN      1.0
C      1.0      NaN      NaN
x      NaN      2.0      2.0
y      NaN      1.0      2.0
z      NaN      1.0      1.0

apply函数将每个列传递给value_counts函数，并返回一个包含所有结果的新数据框。结果列根据它们的值进行排序，确保我们可以轻松地找到最常出现的值。

在我们的示例中，我们可以看到“column2”的最常见值是1和2，都出现了3次。我们还可以看到“column1”中的最常见值是“B”，它在数据中出现了3次。

阅读更多：Pandas 教程

总结

本文介绍了如何使用Pandas的 value_counts 函数在数据框中的每一列中计算每个值的出现次数。使用 apply 函数可以轻松地将该函数应用于整个数据框的每一列，并生成一个新数据框，其中包含每个列的计数结果。这个强大的工具可以帮助数据分析人员更好地了解数据集每个列的内容，从而更好地评估分析结果和提出结论。