pandas count distinct|极客教程

pandas count distinct

在数据处理过程中，统计数据集中的不重复值是一项常见的任务。通过pandas库中的一些函数，我们可以很方便地对数据进行去重和计数操作。本文将详细介绍如何使用pandas来统计数据集中的不同值以及计算不同值的数量。

1. 读取数据集

首先，我们需要导入pandas库，并读取一个示例数据集来进行后续的操作。本文以一个名为”example.csv”的数据集为例，读取代码如下：

import pandas as pd

# 读取数据集
df = pd.read_csv("example.csv")
print(df)

运行以上代码，可以看到数据集中的内容如下：

   id  name
0   1  John
1   2  Jane
2   3  Alice
3   4  Bob
4   5  John
5   6  Jane
6   7  Alice
7   8  Bob
8   9  John
9  10  Jane

数据集包含两列，分别是”id”和”name”，我们将通过这个数据集来演示如何统计不同值的数量。

2. 统计不同值

2.1 统计某一列的不同值

首先，我们可以使用pd.Series.unique()函数来获取某一列的所有不同值，然后再计算总的不同值数量。具体代码如下：

# 统计'name'列的不同值
distinct_names = df['name'].unique()
count_names = len(distinct_names)

print("不同的姓名有：%d 个" % count_names)
print("姓名列表：", distinct_names)

运行以上代码，可以得到输出如下：

不同的姓名有：4 个
姓名列表： ['John' 'Jane' 'Alice' 'Bob']

通过以上代码，我们可以看到”nmae”列中总共有4个不同的姓名，分别是’John’、’Jane’、’Alice’和’Bob’。

2.2 统计整个数据集的不同值

除了统计某一列的不同值之外，我们还可以统计整个数据集中所有列的不同值。这里我们可以使用pd.DataFrame.nunique()函数来实现。具体代码如下：

# 统计整个数据集的不同值
distinct_values = df.nunique()
print("各列的不同值数量：")
print(distinct_values)

运行以上代码，可以得到输出如下：

各列的不同值数量：
id      10
name     4
dtype: int64

从输出可以看出，整个数据集中共有10个不同的”id”值和4个不同的”name”值。

3. 计算不同值的数量

在实际数据处理中，除了统计不同值之外，我们还经常需要计算各个不同值的数量。这时我们可以使用pd.Series.value_counts()函数来实现。具体代码如下：

# 计算'name'列中各个值的数量
name_counts = df['name'].value_counts()
print("姓名数量统计：")
print(name_counts)

运行以上代码，可以得到输出如下：

姓名数量统计：
Jane     3
John     3
Alice    2
Bob      2
Name: name, dtype: int64

通过以上代码，我们可以看到每个姓名出现的次数，其中’Jane’和’John’各出现3次，’Alice’和’Bob’各出现2次。

4. 使用示例

4.1 示例数据集

为了更好地展示value_counts()函数的使用，我们创建一个包含重复值的简单数据集。具体代码如下：

data = {
    'fruit': ['apple', 'banana', 'cherry', 'apple', 'banana', 'cherry', 'apple', 'banana', 'cherry'],
    'color': ['red', 'yellow', 'red', 'yellow', 'red', 'yellow', 'red', 'yellow', 'red']
}

df2 = pd.DataFrame(data)
print(df2)

运行以上代码，可以看到数据集的内容如下：

    fruit   color
0   apple     red
1  banana  yellow
2  cherry     red
3   apple  yellow
4  banana     red
5  cherry  yellow
6   apple     red
7  banana  yellow
8  cherry     red

4.2 统计示例数据集的不同值数量

我们可以使用value_counts()函数来统计示例数据集中每列的不同值数量。具体代码如下：

# 统计不同水果和颜色的数量
fruit_counts = df2['fruit'].value_counts()
color_counts = df2['color'].value_counts()

print("水果数量统计：")
print(fruit_counts)
print("\n颜色数量统计：")
print(color_counts)

运行以上代码，可以得到输出如下：

水果数量统计：
apple     3
banana    3
cherry    3
Name: fruit, dtype: int64

颜色数量统计：
red       6
yellow    3
Name: color, dtype: int64

通过以上结果，我们可以看到示例数据集中每种水果和颜色出现的次数。

5. 总结

本文详细介绍了如何使用pandas库来统计数据集中的不同值，包括统计某一列的不同值、统计整个数据集的不同值以及计算不同值的数量。通过pandas提供的函数，我们可以方便地处理数据集中的不同值，为数据分析和挖掘提供了便利。

pandas count distinct