pandas 多列取唯一值|极客教程

pandas 多列取唯一值

在数据分析的过程中，经常会遇到需要对数据中的多列进行操作的情况。有时候我们需要获取这些列中的唯一值，以便进一步的分析和处理。在这篇文章中，我们将介绍如何使用Python的pandas库来实现多列取唯一值的操作。

1. 创建数据集

为了演示多列取唯一值的操作，首先我们需要创建一个包含多列数据的数据集。我们可以使用pandas库来创建一个DataFrame对象来表示这个数据集。下面是一个简单的示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': ['apple', 'banana', 'apple', 'orange', 'banana'],
    'C': [100, 200, 100, 300, 200]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们会得到如下的输出：

   A       B    C
0  1   apple  100
1  2  banana  200
2  3   apple  100
3  4  orange  300
4  5  banana  200

这个数据集包含了三列：A、B、C。我们将使用这个数据集来进行后续的操作。

2. 多列取唯一值

在pandas中，要获取DataFrame中某一列的唯一值，我们可以使用unique()方法。而要同时获取多列的唯一值，我们可以使用drop_duplicates() 方法。下面是一个示例：

unique_values = df[['B', 'C']].drop_duplicates()
print(unique_values)

运行以上代码，我们会得到如下的输出：

        B    C
0   apple  100
1  banana  200
3  orange  300

以上代码中，我们通过df[['B', 'C']]选取了B和C两列，并使用drop_duplicates()方法获取了这两列的唯一值。最终得到了包含唯一值的DataFrame。

3. 多列取唯一值的应用

多列取唯一值在数据处理中有着广泛的应用。比如我们可以通过多列取唯一值来查找数据中的重复项，或者用来去除数据中的重复行。下面是一个示例：

duplicated_values = df.duplicated(subset=['B', 'C'])
print(duplicated_values)

运行以上代码，我们会得到如下的输出：

0    False
1    False
2     True
3    False
4     True
dtype: bool

以上代码中，我们使用duplicated()方法并传入了subset=['B', 'C']参数，来获取数据集中B和C列的重复项。最终我们得到一个Series对象，其中的值表示对应行是否为重复项。

4. 总结

本文介绍了如何使用pandas库对多列数据进行唯一值的操作。我们通过drop_duplicates()方法可以获取多列数据的唯一值，通过duplicated()方法可以查找重复项，这些方法在数据处理和分析中非常有用。

pandas 多列取唯一值