基于两列的Pandas数据框架中删除重复的内容

数据框架是一个二维的、大小可调整的表格数据结构，有标记的轴（行和列）。它可能包含重复的条目，要删除它们有几种方法。

让我们考虑以下数据集。

数据框架在order_id和customer_id列中包含重复的值。下面是基于两列的数据框架中删除重复值的方法。

方法1：使用drop_duplicates()

步骤:

我们将根据以下两列删除重复的列
让这些列成为 “order_id “和 “customer_id”。
只保留最新的条目
重置数据框架的索引

以下是上述方法的Python代码

# import pandas library
import pandas as pd
  
# load data
df1 = pd.read_csv("super.csv")
  
# drop rows which have same order_id
# and customer_id and keep latest entry
newdf = df1.drop_duplicates(
  subset = ['order_id', 'customer_id'],
  keep = 'last').reset_index(drop = True)
  
# print latest dataframe
display(newdf)

输出:

基于两列的Pandas数据框架中删除重复的内容

方法2：使用groupby()。

步骤:

我们将根据两栏对行进行分组
让这些列成为 “order_id “和 “customer_id”。
只保留第一个条目

上述方法的python代码如下。

# import pandas library
import pandas as pd
  
# read data
df1 = pd.read_csv("super.csv")
  
# group data over columns 'order_id'
# and 'customer_id' and keep first entry only
newdf1 = df1.groupby(['order_id', 'customer_id']).first()
  
# print new dataframe
print(newdf1)

输出:

基于两列的Pandas数据框架中删除重复的内容