基于两列的Pandas数据框架中删除重复的内容
数据框架是一个二维的、大小可调整的表格数据结构,有标记的轴(行和列)。它可能包含重复的条目,要删除它们有几种方法。
让我们考虑以下数据集。
数据框架在order_id和customer_id列中包含重复的值。下面是基于两列的数据框架中删除重复值的方法。
方法1:使用drop_duplicates()
步骤:
- 我们将根据以下两列删除重复的列
- 让这些列成为 “order_id “和 “customer_id”。
- 只保留最新的条目
- 重置数据框架的索引
以下是上述方法的Python代码
# import pandas library
import pandas as pd
# load data
df1 = pd.read_csv("super.csv")
# drop rows which have same order_id
# and customer_id and keep latest entry
newdf = df1.drop_duplicates(
subset = ['order_id', 'customer_id'],
keep = 'last').reset_index(drop = True)
# print latest dataframe
display(newdf)
输出:
方法2:使用groupby()。
步骤:
- 我们将根据两栏对行进行分组
- 让这些列成为 “order_id “和 “customer_id”。
- 只保留第一个条目
上述方法的python代码如下。
# import pandas library
import pandas as pd
# read data
df1 = pd.read_csv("super.csv")
# group data over columns 'order_id'
# and 'customer_id' and keep first entry only
newdf1 = df1.groupby(['order_id', 'customer_id']).first()
# print new dataframe
print(newdf1)
输出: