基于两列的Pandas数据框架中删除重复的内容

基于两列的Pandas数据框架中删除重复的内容

数据框架是一个二维的、大小可调整的表格数据结构,有标记的轴(行和列)。它可能包含重复的条目,要删除它们有几种方法。

让我们考虑以下数据集。

基于两列的Pandas数据框架中删除重复的内容

数据框架在order_id和customer_id列中包含重复的值。下面是基于两列的数据框架中删除重复值的方法。

方法1:使用drop_duplicates()

步骤:

  • 我们将根据以下两列删除重复的列
  • 让这些列成为 “order_id “和 “customer_id”。
  • 只保留最新的条目
  • 重置数据框架的索引

以下是上述方法的Python代码

# import pandas library
import pandas as pd
  
# load data
df1 = pd.read_csv("super.csv")
  
# drop rows which have same order_id
# and customer_id and keep latest entry
newdf = df1.drop_duplicates(
  subset = ['order_id', 'customer_id'],
  keep = 'last').reset_index(drop = True)
  
# print latest dataframe
display(newdf)
Python

输出:

基于两列的Pandas数据框架中删除重复的内容

方法2:使用groupby()

步骤:

  • 我们将根据两栏对行进行分组
  • 让这些列成为 “order_id “和 “customer_id”。
  • 只保留第一个条目

上述方法的python代码如下。

# import pandas library
import pandas as pd
  
# read data
df1 = pd.read_csv("super.csv")
  
# group data over columns 'order_id'
# and 'customer_id' and keep first entry only
newdf1 = df1.groupby(['order_id', 'customer_id']).first()
  
# print new dataframe
print(newdf1)
Python

输出:

基于两列的Pandas数据框架中删除重复的内容

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册