基于两列的Pandas数据框架中删除重复的内容
数据框架是一个二维的、大小可调整的表格数据结构,有标记的轴(行和列)。它可能包含重复的条目,要删除它们有几种方法。
让我们考虑以下数据集。
数据框架在order_id和customer_id列中包含重复的值。下面是基于两列的数据框架中删除重复值的方法。
方法1:使用drop_duplicates()
步骤:
- 我们将根据以下两列删除重复的列
- 让这些列成为 “order_id “和 “customer_id”。
- 只保留最新的条目
- 重置数据框架的索引
以下是上述方法的Python代码
输出:
方法2:使用groupby()。
步骤:
- 我们将根据两栏对行进行分组
- 让这些列成为 “order_id “和 “customer_id”。
- 只保留第一个条目
上述方法的python代码如下。
输出: