Pandas – Dataframe.Diplicated()

Pandas – Dataframe.Diplicated()

Python是一种做数据分析的伟大语言,主要是因为以数据为中心的Python软件包的奇妙生态系统。 Pandas是这些软件包之一,使导入和分析数据更加容易。

数据分析的一个重要部分是分析 重复的值 并移除它们。Pandas duplicated() 方法只帮助分析重复的值。它返回一个布尔系列,该系列仅对唯一元素为真。

语法:

DataFrame.duplicated(subset=None, keep='first')

参数:

subset: 默认值为none。在传递列之后,它将只考虑重复的列。

keep: 控制如何考虑重复值。它只有三个不同的值,默认值是’ first ‘。

– > 如果’ first ‘,它认为第一个值是唯一的,其余相同的值是重复的。

– > 如果’ last ‘,它认为最后一个值是唯一的,其余相同的值是重复的。

– > 如果为False,则将所有相同的值视为重复值。

Dataframe.Diplicated示例 #1: 返回一个布尔系列

在下面的例子中,根据名字列中的重复值,返回一个布尔值系列。

# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated()
 
# displaying data
data.head()
 
# display data
data[bool_series]

输出:

如输出图片所示,由于保留参数是默认的,即 “第一”,因此,每当名字出现时,第一个被认为是唯一的,而不是重复的。

Dataframe.Diplicated

Dataframe.Diplicated示例 #2: 删除重复的内容

在这个例子中,keep参数被设置为False,所以只取Unique值,重复的值被从数据中删除。

# importing pandas package
import pandas as pd
 
# making data frame from csv file
data = pd.read_csv("employees.csv")
 
# sorting by first name
data.sort_values("First Name", inplace = True)
 
# making a bool series
bool_series = data["First Name"].duplicated(keep = False)
 
# bool series
bool_series
 
# passing NOT of bool series to see unique values only
data = data[~bool_series]
 
# displaying data
data.info()
data

输出:

由于Doubleicated()方法对Duplicates返回False,系列的NOT被用来查看数据框中的唯一值。

Dataframe.Diplicated

赞(1)

猜你喜欢

    评论 抢沙发

    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址
    Pandas 教程
    Pandas 教程Pandas 简介Pandas 环境配置Pandas 数据结构Pandas 序列(Series)Pandas 创建DataFramePandas DataFrame 读取 添加和删除Pandas 面板(Panel)Pandas DataFrame 属性和方法Pandas Series 属性和方法Pandas 描述性统计Pandas 函数应用Pandas 重新索引(Reindexing)Pandas 迭代Pandas 排序Pandas 字符串和文本数据Pandas 选项和自定义Pandas 索引和选择数据Pandas 统计函数Pandas 窗口函数Pandas 缺失值处理Pandas和Numpy的区别
    Pandas 实例
    Pandas 对象创建Pandas 查看数据Pandas 选择数据Pandas 操作数据如何在Python中把Sklearn数据集转换成Pandas数据框使用pandas和matplotlib 进行绘图
    Pandas 数据处理
    Pandas 数据处理Pandas GroupBy 用法Pandas 合并(merge)Pandas 拼接(concat)Pandas 删除数据Pandas 旋转数据
    Pandas 数据读取与写入
    Pandas 数据读取与写入Pandas 读写csvPandas 读写jsonPandas 读写htmlPandas 读写excelPandas 读取txtPandas 数据库操作Pandas 读写sqlite数据库
    Pandas 常用函数
    Pandas 常用函数
    Pandas DataFrame类
    Pandas DataFrame详解Pandas - DataFrame.dropna()Pandas - DataFrame.fillna() 替换DataFrame中的空值Pandas - dataframe.insert()Pandas - Dataframe.sort_values() part1Pandas - Dataframe.sort_values() part2Pandas - DataFrame.isin()Pandas - DataFrame.where()Pandas - Dataframe.Diplicated()Pandas DataFrame.at介绍Pandas DataFrame.columns函数Pandas DataFrame.dtypes属性Pandas dataframe.info()函数Pandas dataframe.select_dtypes()函数Pandas DataFrame.values属性Pandas DataFrame.axes属性Pandas dataframe.memory_usage()函数Pandas DataFrame.empty属性Pandas DataFrame.astype()函数Pandas dataframe.infer_objects()函数