Pandas 重复值统计
在本文中,我们将介绍如何使用Pandas在DataFrame中统计重复值。
阅读更多:Pandas 教程
检查重复值
我们可以使用duplicated()
函数来检查DataFrame中的重复值。该函数将返回一个布尔型数组,表示DataFrame中每个元素是否重复出现。例如,我们有一个读取自CSV的DataFrame:
输出:
我们可以使用duplicated()
函数来检查每个元素是否重复:
输出:
在这个例子中,第4个元素是一个重复值。我们可以在DataFrame中使用drop_duplicates()
函数来删除重复值:
输出:
现在,我们的DataFrame中只剩下4个唯一的值。
统计重复值
我们可以使用value_counts()
函数来统计重复值的数量。该函数将返回一个Pandas Series对象,其中包含每个唯一值出现的次数。例如,我们可以对上述DataFrame中的Name
列进行统计:
输出:
在这个例子中,Bob
出现了两次,Jack
和Tom
各出现了一次。
统计重复值的比例
我们可以使用value_counts()
函数和normalize=True
参数来计算重复值出现的比例。例如,我们可以对上述DataFrame中的Age
列进行统计:
输出:
在这个例子中,23
和28
等比例出现。
总结
本文介绍了在Pandas中统计DataFrame中重复值的方法,包括检查重复值、删除重复值、统计重复值和统计重复值的比例。这些功能可以帮助我们更好地分析和理解数据。