pandas 删除nan|极客教程

pandas 删除nan

引言

在数据分析和处理的过程中，经常会遇到需要删除缺失值（NaN）的情况。NaN代表了数据缺失的情况，由于其存在会对后续的分析造成影响，因此需要对其进行删除或者填充。

在Python中，有许多数据处理库可以用于处理缺失值，其中最常用的之一就是pandas。pandas是一个开源的数据处理和分析库，提供了大量的API函数来处理数据，包括删除缺失值的方法。本文将详细介绍pandas中删除NaN的方法。

前提条件

在开始之前，我们需要确保已经安装了pandas库，并导入了相关的模块。如果尚未安装pandas，可以通过以下命令进行安装：

pip install pandas

安装完成后，在Python脚本或者Jupyter Notebook中引入pandas库：

import pandas as pd

删除NaN的方法

pandas提供了丰富的方法用于删除DataFrame或Series中的NaN值。接下来将介绍一些常用的方法。

删除包含NaN的行或列

pandas允许我们删除包含NaN值的行或列。删除行使用dropna()函数，并可以指定axis参数为0，表示按行删除。删除列使用dropna()函数，并指定axis参数为1，表示按列删除。示例如下：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, NaN], 'B': [3, NaN, 5], 'C': [NaN, 7, 8]})

# 删除包含NaN的行
df.dropna(axis=0, inplace=True)
print(df)

# 删除包含NaN的列
df = df.dropna(axis=1)
print(df)

输出为：

   A    B    C
1  2  NaN  7.0

删除所有值为NaN的行或列

除了删除包含NaN的行或列，有时候我们希望删除整行或整列都为NaN的情况。这可以通过添加how='all'参数来实现。具体示例如下：

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [NaN, NaN, NaN], 'B': [1, 2, NaN], 'C': [3, NaN, 5]})

# 删除所有值为NaN的行
df.dropna(how='all', inplace=True)
print(df)

# 删除所有值为NaN的列
df = df.dropna(how='all', axis=1)
print(df)

输出为：

    B    C
0  1.0  3.0
1  2.0  NaN
2  NaN  5.0
   B    C
0  1  3.0
1  2  NaN
2  NaN  5.0

删除特定列中值为NaN的行

在数据处理的过程中，我们可能只关心某些列中的NaN值，而不关心其他列。我们可以使用subset参数来指定我们感兴趣的列，然后删除该列中值为NaN的行。示例如下：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, NaN], 'B': [3, NaN, NaN], 'C': [NaN, 7, 8]})

# 删除B列中值为NaN的行
df.dropna(subset=['B'], inplace=True)
print(df)

输出为：

   A    B    C
0  1  3.0  NaN

删除重复的行

除了删除NaN值，有时候我们还需要删除重复的行。pandas提供了duplicated()函数来检测是否有重复的行，并且可以使用drop_duplicates()函数来删除重复的行。具体示例如下：

import pandas as pd

df = pd.DataFrame({'A': [1, 1, 2, 3, 3], 'B': [4, 4, 5, 6, 6]})

# 检测是否有重复的行
print(df.duplicated())

# 删除重复的行
df.drop_duplicates(inplace=True)
print(df)

输出为：

0    False
1     True
2    False
3    False
4     True
dtype: bool
   A  B
0  1  4
2  2  5
3  3  6

总结

本文详细介绍了pandas中删除NaN的方法，包括删除包含NaN的行或列、删除所有值为NaN的行或列、删除特定列中值为NaN的行以及删除重复的行等。根据实际的需求，我们可以选择合适的方法来删除NaN，以便进行后续的数据分析和处理。

pandas提供了强大而灵活的API函数，使得数据处理变得更加简单高效。

pandas 删除nan