Python中dropna函数用法

Python中dropna函数用法

Python中dropna函数用法

在数据处理中,经常会遇到数据缺失的情况,这时候就需要用到dropna函数来处理缺失值。dropna函数是pandas库中用来丢弃缺失值的函数,可以帮助我们更好地处理数据。本文将详细介绍dropna函数的用法,包括参数设置和示例代码。

dropna函数概述

pandas是一个强大的数据处理库,提供了许多方便的函数来处理数据。dropna函数是其中一个常用的函数,用于丢弃缺失值。dropna函数的语法如下:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
Python

参数说明:

  • axis:指定删除的轴,0表示删除行,1表示删除列,默认为0。
  • how:指定删除的方式,’any’表示只要有缺失值就删除,’all’表示全部是缺失值才删除,默认为’any’。
  • thresh:指定保留的非缺失值数量,小于该值的行(列)将被删除。
  • subset:指定需要考虑的列(行)。
  • inplace:是否在原数据上进行修改,如果为True,则在原数据上进行操作,否则返回一个新的DataFrame,默认为False。

dropna函数示例

接下来我们通过几个示例来演示dropna函数的用法。假设我们有一个包含缺失值的DataFrame:

import pandas as pd
import numpy as np

data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, np.nan, 8],
        'C': [10, 11, 12, 13]}
df = pd.DataFrame(data)
print(df)
Python

运行以上代码,我们可以得到如下结果:

     A    B   C
0  1.0  5.0  10
1  2.0  NaN  11
2  NaN  NaN  12
3  4.0  8.0  13
Python

示例1:删除包含缺失值的行

我们可以使用dropna函数来删除包含缺失值的行,代码如下:

new_df = df.dropna()
print(new_df)
Python

运行以上代码,可以得到如下结果:

     A    B   C
0  1.0  5.0  10
3  4.0  8.0  13
Python

可以看到第1行和第2行被删除了,因为它们包含缺失值。

示例2:删除包含缺失值的列

我们也可以使用dropna函数来删除包含缺失值的列,代码如下:

new_df = df.dropna(axis=1)
print(new_df)
Python

运行以上代码,可以得到如下结果:

    C
0  10
1  11
2  12
3  13
Python

可以看到B列被删除了,因为它包含缺失值。

示例3:指定保留非缺失值数量的阈值

我们可以使用thresh参数来指定保留的非缺失值数量的阈值,代码如下:

new_df = df.dropna(thresh=2)
print(new_df)
Python

运行以上代码,可以得到如下结果:

     A    B   C
0  1.0  5.0  10
3  4.0  8.0  13
Python

因为只有第1行和第4行的非缺失值数量大于等于2,所以其他行被删除了。

示例4:只考虑指定的列

我们可以使用subset参数来指定只考虑某些列,代码如下:

new_df = df.dropna(subset=['B'])
print(new_df)
Python

运行以上代码,可以得到如下结果:

     A    B   C
0  1.0  5.0  10
3  4.0  8.0  13
Python

只有B列包含缺失值,所以只有第1行和第4行被保留了。

总结

本文介绍了dropna函数的用法,包括参数设置和示例代码。通过dropna函数,我们可以方便地处理数据中的缺失值,提高数据的质量和可用性。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程