Pandas: 如何仅删除DataFrame中开头和结尾的NaN值

在本文中，我们将介绍如何仅删除DataFrame中开头和结尾的NaN值，而不影响其余的值。

问题描述

在现实中的数据处理中，常常遇到需要去除头尾NaN值的情况。例如，我们有一个含有NaN值的DataFrame如下：

      A    B    C
0   NaN  NaN  1.0
1   NaN  2.0  3.0
2   4.0  5.0  NaN
3   6.0  7.0  8.0
4   NaN  NaN  NaN
5   9.0  10.0 11.0
6   NaN  NaN  12.0
7   NaN  13.0 NaN
8   14.0 15.0 16.0

在这种情况下，如果我们想删除DataFrame开头和结尾的NaN值，即删除行0和4-7，我们应该如何做呢？

解决方案

方法1：使用pandas.DataFrame.dropna()

首先，我们可以使用pandas自带的dropna()方法，通过指定axis参数为0删除行中所有包含NaN值的行：

df.dropna(axis=0, inplace=True)

这样会将整个DataFrame中所有包含NaN值的行全部删除，包括我们想保留的中间部分。因此我们需要先找到需要删除的位置，才能将需要保留的中间部分单独提取出来。

在这里，我们可以根据DataFrame的行列对称性，用T方法将行列颠倒，然后再用dropna()方法删除列中所有包含NaN值的列。

代码如下：

# 将DataFrame行列颠倒
df_T = df.T
# 删除列中所有包含NaN值的列
df_T.dropna(axis=0, inplace=True)
# 再将结果颠倒回来，就得到了保留的中间部分
df_cleaned = df_T.T

最终的结果如下：

     A     B    C
2  4.0   5.0  NaN
3  6.0   7.0  8.0
5  9.0  10.0 11.0
8 14.0  15.0 16.0

这样就成功地删除了DataFrame中开头和结尾的NaN值。

方法2：使用numpy

我们还可以使用numpy的方法来处理这个问题。参考了这篇博客：https://stackoverflow.com/questions/26266362/how-to-strip-text-columns-to-numeric-format-in-panda-dataframe。

代码如下：

# 使用numpy
df_cleaned = df.to_numpy()
# 删除开头的NaN值
while np.isnan(df_cleaned[0,0]):
    df_cleaned = np.delete(df_cleaned, 0, 0)
# 删除结尾的NaN值
while np.isnan(df_cleaned[-1,-1]):
    df_cleaned = np.delete(df_cleaned, -1, 0)

最终的结果也是相同的。