Pandas 数据框比较的差异

在本文中，我们将介绍如何使用 Pandas（Python 的数据分析包）比较两个数据框的差异。在数据分析过程中，比较数据框的差异是一个非常常见的任务，例如比较两个时间段的数据，或者比较同一时间段的不同数据源的数据。Pandas 提供了多种方法来比较两个数据框的差异，我们将逐一介绍它们。

阅读更多：Pandas 教程

方法一：使用 ‘‘ 运算符比较两个数据框

使用 ‘‘ 运算符比较两个数据框，可以返回一个布尔值的数据框，其中 True 表示相同的值，False 表示不同的值。

以下是一个示例：我们有两个数据框 df1 和 df2，它们包含相同的数据和列名，但 df2 的一行数据被更改了。

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 6, 6]})

print(df1 == df2)

输出结果为：

       A      B
0   True   True
1   True  False
2  False   True

可以看到，df1 和 df2 不同的位置都被标记为 False。使用这种方法比较数据框的缺点是，无法知道具体哪些值不同。

方法二：使用 Pandas 自带的比较函数比较两个数据框

Pandas 自带了许多比较函数，包括 equals(), compare(), combine(), merge() 等。这些函数的使用方法和功能不同，我们分别介绍它们。

equals()

equals() 函数可以比较两个数据框是否相同，如果相同返回 True，否则返回 False。与方法一相比，这种方法可以知道哪些值不同。

以下是一个示例，我们比较两个数据框 df1 和 df2：

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 6, 6]})

print(df1.equals(df2))

输出结果为：

False

可以看到，df1 和 df2 不同，因为它们的值不同。

compare()

compare() 函数可以比较两个数据框，并且可以指定一些比较规则，例如忽略 NaN 值、忽略不同类型等。compare() 函数返回一个数据框，其中包含两个数据框不同的地方。

以下是一个示例：我们比较两个数据框 df1 和 df2，并且指定忽略 NaN 值。

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 6, None]})

print(df1.compare(df2, na_action='ignore'))

输出结果为：

     B     
  self other
1  5.0   6.0
2  6.0   NaN

可以看到，df1 和 df2 的第 2 行和第 3 行不同。在结果中，self 代表 df1，other 代表 df2。

combine()

combine() 函数可以将两个数据框合并起来，并且可以指定一些比较规则。combine() 函数返回一个数据框，其中合并后的数据集包含两个数据框的值。

以下是一个示例：我们比较两个数据框 df1 和 df2，并且指定使用 df1 的值。

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'B': [4, 6, 7]})

print(df1.combine(df2, lambda s1, s2: s1))

输出结果为：

可以看到，使用 combine() 函数比较 df1 和 df2，结果返回 df1 的值。

merge()

merge() 函数可以将两个数据框合并起来，并且可以指定一些合并规则，例如使用哪些列合并、使用哪种方式合并等。merge() 函数返回一个数据框，其中合并后的数据集包含两个数据框的值。

以下是一个示例：我们比较两个数据框 df1 和 df2，并且指定使用 A 列做为合并键。

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [1, 2, 4], 'C': [7, 8, 9]})

print(pd.merge(df1, df2, on='A', how='outer'))

输出结果为：

   A    B    C
0  1  4.0  7.0
1  2  5.0  8.0
2  3  6.0  NaN
3  4  NaN  9.0

可以看到，使用 merge() 函数比较 df1 和 df2，并且返回使用 A 列合并后的结果。

方法三：使用 NumPy 的 ‘‘ 函数比较两个数据框

使用 NumPy 的 ‘‘ 函数比较两个数据框，同样可以返回一个布尔值的数据框。相比 Pandas 自带的比较函数，使用 NumPy 的 ‘‘ 函数可以比较任意类型的两个数据框。

以下是一个示例，我们比较两个数据框 df1 和 df2：

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [True, False, True], 'B': [4, 6, 7]})

print(np.array_equal(df1.values == df2.values, True))

输出结果为：