在函数中修改Pandas DataFrame

在处理Pandas DataFrame时，经常需要使用各种不同的函数对其进行修改。然而，有时候我们将DataFrame传递给一个函数进行处理，但是修改后的结果并未发生改变，这是一个比较常见的问题。本文将介绍如何在函数中正确修改Pandas DataFrame。

阅读更多：Pandas 教程

问题根源

Python中的一些对象是可变的，而另一些则是不可变的。在Python中，像数字（int和float）、元组（tuple）和字符串（string）这些类型的对象是不可变的。这意味着如果你对其中的某个值进行修改，实际上是创建了一个新的对象，而原对象并没有发生改变。

相反，列表（list）和字典（dict）这些类型的对象是可变的。所以，对它们进行的修改实际上是在原地修改它们的内容。这正是Pandas DataFrame所属的类型（Series和DataFrame）的特征之一，因为它们都是由可变列表组成的。

在函数中修改了Pandas DataFrame之后，原始DataFrame发生了变化，或是在函数外部没有发生变化，这很可能与Python对象的可变性质存在关系。

举一个例子，下面这个函数的目的是将DataFrame中的所有列除以2：

def divide_by_two(df):
    df = df / 2

影响

我们运行一下这个函数：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]})

print(df)
# 输出：
#    A  B
# 0  1  4
# 1  2  5
# 2  3  6

divide_by_two(df)

print(df)
# 输出：
#    A  B
# 0  1  4
# 1  2  5
# 2  3  6

上面的代码应该输出的是原始的DataFrame，因为我们并没有在函数外部使用它。但是，结果确实如此，因为函数divide_by_two()并没有在原地修改传递进去的DataFrame。相反，它通过将DataFrame除以2创建了一个新的DataFrame对象，并将其赋值给了原始的DataFrame变量。

修改原始DataFrame

那么怎么才能在函数中修改传递进去的DataFrame呢？我们可以使用DataFrame对象的loc属性。

loc包含了指向DataFrame中实际的值的指针，因此，我们可以使用loc来定位DataFrame中的每个单元格。这允许我们在函数内部修改DataFrame，而且这些修改会反映在原始的DataFrame上。

下面给出一个示例函数divide_by_two()，该函数通过使用loc将DataFrame中的所有值除以2：

def divide_by_two(df):
    df.loc[:, :] = df / 2

这里，df.loc[:, :]表示选择所有的行和列。这意味着这个函数将修改DataFrame中的所有值。

我们现在来测试一下这个函数：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]})

print(df)
# 输出：
#    A  B
# 0  1  4
# 1  2  5
# 2  3  6

divide_by_two(df)

print(df)
# 输出：
#      A    B
# 0  0.5  2.0
# 1  1.0  2.5
# 2  1.5  3.0

现在我们可以看到，原始的DataFrame被正确地修改了。