pandas apply函数详解|极客教程

pandas apply函数详解

在数据分析和数据处理中，pandas库是Python中最常用和强大的工具之一。本文将详细介绍pandas中的apply函数，这是一个非常有用的功能，允许用户对DataFrame或Series中的数据应用复杂的函数或操作。apply函数可以极大地提高数据处理的灵活性和效率。在本文中，我们将通过多个示例详细探讨apply函数的使用方法和技巧。

1. apply函数基础

pandas的apply函数允许用户对DataFrame的行或列应用一个函数，这使得数据操作更加灵活和强大。apply函数的基本语法如下：

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)

func：要应用的函数
axis：默认为0，表示沿着索引（操作列），如果为1，则沿着列（操作行）
raw：布尔值，默认为False，决定传递给函数的是pandas对象还是ndarray对象
result_type：{None, ‘expand’, ‘reduce’, ‘broadcast’}，定义输出的形式
args：元组，是传途给函数的额外参数
**kwds：这是传递给函数的额外关键字参数

示例代码1：基本使用

import pandas as pd

df = pd.DataFrame({
    'A': range(1, 5),
    'B': range(10, 50, 10)
})
def my_func(x):
    return x * 2

result = df.apply(my_func)
print(result)

Output:

pandas apply函数详解

示例代码2：使用lambda函数

import pandas as pd

df = pd.DataFrame({
    'A': range(1, 5),
    'B': range(10, 50, 10)
})
result = df.apply(lambda x: x + 10)
print(result)

Output:

pandas apply函数详解

示例代码3：指定操作轴

import pandas as pd

df = pd.DataFrame({
    'A': range(1, 5),
    'B': range(10, 50, 10)
})
result = df.apply(lambda x: x.sum(), axis=1)
print(result)

Output:

pandas apply函数详解

2. apply函数高级用法

apply函数不仅可以用于简单的算术运算，还可以用于更复杂的数据处理任务，如条件逻辑、数据聚合等。

示例代码4：条件逻辑

import pandas as pd

df = pd.DataFrame({
    'A': range(1, 5),
    'B': range(10, 50, 10)
})
def check_value(x):
    return "High" if x > 20 else "Low"

result = df['B'].apply(check_value)
print(result)

Output:

pandas apply函数详解

示例代码5：使用额外的参数

import pandas as pd

df = pd.DataFrame({
    'A': range(1, 5),
    'B': range(10, 50, 10)
})
def multiply(x, factor):
    return x * factor

result = df.apply(multiply, args=(10,))
print(result)

Output:

pandas apply函数详解

示例代码6：错误处理

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3, 'pandasdataframe.com'],
    'B': range(10, 50, 10)
})
def safe_convert(x):
    try:
        return int(x)
    except ValueError:
        return x

result = df.applymap(safe_convert)
print(result)

3. apply与其他函数的比较

pandas提供了多种函数来处理数据，如map, applymap和transform。这些函数虽然功能相似，但适用的场景和效率各不相同。

示例代码7：使用map函数

import pandas as pd

df = pd.Series(['pandasdataframe.com', 'data', 'science'])
result = df.map(lambda x: x.upper())
print(result)

Output:

pandas apply函数详解

示例代码8：使用applymap函数

import pandas as pd

df = pd.DataFrame({
    'A': ['pandasdataframe.com', 'data', 'science'],
    'B': ['analysis', 'pandasdataframe.com', 'visualization']
})
result = df.applymap(lambda x: x.upper())
print(result)

示例代码9：使用transform函数

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [10, 20, 30]
})
result = df.transform(lambda x: x * 10)
print(result)

Output:

pandas apply函数详解

4. 性能优化

在处理大规模数据时，apply函数的性能可能成为瓶颈。优化apply函数的执行速度是提高整体数据处理性能的关键。

示例代码10：使用numba加速

import pandas as pd
import numpy as np
from numba import jit

df = pd.DataFrame(np.random.randint(1, 100, size=(100000, 4)), columns=list('ABCD'))

@jit
def fast_sum(x):
    return x.sum()

result = df.apply(fast_sum)
print(result)